Casus: Workshop machine learning met Apache Spark

Research datasets groeien snel in omvang en complexiteit. Dat maakt het lastig om ze te verwerken en bewerken met standaardapplicaties en -systemen. Opensourcetoepassingen zoals Hadoop en Apache Spark bieden een interessant alternatief bij data-intensief onderzoek. SURFsara ontwikkelde een workshop om deze technologie toegankelijk te maken.

Workshop in klassamenstelling: docent en leerlingen met laptops

Workshop machine learning

In 2015 verzorgden Jeroen Schot en Mathijs Kattenberg (SURFsara) een workshop ‘machine learning’ voor een groep onderzoekers van de Information and Language Processing Systems-groep (ILPS) aan de Universiteit van Amsterdam (UvA). Een van de deelnemers was David Graus, die onderzoek doet op het gebied van digital forensics. Als PhD-student werkt hij mee aan het project ‘Semantic Search in E-Discovery’, dat is opgezet in samenwerking met het Nederlands Forensisch Instituut (NFI) en de Fiscale Inlichtingen- en Opsporingsdienst (FIOD).

Processen automatiseren 

“We ontwikkelen programma’s of algoritmes die analisten ondersteunen bij het zoeken naar digitaal bewijsmateriaal in teksten”, zegt Graus. “Nu gebeurt dat voor een groot deel handmatig door analisten, die bijvoorbeeld een aantal computers binnenkrijgen en gaan grasduinen in de bestanden. Ze bekijken de e-mailbestanden om na te gaan wie met wie contact had en wat er in de mailwisselingen besproken wordt. Wij proberen dat proces te automatiseren.”

“We ontwikkelen programma’s of algoritmes die analisten ondersteunen bij het zoeken naar digitaal bewijsmateriaal in teksten”

Kennis schoot tekort

Wat waren de redenen om voor een cursus te kiezen? “Ik zit in een groep waar we zoekmachineonderzoek doen op basis van omvangrijke tekstbestanden”, vertelt Graus. “Zelf werk ik veel met e-mail en dergelijke databronnen. Op een gegeven moment ging ik daarvoor de infrastructuur van SURFsara gebruiken en daarvoor heb ik een afspraak gemaakt met Jeroen Schot. Die stelde een aantal vragen over Hadoop en Apache Spark, en ik merkte dat mijn kennis daarover tekortschoot. Toen kwamen we op het idee om een workshop te organiseren voor iedereen die daarin geïnteresseerd is. We hebben een groep van zo’n 20 à 30 promovendi die allemaal bezig zijn met tekstdata, dus er was voldoende belangstelling voor zo’n cursus.”

Andere tools leren gebruiken

Tijdens de cursus hielden de deelnemers zich vooral bezig met de infrastructuur en de schaalgrootte, aldus Graus: “We doen allemaal al veel met machine learning, we beschikken over de nodige pakketten en libraries die dat ondersteunen. Maar zodra je naar een grotere schaal wilt gaan, heb je andere tools nodig. Een daarvan is Apache Spark, dat je gebruikt in combinatie met de infrastructuur van SURFsara, in dit geval het Hadoop-cluster. Dan is het dus van belang dat we de principes die we al kennen vanuit andere pakketten, leren toe te passen in Apache Spark. Dat is een kwestie van opschalen, en de tools daarvoor leerden we in de workshop gebruiken.”

“We doen allemaal al veel met machine learning, we beschikken over de nodige pakketten en libraries die dat ondersteunen. Maar zodra je naar een grotere schaal wilt gaan, heb je andere tools nodig. Een daarvan is Apache Spark"

Cursus op maat gemaakt

De cursus is op maat gemaakt voor de groep onderzoekers aan de UvA. “Dat vond ik heel prettig”, zegt Graus. “Voorafgaand aan de workshop hadden we een bijeenkomst om te kijken hoe die workshop eruit zou gaan zien. Ik heb gevraagd of de opzet kon worden afgestemd op het onderzoek van onze groep, waar werken met tekst centraal staat. Dat is ook gebeurd en dat heeft een heldere workshop opgeleverd waarin we zelf aan de slag konden en direct toegang kregen tot een interactieve omgeving met Apache Spark.”