Use case: SURF adviseert bij het testen van intelligente zoeksystemen

Wie de handige suggesties voor gerelateerde boeken of muziek van Bol.com en Spotify ziet, weet meestal niet dat hier complexe algoritmes achter schuilgaan. Martha Larson (Radboud Universiteit Nijmegen en TU Delft) doet hier onderzoek naar. Daarbij gaat het naast de technologische mogelijkheden en benodigde rekenkracht ook om privacy.

Vrouw van achter gefotografeerd zitten op een bank met een mobiele telefoon in haar hand

Toegevoegde waarde voor gebruikers

Martha Larson en haar studenten doen onderzoek naar zogenoemde ‘multimedia retrieval en recommender systems’. Ze vertelt: “Wij gebruiken data die mensen genereren bij hun dagelijkse internetgebruik om intelligente systemen te ontwerpen die de gebruikers toegevoegde waarde kunnen bieden. Je bestelt bijvoorbeeld een boek bij een webwinkel en vervolgens krijg je suggesties voor andere boeken die je misschien ook interesseren. Die suggesties worden uitgerekend met algoritmes die gebruik maken van eerdere interacties op de website. Voor het achterlaten van je gegevens krijg je aanbevelingen terug.”

"Wij gebruiken data van dagelijkse internetgebruik om systemen te ontwerpen die gebruikers toegevoegde waarde kunnen bieden."
Martha Larson

Pixels voorspellen locatie foto

Larson onderzoekt ook de algoritmes die een rol spelen bij het zoeken naar multimedia, zoals foto’s: “We proberen nu aan de hand van de inhoud van de foto’s, dus de pixels, te voorspellen waar de foto is genomen. Je kunt dan bijvoorbeeld foto’s van Amsterdam terugvinden waarbij de gebruiker de GPS heeft uitgezet. Maar we doen ook het omgekeerde. Iemand die zijn GPS heeft uitgezet, deed dat misschien bewust en wil niet dat we weten waar de foto is gemaakt. De vraag is dan: hoe kun je foto’s veranderen zodat het niet mogelijk is de locatie te bepalen? Mensen kunnen het plaatje dan nog steeds herkennen, maar de computer kan de locatie niet meer bepalen.”

Omvangrijke datasets

Voor het soort onderzoek dat Larson doet zijn grote gegevensverzamelingen nodig. Voor het onderzoek naar foto’s gebruikt ze bijvoorbeeld een dataset van Yahoo met foto’s van Flickr. Daarnaast krijgt haar onderzoeksgroep van het bedrijfsleven datasets die bijvoorbeeld inzicht geven in het klikgedrag van een groep personen. Die datasets zijn minder omvangrijk, maar de analyse vraagt veel rekenkracht, omdat de onderzoekers een groot aantal algoritmes moeten laten draaien.

"De studenten die met Spark gewerkt hebben, waren superenthousiast. Ze leren tools kennen die nu in opkomst zijn in het bedrijfsleven.”
Martha Larson

Veel rekenkracht vereist

Veel rekenkracht vereist ook goede rekenfaciliteiten, zegt Larson: “Daarvoor schieten de computers van de universiteiten soms tekort, dus dan is het heel fijn dat we een beroep kunnen doen op SURF. We hebben in de afgelopen periode veel gewerkt met het Spark-cluster. Dat is belangrijk, omdat de studenten daardoor de tools leren kennen die nu in opkomst zijn in het bedrijfsleven. De studenten die met Spark gewerkt hebben, waren superenthousiast.” Ook de begeleiding is daarbij heel belangrijk. Larson is te spreken over de ondersteuning van SURF: “We hebben geen intensief contact, maar onze ervaringen zijn prima: the sky is the limit.”

Vastleggen persoonlijke gegevens

Bij recommender systems gaat het niet alleen om technologie. Ook privacy is belangrijk. “Dat is zeker een issue, ook voor mijn studenten”, zegt Larson. “Tot nu toe was de aanname vaak: hoe meer data, hoe beter. Een van mijn studenten onderzoekt nu hoeveel data je kunt weglaten zonder dat het invloed heeft op de kwaliteit van de aanbeveling. Dat biedt mogelijkheden om terughoudender te zijn met het vastleggen van persoonlijke gegevens. Het klinkt misschien raar dat je high-performance computing inzet om gegevens weg te laten, maar je moet een groot aantal parameters uitproberen en scenario’s doorrekenen.”