Case study: Eenvoudige toegang tot rekenkracht voor aanbevelingsmodellen

Samen met een groep masterstudenten onderzocht universitair docent en onderzoeker Flavius Frasincar van de Erasmus Universiteit Rotterdam (EUR) hoe zij aanbevelingssystemen voor online financieel nieuws kunnen verbeteren. Zo’n systeem raadt automatisch nieuwsitems aan op basis van leesgedrag: jij las dit, dit is ook interessant voor jou.

Docent geeft uitleg aan leerlingen achter een laptop

Complexe modellen

“De eerdere modellen waren vrij simpel”, legt Flavius Frasincar uit. “Die kijken alleen naar welke woorden voorkomen in een nieuwsitem en doen op basis daarvan aanbevelingen aan de lezer. Wij hebben nu ook de betekenis achter woorden meegenomen, dus ook homoniemen, synoniemen, associaties, zeg maar alle mogelijke relaties tussen woorden.” Als voorbeeld noemt hij de ECB en Draghi, namen die niet in een woordenboek voorkomen, maar wel bij elkaar horen.

Berekeningen niet haalbaar op pc

“Al deze relaties tussen woorden zorgden ervoor dat we veel parameters hadden voor onze berekeningen. Ook hebben we verschillende drempelwaarden meegenomen die bepalen wanneer het systeem een nieuwsitem aanbeveelt of niet.” Dat komt neer op heel veel berekeningen. Pogingen om dit op een pc uit te rekenen faalden. “Na een paar weken was de computer nog niet klaar. Eén van mijn studenten heeft dat geprobeerd, maar al snel was duidelijk dat we meer rekenkracht nodig hadden.” Het was niet zozeer de omvang van de dataset, die was met zo’n 100 nieuwsitems niet heel groot. Het doorrekenen van ruim dertig parameters voor elke drempelwaarde in combinatie met het verwerken van natuurlijke taal maakten dit onderzoek computationeel zwaar, licht Frasincar toe.

Snel toegang tot rekenkracht

De weg naar het Lisa Rekencluster bij SURF was snel gevonden. “Ik rekende al op Lisa via een NWO-project. Maar halverwege het jaar hadden we als onderzoeksgroep al 98% van de rekenuren gebruikt. Daarom is het een uitkomst dat de EUR nu ook zelf rekentijd bij SURF afneemt. Als je extra rekenuren nodig hebt, is het snel en gemakkelijk geregeld. Ik hoef alleen maar een e-mail te sturen naar het Research Support Office van de EUR.” 

"Het is een uitkomst dat de EUR nu ook zelf rekentijd bij SURF afneemt. Als je extra rekenuren nodig hebt, is het snel en gemakkelijk geregeld."

Aan de slag

"Een introductiecursus Cluster Computing was voor mijn studenten wel noodzakelijk om aan de slag te gaan op het rekencluster”, merkt Frasincar op. “Ze hadden wel kennis van Java, maar wisten niets van Linux, het besturingssysteem waar het rekencluster op draait. We hebben ook veel gebruikgemaakt van de ondersteuning vanuit SURF tijdens het onderzoeksproject. Dan pas merk je dat je toch nog heel specifieke vragen hebt. Zo hadden we technische kennis nodig om een nieuwe versie van een Java virtuele machine op het cluster te zetten. SURF heeft ons daarbij goed geholpen, en dat was ook nog eens heel snel geregeld.”

Meer informatie