Benchmarkplatform EYRA: barometer voor kwaliteit

Hoe betrouwbaar is het algoritme waarmee jij je data analyseert? Waarom werkt het ene algoritme beter dan het andere? Binnenkort kun je dat meten met EYRA, het benchmarkplatform van SURF en het Netherlands eScience Center.

Parkes Observatory

Nog veel te weinig vakgebieden kennen ze: benchmarks om de kwaliteit van wetenschappelijke algoritmes nauwkeurig vast te stellen. Wij besloten daar verandering in te brengen, samen met het Netherlands eScience Center, het expertisecentrum voor onderzoekssoftware dat we samen met NWO hebben opgericht. Het resultaat is EYRA: een open platform waar zulke benchmarks gemakkelijk gecreëerd en gebruikt kunnen worden.

Flexibel systeem

Annette Langedijk

“Voor zo’n vergelijking heb je diverse dingen nodig”, legt Annette Langedijk (SURF) uit: “Onderzoeksdata, een ground truth (bewezen betrouwbare meetresultaten op basis van die data) en metrics, parameters die meten hoe goed algoritmes in staat zijn die ground truth te benaderen.” Haar medeprojectleider Adriënne Mendrik (eScience Center) vult aan: “Op EYRA is deze benchmark publiek toegankelijk. Dus je kunt jouw algoritme testen en zien hoe het zich verhoudt tot andere.”

EYRA is echt een coproductie. Het eScience Center leverde de ontwikkelaars en de expertise voor het opzetten van benchmarks; SURF zorgt voor de benodigde infrastructuur, in dit geval een Kubernetes-cluster op Amazon Web Services. Met het opensourceplatform Kubernetes beheer je applicaties die ‘verpakt’ zitten in containers en daarmee zijn afgescheiden van de omgeving waarin ze worden uitgevoerd. Langedijk: “Dat maakt het heel makkelijk om voor zo’n benchmark een workflow te ontwikkelen ongeacht het platform waarop je draait. Het systeem is heel flexibel: je kunt een EYRA-benchmark ook in de SURF-cloudomgeving of op je eigen locatie draaien.”

‘Ik geloof niet zo in één winnaar’

Adrienne Mendrik

Experts uit allerlei vakgebieden hebben meegedacht bij de opzet van EYRA, vertelt Mendrik. “We hadden grofweg vier aandachtsgebieden: levenswetenschappen, sociale & geesteswetenschappen, leefomgeving & duurzaamheid en physics & beyond.”

Bij dat laatste zit onder meer de astronomie. Mendrik: “Begin dit jaar waren we betrokken bij een workshop van een kleine, internationale community van astronomen die software ontwikkelen voor de detectie van fast radio bursts. Dat zijn korte, heldere radiopulsen van onbekende oorsprong. Met deze community werken we samen aan de eerste echte benchmark voor het platform.”

De tweede wordt waarschijnlijk een project met de Koninklijke Bibliotheek: daar willen ze meten in hoeverre nieuwe software voor optical character recognition beter werkt dan de software die het afgelopen decennium honderd miljoen pagina’s uit oude kranten en boeken heeft gedigitaliseerd.

Verschillende contexten

Bij elke benchmark op het platform komt een leaderboard: een overzicht van de geteste algoritmes, gerangschikt op de parameters die jij als gebruiker belangrijk vindt. Mendrik: “Je kunt de algoritmes sorteren op de hoeveelheid kloppende detecties van fast radio bursts, maar bijvoorbeeld ook de hoeveelheid valse waarnemingen. Daarbij moet je echter ook kijken wat de prestaties zijn bij verschillende datasets. Het kan zijn dat een Australisch algoritme goed werkt met Australische meetgegevens, maar slecht met Nederlandse. En het liefst zouden we al die benchmarkgegevens gevisualiseerd willen zien.”

"Werken nieuwe algoritmes echt beter?"

Deze insteek is heel anders dan bij een site als Kaggle van Google. Daar kunnen freelance-ontwikkelaars geldprijzen winnen en opdrachten scoren met algoritmewedstrijden. Mendrik: “Ik geloof niet zo in één winnaar: als je een echte wetenschapper bent, wil je weten hoe iets functioneert in verschillende contexten.” Een ander verschil is dat je bij Kaggle als onderzoeksinstituut veel geld moet betalen om een benchmark te mogen plaatsen. Bij EYRA geldt dat niet, en je krijgt desgewenst hulp bij het opzetten ervan.

Kruisbestuiving

Uiteindelijk streven SURF en eScience Center met EYRA naar betere algoritmes voor de wetenschap. Mendrik: “We willen samen met onderzoekers analyseren wat de stand van zaken is en hoe die verder kan worden verbeterd. Het is een soort continue monitoring van vakgebieden. Als er nieuwe algoritmes komen, werken die dan echt beter, of juist niet? En voor welke vraagstelling? En zijn ze over een paar maanden niet ingehaald door nieuwe versies van oude algoritmes?” Essentieel is het feit dat EYRA niet disciplinegebonden is. Mendrik: “We proberen dit concept in nieuwe vakgebieden te introduceren. Uiteindelijk is het doel dat we daarbij metrics kunnen hergebruiken in andere disciplines.”

Langedijk: “Wat ik helemaal spannend zou vinden is als ook geteste algoritmes hergebruikt kunnen worden op heel andere vakgebieden. We streven sowieso naar open publiceren van de algoritmes, want dan kun je discussies krijgen waar iedereen van kan leren. Maar dat ligt gevoelig.” “Het verhoogt inderdaad de drempel”, beaamt Mendrik. “Noodzakelijk is het niet. Doordat we containers gebruiken, kunnen onderzoekers hun algoritmes gesloten aanbieden.”

Zijn er geen manieren om openheid te bevorderen? Mendrik: “Daar hebben we over nagedacht. Mensen kunnen straks een profiel aanmaken op het platform. Hoe meer informatie je geeft over je algoritme, hoe meer credits je krijgt. Het is ook denkbaar dat gebruikers ervoor kunnen kiezen om alleen opensource-algoritmes te zien op een leaderboard. Dat soort prikkels werken beter dan restricties, denk ik.”

Meer informatie

www.eyrabenchmark.net

Tekst: Aad van de Wijngaart

Dit artikel verscheen in SURF Magazine decembereditie 2019