Interview: SURF verlegt grenzen van deep learning

Deep learning ontwikkelt zich razendsnel, mede dankzij het werk van SURF. Door gebruik te maken van alternatieve technologie en slimme technieken, weten we geregeld spectaculaire resultaten te boeken, zo vertelt SURF-consultant en teamleider High Performance Machine Learning Valeriu Codreanu.

Rontgenfoto van longen

Tumoren herkennen met CPU’s

Soms helpt het om dingen anders te doen dan anderen. “Iedereen gebruikt grafische processoren (GPU’s) voor deep learning, maar wij niet”, zegt Codreanu. “In nauwe samenwerking met Intel laten we de modellen draaien op CPU’s, de centrale processoren van elke pc.” SURF is een Intel Parallel Computing Center; in dit programma werken universiteiten, onderzoeksinstellingen en labs samen met Intel aan het optimaliseren van open-source applicaties voor rekenkracht.

Dat leidt tot spectaculaire resultaten. Met een Amerikaans bestand van 112.000 röntgenfoto’s trainden Codreanu en zijn collega’s in slechts 8 minuten een model om tumoren te herkennen, met een even hoge gemiddelde betrouwbaarheid als de beste bestaande modellen. Maar dat was slechts het begin. “We realiseerden ons dat andere onderzoekers vanwege de beperkte geheugenruimte van GPU’s werkten met verkleinde röntgenfoto’s: geen 1.000 x 1.000 maar 256 x 256 pixels. Wij hadden die beperking niet. Toen we een model aanpasten en dat op de full-size foto’s loslieten, schoot de betrouwbaarheid omhoog.”

300.000 planten herkennen

Er bestaan echter grotere uitdagingen. Bij de röntgenfoto’s hoefde het model slechts 14 soorten tumoren te onderscheiden, maar de SURF-onderzoekers werken ook samen met Pl@ntNet. Miljoenen mensen wereldwijd gebruiken deze app om planten te herkennen. Op dit moment onderscheidt de software zo’n 15.000 soorten flora, maar in totaal telt de wereld liefst 300.000 plantensoorten.

“Bovendien”, legt Codreanu uit, “bevat de database van Plantnet bijna twaalf miljoen plaatjes van planten, zo’n anderhalve terabyte aan data. Te veel voor de bestaande computersystemen.” Met twee technieken uit high performance computing wisten Codreanu en zijn collega’s het materiaal toch hanteerbaar te maken. Op een zware supercomputer in Frankrijk (die op dat moment de nieuwste hardware had) slaagden ze er binnen 16 uur in om de betrouwbaarheid van de plantherkenning met een derde op te schroeven.

De betekenis van dit project reikt verder dan de biologie. Codreanu: “Je kunt deze technieken gebruiken voor elk domein waar je grote aantallen categorieën moet onderscheiden. Denk maar aan gezichtsherkenning.”

Simulatie in recordtijd

Een heel andere toepassing van deep learning werd door de SURF-onderzoekers ontwikkeld voor CERN. “Ze hadden daar een probleem”, aldus Codreanu. “Simulaties zijn essentieel voor hun onderzoek met de deeltjesversneller, maar ze eten de helft van hun computercapaciteit op. En dan moet je weten dat hun computing-grid twintig keer zo krachtig is als onze nationale supercomputer.”

CERN zocht de oplossing in een deep learning-toepassing: ‘generative adversarial networks’. Dit zijn modellen die nieuwe content kunnen genereren op basis van een trainingset. Codreanu: “Ze worden ook gebruikt in de media om gezichten van celebrity’s realistisch te bewerken: deep fakes. Maar hier bestond de input uit data van bestaande simulaties om nieuwe, deeplearning-simulaties te ontwikkelen.”

De expertise van SURF lag in het opschalen van het model zonder verlies van rendement. “Daardoor brachten we de trainingstijd terug van weken naar uren. Zo kunnen deeplearning-simulaties veel sneller worden ontwikkeld en geperfectioneerd.”

Combineren van CT-scans

SURF gebruikt generative adversarial networks ook in onderzoek voor het Nederlands Kanker Instituut (NKI). Bij radiotherapie wordt vóór de behandeling een CT-scan gemaakt. Maar een behandeling duurt weken. In die tijd kan de lichamelijke toestand van de patiënt veranderen en is die CT-scan niet altijd meer representatief.

Tijdens de behandeling worden er echter ook dagelijks CT-scans gemaakt om te verifiëren of de patiënt in de juiste positie op de behandeltafel ligt. Helaas zijn die van onvoldoende kwaliteit om een nieuw behandelplan op te baseren. In het samenwerkingsproject proberen NKI en SURF op basis van de oorspronkelijke CT-scan en deze dagelijkse beelden CT's van voldoende kwaliteit te genereren.

“Ons eerste doel is de vereiste nauwkeurigheid in de beelden te bereiken”, zegt Codreanu. “Dat is niet gemakkelijk, want de scans zijn in 3D: ongeveer één gigabyte per scan. Ook hier heb je dus niets aan de GPU’s die normaal worden gebruikt voor deep learning.”

Enorme maatschappelijke behoefte

De laatstgenoemde toepassingen van deep learning, simulaties en medisch onderzoek, zullen de komende tijd centraal staan in het werk van SURF op dit gebied. Codreanu: “Onderzoekers willen steeds meer en steeds gedetailleerdere simulaties op onze systemen draaien. Dan heb je echt nieuwe benaderingen zoals deep learning nodig. En medisch onderzoek voorziet uiteraard in een enorme maatschappelijke behoefte.”

Om onderzoekers te helpen bij het gebruik van deep learning, heeft SURF een High Performance Machine Learning Group opgericht van vijf experts onder leiding van Codreanu. “Uiteindelijk hebben we maar één doel", benadrukt hij: "de Nederlandse wetenschappers helpen om onderzoek van wereldklasse te bedrijven. En daarvoor moeten we zelf ook voorop blijven lopen.”

Tekst: Aad van de Wijngaart

SURF Open Innovation Lab

De deep learning innovaties vinden plaats in de context van het SURF Open Innovation Lab. Innovatie is van cruciaal belang voor SURF en zijn leden om grote uitdagingen in onderzoek, onderwijs en maatschappij aan te gaan. Het SURF Open Innovation Lab brengt alle activiteiten en experimenten op het gebied van vroegtijdige innovatie en open samenwerking samen. Dit doet SURF samen met instellingen en het bedrijfsleven.

Valeriu Codreanu

Valeriu Codreanu

Valeriu Codreanu (1984) werd in Roemenië opgeleid tot chipdesigner. Na zijn promotie in 2011 vertrok hij naar de Rijksuniversiteit Groningen, waar hij twee jaar als postdoc in de softwarekant van de ICT dook om GPU’s te kunnen versnellen. Hierna werkte hij een jaar aan de TU Eindhoven aan embedded computing, waarbij minimaal vermogen centraal stond, om vervolgens – ironisch genoeg – de overstap te maken naar de biggest and baddest computer van Nederland: de Cartesius-supercomputer van SURF.

Hier heeft hij zich de afgelopen 5 jaar gespecialiseerd in deep learning. “Deep learning mag dan een black box zijn, maar het is een black box die in veel gevallen ongelooflijk goed werkt. Dat kan van onschatbare waarde worden.”

Publicaties en presentaties

PlantNet:

CERN: