Erwin van Wieringen
Praktijkverhaal

“Waar kunnen we al die data kwijt?”

Wat als onderzoeksdata meerdere doelen dienen, en op verschillende plekken moeten worden opgeslagen, terwijl lokale voorzieningen hierbij niet toereikend zijn? Erwin van Wieringen legt uit hoe SURF’s Storage scale-out een passende oplossing biedt voor het RIVM.

Aan de rand van het rustieke Bilthoven bevindt zich het, overigens streng beveiligde terrein van het Rijksinstituut voor Volksgezondheid en Milieu (RIVM). Binnen de hekken zetten zo’n 2100 mensen zich in voor een gezonde bevolking en leefomgeving. Een flink aantal van die medewerkers houdt zich bezig met wetenschappelijk onderzoek en verzamelt data voor thema’s waarmee het RIVM regelmatig het nieuws haalt; van het detecteren en volgen van nieuwe virussen en het zorgen voor screeningsprogramma’s bij het opsporen van kanker, tot het meten van schadelijke stoffen in het milieu. Als agentschap van het ministerie van VWS positioneert het RIVM zich zo als hét kennisinstituut voor volksgezondheid, zorg, voeding, milieu en veiligheid.

"Toen de COVID-pandemie uitbrak moesten we opeens meer data verwerken in een week dan we hiervoor in een jaar deden"
Erwin van Wieringen, RIVM

“Ik heb mij altijd in de IT thuis gevoeld. Hiervoor werkte ik bij een regionaal ziekenhuis ruim veertien jaar aan opslagoplossingen, virtualisatie, applicatiebeheer en netwerken en netwerk-security.” Aan het woord is Erwin van Wieringen, DevOps engineer en bio-informaticus bij het RIVM. “Ik ben hier begonnen als infrastructuurarchitect. Een aantal jaar geleden kwam ik terecht bij wat we destijds het ‘modellenplatform’ noemden. Dit was een soort rekenomgeving voor onderzoeksinstituten binnen de overheid, die we breder aanboden dan aan de onderzoekers van het RIVM alleen. Vervolgens ging ik aan de slag bij het programma ‘Bio-informatica’, dat ik overigens nog steeds ondersteun.”

Data uit DNA-sequencing

“De biologen bij het RIVM zijn veel bezig met data uit DNA-sequencing, een techniek die de code van DNA kan lezen. Die code is de volgorde van de informatie op het DNA. Dit zorgt doorgaans voor hele grote bestanden waarop veel nabewerking nodig is, voordat je er iets mee kan. Neem bijvoorbeeld een virus als COVID-19. Aan de hand van de sequenties kan je volgen hoe een infectie zich door Nederland verspreidt. Onderzoekers vinden de bron en zien hoe het virus zich verplaatst.”

Rekenkracht en datamanagement

“In eerste instantie hebben die onderzoekers behoefte aan rekenkracht, juist omdat de nabewerking van de data erg rekenintensief is. Dus hebben we een rekencluster opgezet. Die infrastructuur staat nu in Amsterdam, vlakbij die van SURF, als ik me niet vergis. Daarna kwam datamanagement in beeld. Er worden veel data gegenereerd, maar er was weinig zicht op wat waar werd opgeslagen en met welke software(versies) de data was verwerkt.

Data veilig delen

Dus gingen we op zoek naar een systeem om al die dataeigenschappen, liefst geautomatiseerd, vast te leggen. Zo kwamen we bij iRODS uit. Met iRODS regelen we het veilig delen van data, metadata-management en workflow-automatisering. Je kan data op verschillende fysieke locaties opslaan zonder dat de gebruiker het ziet. Dat kan op disk, maar ook op tape.”

DNA

Opschalen

“Na een poosje hard werken, hadden we met iRODS – al zeg ik het zelf - best een aardig systeem opgezet. Dat verliep succesvol, totdat de COVID-pandemie uitbrak. Vanaf dat moment werd het RIVM door het ministerie nog harder aan het werk gezet en moesten we opeens veel meer data ‘sequencen’; deden we plotseling in een week wat we hiervoor in een jaar verwerkten. En dus moesten we opschalen, want waar kunnen we al die data kwijt?”

Relatief eenvoudig

“Rond die tijd hebben we contact met SURF gezocht en kwam de Storage scale-out in beeld, een module die we relatief eenvoudig aan onze eigen iRODS-omgeving konden koppelen. We hebben ‘policies’ ingericht, waarmee de data per project automatisch lokaal wordt opgeslagen of in het Data Archive van SURF wordt gearchiveerd. Dan heb je het in ons geval over ruwe datasets van maximaal 300 tot 400 gigabyte. Daarmee zijn we zeker niet de grootste afnemer van opslagcapaciteit bij SURF.”

Pragmatisch

“De samenwerking loopt naar grote tevredenheid. Je merkt dat de mensen bij SURF heel pragmatisch zijn. Je legt makkelijk contact en krijgt snel dingen voor elkaar. We spreken de support-afdeling eigenlijk alleen bij kleine storingen, bijvoorbeeld als er bij ons een proces is uitgevallen of als er een certificaat is verlopen. Je maakt in zo’n geval een incident aan en dan wordt er doorgaans binnen een uur op gereageerd.”

Facts & figures

Raw datasets of 300 to 400 gigabytes

“Ik ben blij om te zien dat er overal, en niet alleen bij het RIVM, meer nadruk op data-centrisch werken komt te liggen. Het besef bij onderzoeksinstellingen dringt door dat data je grootste ‘asset’ is. Over welke data beschikken we eigenlijk? Hoe kunnen we onze data beter organiseren en terugvinden? Is die data vertrouwelijk, vrij beschikbaar of mag het bijvoorbeeld pas over vijf jaar worden gepubliceerd? En hoe wordt de privacy optimaal gewaarborgd? Dit zijn thema’s waar we natuurlijk ook met onze collega’s naar kijken.”

Nog lang niet uitgeleerd

“Die dynamiek spreekt me erg aan. Aan de ene kant zit ik dicht tegen de onderzoeker of de gebruikers van onze systemen aan en help ik collega’s hun werk beter te doen. Aan de andere kant zit ik bovenop de technische ontwikkelingen en zie ik de IT-oplossingen in snel tempo ontwikkelen. Ik ben de komende jaren in ieder geval nog lang niet uitgeleerd.”