Case study: Datamanagement à la carte

iRODS is snel uitgegroeid tot een wereldwijde standaard voor het beheren van onderzoeksdata. Wie ermee aan de slag wil – of er juist minder tijd aan kwijt wil zijn – kan de hosting van deze software nu uitbesteden aan SURF. Dat betekent niet langer wakker liggen van veiligheid, back-ups en updates.

slaaponderzoek

Enorme datastromen

Slapeloosheid is een van de problemen die het Nederlands Herseninstituut (NIN) onderzoekt. Proefpersonen krijgen een soort badmuts op, met een groot aantal sensoren die een nacht lang de hersenactiviteit registreren. “De enorme datastromen die dat oplevert, vormen een grote uitdaging voor ons”, zegt Tom Bresser, promovendus bij de Slaap & Cognitiegroep van het NIN.

“In het verleden heeft een collega een soort computercluster gebouwd voor de dataopslag en-verwerking. Maar toen hij elders ging werken, vertrok met hem alle kennis en ervaring. Bovendien is ons cluster erg verouderd en begint het wat wankel te worden. We zijn dus gaan kijken naar – liefst goedkopere – alternatieven.”

Makkelijk samenwerken

Toen de onderzoeksgroep zag dat SURF dataopslag in combinatie met iRODS aanbood, was de keus snel gemaakt. “iRODS vergemakkelijkt samenwerking. Met deze tool kunnen we collega’s van andere instellingen op afstand toegang geven tot geanonimiseerde data, in plaats van dat we bestanden fysiek moeten opsturen, of dat mensen naar ons toe moeten komen om aan die data te werken.”

Even belangrijk: de iRODS-servers van SURF zijn goed geïntegreerd met rekenfaciliteiten zoals het Lisa-cluster. Bresser: “Dus we zijn tegelijk met het hele Herseninstituut overgestapt op Lisa voor onze databewerkingen en analyses.” De onderzoeksgroep van het NIN is nu bezig om de migratie stapsgewijs uit te voeren. Bresser: “De dames en heren van SURF denken graag mee. Zelf hebben we al snel de neiging om ingewikkelde constructies te verzinnen, maar vaak is er een veel gemakkelijker oplossing.”

slaaponderzoek

Slaaponderzoek bij het Nederlands Herseninstituut

Snelle workflows

Ook de Wageningse biotechnologen zochten een systeem voor datamanagement dat meer mogelijkheden bood dan hun bestaande interne voorzieningen, maar zij doen meer zelf. De aanleiding was het UNLOCK-project: daarin gaan ze samenwerken met Delftse onderzoekers, om in kaart te brengen welke bacteriën mogelijkerwijs ingezet kunnen worden voor toepassingen als voedselproductie en waterzuivering. Tot dusver benut de mensheid namelijk slechts één procent van alle micro-organismen.

Onderzoeker Jasper Koehorst: “We zochten een manier om alle genetische en andere informatie die straks uit de apparatuur van de deelnemende laboratoria komt, zo automatisch mogelijk centraal op te slaan en te verwerken. Via SURF kwamen we toen met iRODS in aanraking. Daarmee kunnen we heel gestructureerde werkomgevingen opzetten.”

Data meteen op de juiste plek

De onderzoekers hebben bijvoorbeeld een eigen Kubernetes-cluster (een systeem dat applicaties beheert) aan iRODS gekoppeld. Koehorst: “We kunnen tegen Kubernetes zeggen: doe deze analyse, haal de data binnen uit iRODS, en zet de resultaten daar ook neer.” De workflows die voor UNLOCK ontwikkeld worden, stellen de deelnemers straks publiekelijk beschikbaar.

“De SURF-opslag met iRODS werkt heel goed”, zegt Koehorst. “We vinden het heel prettig dat we onze data meteen op de juiste plek hebben staan, gekoppeld aan de juiste metadata. En dat we alles over een paar jaar nog steeds daar kunnen vinden.” Ook de schaalbaarheid is van wezenlijk belang: “De omvang van de data kan straks oplopen tot honderden terabytes. iRODS kan daar gewoon mee werken.”

"We zijn wel geïnteresseerd in ict-oplossingen, maar niet in het managen daarvan"
Jasper Koehorst, onderzoeker WUR

Geen tijdverlies

De Wageningse onderzoekers hebben veel ict-expertise in huis en die komt nu goed van pas. Koehorst: “iRODS is een heel kaal systeem: alles gaat via tekstcommando’s. Als je het efficiënt en goed wilt gebruiken, moet je technisch handig zijn. Gelukkig zijn we dat, dus voor ons is het geen probleem. Er is wel software beschikbaar om het gebruik te vergemakkelijken, zoals Yoda, maar daar hebben we zelf geen ervaring mee. Het moet ook wel aansluiten bij onze  werkwijze.”

iRODS is open source. Hebben Koehorst en zijn collega’s niet overwogen om het zelf te beheren? “Nee, want je hebt twee of drie mensen nodig om iRODS te managen. Security, back-up, archivering... Daar hebben we als biologen geen tijd voor. We vinden het dus heel fijn dat we de hosting bij SURF kunnen afnemen voor een acceptabele prijs. Want we zijn wel geïnteresseerd in ict-oplossingen, maar niet in het managen daarvan.”

Wat betekent iRODS-hosting door SURF?

Met de opensource-tool iRODS kunnen onderzoekers hun data gestructureerd vergaren, opslaan, beschrijven en delen. Het is snel uitgegroeid tot een marktstandaard: aan de meeste Nederlandse universiteiten wordt iRODS al gebruikt of serieus overwogen. Maar om het goed te implementeren heb je experts nodig, en die zijn schaars.



SURF maakt iRODS nu voor iedereen toegankelijk, door desgewenst de hosting – inclusief taken als beveiliging, back-up, archivering en updates – te verzorgen op de SURF-infrastructuur: dan hoeven instellingen daar geen tijd, menskracht of hardware aan te spenderen. Voor SURF is het een nieuwe toevoeging aan een groeiend portfolio van diensten à la carte voor research-datamanagement, vertelt Hylke Koers, groepsleider datadiensten bij SURF. “De eerste was Storage scale out: instellingen die extra opslagcapaciteit nodig hebben, kunnen hiermee hun iRODS-tool koppelen aan het Data Archive bij SURF.”



“De volgende aanvulling die we aan het ontwikkelen zijn, is het hosten van een klant-specifieke Yoda-omgeving. Dat is een applicatie bovenop iRODS, ontwikkeld door de Universiteit Utrecht, die een grafische interface biedt. Maar ook allerlei extra functies, bijvoorbeeld om metadata toe te voegen, of je dataset gereed te maken voor archivering of publicatie volgens de FAIR-principes.” Na een succesvolle pilot komt Yoda hosting nu twee jaar beschikbaar als pre-productiedienst voor een aantal universiteiten en medische centra.

Ook wordt gekeken naar een community edition van iRODS-hosting. Die is gericht op individuele onderzoekers of groepen die bijvoorbeeld een NWO-subsidie hebben gekregen om de nationale supercomputer of een andere SURF-dienst te gebruiken. Koers: “Ze kunnen dan vanuit verschillende werkomgevingen toegang tot hun data krijgen, waarbij iRODS fungeert als datamanagementlaag over al onze reken- en dataprocessing-faciliteiten heen. Dat kan ze een hoop werk besparen.”

Tekst: Aad van de Wijngaart

Foto: Marieke de Lorijn

'Datamanagement à la carte' is een artikel uit SURF Magazine van september 2020.

SURF Magazine september-editie