Artikel: Slimme toepassingen voor datamanagement

Onderzoekers hebben behoefte aan goede tools voor het veilig opslaan, delen en hergebruiken van data. Binnen kennisplatform U2Connect wisselen universiteiten ervaringen uit. Koploper Universiteit Utrecht pioniert met YODA, een systeem dat wetenschappers ondersteunt tijdens alle fasen van het onderzoek.

Jonge onderzoeker in laboratorium achter computer

Ontzorgen

Oplossingen voor het beschrijven en opslaan van data van afgerond onderzoek bestonden al langer. Maar een systeem dat onderzoekers in staat stelt om hun data tijdens alle fasen van het onderzoek veilig op te slaan, inclusief een goede beschrijving van de data? Dat was er nog niet vóór de komst van YODA (Your Data). “Met YODA willen we onze onderzoekers ontzorgen”, vertelt Ton Smeele, ict-ontwikkelaar bij de Universiteit Utrecht. “Onderzoekers delen steeds grotere hoeveelheden data met collega’s van verschillende instellingen. Daar hebben ze een goede infrastructuur voor nodig.”

YODA scheelt onderzoekers bovendien tijd. Smeele: “Normaal gesproken zitten ze na een afgerond onderzoek soms nog wekenlang data te beschrijven om ze beschikbaar te maken voor hergebruik. Bij YODA maken ze de beschrijving al aan tijdens het opslaan van de data. Dat maakt deponeren later een fluitje van een cent.”

Verspreide data als één geheel beschikbaar

YODA komt voort uit een behoefte-onderzoek onder onderzoekers van de Universiteit Utrecht (UU). Op zoek naar een geschikte technologie voor het managen van data kwam de ict-afdeling van de UU uit bij iRODS (integrated Rule-Oriented Data System), dat ook in het Europese EUDAT-project wordt gebruikt (zie alinea 'Kennis over iRODS delen bij EUDAT en U2Connect). iRODS biedt de mogelijkheid om geografisch verspreide data als één geheel beschikbaar te maken, inclusief metadata. Bovendien is toegang tot de data makkelijk te reguleren. “YODA werkt door iRODS als een soort Dropbox, maar dan veel veiliger”, zegt Smeele. “De onderzoeker kan de data koppelen aan zijn werkstation als ware het een lokale schijf, in plaats van de vele malen complexere infrastructuur die er in werkelijkheid achter zit.”

Uitdagingen

De lancering van YODA in mei 2015 werd gekoppeld aan The Dynamics of Youth, een groot onderzoek van de UU waarin 6.000 baby’s en pubers worden gevolgd in hun ontwikkeling. Data uit het onderzoek variëren van video-opnames tot echo’s en van MRI-scans tot wangslijm. In het project komen alle uitdagingen samen waarvoor YODA een oplossing wil bieden: een veilige opslag van grote hoeveelheden gevoelige data, verspreid over verschillende instellingen, nog decennia in gebruik voor allerlei doeleinden. Een onderzoek als The Dynamics of Youth is geen uitzondering meer. Smeele: “Zestig procent van de onderzoeksdata is gevoelig, zij het vanwege privacy of patenten. Daarvoor wil je de toegang dus goed geregeld hebben. YODA kan dynamische groepen ondersteunen. Zodra de onderzoekers een groep aanmaken, hebben de mensen in die groep toegang tot de data.”

De toekomst: méér en beter uitwisselbare data

De schaalgrootte van onderzoek neemt de komende jaren explosief toe, verwacht Smeele. Niet alleen de hoeveelheid data groeit sterk, maar ook het gebied dat onderzoek kan bestrijken. Datascience is een nieuwe tak van sport. “Wie had een paar jaar geleden gedacht dat je bijvoorbeeld alle Twitterdata kunt bestuderen?” Daarnaast ondergaat de interoperabiliteit van data een drastische transformatie.

Smeele: “Het hergebruik is momenteel nog vrij laag. Dat komt onder andere omdat data niet zomaar uitwisselbaar zijn. Je moet er wel zeker van zijn dat de betekenis van data in een andere taal hetzelfde blijft.” Binnen de life sciences is men al ver met het internationaal vastleggen van termen voor ziektebeelden en apparatuur. Met behulp van linked open data en apparatuur zullen andere vakgebieden snel volgen. Er is, in de woorden van Smeele, een revolutie gaande. Het belang van goede tools voor het managen van onderzoeksdata neemt daarmee alleen maar toe.

Wat SURF kan doen

In de toekomst zou SURF een soort YODA kunnen aanbieden, hoopt Ton Smeele; één datamanagement-infrastructuur voor alle SURF-leden en hun onderzoekspartners. “SURF zou het verantwoord opslaan van gegevens kunnen faciliteren met eigen hardware en software. Daarbovenop maken de specialisten binnen de instellingen dan de specifieke functies.”

Zo ver is het voorlopig nog niet. SURF bekijkt momenteel of het mogelijk is om via je instellingsaccount in te loggen op je iRODS-toepassing, waardoor gedeeld gebruik van data over de instellingsmuren, bijvoorbeeld in samenwerkingsprojecten, beter mogelijk is. Ook wordt onderzocht of SURF iRODS als losse dienst kan aanbieden.

Kennis over iRODS delen bij EUDAT en U2Connect

Bij YODA wordt iRODS gebruikt als managementlaag in de infrastructuur. Steeds meer universiteiten maken gebruik van iRODS. Dat maakt data makkelijk uitwisselbaar tussen instellingen, zowel binnen Nederland als Europa. Binnen het Europese EUDAT-project vormt SURF een schakel tussen nationale en internationale initiatieven op dit gebied. In Nederland is U2Connect het kennisplatform voor de infrastructuur van onderzoeksdata. “Iedere universiteit maakt zijn eigen implementatie met iRODS, maar we wisselen wel ideeën uit”, zegt Ton Smeele. “Onze netwerkdiskkoppeling is bijvoorbeeld hergebruikt door de UvA en het Donders Instituut.” Kunnen alle Nederlandse universiteiten niet gewoon met YODA aan de slag? “Daarvoor verschillen de perspectieven te veel. Eén toepassing is ook niet noodzakelijk. De essentie van onderzoek is innoveren door verschillende ideeën te ontwikkelen.”

Meer informatie

Dit artikel komt uit SURF Magazine 2017-02