Wetenschappelijke data veilig koppelen en analyseren met ODISSEI Data Facility

Samenwerking CBS, SURF, ODISSEI en Nederlands Tweelingenregister

28 JUN 2018

Samen met het Centraal Bureau voor de Statistiek (CBS) werkt SURF aan een virtuele IT-omgeving waar onderzoekers gekoppelde data kunnen analyseren in een high performance computing-omgeving: de ODISSEI Data Facility (ODF).

Sociale wetenschappen

De ODISSEI Data Facility wordt speciaal ontwikkeld voor ODISSEI, een samenwerkingsverband van het CBS en NWO dat werkt aan een onderzoeksdata-infrastructuur voor de sociale wetenschappen in Nederland. In 2017 startte SURFsara samen met de onderzoeksgroep van biologisch psycholoog Dorret Boomsma (VU) een proof of concept (PoC) voor de ODF. We onderzochten of binnen SURFsara een data- en computing-omgeving ingericht kon worden die aan de juridische, technische en veiligheidseisen van het CBS voldoet, zodat vertrouwelijke gegevens binnen die omgeving mogen worden gebracht en daar veilig geanalyseerd kunnen worden. 

Nederlands Tweelingenregister 

We hebben specifiek gekeken of in de ODF een veilige koppeling mogelijk is tussen CBS-microdata en de (reeds bij SURFsara opgeslagen) zeer omvangrijke genetische dataset van het Nederlands Tweelingenregister (NTR). De eerste koppeling van NTR- en CBS-gegevens is inmiddels tot stand gekomen, dankzij inzet van onderzoekers van de werkgroep van Boomsma.

Virtuele werkomgeving

De beveiliging heeft bijzondere aandacht gekregen. In de PoC is als voorloper van de toekomstige ODISSEI Data Facility een volledig virtuele omgeving gerealiseerd. De ODF is deel van het CBS-netwerk en moet daarom voldoen aan de strenge beveiligingseisen van het CBS die onder meer voorschrijven dat gebruikers alleen via het CBS-portaal toegang krijgen. Bovendien mogen er geen data uit de ODF ongezien ‘lekken’. Omdat nationale supercomputer Cartesius op ieder moment in gebruik is bij andere onderzoekers en daardoor geen deel kan uitmaken van de ODF-omgeving is gekozen voor virtualisatie op basis van PCOCC-software (ontwikkeld aan het CEA in Frankrijk).

Sandbox

Daarmee wordt op een of meerdere HPC-nodes een virtuele computing-omgeving gecreëerd. Deze staat als het ware in een sandbox, een aparte omgeving die is afgeschermd van de buitenwereld. De virtuele nodes behouden alle eigenschappen van een fysieke Cartesius-node, zoals verbindingen met andere nodes via infiniband en toegang tot (Lustre) storage en data op de centrale HPC-omgeving. De virtuele omgeving is door SURFsara zo geconfigureerd dat data-uitwisseling alleen kan plaatsvinden tussen de node en de virtuele machine waarop de analyse wordt gedaan. 

Meer informatie 

 

Laatste wijziging op 02 jul 2018