SANE: veilige data-omgeving voor sociale en geesteswetenschappen
Privacy-, auteurs- en concurrentiebelemmeringen beperken het delen van gevoelige gegevens voor wetenschappelijke doeleinden. Samen met diverse partners werkt SURF aan een Secure ANalysis Environment (SANE). Een virtuele container waarin de onderzoeker gevoelige data kan analyseren, maar de data-eigenaar de volledige controle behoudt.
Gevoelige data blijven ongebruikt
Hoewel niet-academische partijen over steeds meer interessante datasets beschikken, is er momenteel geen infrastructuur beschikbaar die onderzoekers in staat stelt gevoelige gegevens te analyseren op een manier waarop de dataproviders de controle behouden. Als gevolg daarvan zijn de meeste potentiële gegevensverstrekkers terughoudend om hun datasets te delen en blijven deze dus ongebruikt (denk aan overheden, erfgoedinstellingen of commerciële partijen, zoals de Kamer van Koophandel of Funda). Toch zouden er wetenschappelijke doorbraken mogelijk zijn wanneer deze datasets beschikbaar waren.
De oplossing: SANE
De Secure Analysis Environment (SANE) is een virtuele, volledig afgeschermde computer met vooraf goedgekeurde analysesoftware (zoals R en Jupyter notebooks) en toegang tot de gevoelige gegevens. Het laat de gegevensverstrekker volledig de controle behouden en stelt de onderzoeker toch in staat de data op een handige manier te bestuderen.
Onderzoekers kunnen de data binnen de SANE-omgeving analyseren, nadat de gegevensvertrekker toegang heeft verleend. Resultaten van de analyses kunnen alleen naar de eigen computer van de onderzoekers worden geëxporteerd na controle door de gegevensverstrekker. De dataleverancier kan zelfs voorkomen dat de onderzoeker de gegevens ziet. Alle handelingen van de onderzoeker worden gemonitord. Ook het uploaden van data kan worden voorkomen, omdat het combineren van meer gegevens kan leiden tot de-anonimisering.
SANE is er in 2 varianten. Bij Tinker SANE kan de onderzoeker de data zien en manipuleren. Bij Blind SANE dient de onderzoeker een algoritme in zonder de data te kunnen zien en keurt de dataleverancier het algoritme en de output goed. De interesse voor SANE is groot: nog voor het projectteam van start is gegaan, hebben al 6 partijen interesse getoond.
Financiering toegekend door Stichting PDI-SSH
PDI-SSH (Platform Digitale Infrastructuur Social Sciences & Humanities) heeft een financieringsaanvraag van bijna een miljoen euro toegekend voor de ontwikkeling van deze veilige data-omgeving. SANE wordt ontwikkeld door de Erasmus School of Social and Behavioural Sciences, ODISSEI (Open Data Infrastructure for Social Science and Economic Innovations), Nederlands Instituut voor Beeld en Geluid, CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities), SURF en de KB, de nationale bibliotheek van Nederland.
Onderzoekers in alle disciplines
SANE bouwt voort op eerdere initiatieven van de projectpartners, zoals de CBS Remote Access Environment, ODISSEI Secure Supercomputer, SURF Data Exchange, SURF Research Cloud en CLariah-as-a-Service (CLaaS). We bouwen een generieke off-the-shelf oplossing die door elke verstrekker van gevoelige gegevens en door elke onderzoeker kan worden toegepast. SANE kan worden gebruikt door onderzoekers in alle disciplines, zoals wordt geïllustreerd door de betrokkenheid van consortia in zowel de sociale wetenschappen (ODISSEI) als de geesteswetenschappen (CLARIAH). Naar verwachting kan het platform binnen 3 jaar in productie gaan.