SANE: veilige data-omgeving voor sociale en geesteswetenschappen

Privacy-, auteurs- en concurrentiebelemmeringen beperken het delen van gevoelige gegevens voor wetenschappelijke doeleinden. Samen met diverse partners werkt SURF aan een Secure ANalysis Environment (SANE). Een virtuele container waarin de onderzoeker gevoelige data kan analyseren, maar de data-eigenaar de volledige controle behoudt.

Mensen op druk zebrapad

Gevoelige data blijven ongebruikt

Hoewel niet-academische partijen over steeds meer interessante datasets beschikken, is er momenteel geen infrastructuur beschikbaar die onderzoekers in staat stelt gevoelige gegevens te analyseren op een manier waarop de dataproviders de controle behouden. Als gevolg daarvan zijn de meeste potentiële gegevensverstrekkers terughoudend om hun datasets te delen en blijven deze dus ongebruikt (denk aan overheden, erfgoedinstellingen of commerciële partijen, zoals de Kamer van Koophandel of Funda). Toch zouden er wetenschappelijke doorbraken mogelijk zijn wanneer deze datasets beschikbaar waren.

De oplossing: SANE

De Secure Analysis Environment (SANE) is een virtuele, volledig afgeschermde computer met vooraf goedgekeurde analysesoftware (zoals R en Jupyter notebooks) en toegang tot de gevoelige gegevens. Het laat de gegevensverstrekker volledig de controle behouden en stelt de onderzoeker toch in staat de data op een handige manier te bestuderen.

Onderzoekers kunnen de data binnen de SANE-omgeving analyseren, nadat de gegevensvertrekker toegang heeft verleend. Resultaten van de analyses kunnen alleen naar de eigen computer van de onderzoekers worden geëxporteerd na controle door de gegevensverstrekker. De dataleverancier kan zelfs voorkomen dat de onderzoeker de gegevens ziet. Alle handelingen van de onderzoeker worden gemonitord. Ook het uploaden van data kan worden voorkomen, omdat het combineren van meer gegevens kan leiden tot de-anonimisering.

SANE is er in 2 varianten. Bij Tinker SANE kan de onderzoeker de data zien en manipuleren. Bij Blind SANE dient de onderzoeker een algoritme in zonder de data te kunnen zien en keurt de dataleverancier het algoritme en de output goed. De interesse voor SANE is groot: nog voor het projectteam van start is gegaan, hebben al 6 partijen interesse getoond.

Financiering toegekend door Stichting PDI-SSH

PDI-SSH (Platform Digitale Infrastructuur Social Sciences & Humanities) heeft een financieringsaanvraag van bijna een miljoen euro toegekend voor de ontwikkeling van deze veilige data-omgeving. SANE wordt ontwikkeld door de Erasmus School of Social and Behavioural Sciences, ODISSEI (Open Data Infrastructure for Social Science and Economic Innovations), Nederlands Instituut voor Beeld en Geluid, CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities), SURF en de KB, de nationale bibliotheek van Nederland.

Onderzoekers in alle disciplines

SANE bouwt voort op eerdere initiatieven van de projectpartners, zoals de CBS Remote Access EnvironmentODISSEI Secure SupercomputerSURF Data ExchangeSURF Research Cloud en CLariah-as-a-Service (CLaaS). We bouwen een generieke off-the-shelf oplossing die door elke verstrekker van gevoelige gegevens en door elke onderzoeker kan worden toegepast. SANE kan worden gebruikt door onderzoekers in alle disciplines, zoals wordt geïllustreerd door de betrokkenheid van consortia in zowel de sociale wetenschappen (ODISSEI) als de geesteswetenschappen (CLARIAH). Naar verwachting kan het platform binnen 3 jaar in productie gaan.

Download het SANE proposal
SANE proposal
Downloaden SANE proposal, Nederlands, Bestandsextensie: pdf (Bestandsgrootte: 281 KB) Nederlands, Bestandsextensie: pdf (Bestandsgrootte: 281 KB)