Datamanagement & dataprocessing
Beheer van gevoelige data in de praktijk
Hoe ziet een veilige en betrouwbare omgeving voor het werken met gevoelige data eruit?
Samen met een breed scala aan samenwerkingspartners bouwt SURF aan een raamwerk voor het beheer van gevoelige data waarmee richtlijnen worden gebundeld, algemene standaarden worden geformuleerd en gedeelde systemen worden gefaciliteerd. SURF vervult hierbij een verbindende rol als neutrale en betrouwbare partner die samenwerkingspartners bij elkaar brengt.
In dit proces hebben we acht processtappen vastgesteld die over het algemeen wenselijk zijn voor de meeste workflows met gevoelige data die we zijn tegengekomen:
- Metadata publiceren
- Data zoeken
- Toegang aanvragen
- Trusted Research Environment (TRE)-project aanvragen
- Data overdragen
- Data verwerken
- Output controleren
- Resultaten publiceren
Voor elke processtap geven we een toelichting en lichten we de projecten toe waar SURF aan meewerkt.
Workflow gevoelige datamanagement
1. Metagegevens publiceren
Het proces begint met het beschikbaar stellen van data via een metadataportaal. Er zijn veel organisaties, zoals overheden, bedrijven, kennisinstellingen en zelfs burgers, die datasets beschikbaar stellen. Vaak doen ze dit via een metadataprovider. Deze provider verzamelt data uit verschillende bronnen en beheert en structureert deze door de juiste metadata toe te voegen, zodat de informatie gemakkelijker te vinden, begrijpelijk en bruikbaar is.
2. Data zoeken
Voor de onderzoeker begint de reis met het vinden van de juiste en geschikte data voor zijn onderzoek. Een doorzoekbaar metadataportaal is voor onderzoekers de meest gebruikelijke plek om te ontdekken welke data er bestaan en hoe men toegang tot deze gegevens kan aanvragen.
Een metadataportaal is een webpagina of applicatie die is ontworpen om metadata te beheren en te presenteren. Het helpt organisaties om hun digitale data effectiever te organiseren, doorzoekbaar te maken en te beheren.
We geven een overzicht van enkele metadataportalen:
- Het ODISSEI-portaal voor metadata: een open data-infrastructuur voor sociale wetenschappen en economische innovaties. Het biedt een beveiligde HPC-enclave om met CBS Microdata te werken.
- De CLARIAH Media Suite: een gemeenschappelijke infrastructuur voor de geesteswetenschappen en sociale wetenschappen.
- Health-RI: De Nederlandse Nationale Gezondheidsdatacatalogus voor gezondheids- en levenswetenschappelijke gegevens.
3. Toegang aanvragen
Wanneer de juiste dataset is gevonden en deze gevoelige gegevens bevat, kan deze dataset niet zomaar worden gedownload. Onderzoekers moeten een toegangsverzoek indienen waarin ze uitleggen:
- wie ze zijn;
- waar ze de data voor willen gebruiken;
- hoe ze de data willen beschermen.
Dit verzoek wordt beoordeeld door de dataleverancier, vaak met hulp van diensten zoals de Data Access Broker. Een Data Access Broker vereenvoudigt het proces van het verkrijgen van datasets voor onderzoeks- of analysedoeleinden. Het fungeert als tussenpersoon tussen onderzoekers en verschillende databronnen en vereenvoudigt deze stap door:
- toegangsprocedures te standaardiseren;
- automatisering mogelijk te maken waar mogelijk;
- leveranciers tools te geven om verzoeken te beoordelen en goed te keuren.
Wij geven een overzicht van een aantal data access brokers:
- SSHOC-NL: Digitale Infrastructuur voor Sociale Wetenschappen en Geesteswetenschappen
- Health Data Access Body - NL: Deze instantie is momenteel in ontwikkeling en zou vanaf 2029 operationeel moeten zijn voor Nederland. Alle Europese landen zullen hun eigen Data Access Body hebben.
4. Trusted Research Environment (TRE)-project aanvragen
Om een Trusted Research Environment (TRE)-project aan te vragen, moet de onderzoeker een aanvraag indienen bij een specifieke TRE-provider. In deze aanvraag zet hij de voordelen van het onderzoek uiteen. Vervolgens ondergaat hij strenge controles en moet hij goedkeuring krijgen om op afstand toegang te krijgen tot gevoelige data binnen een beveiligde omgeving. De data verlaat deze omgeving nooit, zodat alleen gecontroleerde resultaten worden geëxporteerd.
5. Data overdragen
In de meeste workflows met gevoelige data worden de gegevens naar een gecontroleerde omgeving verplaatst, of krijgt de onderzoeker beveiligde toegang tot de omgeving waar de gegevens zich al bevinden. Er zijn verschillende veelgebruikte opties om toegang tot de gegevens te verlenen:
- Gegevens uploaden naar een vertrouwde onderzoeksomgeving waar de onderzoeker veilig inlogt. Een vertrouwde onderzoeksomgeving, ook wel Secure Data Environment of Data Safe Haven genoemd, is een veilige, digitale omgeving waarin onderzoekers toegang hebben tot gevoelige data voor wetenschappelijk onderzoek.
- Toegang verlenen tot bestaande gegevens op locatie via een beveiligde verbinding.
- Alleen in gevallen met een laag risico: gecontroleerde downloads toestaan (bijv. gepseudonimiseerde, geaggregeerde gegevens onder licentie).
SURF biedt verschillende diensten die de veilige data-overdracht ondersteunen:
- SURFfilesender: Voor veilige en versleutelde bestandsoverdrachten.
- Research Drive: Collaboratieve opslag voor onderzoeksprojecten onder beleidscontrole.
- SURFdrive: Persoonlijke cloudopslag onder beleidscontrole met een maximum van 1TB.
6. Data verwerken
De volgende stap is dat de verwerking van de onderzoeksdata plaatsvindt in een vertrouwde onderzoeksomgeving: een veilige virtuele werkruimte met strenge toegangscontroles. Op deze manier zorgen vertrouwde onderzoeksomgevingen ervoor dat:
- alleen geautoriseerde gebruikers toegang hebben tot de data;
- alle activiteit gelogd en controleerbaar is;
- gegevens de omgeving niet kunnen verlaten zonder goedkeuring.
SURF biedt verschillende vertrouwde onderzoeksomgevingen voor verschillende onderzoeksbehoeften:
- SANE: flexibele, cloudgebaseerde vertrouwde onderzoeksomgeving op de SURF Research Cloud.
- OSSC: krachtige vertrouwde onderzoeksomgeving op de Snellius supercomputer.
- Alzheimer genetica hub: speciaal beveiligd cluster voor onderzoek naar Alzheimergenetica.
Deze omgevingen zijn ISO27001-gecertificeerd en ontworpen om te voldoen aan zowel de workflows van onderzoekers als de eisen van gegevensleveranciers.
7. Output controleren
Wanneer de analyse klaar is, willen onderzoekers hun resultaten in de vorm van grafieken, samenvattingen of modellen uit de vertrouwde onderzoeksomgevingen halen. Maar die uitvoer kan nog steeds gevoelige sporen bevatten. Daarom bevatten de meeste vertrouwde onderzoeksomgevingen een stap die outputcontrole wordt genoemd. Voordat iets de omgeving verlaat, wordt het gecontroleerd door de dataverstrekker of een aangewezen beoordelaar om er zeker van te zijn dat:
- er geen persoonlijke data worden blootgelegd;
- resultaten voldoende geaggregeerd of geanonimiseerd zijn;
- de uitvoer overeenkomt met het goedgekeurde gebruik.
Deze stap helpt dataleveranciers om de controle te behouden, terwijl onderzoekers toch zinvolle inzichten kunnen publiceren.
8. Resultaten publiceren
Zodra de uitvoer gecontroleerd is, worden de resultaten openbaar gemaakt. Dit kan gedaan worden door de resultaten naar de onderzoeker te sturen, maar het kan ook zijn dat de resultaten deel gaan uitmaken van de catalogus van datasets die in verder onderzoek hergebruikt kunnen worden.
SURF biedt de volgende diensten voor het publiceren en opslaan van data