Gevoelige data uitgelegd

Bij gevoelige data kun je denken persoonsgegevens of medische onderzoeksdata. Onderzoekers willen dit soort data effectief kunnen analyseren en verwerken. Tegelijkertijd wil degene die de data beschikbaar stelt controle houden over toegang en gebruik. Samen ontwikkelen we betrouwbare en praktische oplossingen voor het opslaan, delen en verwerken van gevoelige data.

Wat zijn gevoelige data?

Met gevoelige data wordt informatie bedoeld die moet worden beschermd vanwege de mogelijke gevolgen voor de privacy, veiligheid of naleving van wet- en regelgeving. Denk aan persoonlijk identificeerbare informatie (PII), gezondheidsgegevens, financiële informatie, intellectueel eigendom en andere vertrouwelijke data die moeten worden beveiligd.

Voorbeelden van gevoelige data die voor onderzoek worden gebruikt:

  • Driedimensionale MRI-scans van menselijke patiënten die gebruikt worden voor biowetenschappelijk onderzoek.
  • Bedrijfsgegevens van de Kamer van Koophandel die gebruikt worden voor sociaaleconomisch onderzoek.
  • Auteursrechtelijk beschermde e-books die worden geraadpleegd voor onderzoek in de geesteswetenschappen.
  • Gedetailleerde bathymetrische data die de diepte van de oceaan en het onderwaterterrein onthullen voor oceanografisch onderzoek.

Waarom worden data gevoelig genoemd?

Gevoelige data worden gedefinieerd door de mogelijke schade die kan worden veroorzaakt als ze in verkeerde handen vallen. Zoals:

  • Privacykwesties: Veel soorten gevoelige data worden als privé en vertrouwelijk beschouwd. Het openbaar maken ervan kan een schending van het recht op privacy van een persoon inhouden.
  • Beveiligingsrisico's: Gevoelige data kunnen, vooral wanneer ze worden opgeslagen of verzonden, een doelwit zijn voor cyberaanvallen. De bescherming ervan is cruciaal voor het handhaven van de algemene veiligheid.
  • Reputatieschade: Informatie over iemands gezondheid, politieke opvattingen of religieuze overtuiging kan leiden tot sociale stigmatisering of discriminatie.
  • Gevolgen voor het bedrijf: Gevoelige data kunnen bedrijfsgeheimen, financiële informatie en andere gegevens omvatten die cruciaal zijn voor de bedrijfsvoering en het concurrentievoordeel van een bedrijf. Ongeautoriseerde toegang kan ernstige gevolgen hebben voor een bedrijf.
  • AVG en andere regelgeving: Veel rechtsgebieden hebben wet- en regelgeving die specifieke bescherming van gevoelige data vereist, zoals de Algemene Verordening Gegevensbescherming in Europa.

Waarom moet ik gevoelige data anders behandelen dan niet-gevoelige data?

Gevoelige data moeten anders worden behandeld dan niet-gevoelige data vanwege de aanzienlijk hogere risico's die gepaard gaan met blootstelling of misbruik. Dit onderscheid is cruciaal voor het handhaven van privacy, het naleven van regelgeving en het voorkomen van ernstige gevolgen zoals identiteitsdiefstal, financieel verlies of reputatieschade. Het correct identificeren en behandelen van gevoelige data is een cruciaal onderdeel van best practices op het gebied van gegevensbeveiliging en privacy.

Wat zijn de uitdagingen van het werken met gevoelige data in onderzoek?

Onderzoek in vele domeinen wordt steeds meer datagestuurd. Vaak zijn de meest waardevolle datasets ook het meest gevoelig. Als gevolg daarvan is het werken met gevoelige data nu heel gewoon in vakgebieden zoals biowetenschappen en sociale wetenschappen.

Voor dataleveranciers – organisaties en mensen die data beschikbaar stellen voor onderzoek – is het van cruciaal belang om controle te houden over toegang en gebruik. Tegelijkertijd moeten onderzoekers de vrijheid hebben om data effectief te onderzoeken, analyseren en bewerken. Deze prioriteiten botsen vaak, waardoor efficiënt beheer en ondersteuning essentieel zijn.

Dit zijn de 4 belangrijkste uitdagingen van het werken met gevoelige data in onderzoek:

  1. Toegang is ingewikkeld - Met versnipperde regels, lange goedkeuringsprocedures en juridische onduidelijkheid.
  2. Je kunt gegevens niet zomaar rondsturen - Gevoelige data moeten beschermd blijven tijdens het transport en de opslag.
  3. Veilig rekenen is niet eenvoudig - Onderzoekers hebben vertrouwde tools nodig in afgesloten omgevingen.
  4. Zelfs resultaten moeten gecontroleerd worden - Outputs kunnen het risico van heridentificatie met zich meebrengen als ze niet op de juiste manier worden behandeld.

Waarom is toegang krijgen tot gevoelige datasets ingewikkeld?

Toegang krijgen tot gevoelige data is vaak ingewikkeld omdat elke dataleverancier eigen regels en voorwaarden hanteert. Er is geen gemeenschappelijke norm voor het aanvragen, beoordelen of verlenen van toegang. Als gevolg daarvan moeten onderzoekers en andere gebruikers langdurige, inconsistente en soms dubbelzinnige procedures doorlopen. Dit gebrek aan afstemming leidt tot aanzienlijke vertragingen. Vooral voor onderzoekers, voor wie tijdige toegang cruciaal kan zijn voor het voortzetten van hun werk.

Waarom kun je gevoelige data niet zomaar versturen?

Het overdragen van gevoelige data is niet zo eenvoudig als het versturen van een bestand van de ene naar de andere locatie. Afhankelijk van het gevoeligheidsniveau moeten gegevensleveranciers ervoor zorgen dat de data tijdens de overdracht niet kunnen worden onderschept, gekopieerd of geraadpleegd door onbevoegde partijen.

Standaard internetbeveiligingsprotocollen zijn soms onvoldoende en vereisen extra beveiligingen zoals end-to-end-encryptie of gecontroleerde overdrachtskanalen. In veel gevallen mogen gevoelige data helemaal niet gedownload worden naar het persoonlijke apparaat van een onderzoeker. In plaats daarvan moeten ze toegankelijk zijn binnen speciale, beveiligde compute-omgevingen die strikte controles afdwingen over wie de data mag gebruiken en hoe je ermee mag omgaan.

Waarom is veilig verwerken van gevoelige data niet eenvoudig?

Beveiligde compute-omgevingen leggen strenge beperkingen op aan wat gebruikers kunnen openen en doen. Hoewel deze controles essentieel zijn voor de bescherming van gevoelige data, verstoren ze vaak de vertrouwde onderzoeksworkflows. Wanneer bijvoorbeeld de internettoegang wordt geblokkeerd, wordt het installeren of updaten van de benodigde software allesbehalve eenvoudig. En wanneer onderzoekers de data niet rechtstreeks mogen bekijken of inspecteren, moet hun hele aanpak worden aangepast. 

Dit vereist vaak het gebruik van synthetische gegevens, mock-datasets of het ontwikkelen en testen van analysecode in een aparte omgeving voordat deze in de beveiligde omgeving wordt uitgevoerd. Deze beperkingen maken verwerking veiliger, maar maken het werk ook aanzienlijk complexer.

Waarom moeten resultaten worden gecontroleerd bij het werken met gevoelige data?

Wanneer onderzoekers met gevoelige data werken, kunnen de resultaten die ze produceren onbedoeld informatie over individuen of kleine groepen onthullen. Zelfs als de data zelf nooit de beveiligde omgeving verlaten. Om dit te voorkomen, moeten resultaten een outputcontrole ondergaan (ook bekend als disclosure control) voordat ze kunnen worden vrijgegeven. Deze controle zorgt ervoor dat er geen identificeerbare patronen, uitschieters of per ongeluk opgenomen ruwe data naar een persoon of organisatie kunnen worden herleid. Door resultaten te controleren voordat ze de beveiligde omgeving verlaten, voldoen gegevensleveranciers aan hun wettelijke en ethische verplichtingen, terwijl onderzoekers toch zinvolle, geaggregeerde bevindingen kunnen publiceren.