Data Persistent Identifier

Persistent Identifiers (PID’s) zorgen ervoor dat jouw data altijd vindbaar zijn en blijven. PID’s kun je vergelijken met een ISBN-nummer bij boeken. Ook als de locatie of de onderliggende infrastructuur verandert, blijft de verwijzing intact. SURFsara biedt de PID-dienst aan samen met het European Persistent Identifier Consortium (EPIC).

2 personen luisteren aandachtig

De data-explosie

In alle wetenschapsgebieden groeit de hoeveelheid opgeslagen data snel. Ook de verbanden tussen deze data worden steeds uitgebreider. Publicaties worden begeleid door geanalyseerde data, die zelf weer gebaseerd zijn op ruwe data. Data die bij een bepaalde publicatie horen, kunnen zijn ondergebracht in verschillende datacenters en vastgelegd zijn op verschillende media. Bovendien kunnen de opslaglocaties veranderen. Dit maakt het steeds lastiger om de data vindbaar en toegankelijk te houden. Terwijl juist die toegang steeds belangrijker is vanwege de reproduceerbaarheid van onderzoek en hergebruik van wetenschappelijke gegevens.

Persistent Identifiers: ISBN-nummers voor data

Om dit probleem op te lossen, is een codering voor data ontwikkeld: de Persistent Identifiers (PID’s). Deze PID’s zijn te vergelijken met ISBN-nummers die worden toegepast voor boeken. Net als ISBN-nummers permanente en citeerbare verwijzingen naar boeken bevatten, zijn PID’s dat voor data. PID’s zorgen ervoor dat we data kunnen terugvinden en dat we ernaar kunnen verwijzen. Een van de belangrijkste functies van een PID, is dat deze een vaste verwijzing heeft naar de onderliggende data – waar die zich ook bevinden. Een onderzoeker die een PID raadpleegt moet er zeker van zijn dat hij of zij de onderliggende data terugvindt. Dat geldt ook als de opslaglocatie of de fysieke vorm is gewijzigd.

PID’s voor onderzoekers
  • We gebruiken de handle-software van de Corporation for National Research Initiatives (CNRI) als onderliggende structuur. Deze handle-software gebruikt een softwaremodel dat op Domain Name System (DNS) lijkt. Met een verwijzing in de top wordt bepaald waar alle PID’s staan.
  • PID’s bestaan uit een prefix en een suffix. De prefix, het eerste deel van de code, kun je hier aanvragen bij SURF. De prefix is eigendom van de aanvrager. Alleen als aanvrager kun je PID’s toevoegen die met de eigen prefix beginnen. Onder één prefix kun je werken met zoveel unieke suffixen als je wil.
  • We treden op als host van de PID’s. De PID’s worden zowel intern bij SURF als extern binnen de context van het EPIC-consortium gerepliceerd. 
  • Op basis van een prefix kan je PID’s creëren, bewerken, zoeken en verwijderen. Dat gaat via een HTTPS-gebaseerde RESTful interface API. 
  • Op basis van een PID de locatie van de data te bepalen of het data-object zelf op te vragen, kan met een zogenoemde PID-resolver applicatie. Deze gebruikt altijd 1 van de 3 identieke PID’s. De resolver is toegankelijk via een HTTP-interface. Dit maakt het mogelijk om een browser of curl te gebruiken om PID’s te resolven.
Aanvullende diensten

Onderzoeksdata opslaan

Je kunt de PID-dienst gebruiken op data die opgeslagen staan op SURF-opslagdiensten, zoals het Data Archive. 

Praktijkvoorbeeld

De PID-dienst is vooral zinvol bij onderzoeksprojecten met omvangrijke dataverzamelingen waarvan door meerdere partijen gebruik wordt gemaakt. Een voorbeeld uit de praktijk is het seismologisch onderzoek van KNMI/ORFEUS.

Portfolio datadiensten

Wij realiseren ons hoe belangrijk data voor onderzoekers zijn. Daarom bieden we een breed assortiment van diensten aan. Deze zijn ontwikkeld voor verschillende fasen van de levenscyclus van data. Wil je meer weten over onze datadiensten? Bekijk dan het complete aanbod in ons portfolio datadiensten.

Zelf doen of via SURF

Een systeembeheerder bij jouw instelling kan zelf de PID’s aanmaken en bewerken die bij jouw dataproject behoren. Om dat te kunnen doen is er wel enige programmeerkennis vereist. Je kunt ook ons vragen om de PID’s aan te maken, maar dat kunnen we alleen doen als de data ook op de systemen van SURF staan. We hebben immers geen controle over de data op systemen van onze klanten.

Als klant blijf je zelf verantwoordelijk voor de integriteit van de PID’s en de bijbehorende data-objecten. Die verantwoordelijkheid komt vooral tot uiting als je data worden verplaatst. In dat geval moet de datamanager er zelf voor zorgen dat de PID-verwijzing naar de locatie gewijzigd wordt.

Support & consultancy

Als je gebruik maakt van PID’s kan je een beroep doen op onze ondersteuning. We kunnen je bijvoorbeeld helpen bij het aanmaken van PID’s en adviseren hoe je jouw data zo goed mogelijk vindbaar maakt. Om te bepalen welk PID-systeem het meest geschikt is voor jouw situatie, kun je de PID-wijzer van het Netwerk Digitaal Erfgoed gebruiken. 

Helpdesk

Geef je vragen door via:

Onze helpdesk is bereikbaar tijdens kantooruren (9.00–17.00 uur).

Voor gedetailleerd advies, bijvoorbeeld over de inrichting van jouw data-infrastructuur, kan je terecht bij onze consultants.