Data Persistent Identifier

Jouw data altijd vindbaar dankzij een unieke en permanente codering

Persistent identifiers (PID’s) zorgen ervoor dat jouw data altijd vindbaar zijn en blijven. PID’s zijn te vergelijken met een ISBN-nummer bij boeken. Ook als de locatie of de onderliggende infrastructuur verandert, blijft de verwijzing intact. SURFsara biedt de PID-dienst aan samen met het European Persistent Identifier Consortium (EPIC).

De data-explosie

In alle wetenschapsgebieden groeit de hoeveelheid opgeslagen data snel, evenals de aantallen relaties tussen data. Publicaties (zelf ook data-objecten) worden begeleid door geanalyseerde data, die zelf weer gebaseerd zijn op ruwe data. Data die bij een bepaalde publicatie horen, kunnen zijn ondergebracht in verschillende datacenters en vastgelegd zijn op verschillende media. Bovendien kunnen de opslaglocaties veranderen. Dit maakt het steeds lastiger om de vindbaarheid en daarmee de toegang tot de data te garanderen. Tegelijkertijd wordt die toegang steeds belangrijker vanwege de reproduceerbaarheid van onderzoek en hergebruik van wetenschappelijke gegevens.

Persistent identifiers: ISBN-nummers voor data

Om dit probleem op te lossen, is een codering voor data ontwikkeld: de persistent identifiers (PID’s). Deze PID’s zijn te vergelijken met ISBN-nummers die worden toegepast voor boeken. Net als ISBN-nummers permanente en citeerbare verwijzingen naar boeken bevatten, zijn PID’s dat voor data. PID’s zorgen ervoor dat we data kunnen terugvinden en dat we ernaar kunnen verwijzen. Een van de belangrijkste functies van een PID is dat deze een vaste verwijzing vormt naar de onderliggende data – waar die zich ook bevinden. Een onderzoeker die een PID raadpleegt moet er zeker van zijn dat hij of zij de onderliggende data terugvindt. Dat geldt ook als de opslaglocatie of de fysieke vorm is gewijzigd.

PID’s voor onderzoekers

SURFsara biedt onderzoekers de mogelijkheid om hun dataverzamelingen te registreren en toegankelijk te maken met behulp van PID’s. Dat werkt als volgt:

  • SURFsara gebruikt de handle software van de Corporation for National Research Initiatives (CNRI) als onderliggende structuur. De handle-software gebruikt een softwaremodel dat op DNS lijkt. Met een verwijzing in de top wordt bepaald waar alle PID’s staan.
  • PID’s bestaan uit een prefix en een suffix. De prefix, het eerste deel van de code, kun je aanvragen bij SURFsara via helpdesk@surfsara.nl. De prefix is eigendom van de aanvrager. De aanvrager of het instituut kan alleen PID’s toevoegen die met de eigen prefix beginnen. Onder één prefix kun je werken met zoveel unieke suffixen als je wil.
  • SURFsara treedt op als host van de PID’s. De PID’s worden intern bij SURFsara gerepliceerd, maar ook extern gerepliceerd binnen de context van het EPIC-consortium. 
  • Op basis van een prefix kan je PID’s creëren, modificeren, zoeken en verwijderen. Dat gaat via een HTTPS RESTful interface API. 
  • De zogenoemde PID-resolver is een applicatie die je in staat stelt om op basis van een PID de locatie van de data te bepalen of het data-object zelf op te vragen. De PID-resolver is toegankelijk via een HTTP-interface. Dit maakt het mogelijk om een browser of curl te gebruiken om PID’s te resolven via: http://hdl.handle.net. De PID-resolver gebruikt altijd 1 van de 3 identieke PID’s.

Zelf doen of via SURFsara

Een systeembeheerder bij jouw instelling kan zelf de PID’s aanmaken en bewerken die bij een dataproject behoren. Daarvoor is wel enige programmeerkennis vereist. Je kunt ook SURFsara vragen om de PID’s aan te maken, maar dat kunnen we alleen doen als de data ook op de systemen van SURFsara staan. SURFsara heeft immers geen controle over de data op systemen van haar klanten.

Eigen verantwoordelijkheid

De klant blijft steeds zelf verantwoordelijk voor de integriteit van de PID’s en de bijbehorende data-objecten. Die verantwoordelijkheid komt vooral tot uiting als data worden verplaatst. In dat geval moet de datamanager er zelf voor zorgen dat de PID-verwijzing naar de locatie gewijzigd wordt.

Support & consultancy

Als gebruiker van PID’s kan je een beroep doen op onze ondersteuning. We kunnen bijvoorbeeld helpen bij het aanmaken van PID’s en adviseren hoe je jouw data zo goed mogelijk vindbaar maakt.

Om te bepalen welk PID-systeem het meest geschikt is voor jouw situatie, kun je de PID-wijzer van het Netwerk Digitaal Erfgoed gebruiken. 

Helpdesk

Onze helpdesk is bereikbaar per telefoon of e-mail, maar persoonlijk contact is ook mogelijk. Geef je vragen door via helpdesk@surfsara.nl of telefonisch op +31-208001400. De helpdesk is bereikbaar tijdens kantooruren (9.00–17.00 uur).

Voor gedetailleerd advies, bijvoorbeeld over de inrichting van jouw data-infrastructuur, kan je terecht bij onze consultants.

Praktijkvoorbeelden

De PID-dienst is vooral zinvol bij onderzoeksprojecten met omvangrijke dataverzamelingen waarvan door meerdere partijen gebruik wordt gemaakt. Een voorbeeld uit de praktijk is het seismologisch onderzoek van KNMI/ORFEUS.

Contact

Neem voor meer informatie contact met ons op via info@surfsara.nl.

Laatste wijziging op 26 okt 2017