Data Persistent Identifier: data altijd vindbaar door permanente verwijzingen

Persistent Identifiers (PID’s) zorgen ervoor dat jouw data altijd vindbaar blijven. PID’s kun je vergelijken met een ISBN-nummer bij boeken. Ook als de locatie of de onderliggende infrastructuur verandert, blijft de verwijzing intact. SURFsara biedt de PID-dienst aan samen met het European Persistent Identifier Consortium (EPIC).

Onderzoeker achter computer waarop onderzoeksdata te zien is

De data-explosie

In alle wetenschapsgebieden groeit de hoeveelheid opgeslagen data snel. Ook de verbanden tussen deze data worden steeds uitgebreider. Publicaties worden begeleid door geanalyseerde data, die zelf weer gebaseerd zijn op ruwe data. Data die bij een bepaalde publicatie horen, kunnen zijn ondergebracht in verschillende datacenters en vastgelegd zijn op verschillende media. Bovendien kunnen de opslaglocaties veranderen. Dit maakt het steeds lastiger om de data vindbaar en toegankelijk te houden. Terwijl juist die toegang steeds belangrijker is voor de reproduceerbaarheid van onderzoek en hergebruik van wetenschappelijke gegevens.

Persistent Identifiers: ISBN-nummers voor data

Om dit probleem op te lossen, is een codering voor data ontwikkeld: Persistent Identifiers (PID’s). Deze PID’s zijn te vergelijken met ISBN-nummers die worden toegepast voor boeken. Net als ISBN-nummers permanente en citeerbare verwijzingen naar boeken bevatten, zijn PID’s dat voor data. PID’s zorgen ervoor dat we data kunnen terugvinden en dat we ernaar kunnen verwijzen. Een van de belangrijkste functies van een PID is dat deze een vaste verwijzing vormt naar de onderliggende data – waar die zich ook bevinden. Een onderzoeker die een PID raadpleegt moet er zeker van zijn dat hij of zij de onderliggende data terugvindt. Dat geldt ook als de opslaglocatie of de fysieke vorm is gewijzigd.

Hoe werkt het?

Wij bieden je de mogelijkheid om je dataverzamelingen te registreren en toegankelijk te maken met behulp van PID's. Dat werkt als volgt:

  • We gebruiken de handle-software van de Corporation for National Research Initiatives (CNRI) als onderliggende structuur. Deze handle-software gebruikt een softwaremodel dat op Domain Name System (DNS) lijkt. Met een verwijzing in de top wordt bepaald waar alle PID’s staan.
  • PID’s bestaan uit een prefix en een suffix. De prefix, het eerste deel van de code, kun je bij ons aanvragen via helpdesk@surfsara.nl. De prefix is eigendom van de aanvrager. Alleen als aanvrager kun je PID’s toevoegen die met de eigen prefix beginnen. Onder één prefix kun je werken met zoveel unieke suffixen als je wil.
  • We treden op als host van de PID’s. De PID’s worden zowel intern bij SURFsara als extern binnen de context van het EPIC-consortium gerepliceerd. 
  • Op basis van een prefix kan je PID’s creëren, aanpassen, zoeken en verwijderen. Dat gaat via een HTTPS-gebaseerde RESTful interface API. 
  • Op basis van een PID de locatie van de data bepalen of het data-object zelf opvragen, kan met een zogenoemde PID-resolver-applicatie. De resolver is toegankelijk via een HTTP-interface. Dit maakt het mogelijk om een browser of curl te gebruiken om PID’s te resolven via http://hdl.handle.net. De PID-resolver gebruikt altijd 1 van de 3 identieke PID’s.
Praktijkvoorbeeld

De PID-dienst is vooral zinvol bij onderzoeksprojecten met omvangrijke dataverzamelingen waarvan door meerdere partijen gebruik wordt gemaakt. Een voorbeeld uit de praktijk is het seismologisch onderzoek van KNMI/ORFEUS.

Zelf doen of via SURFsara

Een systeembeheerder bij jouw instelling kan zelf de PID’s aanmaken en bewerken die bij jouw dataproject behoren. Daarvoor is wel enige programmeerkennis vereist. Je kunt ook ons vragen om de PID’s aan te maken, maar dat kunnen we alleen doen als de data ook op de systemen van SURFsara staan, zoals ons Data Archive. We hebben immers geen controle over de data op systemen van anderen.

Als klant blijf je zelf verantwoordelijk voor de integriteit van de PID’s en de bijbehorende data-objecten. Die verantwoordelijkheid komt vooral tot uiting als je data worden verplaatst. In dat geval moet de datamanager er zelf voor zorgen dat de PID-verwijzing naar de locatie gewijzigd wordt.

Support & consultancy

Als je gebruik maakt van PID’s kan je een beroep doen op onze ondersteuning. We kunnen je bijvoorbeeld helpen bij het aanmaken van PID’s en adviseren hoe je jouw data zo goed mogelijk vindbaar maakt. Om te bepalen welk PID-systeem het meest geschikt is voor jouw situatie, kun je de PID-wijzer van het Netwerk Digitaal Erfgoed gebruiken. 

Onze helpdesk is bereikbaar per telefoon of e-mail, maar persoonlijk contact is ook mogelijk. Geef je vragen door per mail of telefonisch op +3120 800 14 00. Onze helpdesk is bereikbaar tijdens kantooruren (9.00–17.00 uur).

Wil je onafhankelijk advies over bijvoorbeeld het inrichten van jouw data-infrastructuur of over het optimaal gebruik van de reken- en storagefaciliteiten van SURF? Neem dan contact op met onze consultancydienst.

Contact

Neem voor meer informatie contact met ons op via info@surfsara.nl.

Aanvullende diensten

Consultancy

Onze adviseurs geven je graag advies over het verbeteren van je performance op Cartesius. Zij kunnen je bijvoorbeeld helpen met het optimaliseren van je applicaties en het parallelliseren van je software voor een snellere verwerking. Afhankelijk van de omvang en de complexiteit van je vraag kunnen onze consultants je een voorstel op maat doen.

Onderzoeksdata opslaan

Cartesius is verbonden met ons Data Archive. Dit archief biedt je uitgebreide mogelijkheden om je onderzoeksdata veilig en langdurig op te slaan. Je kunt Persistent Identifiers toewijzen aan de hier opgeslagen data.