Portfolio datadiensten

SURFsara realiseert zich hoe belangrijk data voor onderzoekers zijn. Daarom hebben we een breed assortiment aan diensten ontwikkeld voor verschillende fasen in de levenscyclus van data. Daarbij gaat het niet alleen om het veilig opslaan van (grote hoeveelheden) data, maar ook om zaken als datamanagement, -replicatie, -behoud en -identificatie.

Complete dienstverlening

SURFsara biedt onderzoekers de volgende diensten op datagebied:

  • SURFdrive is een laagdrempelige online storagefaciliteit voor universiteiten en hogescholen. Deze dienst is bedoeld voor het opslaan en delen van onder meer office data en (op beperkte schaal) onderzoeksdata
  • BeeHub is bedoeld voor het opslaan en delen van wetenschappelijke data die nog verwerkt of geanalyseerd moeten worden. Daarbij kan het gaan om (zeer) grote hoeveelheden.
  • B2SAFE/Data replication maakt het mogelijk om data op een veilige manier op meerdere locaties op te slaan. Om duurzaam te kunnen vaststellen waar de data zich bevinden, wordt gewerkt met persistent identifiers.
  • Het Data Archive van SURFsara is de centrale locatie voor het archiveren en (langdurig) opslaan van data. Vanuit het archief heb je snel toegang tot de rekenfaciliteiten van SURFsara.
  • Data Persistent Identifier (PID) zorgt ervoor dat jouw data altijd vindbaar zijn en blijven. SURFsara biedt deze dienst aan samen met het European Persistent Identifier Consortium (EPIC).
  • Data Ingest is een service om de data van externe harde schijven over te brengen naar een van de storagesystemen van SURFsara.
  • Jupyter Notebook maakt het makkelijker om data-analyses inzichtelijk te maken, op te slaan, te delen en te reproduceren. 

Wanneer gebruik je welke infrastructuur of dienst?

Veel onderzoekers vragen zich af welke dienst het meest geschikt is voor hun data. Die vraag is niet in het algemeen te beantwoorden. Onze adviseurs beginnen altijd met een advies op maat om te komen tot de meest geschikte oplossing voor jouw vraag. Hieronder noemen we een aantal overwegingen die daarbij een rol spelen.

Twee van de diensten nemen in dit verband een bijzondere positie in:

  • Data Persistent Identifier zorgt ervoor dat jouw data vindbaar en refereerbaar zijn met behulp van persistent identifiers (PID’s). Deze dienst vormt een standaard onderdeel van B2SAFE. Maar ook als je jouw data op een van de andere infrastructuren opslaat, kan je gebruik maken van PID’s.
  • Data Ingest is een service om de data van externe harde schijven over te brengen naar een van de storagesystemen van SURFsara. De data kan je vervolgens opslaan op een van de genoemde infrastructuren.

Voor het overige spelen de volgende overwegingen een rol:

1. Hoeveel data wil je opslaan?

Niet elke dienst biedt onbeperkte opslagruimte. Een voorbeeld is SURFdrive, een dienst die vooral geschikt is voor office data en kleinere hoeveelheden onderzoeksdata. Het gebruik voor deze service is gemaximeerd op 100 gigabyte. De andere diensten – met name BeeHub en het Data Archive – bieden de mogelijkheid om (zeer) grote datasets op te slaan. Daarbij groeit de opslagruimte mee met jouw behoefte.

2. Wat wil je met de data doen?

Dat is eigenlijk de belangrijkste vraag. Als het gaat om data die je actief wil bewerken of analyseren, zijn BeeHub en SURFdrive de meest voor de hand liggende diensten. Deze diensten zijn ook geschikt om data te delen. Voor het archiveren en duurzaam opslaan van data is de Data Archive-dienst de beste oplossing. Zie ook het schema van de data lifecycle hieronder. SURFsara zorgt voor afstemming tussen de opslagdiensten en de rekendiensten.

Ook B2SAFE is geschikt voor onderzoeksprojecten waarbinnen onderzoekers data willen delen. Daarnaast maakt B2SAFE het mogelijk om data op een veilige manier op meerdere locaties op te slaan. Bovendien werkt B2SAFE, zoals hierboven is aangegeven, standaard met PID’s.

3. Hoe zijn de data beschikbaar?

Als laagdrempelige toegang belangrijk is, dan is SURFdrive de ideale omgeving voor het veilig opslaan en delen van bestanden. Medewerkers van instellingen die aangesloten zijn bij SURF kunnen eenvoudig inloggen via SURFconext. Ook BeeHub is eenvoudig toegankelijk. Om de data te bewerken (opslaan, verwijderen, verplaatsen naar andere folder) beschikken SURFdrive en BeeHub over een eenvoudig te bedienen webinterface.

Het Data Archive is toegankelijk via internet. Dit archief ondersteunt uiteenlopende protocollen voor datatransfer, zoals (HPN)SCP, SFTP, rsync en GridFTP. Deze protocollen werken zowel in een Linux- als in een Windows-omgeving.

Data lifecycle

Bij de keuze voor een bepaalde storage-infrastructuur gaat het niet alleen om de soort data of de hoeveelheid. Zeker zo belangrijk is de onderzoeksfase waarin de data zich bevinden. Het volgende schema laat dat zien:

Data life cycle

In dit schema staan de verschillende stadia die wetenschappelijke data meestal doorlopen. Data worden gecreëerd door wetenschappelijke instrumenten en vervolgens bewerkt en geanalyseerd in een van de computing-infrastructuren. Vervolgens worden de data gearchiveerd of opgeslagen en gedeeld met andere onderzoekers. Daarna kunnen de data opnieuw gebruikt worden en kan de gehele cyclus opnieuw beginnen.

In dit schema is tevens aangegeven welke storage-infrastructuren in welk stadium ingezet kunnen worden:

  1. BeeHub en SURFdrive zijn infrastructuren voor data die actief gebruikt worden. Dat kan in verschillende stadia het geval zijn: bij de verwerking, de analyse en het delen van data.
  2. In de fase van databehoud is het centrale archief de belangrijkste infrastructuur. Ook de datareplicatie (B2SAFE) is in deze fase een veelgebruikte dienst.
  3. Data Persistent Identifier (PID) kan in verschillende stadia worden toegepast.

Samenwerking

SURFsara werkt nauw samen met organisaties in Nederland en Europa op het gebied van databeheer. De samenwerking is gericht op het ontwikkelen van nieuwe diensten en het uitwisselen van expertise. SURFsara werkt onder meer samen met Research Data Netherlands (RDNL) op het gebied van data-archivering. Met EUDAT, een Europees samenwerkingsproject, werken wij in Europees verband samen aan oplossingen voor opslag en beheer van onderzoeksdata. Tot slot biedt SURFsara samen met het European Persistent Identifier Consortium (EPIC) diensten aan op het gebied van data-identificatie.

Advies en consultancy

Onze experts op het gebied van data-infrastructuur helpen je graag de storage-oplossing te kiezen die het beste aansluit bij jouw onderzoeksproject. Neem contact met ons op via info@surfsara.nl.

Wil je onafhankelijk advies over bijvoorbeeld het inrichten van je data-infrastructuur of over het optimaal gebruik van de reken- en storagefaciliteiten van SURFsara? Dan kan je terecht bij onze consultancydienst.