Portfolio datadiensten

SURFsara realiseert zich hoe belangrijk data voor onderzoekers zijn. Daarom hebben we een breed assortiment aan diensten ontwikkeld voor verschillende fasen in de levenscyclus van data. Daarbij gaat het niet alleen om het veilig opslaan van (grote hoeveelheden) data, maar ook om zaken als datamanagement, -replicatie, -behoud en -identificatie.

Complete dienstverlening

SURFsara biedt onderzoekers de volgende diensten op datagebied:

  • SURFdrive is een laagdrempelige online storagefaciliteit voor universiteiten en hogescholen. Deze dienst is bedoeld voor het opslaan en delen van onder meer office data en (op beperkte schaal) onderzoeksdata
  • BeeHub is bedoeld voor het opslaan en delen van wetenschappelijke data die nog verwerkt of geanalyseerd moeten worden. Daarbij kan het gaan om (zeer) grote hoeveelheden.
  • B2SAFE/Data replication maakt het mogelijk om data op een veilige manier op meerdere locaties op te slaan. Om duurzaam te kunnen vaststellen waar de data zich bevinden, wordt gewerkt met persistent identifiers.
  • Het Data Archive van SURFsara is de centrale locatie voor het archiveren en (langdurig) opslaan van data. Vanuit het archief hebt u snel toegang tot de rekenfaciliteiten van SURFsara.
  • Data Persistent Identifier (PID) zorgt ervoor dat uw data altijd vindbaar zijn en blijven. SURFsara biedt deze dienst aan samen met het European Persistent Identifier Consortium (EPIC).
  • Data Ingest is een service om de data van externe harde schijven over te brengen naar een van de storagesystemen van SURFsara.

Wanneer gebruikt u welke infrastructuur of dienst?

Veel onderzoekers vragen zich af welke dienst het meest geschikt is voor hun data. Die vraag is niet in het algemeen te beantwoorden. Onze adviseurs beginnen altijd met een advies op maat om te komen tot de meest geschikte oplossing voor uw vraag. Hieronder kunnen we wel een aantal overwegingen noemen die daarbij een rol spelen.

2 van de diensten nemen in dit verband een bijzondere positie in:

  • Data Persistent Identifier zorgt ervoor dat uw data vindbaar en refereerbaar zijn met behulp van persistent identifiers (PID’s). Deze dienst vormt een standaard onderdeel van B2SAFE. Maar ook als u uw data op een van de andere infrastructuren opslaat, kunt u gebruik maken van PID’s.
  • Data Ingest is een service om de data van externe harde schijven over te brengen naar een van de storagesystemen van SURFsara. De data kunt u vervolgens opslaan op een van de genoemde infrastructuren.

Voor het overige spelen de volgende overwegingen een rol:

1. Hoeveel data wilt u opslaan?

Niet elke dienst biedt onbeperkte opslagruimte. Een voorbeeld is SURFdrive, een dienst die vooral geschikt voor office data en kleinere hoeveelheden onderzoeksdata. Het gebruik voor deze service is gemaximeerd op 100 gigabyte. De andere diensten – met name BeeHub en het Data Archive – bieden de mogelijkheid om (zeer) grote datasets op te slaan. Daarbij groeit de opslagruimte mee met uw behoefte.

2. Wat wilt u met de data doen?

Dat is eigenlijk de belangrijkste vraag. Als het gaat om data die u actief wilt bewerken of analyseren, zijn BeeHub en SURFdrive de meest voor de hand liggende diensten. Deze diensten zijn ook geschikt om data te delen. Voor het archiveren en duurzaam opslaan van data is de Data Archive-dienst de beste oplossing. Zie ook het schema van de data lifecycle hieronder. SURFsara zorgt voor afstemming tussen de opslagdiensten en de rekendiensten.

Ook B2SAFE is geschikt voor onderzoeksprojecten waarbinnen onderzoekers data willen delen. Daarnaast maakt B2SAFE het mogelijk om data op een veilige manier op meerdere locaties op te slaan. Bovendien werkt B2SAFE, zoals hierboven is aangegeven, standaard met PID’s.

3. Hoe zijn de data beschikbaar?

Als laagdrempelige toegang belangrijk is, dan is SURFdrive de ideale omgeving voor het veilig opslaan en delen van bestanden. Medewerkers van instellingen die aangesloten zijn bij SURF kunnen eenvoudig inloggen via SURFconext. Ook BeeHub is eenvoudig toegankelijk. Om de data te bewerken (opslaan, verwijderen, verplaatsen naar andere folder) beschikken SURFdrive en BeeHub over een eenvoudig te bedienen webinterface.

Het Data Archive is toegankelijk via internet. Dit archief ondersteunt uiteenlopende protocollen voor datatransfer, zoals (HPN)SCP, SFTP, rsync en GridFTP. Deze protocollen werken zowel in een Linux- als in een Windows-omgeving.

Data lifecycle

Bij de keuze voor een bepaalde storage-infrastructuur gaat het niet alleen om de soort data of de hoeveelheid. Zeker zo belangrijk is de onderzoeksfase waarin de data zich bevinden. Het volgende schema laat dat zien:

Data life cycle

In dit schema staan de verschillende stadia die wetenschappelijke data meestal doorlopen. Data worden gecreëerd door wetenschappelijke instrumenten en vervolgens bewerkt en geanalyseerd in een van de computing infrastructuren. Vervolgens worden de data gearchiveerd of opgeslagen en gedeeld met andere onderzoekers. Daarna kunnen de data opnieuw gebruikt worden en kan de gehele cyclus opnieuw beginnen.

In dit schema is tevens aangegeven welke storage-infrastructuren in welk stadium ingezet kunnen worden:

  1. BeeHub en SURFdrive zijn infrastructuren voor data die actief gebruikt worden. Dat kan in verschillende stadia het geval zijn: bij de verwerking, de analyse en het delen van data.
  2. In de fase van databehoud is het centrale archief de belangrijkste infrastructuur. Ook de datareplicatie (B2SAFE) is in deze fase een veelgebruikte dienst.
  3. Data Persistent Identifier (PID’s) kan in verschillende stadia worden toegepast.

Samenwerking

SURFsara werkt nauw samen met organisaties in Nederland en Europa op het gebied van databeheer. De samenwerking is gericht op het ontwikkelen van nieuwe diensten en het uitwisselen van expertise. SURFsara werkt onder meer samen met Research Data Netherlands (RDNL) op het gebied van data-archivering. Met EUDAT, een Europees samenwerkingsproject, werkt SURFsara binnen Europa samen aan oplossingen voor opslag en beheer van onderzoeksdata het hoofd wil bieden. Tot slot biedt SURFsara samen met het European Persistent Identifier Consortium (EPIC) diensten op het gebied van data-identificatie aan. Bekijk de informatie over de samenwerkingen van SURFsara.

Advies en consultancy

Onze experts op het gebied van data-infrastructuur helpen u graag de storage-oplossing te kiezen die het beste aansluit bij uw onderzoeksproject. Neem contact met ons op via info@surfsara.nl.

Wilt u onafhankelijk advies over bijvoorbeeld het inrichten van uw data-infrastructuur of over het optimaal gebruik van de reken- en storagefaciliteiten van SURFsara? Dan kunt u terecht bij onze consultancydienst.