Grid: voor het verwerken en opslaan van omvangrijke datasets

Wil je grootschalige data verwerken en opslaan? Dan is het Grid misschien geschikt voor jouw project. De grid-infrastructuur bestaat uit een groot aantal clusters voor rekenen en dataopslag, die onderling via een snel netwerk verbonden zijn.

Onderzoeker achter scherm

Voor welk onderzoek gebruik je het Grid?

Je kan de Grid-systemen (of een deel ervan) inzetten voor het parallel verwerken van grootschalige datasets in zeer korte tijd. Ook kan je specifiek voor jouw eigen onderzoeksgemeenschap een productieplatform bouwen dat geautomatiseerde data-analyse en -distributie voor onderzoekers verzorgt. Een aantal veeleisende onderzoeksprojecten hebben hun eigen dataverwerkingsfaciliteit bovenop onze Grid-infrastructuur ingericht, zoals:

  • de deeltjesversneller van CERN: Large Hadron Collider
  • zwaartekrachtgolfdetectoren: LIGO-Virgo 
  • grootschalige DNA-analyses: BBMRI, Project MinE
  • donkerematerie-experimenten: Xenon1T
  • instrument voor analyse van de aardatmosfeer vanuit de ruimte: Tropomi
Nobelprijswinnend onderzoek naar zwaartekrachtgolven maakt gebruik van het Grid

Wat is het Grid?

Het Grid bestaat uit een groot aantal clusters voor rekenen en dataopslag, die onderling via een snel netwerk verbonden zijn. Deze clusters staan in datacentra over de hele wereld. Het Nederlandse deel van het Grid is op zichzelf geschikt voor Nederlandse projecten die veel data willen verwerken. Daarnaast zijn we aangesloten bij nationale grid-initiatieven van andere landen.  Deze zijn gebundeld in EGI, het European Grid Initiative. EGI biedt onder meer een centrale helpdesk en bewaakt de homogeniteit van de deelnemende aanbieders. Dit maakt het Grid geschikt voor de allergrootste internationale projecten om als één gedistribueerd systeem te gebruiken. SURFsara biedt de nationale Grid-infrastructuur aan in samenwerking met Nikhef.

Ondersteuning op maat

Wij hebben uitgebreide ervaring in het ondersteunen van projecten waarbij veel dataverwerking komt kijken. Afgezien van aspecten die specifiek te maken hebben met het gebruik van grootschalige infrastructuur, komt de complexiteit van dergelijke projecten vooral voort uit projectspecifieke scenario's en de omvang van het probleem. Vanuit onze brede ervaring met dergelijke scenario’s bieden wij hulp op maat bij het opbouwen van toegewijde productieplatforms voor data-analyse en -uitwisseling voor jouw eigen gebruikersgemeenschap.

Praktijkvoorbeelden

De kracht van het Grid komt vooral tot uiting bij het verwerken van zeer omvangrijke datasets. In de volgende praktijkvoorbeelden lees je hoe dat in zijn werk gaat:

Aanvullende diensten

Onderzoeksdata opslaan

Het Grid, de HPC Cloud dienst en Data Ingest-dienst zijn verbonden met het centrale archief van SURFsara. Dit archief bied je uitgebreide mogelijkheden om je onderzoeksdata op te slaan. Verder kun je de PID-dienst (Persistent Identifiers) gebruiken op data die opgeslagen staan op SURFsara-opslagdiensten, zoals Data Archive. Wil je je data veilig en langdurig opslaan? Maak dan gebruik van onze Data Archive-dienst. 

Visualisatie: resultaten direct inzichtelijk

Wil je inzicht in grote hoeveelheden data krijgen door het visueel weer te geven? Werk je met berekeningen die grote hoeveelheden data opleveren? Maak dan gebruik van onze visualisatietechnieken en –ondersteuning. Onze dienst Visualisatie helpt je om de resultaten van je berekeningen beter te interpreteren.

Snel data verplaatsen met SURFlichtpaden

Wil je een snelle en betrouwbare verbinding naar andere instelling, een datacentrum of dienstaanbieder? Met een eigen lichtpad van onze dienst SURFlichtpaden, plaats je met zeer snel data over van en naar het Grid. Een lichtpad is een directe van het internet afgeschermde verbinding. Ook kun je hiermee je eigen netwerk verbinden met de HPC Cloud. Je beschikt dan over een veilige privéverbinding, die garant staat voor een zeer snelle overdracht van gegevens. Dit is extra veilig, betrouwbaar en uitermate geschikt om bijvoorbeeld privacygevoelige informatie te transporteren.

De grootste uitdaging bij deze lichtpaden is om ze weerszijden aan te sluiten op de systemen. Wij helpen je bij het maken van de verbinding tussen het eindpunt van een lichtpad en je databronnen. Je krijgt advies op maat.

Consultancy: onafhankelijk advies

Onze consultancy ondersteuning is breed. Van onafhankelijk advies tot ondersteuning vanaf het moment van analyse tot en met uitvoering. Ook op het gebied van big data.

Onafhankelijk advies van Onze consultants is mogelijk overhelpen je met advies over:

  • toegang tot de grid-infrastructuur
  • jobs indienen
  • hoe je ervoor zorgt dat Cartesius nog betere prestaties levert
  • methoden om je data te benaderen
  • het ontwerp en optimalisatie van je eigen software
  • de exacte inrichting van je systeem voor dataopslag
  • hoe je je data-infrastructuur inricht
  • hoe je optimaal gebruikmaakt van de reken- en storagefaciliteiten van SURFsara

Verder ondersteunen onze consultants je vanaf de eerste probleemanalyse tot de uiteindelijke invoering ondersteuning bij:

  • Je integratie van je virtuele infrastructuur in je werkprocessen. Afhankelijk van de omvang en de complexiteit van je vraag krijg je een voorstel op maat.
  • het optimaliseren van applicaties
  • het parallelliseren van je software voor een snellere verwerking

Ook op het gebied van big data services bieden we je veel mogelijkheden. Denk aan opleiding en training, maar ook aan advies over de architectuur en de inzet van technologie. Je software passen we aan voor optimaal gebruik van bijvoorbeeld Hadoop. Neem voor meer informatie contact op met onze consultancydienst.

Technische specificaties

Dit zijn de specificaties van het Nederlandse gridcluster bij SURFsara in januari 2019. Hoewel dit cluster maar een van de vele clusters van de griddienst is, geeft het wel een idee van de kwaliteit en de capaciteit van onze gridfaciliteiten.

Gridrekenfaciliteit
Besturingssysteem  Linux CentOS 7.x 64bit
Totaal aantal cores

10.000 in NL (nieuwste Intel CPU’s), meer dan 650.000 cores toegankelijk wereldwijd

Totale geheugenruimte (RAM) Tot 8GB per core, 320GB per node
Totale tijdelijke geheugenruimte (scratch) Tot 200GB per core, 12TB per node
Netwerk backbone 160Gbit/s Ethernet verbinding naar de Grid-opslagfaciliteit
Gridopslagfaciliteit
Opslagcapaciteit op disk in totaal 10.000 TB
Opslag op tape 41.000 TB aan opgeslagen data (2018)

Hebt je vragen over de technische specificaties? Neem dan contact op met helpdesk@surfsara.nl. Meer (technische) informatie over het gebruik van de Grid-dienst vind je onder de gebruikersinformatie van het Grid.

Meer weten over de mogelijkheden?

Neem contact met ons op

Dit is een optionele SURF-dienst.