Eindeloze hoeveelheden data komen tegenwoordig beschikbaar. Maar hoe kun je ze veilig en vertrouwd verwerken, analyseren en (her)gebruiken? De projecten in dit Labs-thema onderzoeken deze aspecten.
Big data science driven technologies
Er komen steeds meer en steeds complexere data beschikbaar voor onderzoekers. Dit biedt ongekende mogelijkheden, maar de verwerking van deze groeiende hoeveelheid data is een uitdaging. In dit project verkennen we technieken om al die exabytes aan data te verwerken, analyseren en publiceren.
Waarom doen we dit project?
Exponentiële datagroei
Big data is een van grote aanjagers voor ict-innovatie. De complexiteit, diversiteit en hoeveelheid van data neemt in vrijwel alle onderzoeksdomeinen exponentieel toe. En we verwachten dat dit zal blijven toenemen. Met meer data kunnen onderzoekers nauwkeuriger onderzoek doen, maar ook geheel nieuwe onderzoekspaden verkennen. Denk aan het zoeken van naar nieuwe fundamentele deeltjes (bijvoorbeeld High-Luminosity LHC), het verkennen van het heelal (bijvoorbeeld Square Kilometer Array) en het onderzoek naar de leefbaarheid op aarde (bijvoorbeeld Destination Earth).
Exabytes aan data goed verwerken
Maar de groeiende hoeveelheid data stelt onderzoekers ook voor problemen. De komende jaren gaan individuele instrumenten exabytes (1 exabyte = 1 miljoen terabyte) per jaar aan hoogwaardige data produceren. Deze data moeten efficiënt verwerkt, geanalyseerd en gepubliceerd worden. SURF werkt samen met onderzoekers om dit voor big data mogelijk te maken via ict-innovatie.
Optimaliseren en accelereren
In dit meerjarige project werken wij aan 4 thema’s:
- Optimalisatie van de traditionele dataverwerkingsketen
- High-speed datalogistiek
- Acceleratoren en cutting-edge hardware-innovatie
- Oplossingen voor federatieve dataverwerking
Wat zijn de belangrijkste activiteiten?
Voor 2022 en 2023 staan de volgende activiteiten op het programma:
- Onderzoek naar high speed internationale gegevensoverdracht. We testen daarvoor data transfer nodes (DTN) die werken met een optische verbinding van 400 Gbit/s. DTN’s zijn servers die specifiek bedoeld voor het efficiënt verzenden en ontvangen van data over netwerken.
- Onderzoeken van SURF Research Access Management (SRAM) via een LDAP-koppeling en synchronisatie om veilige en gefedereerde platformen voor dataverwerking op te zetten.
- Onderzoek naar de toepassing van GPU’s, DPU’s (data processing units) en andere acceleratoren in een gevirtualiseerde en geoptimaliseerde cloudomgeving voor dataverwerking.
- Onderzoek naar nieuwe dataopslagtechnieken, data-transferprotocollen en clients.
- Onderzoek naar nieuwe algoritmes en technieken om sneller en nauwkeuriger tot resultaten te komen voor data-intensieve workflows, onder andere met machine learning en AI.
Met wie werken we samen?
We werken in dit project onder andere samen met NIKHEF, ASTRON en het Centrum voor Informatie Technologie (CIT) van de RUG. Ben je onderzoeker of ict-medewerker bij een bij SURF aangesloten instelling? Dan ben je van harte welkom om deel te nemen aan in dit project. Neem voor meer informatie contact op met Raymond Oonk, via raymond.oonk@surf.nl of kijk op servicedesk.surfsara.nl.