Big Data Services

Onderzoekers die big data willen analyseren en verwerken kunnen toegang krijgen tot een van de grootste Hadoop-clusters van Nederland. Zij kunnen gebruik maken van een aantal grote publieke datasets en meerdere frameworks, waaronder Apache Spark, Hive, Pig en HBase. Daarnaast is data-analyse met NoSQL mogelijk.

Big data analyseren

Big data is een benaming voor verzamelingen van gegevens die zo groot of complex zijn dat de gebruikelijke middelen voor beheer en bewerking niet meer voldoende zijn. Dergelijke dataverzamelingen vergen andere kennis en andere tools. SURFsara voorziet daar in met bijvoorbeeld Hadoop en NoSQL. Daarmee kunnen onderzoekers (on)gestructureerde en complexe data onderzoeken. Dat is bijvoorbeeld interessant voor onderzoekers die werkzaam zijn binnen taalwetenschappen, bio-informatica en sociale wetenschappen.

Hadoop

Hadoop is een veelbelovende oplossing voor de analyse van big data. Het is oorspronkelijk gebaseerd op het zogenoemde MapReduce framework dat ontwikkeld is door Google. Hadoop is eenvoudig te programmeren en biedt snel inzicht in (zeer) grote gestructureerde of ongestructureerde datasets. Het Hadoop-cluster bij SURFsara is een van de grootste in Nederland. Het bestaat (maart 2015) uit 170 nodes, 1.400 cores en 2 petabyte aan dataopslag. Gebruikers van het cluster krijgen ook toegang tot een aantal publiek beschikbare datasets. Voorbeelden zijn Wikipedia (Engels en Nederlands) en de CommonCrawl-dataset, een grote verzameling van internetpagina’s. Deze datasets zijn lokaal beschikbaar.

YARN resource management

In 2014 is SURFsara overgegaan op Hadoop 2.0 met de benaming YARN: Yet Another Resource Negotiator. Daarmee is het cluster nu geschikt voor meerdere frameworks, zoals Apache Spark, dat onder andere real time data-analyse en het gebruik van SQL mogelijk maakt. Andere frameworks zijn Pig (high level taal bovenop MapReduce), Hive (SQL op MapReduce) en Giraph (interactieve graafanalyses).

NoSQL

NoSQL is een verzamelnaam voor een nieuwe denkwijze over databases. ‘No’ staat niet voor 'geen', maar voor ‘not only’. Daarmee wordt bedoeld dat relationele databases niet overal geschikt voor zijn. NoSQL is vooral interessant voor onderzoekers die werken met grote hoeveelheden data waarvan de structuur niet vastligt en waarbij ook de onderzoeksvragen niet op voorhand duidelijk zijn. De NoSQL-dienst van SURFsara is maatwerk. We richten de dienst in op basis van de behoefte van de gebruiker. Neem voor meer informatie contact met ons op via info@surfsara.nl.

Support & consultancy

Als gebruiker kunt u een beroep doen op onze ondersteuning. We kunnen u bijvoorbeeld adviseren over de architectuur en de inzet van technologie. Ons team kan u helpen de dienst optimaal te gebruiken. Ook verzorgen we op aanvraag inleidende cursus over het gebruik van de big data-diensten.

Helpdesk

Onze helpdesk is bereikbaar per telefoon of e-mail, maar persoonlijk contact is ook mogelijk. U kunt uw vragen of problemen doorgeven via helpdesk@surfsara.nl of telefonisch op +31-208001400. De helpdesk is bereikbaar tijdens kantooruren (9.00–17.00 uur).

Wilt u specifiek advies over het optimaliseren van uw code voor een betere performance? Dan kunt u terecht bij onze consultancydienst.

Praktijkvoorbeelden

Meer informatie over onderzoek naar big data vindt u in de volgende voorbeelden uit de praktijk:

Contact

Meer (technische) informatie over het gebruik van de dienst vindt u onder de gebruiksinformatie. Neem voor verdere vragen contact met ons op via info@surfsara.nl.

Laatste wijziging op 06 jul 2015