Best practice: Plant Research International puzzelt met het Hadoopcluster

Hoe breng je een genoom in kaart van een plant waarvan je geen referentie hebt? Die puzzel probeert men op te lossen bij Plant Research International aan de Wageningen University & Research Centre. De benodigde berekeningen doen een groot beroep op het werkgeheugen. Het Hadoopcluster maakt een alternatieve manier van rekenen mogelijk.

Een onderzoeker met een reageerbuis die een test uitvoert

Landbouwgewassen

Sven Warris is als post-doc researcher werkzaam bij Plant Research International. Een van de onderwerpen waarmee hij zich bezighoudt is het bouwen van nieuwe genomen, waarbij de nadruk ligt op genomen van landbouwgewassen. Kennis van het genoom kan onder meer helpen om planten resistent te maken tegen ziektekiemen. “Van sommige planten, zoals aardappel en tomaat, is het genoom aardig bekend”, zegt Warris. “Maar van andere planten weten we weinig tot niets, we moeten dan eigenlijk vanaf nul beginnen. Dat noemen we de novo assembly, waarbij we het genoom volledig reconstrueren. We zijn nu bijvoorbeeld bezig met meloen en ui. We kijken niet alleen naar de plantgenomen, maar ook naar de genomen van ziekteverwekkers en -bestrijders: bacteriën, schimmels, insecten.”

“Van sommige planten, zoals aardappel en tomaat, is het genoom aardig bekend, maar van andere planten weten we weinig tot niets. We moeten dan eigenlijk vanaf nul beginnen."

Sequencing

Het DNA wordt in kaart gebracht met behulp van sequencing. Daarbij wordt het DNA verdeeld in stukjes, die vervolgens ‘gelezen’ kunnen worden. In Wageningen beschikken de onderzoekers over verschillende platforms die ze kunnen inzetten. Warris: “De meer traditionele methoden leveren veel data van kleine stukjes DNA op, maar hoe kleiner de stukjes, hoe ingewikkelder de puzzel. We zijn dus op zoek naar sequencing-technieken die op grotere schaal het genoom in kaart kunnen brengen; zo werken we nu met optical mapping.” Die grotere eenheden zijn ook belangrijk omdat rekenen aan een plantengenoom veel complexer is dan rekenen aan het humane genoom, aldus Warris: “In het menselijke genoom heb je 2 kopieën van het chromosoom, bij planten heb je soms wel 8 kopieën die behoorlijk van elkaar verschillen.”

Hadoop

Voor de berekeningen maakt Warris gebruik van het Hadoop-cluster bij SURFsara. “Een van de problemen met de novo assembly is de hoeveelheid werkgeheugen die je nodig hebt”, zegt Warris. “Wij gebruiken een computer met een werkgeheugen van 2 terabyte, maar daarmee lopen we wel tegen onze grenzen aan. Bovendien gaat het om zeer dure hardware. Met Hadoop werken we op een andere manier, we maken daarbij gebruik van gedistribueerd geheugen dat heel snel benaderd kan worden. Het netto effect is dat je veel meer relatief goedkope rekencapaciteit tot je beschikking hebt. Maar daarvoor moet de software wel worden aangepast. We hebben in de eerste plaats gekeken of Hadoop een toegevoegde waarde biedt voor het soort problemen waarmee wij te maken hebben.” In de afgelopen periode is gebleken dat de bestaande software vooral geschikt is voor de analyse van relatief kleine eenheden DNA (voor de kenners: de HiSeq- en MiSeq-platforms). Maar voor analyse van de langere eenheden die nodig zijn bij de novo assembly moet de software worden aangepast. Daar zit nog veel ontwikkelwerk in.

"We hebben binnen de bio-informatica veel kortlopende projecten en daar is SURFsara nu goed op ingespeeld. Hun adviseurs denken met je mee en geven je alle ruimte om te experimenteren."

Samenwerking

Bij zijn onderzoek heeft Warris nauw samengewerkt met SURFsara: “Dat verloopt goed. Ik merk dat ze steeds toegankelijker worden voor onderzoekers die andere rekentaken vragen dan ze bijvoorbeeld bij natuurkunde en astronomie gewend zijn. We hebben binnen de bio-informatica veel kortlopende projecten en daar is SURFsara nu goed op ingespeeld. Hun adviseurs denken met je mee en geven je alle ruimte om te experimenteren."