Praktijkvoorbeeld: de puzzel van plantengenomen

Hoogwaardige genoomassemblages van planten zijn belangrijk om inzicht te krijgen in plantontwikkeling, ziekteresistentie en gewasverbetering. Maar plantengenomen zijn notoir moeilijk te assembleren. Een nieuwe aanpak vermindert de complexiteit van het proces door fouten weg te werken en efficiënter gebruik te maken van data.

Chickpeas

Een miljard kleine fragmenten

Bij genoomassemblage neem je een groot aantal relatief korte DNA-reeksen, fragmenten van maximaal 100.000 letters, en knoop je ze in een computer weer aan elkaar. Dit resulteert in een weergave van de originele set chromosomen (het genoom). Bij sommige planten gaat het om een miljard kleine fragmenten (reads). Dit vereist dus veel rekenkracht.

Legpuzzel

Maar plantengenomen zijn moeilijk samen te stellen, om diverse redenen. "Plantgenen hebben vaak meerdere kopieën van een chromosoom", legt bio-informaticus Sven Warris (Wageningen University and Research) uit. "Ze bevatten ook veel repetitieve fragmenten. Voor software is het erg moeilijk om er achter te komen wat bij elkaar hoort. Je kunt het vergelijken met een legpuzzel met veel stukjes blauwe lucht die allemaal maar weinig van elkaar verschillen. Hoe kleiner de stukken, hoe complexer het is om de puzzel samen te stellen. Last but not least, kunnen plantengenomen erg groot zijn en zijn ze veel complexer dan een menselijk genoom."

"Plantgenen hebben vaak meerdere kopieën van een chromosoom. Voor software is het erg moeilijk om er achter te komen wat bij elkaar hoort."

Hoogwaardig DNA

Voor veel genoomprojecten, die gericht zijn op het bepalen van de volledige genetische informatie van een organisme (b.v. plant of dier), is het belangrijk om de PacBio of Nanopore sequencingtechnologieën te kunnen gebruiken. "Deze platforms produceren zeer lange DNA-reads en zijn daarom nuttig bij het maken van de novo assemblages van hoge kwaliteit. De novo betekent: zonder dat je een referentiegenoom hebt - zoals een legpuzzel zonder de doos met de afbeelding erop. Deze sequencingplatforms vereisen echter ook hoge kwaliteit DNA in grote hoeveelheden als invoer. Dit is niet altijd beschikbaar. Het DNA kan in het lab worden geamplificeerd, maar dit proces introduceert zogenaamde chimere fragmenten (stukjes die niet bij elkaar horen kleven aan elkaar vast), wat de analyse van de gegevens bemoeilijkt. "

"Met deze nieuwe aanpak kunnen we de kunstmatige chimere fragmenten identificeren en scheiden, dus we hoeven geen informatie meer weg te gooien."

Nieuwe aanpak

Warris ontwikkelde samen met een internationale groep onderzoekers een nieuwe aanpak die de complexiteit van het assemblageproces van het genoom vermindert. Het stelt hen in staat een enkel chromosoom te selecteren, het DNA te amplificeren en het te sequensen op bijvoorbeeld het PacBio-sequelplatform. De tool die ze hiervoor hebben ontwikkeld, Pacasus, maakt het mogelijk om materiaal met een lage kwaliteit te gebruiken om de novo assemblages van hoge kwaliteit te maken. "De novo assemblagetools hebben moeite om de kunstmatige chimere fragmenten te identificeren. Met deze nieuwe aanpak kunnen we deze stukken identificeren en scheiden, dus we hoeven geen informatie meer weg te gooien. "

GPU's op HPC Cloud

Pacasus werkt het meest efficiënt met GPU-technologie (Graphics Processing Units). "Binnen dit project hebben we gebruik gemaakt van de HPC Cloud-service van SURFsara. Die biedt een flexibele infrastructuur voor onderzoeksdoeleinden en biedt tegelijkertijd toegang tot High Performance Computing infrastructuur, in dit geval GPU's." Rekenintensieve delen van de applicatie worden overgeheveld naar de GPU, terwijl de rest van de code nog steeds op de CPU (processor) draait. GPU's hebben een enorme parallelle architectuur die bestaat uit duizenden kleinere, efficiëntere cores, die meerdere taken tegelijk kunnen verwerken. Als de code van de wetenschappelijke applicatie is geoptimaliseerd om te profiteren van GPU's, zal deze veel sneller werken.

"Binnen dit project hebben we gebruikgemaakt van de HPC Cloud-service van SURFsara. Die biedt een flexibele infrastructuur voor onderzoeksdoeleinden en biedt tegelijkertijd toegang tot High Performance Computing infrastructuur, in dit geval GPU's."

Flexibele omgeving

Warris wilde een flexibele omgeving opzetten met toegang tot GPU's en tegelijkertijd gegevens gemakkelijk kunnen delen tussen de computerinfrastructuren. Een (virtueel) cluster van virtuele machines (VM's) werd opgezet in de HPC Cloud met directe toegang tot GPU-hardware voor de performance. Het cluster kon beschikken over een gedeelde netwerkopslag van 2 terabytes. De distributie van Pacasus-taken op het cluster werd beheerd door HTCondor, een workload-managementsysteem voor rekenintensieve taken. "Op het moment van piekgebruik hadden we 9 GPU's aangesloten op 5 VM's, inclusief toegang tot een high-end node (knooppunt) met de nieuwste NVIDIA Tesla P100-versnellers."

Meer informatie