Case study: Omvangrijke datasets geven inzicht in psychiatrische aandoeningen

Bij het ontstaan van psychiatrische aandoeningen als depressie, schizofrenie en autisme zijn genetische varianten van belang. Om die in kaart te brengen zijn omvangrijke datasets en veel rekenkracht nodig. Prof. dr. Danielle Posthuma en haar onderzoeksgroep maken daarvoor intensief gebruik van high-performance computing (HPC).

Benut de kracht van HPC

Speld in een hooiberg

Posthuma is hoogleraar psychiatrische genetica aan de Vrije Universiteit Amsterdam. Samen met haar onderzoeksteam doet zij onderzoek naar de genetische varianten die van belang zijn bij het ontstaan van psychiatrische aandoeningen. Dat lijkt op zoeken naar een speld in een hooiberg, aangezien bij een enkele aandoening duizenden varianten betrokken kunnen zijn. Het in kaart brengen daarvan vraagt dan ook om grote datasets en veel rekenkracht.

Wereldwijd consortium

Posthuma werkt samen in een consortium van onderzoeksinstituten, het Psychiatric Genomics Consortium (PGC). Daarin werkt een groot aantal onderzoekers op het gebied van psychiatrische aandoeningen van over de gehele wereld samen. “Elk van die onderzoekers heeft een relatief kleine dataset, bijvoorbeeld 1.000 patiënten”, zegt Posthuma. “Zo’n dataset op zich is te weinig voor een publicatie, maar als je ze combineert heb je de beschikking over 70.000 patiënten en 100.000 controles (gezonde personen).”

“Elke onderzoeker heeft een relatief kleine dataset, bijvoorbeeld 1.000 patiënten. Zo’n dataset op zich is te weinig voor een publicatie, maar als je ze combineert heb je de beschikking over 70.000 patiënten en 100.000 gezonde controlepersonen.”

Federatief of centraal

Veel onderzoekers die internationaal samenwerken kiezen voor een federatieve opzet, waarbij zij de data zelf beheren en verwerken op lokale faciliteiten. Posthuma heeft gekozen voor één centrale locatie waar de data zijn opgeslagen: SURF. Waarom? “Wij willen zelf alle data in handen hebben, zodat er één iemand is die de data altijd op dezelfde manier opschoont en analyseert. Je kunt wel samenwerken met andere instituten volgens eenzelfde protocol, maar het nadeel is dan dat elk instituut dat protocol op zijn eigen manier interpreteert. Bovendien kun je additionele analyses doen als je de data zelf in handen hebt.”

Delen van data

Onderzoekers die data hebben ingebracht, kunnen ook data van andere partijen gebruiken. “Daar hebben we een procedure voor opgezet, want voor sommige data heb je aparte toestemming nodig”, vertelt Posthuma. “Aan het delen van ruwe data zijn allerlei privacyaspecten verbonden. Daarom is het een uitkomst dat de data worden gehost bij een neutrale instantie, SURF, die voldoet aan alle privacy- en securityeisen. We hanteren een web-based procedure die controleert of alle permissies in orde zijn.”

“We werken al meer dan 10 jaar samen. De helpdesk is echt fantastisch, altijd bereid om te helpen, soms krijgen we zelfs ongevraagd advies als een job niet helemaal effectief draait."

Rekenkracht

Voor de analyses is veel rekencapaciteit nodig. Hoewel de rekenkracht van SURF voortdurend wordt uitgebreid, groeide de behoefte aan rekenkracht enkele jaren geleden nog sneller, aldus Posthuma: “We hebben een toen met z’n allen wat geld in de pot gestopt en daarvan een terabyteserver aangekocht, die toegevoegd is aan het rekencluster. Daarnaast hebben we geïnvesteerd in een high-memory node. Die investeringen zijn nodig om de omvangrijke datasets in het geheugen te kunnen laden en te analyseren.”

Samenwerking

Hoewel de onderzoekers soms klagen over lange wachttijden, is Posthuma zeer te spreken over de samenwerking met SURF: “We werken al meer dan 10 jaar samen. De helpdesk is echt fantastisch, altijd bereid om te helpen, soms krijgen we zelfs ongevraagd advies als een job niet helemaal effectief draait. Ook als ik andere wensen heb, bijvoorbeeld een high-memory node, gaat dat altijd in goed overleg. Daar zijn we heel blij mee.”