Forskere fra tre universiteter udfører banebrydende genomforskning med Computerome

Et samarbejde mellem forskere fra Danmarks Tekniske Universitet, Københavns Universitet og Aarhus Universitet har kortlagt 150 danskeres genomer ved hjælp af supercomputeren Computerome.
Bent Petersen
"Computerome var en afgørende faktor for, at det lykkedes os at danne et referencegenom, der er blandt de mest detaljerede i verden," siger lektor Bent Petersen, DTU Bioinformatik.

En artikel i det ansete videnskabelige tidsskrift Nature er seneste resultat af forskningsprojektet Genome Denmark, der begyndte i 2012. Formålet var at opbygge et referencegenom over danskernes arvemasse.

Artiklen "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference" beskriver arbejdet med at analysere data fra 150 danskere fordelt i 50 grupper, der hver bestod af en far, en mor og et barn.

Der findes i forvejen et generelt referencegenom for mennesker, der er udviklet i USA under Human Genome Project. Det regnes for det mest komplette genom.

Genomet fra det danske projekt har den næsthøjeste kvalitet på verdensplan. Det hænger sammen med, at det er udført ved en kombination af såkaldt de novo assembly og en stor dybde af data.

Uden skabelon

Kortlægningen af et genom tager ofte udgangspunkt i et eksisterende genom, der bliver brugt som skabelon. Forskerne finder de steder i det kendte genom, hvor bestemte elementer hører til. Her placerer de elementerne fra det nye genom.

Det kan sammenlignes med et puslespil, som man lægger ud fra billedet på æsken. Men den metode har den ulempe, at man kan overse hidtil ukendte kombinationer. Hvis de ikke har noget sted at blive hæftet på referencegenomet, bliver de kasseret som støj.

"Med de novo assembly har vi ikke et billede af puslespillet på forhånd. Det gør beregningsopgaven mere kompliceret, så den tager længere tid. Men til gengæld får vi et mere præcist billede af de enkelte individer," fortæller lektor Bent Petersen, DTU Bioinformatik.

Han har gennemført alle assembly-beregningerne på Computerome. Det var de første opgaver, der kørte på Computerome, så projektet var også med til at køre computeren ind og optimere opsætningen.

Siden har forskere fra Københavns Universitet og Aarhus Universitet anvendt Computerome til at behandle dataene. De har blandt andet brugt den til at sammenligne genomerne med andre genomer for at finde forskelle mellem dem.

Platform for samarbejde

"Computerome giver forskere fra flere universiteter mulighed for at arbejde på den samme platform samtidig. Vi logger ind fra hver vores placering og har adgang til de samme data i en fælles mappe. Så teknologien er med til at muliggøre samarbejdet mellem universiteterne," siger Bent Petersen.

Han mener, at Computerome spillede en afgørende rolle for, at det lykkedes at danne et dansk referencegenom i så høj kvalitet.

"Den store fordel var, at vi ikke var begrænset af computerkraft," siger han.

Det tager typisk 11 dage at gennemføre et assembly af et humant genom med de inputdata, der indgår i Genome Danmark-projektet på Computerome. Computeren kan beregne 27 genomer parallelt, så på 11 dage kan der dannes 27 genomer. På den computer, Bent Petersen tidligere brugte, tog det tre-fire uger at beregne to genomer, da computerkraften var begrænset og hardware-teknologien var ældre.

”Computerome er optimeret til at arbejde med life science-data, så de flaskehalse vi havde på de gamle systemer, er væk nu,” siger Bent Petersen.

Fordi computeren var så hurtig, var det muligt at ændre strategier undervejs: Hvis forskerne fik en ide om at ændre nogle parametre, var det muligt at køre programmet igen og se konsekvenserne. Det ville ikke være muligt, hvis det havde taget længere tid at gennemføre assembly-processen.

Læs mere

Sådan samler man et genom

I et laboratorium bliver blodprøver eller andre biologiske prøver behandlet i en sekventeringsmaskine. Den identificerer strenge af DNA i prøven og skriver deres indhold på digital form. Men i processen bliver DNA-strengene slået i stykker. En komplet DNA-streng for et humant genom indeholder omkring tre milliarder basepar, hvor de opdelte strenge kan være på kun få hundrede basepar.

For at kunne arbejde med genomet har forskerne brug for at samle strengene. Det gør et computerprogram ved at finde data, der går igen i flere strenge. En stump data indgår måske både i begyndelsen af en delstreng og i slutningen af en anden. Så kan programmet regne ud, at de to delstrenge skal sættes sammen.

På grund af de store datamængder skal computeren være udstyret med et stort arbejdslager. Hver af de noder (dele af supercomputeren), som er beregnet til større genom-assembly, er udstyret med en terabyte RAM og 32 CPU-kerner.