Massiivinen datanhallintaprojekti: suomalaisten perimä kerätään talteen

Metadatan hyvä hallinnointi avaa mahdollisuuksia dataa integroivalle tutkimukselle. Suomessa on noin 5,4 miljoonaa asukasta ja lähes kaikkien lääkereseptit päätyvät arkistoon. Biopankkilaki Suomessa mahdollistaa genomidatan vastuullisen tutkimuskäytön.

Massiivinen datanhallintaprojekti: suomalaisten perimä kerätään talteen

Suomessa ei ole ollut vuoteen 2015 asti valmiutta palauttaa kansainvälisissä tutkimushankkeissa luotua ja suomalaista kerättyä genomidataa takaisin kotimaahan. Tämän vuoksi Suomen Akatemia rahoitti projektin, jossa Helsingin yliopiston Aarno Palotien ja Samuli Ripatin tutkimusryhmät Suomen molekyylilääketieteen instituutista (FIMM) ja tieteen tietotekniikan keskus CSC aloittivat datan siirtämisen takaisin Suomeen genomisekvenointikeskuksista St. Louisista, Missourista ja Bostonista.

– Saimme luotua hyvän prosessin, johon kuuluivat lupakäytännöt, aineiston siirtäminen, luotettavuus ja tietoturva. Näin suurta aineistoa ei ole monikaan siirtänyt Yhdysvalloista Eurooppaan. Suomen yliopistojen runkoverkon FUNETin ansiosta tiedonsiirtonopeus oli riittävä. Lisäksi CSC:llä oli aiempaa kokemusta massiivisten data-aineistojen, kuten koko suomalaisen tv- ja elokuvatuotannon taltioimisesta nauhalle, kertoo CSC:n terveys- ja biotieteiden palvelukehityksen vetäjä Ilkka Lappalainen.

eSISu-projekti (e-Infrastructure for Sequencing Initiative Suomi) taltioi tietoturvallisesti suomalaisen geneettisen perimän yksityiskohdat eli geenivariaatiot. Variaatioita analysoimalla saadaan selville uutta tietoa perinnöllisistä sairauksista. SISu-hankkeen (Sequencing Initiative Suomi) tavoite on kasata genomitieto muotoon, jossa se on parhaiten suomalaisten lääkäreiden ja tutkijoiden hyödynnettävissä. Tähän mennessä on selvitetty jo tuhansien suomalaisten koko genomi ja lähes 30 000 suomalaisen genomin proteiineja koodaavat osat.

Suomalaisista kerätyn datan perusteella perimä on pitkälti samanlainen kuin muissakin eurooppalaisissa maissa, mutta tietyt osat suomalaisten genomista ovat joko jalostuneet pohjoisia oloja varten tai ne esiintyivät vain muutamissa suvuissa, jotka asuttivat pieniä kyliä pohjoisessa.

– Tästä syystä tietyt geneettiset variaatiot esiintyvät suomalaisissa vaikuttaen esimerkiksi sydän- ja verisuonitautien syntyyn. Jos meillä ei ole dataa omasta geeniperimästämme, miten voisimme tutkia perimän vaikutusta erilaisten sairauksien syntymiseessä, Ilkka Lappalainen kysyy.

Genomidata on osa integroitavaa kokonaisuutta, johon liittyvät elintavat, lääkitykset, hoidot ja yksilöistä kerätyt terveysdatat. Näin geneettisten lähtökohtien ja lääkityksen vaikutuksesta tapahtuvien terveydentilan muutosten yhteyksien tilastollinen tulkinta tulee mahdolliseksi.

– Tietyissä tapauksissa, esimerkiksi Helsingin yliopistollisen keskussairaalan (HUS) syöpähoidoissa tämä on jo käytössä. Siellä tutkitaan syöpää aiheuttavien geenien tiettyjä osia, jotka vaikuttavat hoitomuotoihin ja suosituksiin ja hyödynnetään valtavaa määrää tilastollista dataa. Jos saadaan stardardoitua dataa koko Suomen populaatiosta, voidaan kutsua ihmiset tarvittaessa syöpäseulontaan ja päättää sopivasta lääkityksestä. Tulevaisuuden hoitomuodot eivät ole mahdollista vain suomalaisista kerätyn datan turvin. Syövän hoitomuodot kehittyvät osana kansainvälistä yhteistyötä.

Toiveena on, että tieto saadaan terveydenhuoltoon ja näytteenantaja saa myös tiedon itselleen analysoituna. Näin hän voi halutessaan saada tiedon, onko hän riskiryhmässä tai ei.

Yksi tärkeimpiä bioinformatiikan tutkimuskohteita on tautien syntymekanismien ymmärtäminen. Yksi aineisto, joka projektissa kerättiin, liittyi migreenipotilaista saatuun dataan. Kesällä 2016 hanke saavutti merkittävän virstanpylvään, kun ensimmäiset datasetit migreenin geeniperimään siirrettiin Suomeen. Datansiirto pystyttiin toteuttamaan teknisesti ja tietoturvallisesti ilman ongelmia.

 

Uutta tietoa migreenistä ja sepelvaltimotaudista

FIMMin tutkijat ovat SISu:n datan avulla todentaneet, että periytyvä alttius migreeniin on tosiasia, ja geneettisten lähtökohdat migreenialttiuteen voidaan jäljittää 38 alueelle genomissa. Löydöksellä on merkitystä migreenin mekanismien ymmärtämiselle ja siten tulevaisuudessa diagnostiikan täsmentämiselle ja parhaiden hoitovaihtoehtojen valitsemiselle.

Genomitiedon ansiosta suomalaiset tutkijat ovat saaneet myös uutta tietoa alttiudesta sairastua sepelvaltimotautiin. Sepelvaltimotaudin riskiryhmään kuuluvat voivat aloittaa ehkäisytoimet varhain, mikä tarkoittaa elintapojen muutosta tai ennaltaehkäisevää lääkitystä.

Saadun datan analysoimisessa on vielä töitä. Samasta henkilöstä on voitu ottaa useampia näytteitä eri tarkoitukseen, joten dataa on kerätty eri käyttötarkoituksiin. Nyt selvitetään, mistä näytteistä mikäkin tiedosto on saatu.

– Me työskentelemme juuri metadatan kanssa, jolla selvitetään aikaisemmin kerätyt aineistot ja lisätään niiden arvoa tulevia tutkimusprojekteja varten.

Lappalaisen mukaan Projektissa saatiin arvokkaita kokemuksia datanhallintaan. Siitä on hyötyä uudessa FinnGen-projektissa.

Joulukuussa 2017 käynnistyneen FinnGen-projektin tavoitteena on taltioida puolen miljoonan suomalaisen genomit. Hankkeessa hyödynnetään kaikkien suomalaisten biopankkien keräämiä näytteitä. Perimästä saatava data yhdistetään kansallisissa terveydenhuollon rekistereissä olevaan tietoon. Näin pystytään ymmärtämään sairauksien syntymekanismeja paremmin ja laatia uusia hoitokeinoja.

SISu on jo tunnistettu merkittäväksi dataresurssiksi ELIXIR– ja BBMRI -infrastruktuureissa. Seuraavaksi datan organisoiminen ja hallinta tehdään mahdolliseksi skaalautuvalla ja tietoturvallisella alustalla (ePouta-pilvipalvelu) prosessointia varten. Data siis tehdään laskennallisesti saataville. Suomen biopankit, kuten THL:n biopankki, hallinnoivat jatkossa aineistoa ja myöntävät lupia aineistojen käyttöön.

– Nyt datansiirtoa kokeillaan ja jatkossa se toimii, kun metadata saadaan ajantaiseksi.

eSISU luo Suomeen ne valmiudet, jotka tarvitaan, että luvanvarainen genomidatan siirto Suomen ELIXIR-keskuksen ja muiden ELIXIR-keskusten välillä toimii. CSC:llä dataa voidaan alkuperäisten datan haltioiden luvalla integroida muihin Suomessa oleviin rekistereiden ja tietokantojen datoihin.

– Näin voidaan yhdistää suomalainen data eurooppalaisen EGA:n (European Genome-phenome Archive) dataan.

Euroopan genomiarkisto EGA on yksi maailman laajimmista julkisista datavarastosta, joihin on tallennettu potilasdataa biolääketieteellisistä projekteista. EGA jakaa ihmisistä kerättyä geno- ja fenotyyppidataa erikseen kysyttävällä suostumuksella näytteen ja datan tutkimuskäyttöön. EGA:n ansiosta moni ELIXIRin tutkimusprojekti on mahdollinen.

www.sisuproject.fi on hakupalvelu, josta voi etsiä suomalaisen väestön geenivariantteja. KITE-hakumoottori etsii puolestaan aineistoja metadatan perusteella. Nämä ovat esimerkkejä palveluista, joita kehitetään myös kansainväliseen käyttöön. Datan hallinnointi ja lupakäytännöt hoidetaan REMS-ohjelmiston avulla.

– Datan hallinnointi toimii nyt teknisesti hyvin. SiSun aineistosta merkittävä osa saadaan käyttöön vuoden 2018 aikana.

Artikkeli on julkaistu alunperin Elixirin www-sivuilla.

Lisätietoja:

Tommi Nyrönen
Suomen ELIXIR-keskuksen johtaja
tommi.nyronen@csc.fi
+358-50-3819511

www.sisuproject.fi

 

Julkaistu alunperin 11.09.2018.

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Ari Turunen