null EGA on biolääketieteellisen potilasdatan laaja arkisto

Kuva: Adobe Stock

EGA on biolääketieteellisen potilasdatan laaja arkisto

Euroopan genomiarkisto (EGA, European Genome-Phenome Archive) säilöö ja tarjoaa biolääketieteellisissä tutkimuksissa kerättyä potilasdataa. EGA on osa eurooppalaista Elixir-datainfrastruktuuria, joka palvelee biotieteitä. Laajuudeltaan datavaranto on yksi maailman suurimmista. Koska data on arkaluontoista, sen käyttö on tarkkaan säänneltyä ja sitä on muokattu siten, etteivät yksittäiset potilaat ole tunnistettavissa. Dataa voi käyttää ainoastaan tieteellisessä tutkimuksessa, ja käyttöoikeuksia myönnetään tutkijoille henkilökohtaisten, perusteltujen hakemusten perusteella. Aineistojen toisiokäyttöä valvoo tätä tarkoitusta varten perustettu komitea (Data Access Committee).

– Monien kansainvälisten tutkimusrahoittajien ehtona rahoituksen saamiselle on, että heidän tuellaan sekvensoidut genomit viedään myös näihin kansainvälisiin tietokantoihin, jolloin ne ovat tutkimusyhteisön käytössä laajemminkin silloin kun tutkimus on alkuperäisen suostumuksen mukaista, sanoo Helsingin yliopiston biometrian professori Samuli Ripatti. – Tämä toimintatapa on mahdollistanut monia tieteellisesti merkittäviä uusia geneettisiä ja muita tutkimuslöydöksiä.

– Esimerkiksi paraikaa kiivaana käyvä globaali COVID-19-tutkimus, jossa haetaan tekijöitä, jotka selittäisivät, miksi tauti puhkeaa osalla virustartunnan saaneista muita vakavampana ja miksi taas toiset säästyvät oireilta lähes kokonaan, perustuu laajaan kansainväliseen yhteistyöhön ja tutkimustulosten meta-analysointiin. Konsortio julkaisee kaikki analyysituloksensa välittömästi verkkoon kaikkien saataville, ja EGA tarjoaa tutkimusryhmille mahdollisuuden aineistojen keskitettyyn tallentamiseen heidän palvelimilleen, silloin kun se on mahdollista.

Kuka tahansa voi selailla EGA:n kuvailutietokatalogia verkossa, mutta itse dataan käsiksi pääseminen edellyttää yhden tai useamman aineiston käyttöoikeuden hakemista, jolloin käyttäjälle samalla luodaan EGA-käyttäjätunnus. Tämän jälkeen data on ladattavissa EGA:n latauspalvelusta. Arkistoon talletettavan datan tulee olla tutkimuskohteiden osalta tunnistamatonta ja jossain EGA:n hyväksymistä tiedostomuodoista. Selvästi eniten dataa löytyy tällä hetkellä erilaisten syöpien tutkimuksesta.

– Tutkimusryhmäni kanssa tutkimme kansantautien geneettisiä riskitekijöitä ja niiden yhteispeliä elintapavalintojen ja muiden ei-geneettisten tekijöiden kanssa, Ripatti kertoo. – Olemme esimerkiksi löytäneet monia kolesteroliaineenvaihduntaa sääteleviä geenejä ja perimän alueita sekä sydän- ja verisuonitaudeille altistavia ja niiltä suojaavia genomin variantteja. Olemme myös rakentaneet riskialgoritmeja, jotka käyttävät genomitietoja ja muita riskitekijöitä arvioimaan henkilöiden riskiä sairastua esimerkiksi yleisiin syöpiin tai diabetekseen.

– Nämä tutkimukset perustuvat sellaisten laajojen väestöaineistojen hyödyntämiseen, joissa käytettävissä on sekä kunkin henkilön geneettinen profiili että tietoja hänen terveydestään. Tällaisia henkilöiden antamaan suostumukseen perustuvia tutkimusaineistoja ovat muun muassa suomalaiset ja kansainväliset biopankkiaineistot sekä esimerkiksi EMBL-EBI:n EGA:iin tai NHGRI:n dbGap:iin tallennetut aineistot.

– Euroopanlaajuinen tuki arkaluontoisten aineistojen hallintaan vaatii tiivistä yhteistyötä Euroopan Unionin sisällä sekä mahdollisuutta verkostoitua myös EU:n ulkopuolisten toimijoiden kanssa, kertoo CSC:n kehityspäällikkö Ilkka Lappalainen. – EGA:n vahvuus on nimenomaan aineistojen yhteensopivuuden varmistaminen globaalien standardien avulla sekä selkeä ja tietoturvallinen datanhallinnan malli, joka tukee tutkimuksen toisiokäyttöä. CSC on osallistunut jo useamman vuoden ajan osana ELIXIR-tutkimusorganisaation koordinoimaa yhteistyötä uuden federoidun EGA-palvelun (FEGA) kehitystyöhön. CSC:n ylläpitämä FEGA on tarkoitus julkaista suomalaisen tutkimuksen tukemiseksi vuoden 2021 alussa.

– Kansallinen FEGA-palvelu varmistaa kotimaisten aineistojen säilymisen Suomessa ja aineistojemme näkyvyyden osana kansainvälistä tutkimusta sekä mahdollistaa aineistojen tietoturvallisen analysoinnin CSC:n tutkimukselle ja koulutukselle tarjotun laskentaympäristön osana. FEGA-palvelua kehitetään Euroopassa kiivaasti myös COVID-19-potilaista kerättyjen tutkimusnäytteiden datanhallintaa varten. Toimimme yhteistyössä myös professori Samuli Ripatin kanssa, kertoo Heikki Lehväslaiho, CSC:n arkaluontoisten aineistojen asiantuntija.

Federoidun EGA-palvelun yleisesittely:

 

Lisää tietoa EGA:sta.

 

Tutustu CSC:n uusiin datanhallinnan sivuihin ja palvelukatalogiin. Oletko tekemässä rahoitushakemusta Suomen Akatemialle? Akatemiahakijan tietopaketti kokoaa hyödyllisiä linkkejä uudistetuille datanhallinnan palvelusivuillemme.

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.