Parempia yksilöllisiä hoitomenetelmiä kehittyneiden tiedonsiirto- ja analyysimenetelmien avulla
CSC kehittää jatkuvasti palveluitaan sekä tiedonsiirto- ja analyysimenetelmiä yhdessä tutkimusorganisaatioiden kanssa vastaamaan dataintensiivisen tutkimuksen, kuten syöpätutkimuksen, vaatimuksiin. Osa tutkimuksen arvokkaimmista oivalluksista syntyy monimutkaisten datakokonaisuuksien yhdistämisestä. Sen vuoksi on tärkeää edistää kansallisia tietojenkäsittely- ja tallennuspalveluja. Näin luodaan vahva perusta dataintensiiviselle tutkimukselle Suomessa.
CSC:n sensitiivisen datan palvelut tukevat kansallisesti arkaluonteisen datan vaatimuksia
SD Desktopin ja SD Connectin täydet julkaisuversiot ovat olleet julkisesti saatavilla 30. maaliskuuta 2022 lähtien. Palveluihin pääsee käsiksi web-käyttöliittymän kautta käyttäjän omalta tietokoneelta käsin. SD Connect on palvelu, jonka avulla voidaan kerätä ja tallentaa salattua arkaluonteista tutkimustietoa tutkimushankkeen aktiivisen vaiheen aikana, kun taas SD Desktop -käyttäjät voivat käyttää ja hallita kyseistä tietoa suoraan virtuaalisessa laskentaympäristössä. SD Connect ja SD Desktop voivat toimia yhteisenä työtilana tutkimusyhteistyöhankkeille, mikä helpottaa tietojen keräämistä ja jakamista organisaatioiden välillä.
Kansallisten sekvensointivalmiuksien kehittäminen
Sekvenssitietojen hallinnan kehittäminen ja skaalaus on välttämätöntä geneettisen tietämyksen lisäämiseksi ja monimutkaisempiin tutkimuskysymyksiin vastaamiseksi. Suomessa sekvensointidatan tuottamista tukevat CSC:n datapalvelut, ja ne ovat olennainen resurssi Suomen kansallisessa biotieteellisessä tutkimusekosysteemissä. Esimerkkinä yhteistyöstä Helsingin yliopistollisen sairaalan (HUS) ja Suomen molekyylilääketieteen instituutin (FIMM) yhteinen sekvensointikapasiteetti rakentuu CSC:n tarjoamien laskenta- ja datanhallintapalvelujen varaan. Sekvenssidatan tuominen suoraan sekvenssilaitteista lähelle laskentapalveluita tehostaa tutkijan työnkulkua.
Tämän vuoksi kehitystavoitteena on integroida ja skaalata sekvenssitietojen hallinta CSC:n arkaluonteisten tietojen palveluihin.
FIMM:n sekvenssidatan työnkulku paranee, kun sillä on suora yhteys CSC:n laskenta- ja datapalveluihin. Sekvensointilaitos voi ladata DNA-sekvenssejä suoraan tutkijoiden työtilaan SD Connectissa. Siellä salatut tiedot voidaan helposti jakaa muiden tutkijoiden kanssa URL-osoitteen kautta tai analysoida SD Desktopissa. Myös muita datatyyppejä, kuten kuvantamisdataa, voidaan jakaa turvallisesti.
CSC:n sensitiivisen datan palvelut syöpätutkimuksen tukena
SD Connectin kehittäminen hyödyttää organisaatioita ja tutkimushankkeita, kuten iCANia. iCAN on Suomen Akatemian rahoittama kansallinen T&K-lippulaivaohjelma. Perustajaisäntiä ovat Helsingin yliopisto ja HUS. iCANin tavoitteena on edistää innovaatioita, jotka johtavat parempiin hoitoihin ja syöpäpotilaiden elämänlaadun parantamiseen. Hankkeessa yhdistyvät syöpägenetiikka, translationaalinen ja kliininen syöpätutkimus, biopankit, tietotekniikka ja tekoäly täysin uudella tavalla. Syöpätutkimus käyttää geneettistä ja molekyylitietoa uusien diagnostiikka- ja hoitomuotojen kehittämisessä.
iCAN käyttää SD Connectia tietojen siirtämiseen sekvensointilaitoksista CSC:hen ja takaisin HUS-ympäristöön. Hyväksytyt potilasnäytteet lähetetään FIMMille, joka puolestaan lataa sekvensointitiedot suoraan SD Connectiin. Tiedot salataan Crypt4GH:lla, joka on Global Alliance for Genomics & Health -järjestön kehittämä suojattu standardimenetelmä ihmisen geneettisten tietojen jakamiseen. Tällä tavoin tiedot ovat yhteentoimivia koko CSC:n SD -palveluperheen sisällä ja mahdollisesti myös muiden palveluntarjoajien kanssa, joilla on samankaltaisia tietoja. Työnkulku on integroitu HUS:n laskentaympäristöön. Sekvenssitiedot ladataan turvallisesti ja automaattisen prosessin avulla. Luotettavassa tutkimusympäristössämme on mahdollista tehdä analyysejä, joissa yhdistetään sekvensointi- ja rekisteritietoja, kunhan tutkija on hankkinut asianmukaiset luvat. Analyysitulokset jaetaan takaisin biopankkeihin, joissa niitä voidaan käyttää potilaiden hoidon parantamiseen.
Odotuksia palvelukehitykselle myös jatkossa
Osa arvokkaimmista tietointensiivisen tutkimuksen tuottamista oivalluksista saadaan yhdistämällä ja analysoimalla monimutkaisia ja heterogeenisiä datasettejä, ja siksi on olennaisen tärkeää tukea tietointensiivisten tieteenalojen kasvua kansallisen tason tietoinfrastruktuurilla.
SD Connectin kehittäminen on helpottanut tutkijoiden mahdollisuuksia hallinnoida, jakaa ja analysoida tutkimusaineistojaan. ELIXIR Finlandin kaltaisten kehitysohjelmien tuella CSC jatkaa SD-palveluperheen kehittämistä vastaamaan tutkijoiden tarpeita. Esimerkiksi FIMM ja iCAN voivat SD Connect -palveluun kerätyn ja tallennetun datan lisäksi käyttää SD Desktop -palvelua suoraan datan analysointiin. Kun tiedonkeruuvaihe on ohi, tutkijat voivat käynnistää virtuaalisia laskentaklustereita SD Desktopissa ja analysoida SD Connectiin tallennettuja tietoja datavirran avulla. Tutkimuksen päätyttyä he voivat myös suoraan julkaista alkuperäisen datan uudelleenkäyttöä varten valvotun käyttöoikeuden alaisina tulevassa Federated EGA -palvelussa ilman ylimääräisten kopioiden luomista.
Odotettavissa olevat datanhallintavalmiudet ja datan tallennustarpeet ylittävät kuitenkin nykyisten infrastruktuurien nykyisen kapasiteetin. Esimerkiksi pelkästään iCANissa sekvensointi on kasvamassa ja saavuttaa 3 PB:n vuotuisen datantuotantomäärän vuonna 2026. Kaikki tämä data on tarpeen syövän molekyyliperustan ymmärtämiseksi.
e-Infrastruktuuri tarjoaa ennennäkemättömiä mahdollisuuksia syöpätutkimuksessa
Tutkimuksen aktiivisten vaiheiden aikana kansallisen tietojenkäsittelyn on kehityttävä, jotta se voi tukea data-intensiivistä tutkimusta, kuten syöpätutkimusta Suomessa. Data-intensiivisen tietojenkäsittelyn haasteet on tunnustettu laajasti, ja CSC:n strategiana on vastata tarpeisiin.
Helena Lodenius
Kirjoittaja työskentelee projektikoordinaattorina CSC:llä