Omikron-aallon huippu lähestyy – mitä SARS2-CoV -viruksesta tiedetään molekyylibiologian tasolla?
Koronapandemia on piinannut maailmaa jo kahden vuoden ajan. Tämän ja tulevien pandemioiden ehkäisyssä, hoidossa ja hallinnassa on syytä kerätä ja tutkia virusten molekyylibiologian tason dataa.
CSC on aktiivisesti mukana rakentamassa Euroopan tietopankkia COVID-19 -viruksesta. Useissa maissa, kuten Suomessa ja Ruotsissa terveydenhuolto ja tutkijat ovat siirtäneet sairastuneissa ihmisissä havaitsemiaan koronavirusten tietoja standardimuotoisesti tähän tietopankkiin. Tietopankkiin on talletettu jo yli 3.000.000 viruksen perimä.
Portaalista saa yleiskuvan siitä, mitä molekyylibiologista dataa, mm. nukleotidisekvenssejä ja proteiinirakenteita viruksesta tunnetaan. Datasta luodaan tieteellisellä laskennalla verkossa oleva portaalinäkymä, jota käytetään tutkitun tiedon viestintään avoimen tieteen pariaatteiden mukaisesti.
Pyrkiessään kopioimaan itseään virus vaikuttaa isäntäolion biologiaan ja taistelee isännän immuunijärjestelmän kanssa. Immuunijärjestelmässä on karkeasti luetellen kolme tasoa. Ensin virus läpäisee tarttuessaan limakalvojen pintasolukon. Seuraava suojakerros ihmisen biologiassa ovat verenkierron tasolla vaikuttavat elimistön tuottamat vasta-aineet kehossa vaikuttaville vieraille molekyyleille. Tätä järjestelmää pyritään rokotteilla vahvistamaan. Kolmanneksi keskushermostolla, aivoilla, on vielä oma suojakerroksensa.
Kuten on havaittu, ihmisen ja koronaviruksien molekyylibiologinen vuorovaikutus ja sitä kautta myös datan analyysi on monimutkaista. Jokainen ihminen reagoi ainakin vähän eri tavalla virukseen riippuen mm. henkilön iästä, elintavoista ja kehossa jo olevasta infektiotaakasta. Samanaikaisesti virus muodostaa kiihkeällä tahdilla uusia sukupolvia ja variantteja satunnaisesti, ja näistä varianteista kilpailukykyisimmät selviävät luonnollisen valinnan kautta uusiin virussukupolviin.
Euroopan dataportaalissa ei ole vielä mukana isäntäorganismin, eli ihmisen dataa esimerkiksi genomeista. Ihmis- ja virusdatan analysointi laskentaympäristössä vaatii teknologiaa ja prosesseja, jotka varjelevat ihmisistä kerätyn datan tietosuojaa. Ratkaisuna tähän CSC:llä kehitetään nk. FEGA-noodeja, jotka pystyvät hallinnoimaan ja jakelemaan sensitiivistä ihmisdataa vastuullisesti laskentakeskuksissa kuten CSC:llä. CSC:n SD (Sensitive Data) palvelut tähtäävät siihen, että Suomen FEGA-noodi olisi tänä vuonna CSC:n tuotannossa samaan aikaan Ruotsin kanssa osana Euroopan laajuista yhteistyötä.
Helsingin yliopiston Suomen molekyylitieteen instituutin FIMM:in tutkijat ovat löytäneet tavan suojata datan aggregoimalla sitä niin paljon, että yksilöitä ei voi enää tunnistaa. Käytännössä eri maiden tutkijat julkaisevat omat datansa avoimesti tilastollisten analyysien muodossa, ja näistä muodostetaan globaali yleiskuva siitä, minkälaiset geneettiset perinnölliset piirteet ihmisessä altistavat koronavirusinfektion tuottaman taudin vakaville komplikaatioille.
Euroopan tasolla epidemiologit tekevät tämän tyyppisen tutkimuksen ja COVID-19 -portaalin molekyylibiologisen datan perusteella ”Emerging Virus” kuukausiraportteja. Kuka tahansa voi seurata siitä, mitä avoimesti saatavilla olevasta molekyylibiologisesta datasta voi tulkita.
Koronaviruksen viisi varianttia on kahdessa vuodessa levinnyt laajalti ja ne aiheuttavat edelleen huolta terveydenhuollon kantokyvylle hoitaa sairastuneita. Viimeisin näistä on omikron-variantti. Kolmen miljoonan virussekvenssin havaintoaineistossa on yksilöllisiä koronaviruksia paljon enemmän. Viimeisimmän EU COVID-19 portaalipäivityksen mukaan tunnetaan yli 50 000 koronavirusvarianttia, joilla on molekyylitasolla eroja keskenään. Tämä kertoo siitä, miten nopeasti selviytymiseen perustuvat periaatteet tuottavat uusia virusyksilöitä.
Mikäli haluaa porautua virusten molekyylimaailmassa syvemmälle, kansainvälinen proteiinirakennetietopankki tekee koko ajan uusia visualisointeja, joissa havaitut variantit on tulkittu suoraan viruksen proteiinien rakenteisiin. Kuvista voi esimerkiksi nähdä, miten viruksen tarttumisen kannalta tärkeän pinnan piikkiproteiinin kärjen molekyylirakenteet – toisin sanoen aminohapot, joita perimän nukleotidit koodaavat – muuttuvat kolmiulotteisesti eri varianttien välillä.
Koko elävän luonnon ekosysteemin molekyylien vuorovaikutus on paljon laajempi asia kuin vallitseva koronavirusepidemia. Virustutkimuksessa on havaittu tähän mennessä 5 348 579 eri toiminnallista molekyyliä (mukaan lukien korona), joista ainoastaan 17 039 on hyvin annotoitu eli luokiteltu systemaattisella tavalla. Työn alla on siis vielä 5 331 540 kpl.
Voi hyvin sanoa, että mikroskooppisen ekosysteemin toimintaa ei juuri tunneta, vain sen olemassaolo. Uusia virus- ja bakteerityyppejä löytyy koko ajan mm. merestä ja maaperästä. Koronavirus on osoittanut, että yksikin näistä maapallon kanssaeläjistä voi huonolla tuurilla saada yhteiskunnat aivan sekaisin. Siksi on tärkeää varautua ja pyrkiä keräämään nykyistä systemaattisemmin ymmärrystä mikroskooppisesta maailmasta.
Tommi Nyrönen
Tommi Nyrönen on filosofian tohtori ja biokemisti, Helsingin yliopiston dosentti ja Suomen ELIXIR-keskuksen johtaja CSC:llä. Email: tommi.nyronen(at)csc.fi