Kytkimen muistolle: miten CSC auttoi suomalaista tiedettä välttämään suuren pilvipalvelulaskun
Kun tutkimusinfrastruktuuri toimii, tieteen tekeminen onnistuu ilman, että kukaan edes tiedostaa infrastruktuurin olemassaoloa. Tämä on kertomus siitä, miten CSC:n tutkimusinfrastruktuuripalvelut säästivät suomalaiselta tieteeltä miljoonia euroja siirtämällä valtavia määriä biolääketieteellistä dataa turvallisesti ja murto-osalla siitä kustannuksesta, jonka kaupallinen palvelu olisi laskuttanut.
Keväällä 2026 CSC:n verkkoasiantuntija kävelee CSC:n konesaliin, tarkistaa yhden hyllyn, ja poistaa kytkimen nimeltä csc-bmi1-sw, joka on ollut toiminnassa vuodesta 2011. Sitä ei enää tarvita, ja ylläpitäjä irrottaa sen piuhat. Pieni pala Suomen digitaalisen tutkimusinfrastruktuurin historiaa katoaa hiljaa.
Tarina alkoi noin 15 vuotta sitten Suomen molekyylilääketieteen instituutin (FIMM) sekvensointilaitteiden ja mikroskooppien aiheuttamasta haasteesta: tutkimusinstrumentit tuottivat suomalaisesta väestöstä enemmän täsmälääketieteen tutkimusdataa kuin kukaan oli osannut ennakoida. Analyysit muuttuivat raskaammiksi, ja tallennustilan tarve kasvoi nopeammin kuin saatavilla oleva paikallinen rahoitus tietotekniikkaan. Helsingin yliopiston paikallinen IT teki parhaansa, mutta kasvava kansainvälinen tutkimusorganisaatio ymmärsi, ettei tietotekniikkakapasiteetin ongelmaa käytännössä voitu enää ratkaista paikallisesti.
Samaan aikaan CSC ja Funet rakensivat uusia laskentapalveluita kehittyvään eurooppalaiseen biotieteen ELIXIR-infrastruktuuriin. Hanke ei ollut nimeltään “suvereeni eurooppalainen pilvipalvelu” vaikka se tänä päivänä voisi olla sitä. Se oli vain projekti nimeltä Biomedinfra.
Yksinkertainen ajatus, jolla oli infrastruktuuritason vaikutus
Ajatus oli yksinkertainen: mitä jos emme siirtäisi laskentaa laboratoriosta CSC:lle, vaan laajentaisimme CSC:n suurteholaskentatehon laboratorioon? Pilvimaailman termein: entä jos tarjoaisimme CSC:n infrastruktuurin palveluna yliopistolle?
Tämän ajatuksen toteuttamiseksi tarvittiin käytännöllinen päätös: FIMMin ja CSC:n välille asennettiin optinen yksityisverkko, johon hankittiin erillinen, tuolloin huippuluokkaa edustanut 10 Gbit/s ‑verkkokytkin. Kytkimen nimeksi tuli csc-bmi1-sw. Tuolloin se tuntui vain yhdeltä komponenttihankinnalta Funetin kansallisessa tietoverkossa – yhdeltä monista päätöksistä, joita CSC rutiininomaisesti tekee.
Tuo kytkin sai kuitenkin aikaan hienovaraisen mutta merkittävän muutoksen kansalliselle suurteholaskennalle: verkon korkean suorituskyvyn vuoksi laskentapalvelinten ja levyjärjestelmien etäisyydellä ei ollut enää merkitystä. Yhtäkkiä skaalautuva suurteholaskenta ei ollut enää ”jossain CSC:n konesalissa”, vaan se oli saatavilla valtakunnallisesti koko Funet-verkon kattavuusalueella, myös Helsingin yliopiston verkon sisällä.
Kun kytkin oli paikallaan, FIMMin tutkijoille tarjoama data- ja laskentapalvelu muuttui, mutta muutos ei näkynyt mitenkään dramaattisesti tutkijoille. Paikallinen laskentaklusteri alkoi vain toimia paremmin. Biologinen data alkoi liikkua automattisesti CSC:n ja FIMMin välillä suuressa mittakaavassa. Laskentatöitä pystyttiin skaalaamaan paikallisesta järjestelmästä sisältä käsin. Organisaation arkaluonteista dataa ei tarvinnut siirtää organisaation ulkopuolelle. Tutkijoiden työnkulkuja ei tarvinnut suunnitella uudelleen, kun tutkimushaasteet kasvoivat. Arkaluonteinen biolääketieteellinen tieto pysyi siitä vastuussa olevan organisaation hallinnassa, mutta analysointikykyä eivät enää rajoittaneet paikallisen infrastruktuurin rajat.
Osa FIMMin tutkijoista ei huomannut muutosta tai kuuluisaa kytkintämme ollenkaan. Se on paras mahdollinen onnistuminen tutkimusinfrastruktuuripalvelulle – tekniikka vain toimii ilman häiriötä toimintaan, jota se tukee.
Vuosien kuluessa molekyylilääketieteen datan määrä jatkoi kasvamistaa. Jälkikäteen arvioimme, että kytkin on välittänyt dataa 15 vuodessa suurinpiirtein seuraavan laskutoimituksen mukaisesti:
5 Gbit/s × 60 sekuntia × 60 minuuttia × 24 tuntia × 365 päivää × 15 vuotta
= 2 365 200 000 gigabittiä dataa
On vaikea hahmottaa, mitä kaikkea tämä dataliikenne merkitsee. Suomen tutkimusinfrastruktuurin sisällä liikenteen määrä ei laukaissut häiriöitä tai mikä tärkeintä: liikennemäärä ei aiheuttanut lisäkustannuksia. Tutkimus tarvitsi datan liikkuvan täsmälääketieteen ongelmien ratkaisemiseksi FIMMissä, ja tämä saatiin tehtyä.
CSC mahdollisti vapaan tieteen tekemisen murto-osalla siitä kustannuksesta, jonka kaupallinen toiminta maksaisi yhteiskunnalle. Tekninen järjestelmä katosi tutkimuksen taustalle, kun se toimi, kuten sen pitää.
Julkinen infrastruktuurin kustannusmalli, joka toimii
CSC:n palveluiden kustannusmalli on rakentaa ratkaisu avoimeen asiakaslähtöiseen käyttöön, minimoiden kustannukset.
Itse kytkin maksoi arviolta 60 000–110 000 euroa. Se rahoitettiin Suomen Akatemian avustuksilla ELIXIR-infrastruktuuriin biotieteiden datan hallinnan ja infrastruktuurin kehittämiseksi. Kytkin oli käytössä 15 vuotta. Viimeiset seitsemän vuotta se toimi ilman keskeytyksiä, eikä juurikaan vaatinut huomiota sitä valvovalta Funetin asiantuntijatiimiltä. Se vain toimi luotettavasti CSC:n konesalissa.
Mietitään hetki vaihtoehtoista skenaariota siitä, mitä olisi voinut tapahtua.
Kuvitellaan, että Suomen molekyylilääketieteen instituutin FIMMin käyttämä pilvilaskentapalvelu olisi CSC:n sijasta sijainnut vaikkapa Amazon Web Servicesissä tai Microsoft Azuressa.
Kaupallisilla pivipalveluilla datan lataaminen pilveen on usein ilmaista. Datan palautus ei kuitenkaan ole ilmaista. Pilvipalveluiden liiketoimintamalli perustuu siihen. Datan palautuksen hinta esimerkiksi Amazonista tai Azuresta on nykyään noin 0,05-0,09 euroa per gigatavu.
Täsmälääketieteen 15 vuoden laskentatyöt tarkoittivat noin 300 petatavua pilvestä palautuvaa dataa, mikä maksaisi tällä hinnalla noin 15 miljoonaa euroa. Se tarkoittaa noin miljoonan euron infrastruktuurikuluja FIMMille vuodessa pelkkään datan siirtämiseen – puhumattakaan täsmälääketieteen asiantuntijoiden työajasta, GPU/CPU-laskentatehosta tai tallennustilasta.
Tutkimusinfrastruktuuripalveluiden ylläpitäminen tämänlaisella kustannuserällä ei olisi pitkäaikaista. Prosesseja optimoitaisiin, kustannuksia minimoitaisiin, dataa pakattaisiin, siirtoja vältettäisiin ja työnkulkuja suunniteltaisiin uudelleen.
Tässä skenaariossa alettaisiin pohtia: Tarvitaanko tämän datan siirtämistä todella? Onko meillä ylipäätään varaa ajaa analyysejä uudelleen? Mitä jos tutkimusta ei tehtäisi lainkaan?
Tositarinassa CSC ja kytkin, jota nyt muistelemme, teki nämä pohdinnat tarpeettomiksi. CSC on olemassa tätä varten suomalaisessa tutkimusekosysteemissä: tukemassa laskentatarpeita, kuten AI/ML-mallien koulutusta ja korkealaatuisen datan intensiivistä hyödyntämistä.
CSC mahdollisti vapaan tieteen tekemisen murto-osalla siitä kustannuksesta, jonka kaupallinen toiminta maksaisi yhteiskunnalle. Tekninen järjestelmä katosi tutkimuksen taustalle, kun se toimi, kuten sen pitää. Ilman CSC:n infrastruktuurikokonaisuutta osa viimeisten 15 vuoden täsmälääketieteen tutkimuksesta FIMMissä olisi saattanut jäädä tekemättä.
Kytkimen elinkaaren viimeisen seitsemän vuoden kohokohta oli, että mitään ei tapahtunut. Ei käyttökatkoksia, ei yllätyksiä. Infrastruktuurin näkökulmasta hiljainen toimivuus tarkoittaa onnistumista.
15 vuotta myöhemmin: julkisen tutkimusinfrastruktuurin rakentaminen Euroopan-mittakaavassa
15 vuodessa sekä täsmälääketieteen tutkimus että laskentatyökuormat CSC:n palveluissa ovat kehittyneet. Funet-verkko on skaalattu yksittäistä yhteyttä laajemmaksi, ja se on aiempaa virhesietoisempi. CSC varautuu seuraavaan suurteholaskennan sukupolveen, kuten Suomen kansalliseen uuteen supertietokoneeseen Roihuun, joka otetaan käyttöön kesällä 2026, sekä vuosina 2027–28 saapuviin LUMI-AI-supertietokoneeseen ja LUMI-IQ-kvanttitietokoneeseen.
Kytkin csc-bmi1-sw on tehnyt tehtävänsä ja voidaan sammuttaa.
Tämä on pienen laitteen pieni tarina, mutta sama kaava toistuu ympäri Eurooppaa. Infrastruktuureissa kuten ELIXIRissä ja terveysdataan, tekoälyyn ja suurteholaskentaan liittyvissä hankkeissa sama kysymys nousee jatkuvasti esiin: miten mahdollistamme datan vapaan liikkumisen menettämättä sen hallintaa tai hidastamatta tiedettä?
Mittakaava on nykyään suurempi, mutta julkisen tutkimusinfrastruktuurin ydinajatus on sama: yhdistetään hajautetut järjestelmät internetissä, suojataan data rakenteellisesti ja vältetään jokaisesta datansiirrosta veloittamista, jotta tutkimuksen tekemiseen jää rahoitusta.
Kun kytkin lopulta irrotetaan, mitään dramaattista ei edelleenkään tapahdu. FIMMin tutkimus jatkuu ja data liikkuu edelleen CSC:n ePouta-pilvessä päivitetyn verkkoteknologian avulla. Tämä on täydellinen päätös kytkimen tarinalle. Paras infrastruktuuri muuttuu ajan saatossa niin luotettavaksi ja näkymättömäksi, että voimme unohtaa sen olemassaolon.
Kirjoittajat: Tommi Nyrönen, Olli Tourunen, Chris Thomas, Jarno Laitinen, Matti Laipio ja Kalle Happonen
Lue lisää
Tommi Nyrönen
FT Tommi Nyrönen on biokemisti ja Suomen ELIXIR-osakeskuksen johtaja. Hän edistää biotieteisiin liittyvän datan turvallista hyödyntämistä eurooppalaisessa tutkimuksessa.



