Uudet alat laskennallisessa tieteessä

Kuva: Adobe Stock

Uudet alat laskennallisessa tieteessä

CSC:n uusien supertietokoneiden Mahdin ja Puhdin sekä datanhallintajärjestelmä Altaan myötä CSC:n palvelujen käyttäjien määrä kasvoi yli 40 %. Hankinnan aikana ministeriöt purkivat siilojaan ja vuonna 2018 CSC:n palvelut avattiin myös valtion tutkimuslaitosten akateemiseen käyttöön samoin ehdoin kuin korkeakoulututkijoille. Vuosina 2017 – 2021 tutkimuslaitoskäyttäjien määrä viisinkertaistui.

Kautta supertietokoneaikain luonnontieteet ovat olleet suurin ala niin käyttäjien, projektien kuin käytettyjen laskentaresurssien määrällä mitattuna. Uudet koneet ovat kuitenkin laajentaneet laskennallisten menetelmien käyttöä uusille aloille. 1990-luvulla näimme bioinformatiikan nousun ja nyt CSC:n laskentapalveluiden käyttäjäkunnassa uusia nousijoita ovat humanistiset tieteet, yhteiskuntatieteet, maatalous- ja metsätieteet, tekniset tieteet sekä lääke- ja terveystieteet. Lääketieteessä kuva-analyysin yleistyminen näkyy hyvin CSC:n resurssien käytössä. (Lue lisää CSC:n tutkimuksen palveluiden käytöstä.)
 

Aktiivisten projektien määrä nousevilla tieteenaloilla vuosina 2018–2021. (Laajenna kuvaa klikkaamalla).

Tässä blogissa esittelen kaksi esimerkkiä uudenlaisesta laskennallisesta tutkimuksesta.

Monitavoitteiset metsät

Metsät ja niiden kyky sitoa ja varastoida hiiltä ovat merkittävässä roolissa Hiilineutraali Suomi 2035 -tavoitteen saavuttamisessa. Metsien tärkeä rooli ilmastonmuutoksen hillinnässä on tunnistettu.

Luonnonvarakeskuksen, Ilmatieteen laitoksen ja Helsingin yliopiston yhteisessä hankkeessa ”FOSTER - Tulevaisuuden monitavoitteiset metsät ja niihin kohdistuvat riskit muuttuvassa ilmastossa” tutkitaan metsien kehittymistä eri tavoin käsiteltyinä. Tavoitteena on selvittää miten ja millä tavalla metsiä kannattaisi hoitaa, kun huomioidaan erilaiset metsille asetetut tavoitteet ja ilmastonmuutoksen mukanaan tuomat riskit.

”Vertailemme metsien käsittelyä erilaisilla ekosysteemipalveluilla, kuten puuntuotannolla, metsien tuottamilla virkistysarvoilla sekä metsien monimuotoisuudella. Keskitymme erityisesti siihen, miten metsät kehittyvät muuttuvassa ilmastossa ottaen huomioon erilaiset metsätuhoriskit”, sanoo projektin koordinaattorina toimiva Juha Honkaniemi Luonnovarakeskuksesta. 

Ekosysteemipalveluilla tarkoitetaan erilaisia luonnon tarjoamia ilmaisia aineellisia ja aineettomia hyötyjä, kuten ravinto, raaka-aineet, fotosynteesi, veden puhdistus, ilmaston sääntely ja virkistys.

”Simuloimme metsien kehitystä maisematasolla, n. 50 000 ha metsäalueita, Etelä- ja Keski-Suomessa. Simuloiduissa skenaarioissa esimerkiksi hakkuutavat, suojellun metsän osuus ja metsänkasvatuksen kiertoajat vaihtelevat. Erilaisia skenaarioita on näin ollen jo kymmeniä, joiden lisäksi mallien stokastisuus ja tarkasteltavien alueiden koko tuovat omat haasteensa laskentaan. CSC:n palveluista toistaiseksi Puhti ja Allas ovat aktiivisessa käytössämme. Simulaatioiden lisäksi käytämme Puhtia ja R-käyttöliittymää myös aineiston analysointiin. Hankkeessa onkin jo laskettu muun muassa hirvieläinten elinympäristönvalintaan liittyviä malleja, jotka ovat perustuneet GPS-panta-aineistoihin”, Juha Honkaniemi jatkaa.

Hanke on yksi Maa- ja Metsätalousministeriön rahoittamista Hiilestä kiinni -hankkeista, joiden tavoitteena on tutkia Suomen Hiilineutraalius 2035 -tavoitteelle merkittäviä teemoja. 

Tekstilajien tunnistamista tekoälyllä

Turun yliopiston digitaalisen kielentutkimuksen professori Veronika Laippala mallintaa internetin kielenkäyttöä yhdistämällä kielentutkimusta, kieliteknologiaa ja supertietokoneiden laskentaa.

”Tutkimuskohteenamme on erityisesti tekstilajit; erilaiset internetistä löytyvät tekstit, kuten käyttöohjeet, tapahtumista neutraalisti raportoivat uutiset, kirjoittajan mielipiteitä sisältävät kolumnit ja keskustelupalstojen vuorovaikutteiset postaukset. Tavoitteenamme on yhtäältä ymmärtää näiden tekstilajien koko kirjo ja toisaalta kehittää koneoppimisjärjestelmiä, joka pystyisi tunnistamaan näitä automaattisesti”, Veronika Laippala kertoo. 

Hankkeen tulokset hyödyttävät kaikkia internetin käyttäjiä. Faktaperäisten uutisten ja mielipiteitä sisältävien tekstien erottaminen on olennainen osa medialukutaitoa ja tärkeä taito kaikille. 

”Hankkeella on merkittävä sovellusarvo tieteissä, joissa suuria internetistä automaattisesti kerättyjä datamassoja hyödynnetään. Esimerkiksi ihmistieteille internet tuottaa valtavat määrät tietoa ihmisten vuorovaikutuksesta ja viestinnästä ympäri maailmaa, ja kieliteknologiassa datamassoja käytetään yhä tehokkaampien ihmiskieltä ymmärtävien ja tuottavien järjestelmien kehittämiseen. Kaikille näille olisi eduksi, jos valtavan raakadatamassan sijaan internetistä koottu aineisto sisältäisi metadataa vaikka siitä, minkälaisia tekstilajeja se sisältää. Näin voitaisiin esimerkiksi kontrolloida sitä, minkälaista kieltä generoivat kielimallit (kieliteknologian ihmiskieltä automaattisesti tuottavat järjestelmät) tuottavat – uutismaista yleiskieltä vai puhekielistä slangia”, Laippala jatkaa.

Tekstilajien tunnistaminen perustuu ohjattuun koneoppimiseen. Laippalan tutkimusryhmä käyttää syötteenä eri kielisiä tekstejä, joihin on käsin merkitty niiden edustama tekstilaji. Heidän soveltamansa menetelmät hyödyntävät syväoppimista ja suurella määrällä raakadataa esikoulutettuja, transformer-arkkitehtuuriin perustuvia kielimalleja. 

”CSC:n tarjoamilla resursseilla on ensisijainen rooli, sillä menetelmät vaativat runsaasti muistia ja laskentatehoa – näissä hyödynnämme erityisesti Puhdin ja Mahdin grafiikkaprosessoreita”, Laippala kertoo.

”Lisäksi käytämme kehittämiämme tekstilajintunnistusmenetelmiä suurten datamassojen analysointiin. Näissä vaaditaan prosessoritehon lisäksi myös tallennustilaa. Esimerkiksi paljon käytetty internetistä koostettu Oscar-datasetti, johon olemme lisänneet tekstilajitiedot, sisältää 351 miljoonaa dokumenttia yhteensä 14 eri kielellä. Kaikkeen tähän CSC tarjoaa erinomaiset puitteet – näiden ansiosta meillä on jopa etulyöntiasema moniin kansainvälisiin kollegoihin nähden.” 

DL2021-ohjelmassa hankittu laitteisto

CSC:n supertietokoneet Mahti ja Puhti sekä datanhallintajärjestelmä Allas hankittiin opetus- ja kulttuuriministeriön Datanhallinnan ja laskennan kehittämisohjelmassa (DL2021). Supertietokone Puhti soveltuu laajasti erilaisiin käyttötapauksiin data-analyysistä keskikokoisiin simulaatioihin. Puhti ja sen tekoälyosio Puhti-AI avattiin tutkijoiden käyttöön 2.9.2019 ja Allas kuukautta myöhemmin 2.10.2019.

CSC:n kansallisen ympäristön lippulaiva, keskikokoisista simulaatiosta raskaaseen laskentaan suunnattu Mahti otettiin käyttöön seuraavana vuonna 26.8.2020. Mahtia laajennettiin grafiikkaprosessoriosiolla (GPU), Mahti-AI:lla, joka otettiin käyttöön 30.4.2021. täyttämään jatkuvasti kasvavaa tarvetta GPU-laskentaan.

Lue lisää Tutkimuksen palvelukatalogista

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tommi Kutilainen

Kirjoittaja on työskennellyt muutaman vuosikymmenen tiedeviestinnässä. Twitter: @TommiKutilainen