Datasta hyötyä hallitusti

Data on yhteiskuntamme keskeinen resurssi ja sen hallinta on edellytys datan kiertotaloudelle. Jotta dataa voidaan käyttää uudestaan, sen elinkaarta pitää hallita sekä palveluiden mahdollistaa ja tukea datan koko elinkaaren vastuullista toteuttamista.

Datat vaativat dokumentaatiota (metatietoja), sekä alustoja ja palveluita joissa näitä kumpaakin voidaan käsitellä kontrolloidusti. FAIR-periaatteiden, avoimuuden, yhteistyön ja uudelleenkäytön toteutuminen edellyttävät vahvaa asiantuntijaosaamista ja laajaa yhteistyötä. Nopeasti kehittyvä ja monialainen kenttä luo haasteita, joita voidaan ratkoa vain yhdessä, käyttäjälähtöisesti ja hyviä käytäntöjä edistämällä sekä turvallisia ja samaan aikaan saavutettavia palveluita luomalla.

Digitaalisten aineistojen pitkäaikaissäilyttämisessä ennätysvuosi

Digitaalinen pitkäaikaissäilytys (PAS) varmistaa aineistojen säilyvyyden ja saatavuuden tutkijoiden ja muiden tarvitsijoiden tarpeisiin useiden kymmenien tai jopa satojen vuosien ajan. Tämän saavuttamiseksi CSC on onnistunut kehittämään ja edelleen ylläpitämään kansallisesti merkittäviä digitaalisen pitkäaikaissäilyttämisen kyvykkyyksiä, joilla varmistetaan aineistojen eheyden, autenttisuuden ja tiedostomuotojen hallinta, laadun varmistus ja toiminnan jatkuvuuden halllinta.

Osana PAS-palveluiden tuottamista CSC myös tukee palveluita hyödyntäviä organisaatioita jakaen kyvykkyyksiin liittyvää osaamista; pyrkien yhdessä organisaatioiden kanssa edistämään ymmärrystä ja osaamista digitaalisten aineistojen hallinnasta ja säilyttämisestä. PAS-palveluiden tuottamisen mahdollistaa CSC:n ja OKM:n välinen sopimus.

Datan pitkäaikaissäilytyksen kehittyminen

Vuonna 2021 PAS-palveluita hyödyntävät organisaatiot onnistuivat siirtämään aineistoja ennätysmäärän säilytykseen: Uusi ennätys vuosikertymässä on nyt yli 580 teratavua. Tämä tarkoittaa, että organisaatiot siirsivät aineistoja onnistuneesti säilytykseen yli 1,5 teratavua vuoden jokaisena päivänä. Nyt merkittäviä kulttuuriperintö- ja tutkimusaineistoja on hyväksytty säilytykseen jo yli 1,6 petatavua. Vuoden 2021 aikana säilyttämisestä laadittiin useampi uusi sopimus erityisesti korkeakoulujen kanssa.

PAS-palveluita hyödyntävien organisaatioiden kanssa onnistuttiin julkaisemaan loogisen säilyttämisen vaatimusmäärittely, joka täsmentää PAS-palveluiden ja aineistoja säilyttävien organisaatioiden työnjakoa erityisesti aineistojen käyttökelpoisuuden säilyttämisessä. Lisäksi jatkettiin onnistuneesti Kansallisarkiston tarpeisiin kehitettävän SAPA-alustan toteuttamista. SAPA-alustan kehityksen onnistumista kuvastaa myös Kansallisarkiston aineistojen merkittävä kasvu Kulttuuriperintö-PAS -palvelussa.

ELIXIR Suomi

CSC toimii Valtiosopimuksen 7/2015 mukaisesti Suomen ELIXIRIN osakeskuksena. ELIXIR on Euroopan maantieteellisesti hajautettu eurooppalainen tutkimusinfrastruktuuri biologiselle tiedolle, jonka vastuulla on julkisen tutkimuksen tuottaman elävän luonnon datan organisointi, säilytys ja jakelu FAIR-periaatteiden mukaisesti. ELIXIRin dataresurssit ovat saatavilla CSC:n DL ympäristössä. ELIXIR Suomi on osa Suomen Akatemian kansallista tutkimusinfrastruktuurien tiekarttaa (FIRI).

Koko Euroopan ELIXIR verkoston osaamiseen perustuvat datan hyvät hallintapLue lisää Avoimuuden edistäjät -palkintoeriaatteet tuotiin 2021 aikana kaikkien Suomen tutkijoiden saataville ELIXIR Research Data Management Kit (RDMkit) online-palvelussa. Palvelussa on käytännönlähtöisiä ohjeita tutkijoille koko datan elinkaaren ajalle. Palvelu huomattiin Suomessa kiitoksin muun muassa Suomen Akatemiassa.

CSC tukee omassa ELIXIR toiminnassaan erityisesti terveys- ja biotieteen datan hallinnan palveluiden kehittämistä. Suomen fokus on laskentapalveluissa ja sensitiivisen datan vaatimuksissa ja ratkaisuissa, ja toiminta kytkeytyy tiiviisti kansallisten osaamiskeskusten toimintaan. Hyödynnettäviä sisältöjä ovat genomitieto, biokuvantamisen aineistot, rekisteridata ja muu ihmisperäinen suostumukseen perustuva tutkimusdata. Työssä tuetaan tekoälyalgoritmien, laskentapalveluiden, terveystiedon tutkimuskäytön ja datan hallintateknologian kehittämistä. Kehitysteemat tuottavat ratkaisuja sensitiivisen tiedon palveluiden rakentamiseksi CSC:lle. Kehitystyön onnistumista mitataan aktiivisesti biopankkien osuuskunnan FINBB, terveyden ja hyvinvoinnin laitoksen THL, Euro-Bioimaging Suomen ja Helsingin yliopiston FIMM teknologiakeskuksen kanssa.

Uudet arkaluontoisten aineistojen hallintapalvelut tukemaan kansallista tutkimusta ja koulutusta

CSC jatkoi vuoden 2021 aikana arkaluonteisen aineistonhallinnan monipuolisen osaamisen kehittämistä. Kesäkuussa julkistimme uuden SD-palvelukokonaisuuden beta-versiot. Tallennuspalvelu SD Connect mahdollistaa aineistojen keskittämisen tutkimusorganisaatioista CSC:n järjestelmään helposti, tietoturvallisesti ja varmistaen aineistojen skaalautuvuuden. Tutkimusprojektin aineistot ovat analysoitavissa kaikkien projektiin kuuluvien jäsenten kesken CSC:n toimittaman tietoturvallisen pilvilaskentaratkaisun sisällä, johon pääsy tarjotaan omalta tietokoneelta tietoturvallisen etätyöpöytäpalvelun, SD Desktopin avulla. Seuraavassa vaiheessa laajennamme SD-palveluperhettä tutkimuksen toisiokäytön palveluiden osalta.

SD-palveluiden kehityksessä käyttäjäkokemus on otettu huomioon alusta lähtien ja palaute palveluiden käyttöön otosta on ollut valtaosin positiivista. Palveluita on käytetty ensimmäisen vuoden aikana muun muassa bio- ja lääketieteen, kielitieteen, talouden sekä erilaisten ohjelmistokehitysprojektien osana. Lisäksi olemme pilotoineet palveluiden käyttöä osana Opetus- ja kulttuuriministeriön maksuttoman varhaiskasvatuksen kokeilua. Arkaluonteisten aineistojen tutkimuskäytön asiakaskunta on laajentunut ensimmäisen vuoden aikana. Suomalainen tutkimusryhmän johtaja voi nyt kutsua myös kansainväliset yhteistyökumppaninsa helposti projektinsa jäseneksi. Käyttäjien tunnistaminen ja aineistojen käyttölupien tarjoaminen perustuvat CSC:n pitkäaikaiseen yhteistyöhön osana eurooppalaista tutkimusinfrastruktuuria ja tukeutuvat kansainvälisiin standardeihin. Aineistojen omistajat toimivat aina rekisterinpitäjänä, CSC puolestaan henkilötietojen käsittelijänä. SD-palveluissa aineistot säilyvät aina tietoturvallisesti CSC:n kansallisen datanhallinnan ja laskennan tutkimusympäristön osana.

CSC osallistui kansallisten COVID-19-tutkimusprojektien datanhallinnan tukemiseen sekä varmisti myös Terveyden ja hyvinvoinnin laitoksen (THL) tilaamien COVID-19-positiivisten potilaiden virusgenomien sekvensointitulokset. Lisäksi koordinoimme yhteisen eurooppalaisen informatiomallin COVID-19-potilaiden kliinisen hoitohistorian keräämiseksi tutkimuksen käyttöön. Koordinoimme kansallisten tutkimusprojektien virusgenomit osaksi eurooppalaista tutkimuksen toisiokäytön mahdollistavaa European Nucleotide Archive -palvelua. Lisäksi valmistauduimme vastaanottamaan arkaluontoiset, potilaista kerätyt tutkimusaineistot osaksi CSC:n tulevaa Federated European Genome-phenome Archive -palvelua.

Arkaluonteisen datan palvelukokonaisuuden kehittäminen jatkui myös yhteistyössä sosiaali- ja terveysministeriön (STM) kanssa. CSC osallistuu STM:n koordinoimaan eurooppalaiseen miljoonan genomin (1+MG) hankkeeseen rakentamalla yhteistyössä Terveyden ja hyvinvoinnin laitoksen (THL) kanssa pilottikäyttöä varten räätälöidyn synteettisten genomien vastaanotto-, prosessointi- sekä löydettävyyspalvelut. Tämän lisäksi CSC vastaa 1+MG hankkeen Euroopan tasolla yhdistetyn, turvallisen, rajat ylittävän teknisen infrastruktuurin rakentamisen koordinaatiosta. CSC toimittaa myös sosiaali- ja terveysalan tietolupaviranomaisen Findatan tietojärjestelmät ja valmistautuu toimittamaan myös tutkimuksen ja koulutuksen tarpeisiin SD-palvelut Findatan luvittamille aineistoille. Kehitystyö jatkuu kiivaana myös vuoden 2022 aikana.

Datatukiverkoston ja CSC Tutkimusdatanhallinnan osaamiskeskuksen kehitys

Tutkimusdatanhallinnan osaamiskeskuksen ja datatukiverkoston työtä kehitettiin ja yhteistyötä organisaatioiden datatukihenkilöiden kanssa tiivistettiin entisestään. Osaamis- ja koulutustarpeita kartoitettiin webropol-kyselyn ja interaktiivisen webinaarin sekä kerran kuussa järjestettävien datakahvikeskustelujen avulla. Koulutuksia ja työpajoja järjestetään yhä enemmän tarvekartoituksen tuloksena selvinneistä teemoista ja yhteistyössä eri tutkimusorganisaatioiden kanssa. Rakensimme englanninkielisen itseopiskeltavan aineistonhallintakurssin, joka käy aineistonhallinnan perusasiat läpi sekä kertoo mitä resursseja tai työkaluja eri vaiheisiin on saatavilla. Kaikille tutkimusorganisaatioiden datatukihenkilöille ja tutkijoille avoin kurssi auttaa sisäistämään järkevän aineistonhallinnan perusteita ja käytäntöjä.

Fairdata-palvelut edistävät tutkimuksen ja tieteen avoimuutta

CSC tuottaa Fairdata-palveluita, joilla korkeakoulut ja tutkimuslaitokset voivat edistää tutkimukseen liittyvien aineistojen avoimuutta, saatavuutta ja säilyvyyttä. Palvelut mahdollistavat tutkimusaineistojen käsittelyn (raaka)datasta kuvailluiksi ja saatavilla oleviksi, laadukkaiksi aineistoiksi, joiden uudelleenkäyttö ja pitkäkestoinen säilyvyys voidaan taata.

Fairdata-palvelujen kehitystyön myötä organisaatioiden on entistä helpompi tuoda aineistojen kuvailutietoja ohjelmallisesti suoraan omista järjestelmistään. Fairdatan tutkimusaineistojen kuvailutietojen lähteitä ovat tällä hetkellä Kielipankki, Yhteiskuntatieteellinen tietoarkisto, Suomen ympäristökeskus ja Jyväskylän yliopisto. Uusia kuvailutietojen lähteitä tullaan lisäämään pian.

Organisaatioiden mielenkiintoa aineistojensa tuomiseksi Fairdataan on lisännyt kehitystyö kansallisen tutkimustietovarannon (Tiedejatutkimus.fi) kanssa. Kehitystyön tuloksena Fairdatan sisältämiä tutkimusaineistojen kuvailutietoja on vuoden 2021 alkaen ollut mahdollista selailla myös ko. portaalin kautta. Aineistojen tarjoaminen portaaliin laajentaa aineistojen näkyvyyttä ja helpottaa aineistojen löytämistä. Tutkimustietovarannon tavoitteena on tulevaisuudessa koota mahdollisimman laajasti suomalaisen tutkimuksen tutkimusaineistojen kuvailutiedot, ja linkittää ne muihin kuvaileviin tietoihin Suomessa tehtävästä tutkimuksesta, kuten julkaisuihin, tutkimusinfrastruktuureihin ja rahoituspäätöksiin.

Palvelujen kehitystyötä on vauhdittanut Fairdata-verkoston toiminnan käynnistäminen. Fairdata-verkoston kautta palveluja hyödyntävät organisaatiot voivat osallistua toiminnan kehittämiseen sekä saada vertaistukea palvelujen käyttöönotossa ja organisaation omien prosessien kehittämisessä.

Organisaatiokohtaiset datanhallinnan palvelut kehittyivät

CSC:n tuottamat EUDAT-palvelut täydentävät datanhallinnan palveluiden valikoimaa tarjoamalla asiakaskohtaisesti räätälöitäviä palveluita. Nämä palvelut soveltuvat organisaatioiden tai tutkimusinfrastruktuurien erityisiin tarpeisiin, joita kaikille yhteiset vaihtoehdot eivät kata. Vuoden 2021 aikana kaksi uutta räätälöityä palvelua vietiin tuotantokäyttöön suomalaisille organisaatioille (Ilmatieteen laitos ja Helsingin yliopisto). Myös palveluiden entistä kiinteämpää yhteentoimivuutta kansallisen palveluvalikoiman kanssa kehitetään. Lähiajan tavoitteena on toteuttaa yhteys kansallisten tutkimustulosten osalta Fairdata-palveluiden metadatakatalogiin niin, että EUDAT-palvelussa julkaistu tutkimusdata on löydettävissä myös tätä kautta.

CSC:n EUDAT-palvelut ovat osa eurooppalaista EUDAT-infrastruktuuria ja sitä kautta myös vahvasti mukana eurooppalaisen avoimen tiedepilven (EOSC) rakentamisessa. Kansainvälisyyden kautta palveluiden kehitykseen ja tuottamiseen on käytetty merkittävästi EU-rahoitusta. Vuonna 2021 käynnistyi DICE projekti, joka tarjoaa rahoitusta kaikille avointen palveluiden ylläpitoon ja räätälöityjen palveluiden käyttöönottoon. CSC jatkaa edelleen merkittävässä roolissa eurooppalaisen EUDAT-infrastruktuurin hallinnoinnissa, mistä osoituksena ovat CSC:n henkilöiden viimeaikaiset nimitykset EUDATissa: neuvoston puheenjohtajaksi valittiin 2020 joulukuussa Per Öster ja pääsihteeriksi nimitettiin Antti Pursula maaliskuussa 2021.

Sekä kansallisella että eurooppalaisella tasolla EUDAT-palveluiden laatua on parannettu pitkäjänteisesti. CSC:n osalta painopiste on ollut ohjelmistotuotannon prosessien automatisoinnissa. Euroopan tasolla taas on määritelty yhteiset palvelutasovaatimukset sekä sisäisille että ulkoisille palvelukomponenteille. Uudistusten tavoitteena on EUDAT-palveluiden luotettavuuden ja turvallisuuden parantaminen entisestään.

Koulutuksen tietovarannot tukevat tietojen laajaa käyttöä ja yhteiskunnan digitalisaatiokehitystä

CSC:n kehittämät tietovarannot kokoavat laajasti tietoa tutkimuksesta, koulutuksesta sekä muusta julkishallinnosta ja mahdollistavat tietojen hyödyntämisen laajasti eri palveluissa ja käyttötarkoituksissa. Alun perin viranomaisten tarpeisiin rakennetut tietovarannot tunnistetaan yhä useammin olennaisiksi tietolähteiksi, joihin kiinnittymällä muut toimijat rakentavat digitaalisia palveluitaan ja toimintaprosessejaan. Tietoja hyödyntävät esimerkiksi kunnat ja kuntayhtymät, Opetushallitus, Ylioppilaiden terveydenhoitosäätiö, KELA, Tilastokeskus, Helsingin seudun liikenne ja Työllisyysrahasto. Korkeakoulujen valtakunnallisen tietovarannon tietoja on hyödynnetty myös esimerkiksi COVID-19-pandemian vaikutusten arvioinnissa (Kansallinen koulutuksen arviointikeskus, Helsinki GSE Tilannehuone).

Kolmen opetus- ja kulttuuriministeriön osaston hallinnoima Oiva on opetushallinnon ohjaus- ja säätelypalvelu, joka tukee ammatillisen peruskoulutuksen, perusopetuksen ja vapaan sivistystyön sekä taiteen perusopetuksen toiminnanohjausta. Se sisältää koulutuksen järjestäjien järjestämis- ja ylläpitämisluvat sekä informaatio-ohjauspalvelut. Oivaa kehitettiin uusiin tuotantovaiheisiin, jonka tuloksena palvelu sisältää 670 koulutuksen järjestämislupaa (+380 % kehitys vuodesta 2020).

CSC:n toteuttamat tiedonkeruuratkaisut mahdollistavat OKM:n rahoituksen jakamisen korkeakouluille ja muille koulutuksen järjestäjille. Korkeakoulujen suorat tiedonkeruut kokoavat tiedot kaikilta korkeakouluilta mm. näiden koulutuksesta, tutkimuksesta, henkilöstöstä ja taloudesta. CSC toteutti lisäksi onnistuneesti vaativan ammatillisen koulutuksen suoritepäätöslaskennan ja tietojen jäädytyksen kokonaisuuden. Opetushallinnon vaikuttavuustietopalvelu Arvo on opetushallinnon alueelle räätälöity kyselytiedonkeruun järjestelmä, jonka kansallisilla kyselyillä kerätty tietopohja tukee mm. korkeakoulujen ja ammatillisen koulutuksen järjestäjien rahanjakoa. Arvon käyttäjinä on 174 koulutuksen järjestäjää, joiden kautta kerättiin palautetta tai mittaustuloksia yhteensä 363 220 vastaajalta/oppilaalta (+40 % kehitys vuodesta 2020).

Niin kunnallisessa kuin valtakunnallisessa kehittämisessä ja päätöksenteossa laajalti hyödynnetyn Varhaiskasvatuksen tietovaranto Vardan tietopohja laajeni sisältämään 79 000 varhaiskasvatuksen työntekijän tiedot (+1029 % kehitys vuodesta 2020). Vardan kansalaisnäkymässä oli 35 000 käyntiä vuonna 2021.

Opetushallinnon valtakunnallisen Vipunen-tilastopalvelun tietosisältö laajeni ammatillisen koulutuksen osaamisen hankinnan eli eHOKS:n (henkilökohtaisen osaamisen kehittämissuunnitelma) tietoihin sekä esi- ja perusopetuksen tietoihin. eHOKS-tietojen tietojen avulla opetushallinto ja koulutuksenjärjestäjät pystyvät seuraamaan lain edellytysten täyttymistä opiskelijoiden osaamisen kertymisessä ja kehittämään opiskelijoiden ohjausta mm. oppi- ja koulutussopimuksissa. Esi- ja perusopetuksen jatkuvasti päivittyvät tiedot puolestaan tukevat näiden koulutusasteiden järjestäjäverkkoa ja opetushallintoa.

Kansalliselle koulutuksen arviointikeskukselle (Karvi) tuotettavan tiedonkeruu- ja analyysipalvelun kehitystyö käynnistyi. Varhaiskasvatuksen laadunarviointijärjestelmä Valssi mahdollistaa tiedonkeruun ja analyysin varhaiskasvatuksen kehittämisen tueksi. Valmistuessaan Valssi tuottaa kansallisesti yhtenäistä, luotettavaa ja kumuloituvaa seurantatietoa varhaiskasvatuksen laadusta sekä mahdollistaa paikallisesti helppokäyttöiset työkalut laadun hallintaan ja itsearviointiin varhaiskasvatuksen järjestäjille ja yksityisille palveluntuottajille.

Tutkimusta koskevan tiedon löydettävyys paranee

Tutkimustietovaranto kokoaa tiedot Suomessa tehtävästä tutkimuksesta yhteen paikkaa ja tarjoaa ne kaikkien selailtavaksi Tiedejatutkimus.fi -sivustolla.  Erillislaki tutkimustietovarannosta hyväksyttiin vuoden 2021 lopulla CSC:n tukiessa lain valmistelua tutkimustiedon hallinnan näkökulmasta. Laki mahdollistaa tietojen jatkokäytön esimerkiksi tutkimusorganisaatioiden ja -rahoittajien omissa prosesseissa, mikä vähentää tarvetta samojen tietojen syöttämiselle useaan paikkaan.

Tutkimustietovaranto laajeni kattamaan myös tutkimusaineistotiedot kansallisista Fairdata.fi Lue lisää Avoimuuden edistäjät -palkinto -palveluista. Tietosisältö kasvoi myös tutkimushankkeiden osalta, kun mm. EU:n rakennerahastojen tiedot liitettiin mukaan. Avoimien tutkimusrahoitushakujen keskeinen suomalainen tietolähde, Aurora-tietokanta, siirettiin osaksi tutkimustietovarantoa, mikä tuo merkittäviä kustannussäästöjä eri järjestelmien ylläpitämisen vähentyessä ja laajentaa  Tiedejatutkimus.fi :n käyttäjäkuntaa apurahojen hakijoihin. Tiedejatutkimus.fi:ssä on ollut kuukausittain kävijöitä noin 6 000-7 000.

Yhteistyötä yhteiskunnan palveluissa

CSC on teknisenä asiantuntijana, ylläpitäjänä ja kehittäjänä mukana useissa yhteiskunnan ainutlaatuisissa tietojärjestelmähankkeissa, esimerkiksi Kansallisen audiovisuaalisen instituutin Radio- ja TV-arkistossa sekä elokuville tarkoitetussa Digivarastossa, kansalliskirjaston kulttuurin ja tieteen hakupalvelussa Finnassa sekä erinäisissä kansallisarkiston digitaalisissa palveluissa.

CSC ylläpitää ja kehittää Valtiokonttorin omistamaa kuntatalouden tietopalvelua. Järjestelmällä kerätään kuntien taloustiedot taksonomian mukaisesti. Kuntatalouden tietopalvelun palveluportaalissa tutkihallintoa.fi voi tarkastella laajasti sekä kuntien että valtion taloutta. Vuonna 2022 palvelua laajennetaan kattamaan myös uudet hyvinvointialueet.

CSC ylläpitää ja kehittää sosiaali- ja terveysalan tietolupaviranomaisen Findatan tietojärjestelmiä. Palveluiden kehittäminen jatkuu vuonna 2021. Findatan tutkijoiden etäkäyttöympäristö on läpäissyt tietoturva-auditoinnin. Arviointi tehtiin maalis-huhtikuussa 2021.

Tilastokeskuksen FIONA-etäkäyttöjärjestelmä on tietoturvallinen tutkimusaineistojen käsittely-ympäristö tutkimuksessa tarvittaville yksikkötason aineistoille, kuten Tilastokeskuksen mikroaineistoille. CSC vastaa FIONAn teknisestä ylläpidosta. Helsinki GSE:n Tilannehuoneen analyysit toteutettiin hyödyntäen Tilastokeskuksen FIONA-etäkäyttöympäristöä.

Opetus- ja kulttuuriministeriö ja Länsi- ja Sisä-Suomen aluehallintovirasto rakensivat yhdessä CSC:n kanssa valtakunnallisen etsivän nuorisotyön yhteydenottojärjestelmän. Järjestelmä otettiin käyttöön syyskuussa 2021. yhteysetsivaan.fi on maksuton valtakunnallinen palvelu, jonka avulla nuoren yksilöinti- ja yhteystietojen sähköinen luovuttaminen nuoren kotikunnan etsivään nuorisotyöhön on tietoturvallista, sujuvaa ja vastaa tietosuoja-asetuksia ja saavutettavuusdirektiivin säännöksiä.

Takaisin ylös Siirry yhteiskuntavastuun sivulle