Datan säilytys ja turvaaminen

Datan säilytys ja turvaaminen

Tutkimuksessa käytetystä ja tuotetusta datasta huolehtiminen kuuluu tutkijan perustaitoihin. Jo tutkimuksen alkuvaiheessa tutkijoiden on huomioitava datan elinkaari.

Rahoitusta haettaessa monet rahoittajat kuten Suomen Akatemia vaativat datanhallintasuunnitelman, jossa huomioidaan mm. aineistonkeruu ja käsittely, oikeudet ja luvat, tiedostomuodot, metatiedot, pysyvät tunnisteet sekä datan tallennus, säilytys ja avaaminen. Datan sensitiivisyys, jatkuvat datavirrat ja suuret  datamäärät tuovat omat eritysvaatimuksensa datanhallintaan.

Datan tallennus

Hyvä datan tallennuspaikka on tietoturvallinen ja varmuuskopioitu ja data on helposti jaettavissa halutun ryhmän sisällä. Esimerkiksi CSC:n ympäristössä aktiiviselle datalle löytyy projektihakemistot laskentaympäristöstä ja pilvipalveluista tai datan voi tallentaa koko järjestelmän yhteiseen datanhallintaympäristöön. Aktiivisen datan tallennusvaihe on suhteellisen lyhyt ja sen jälkeen pysyvän (muuttumattoman) datan säilytykselle on omat säilytyspalvelunsa ja kansallisesti merkittävät aineistot siirretään digitaalisen pitkäaikaissäilytyksen piiriin.

Datan säilytyspalvelut

Datan säilyttämisellä tarkoitetaan pysyvän datan säilyttämistä useiden vuosien ajan. Tätä varten on olemassa erilaisia säilytyspalveluita. Esimerkiksi opetus- ja kulttuuriministeriön Fairdata-palveluihin kuuluu pysyvän datan säilytykseen ja jakamiseen tarkoitettu IDA ja yhteiseurooppalainen EUDAT tarjoaa B2SHARE-palvelun avoimesti lisensoidun tutkimusdatan säilyttämiselle ja jakamiselle.

Digitaalinen pitkäaikaissaatavuus

Digitaalinen pitkäaikaissäilytys (PAS) tarkoittaa digitaalisen informaation säilyttämistä ymmärrettävänä ja käytettävänä useiden kymmenien tai jopa satojen vuosien ajan.

Pitkäaikaissäilytyksen rinnalla puhutaan myös pitkäaikaissaatavuudesta, joka korostaa sitä, että data on paitsi säilöttynä, myös saatavilla tutkimuskäyttöön satojen vuosien päästäkin ja käytettävissä tulevilla laite- ja ohjelmistoympäristöissä ja tiedostomuodoissa. Tämä edellyttää jatkuvaa datan migraatiota.

Digitaalinen pitkäaikaissäilytys jaetaan usein semanttiseen, loogiseen ja bittitason säilyttämiseen. Näistä semanttinen säilyttäminen keskittyy aineistojen sisältöön, merkittävyyteen ja näiden kuvailuun, looginen säilyttäminen aineistojen käyttökelpoisuuden hallintaan ja bittitason säilyttäminen varmistaa datan eheyden.  

Loogisessa säilyttämisessä keskeinen menetelmä on tiedostomuotojen migraatiot, joita varten kehitetään menetelmiä ja välineitä sekä ylläpidetään tähän liittyvää osaamista. Bittitason säilytyksessä hallitaan datasta riittävää määrää kopioita heterogeenisessä laiteympäristössä maantieteellisesti hajautettuna. Päivittäisessä toiminnassa huolehditaan aineistojen eheydestä, korjataan mahdolliset poikkeamat ja huolehditaan laitteistojen elinkaaren hallinnasta.

Digitaalisessa pitkäaikaissäilytyksessä säilyttäminen muodostuu aktiiviseksi huolehtimiseksi siitä, että informaatio säilyy siihen kohdistuvista erilaisista murroksista huolimatta. Ilman tätä huolehtimista laitteet, ohjelmistot ja tiedostomuodot, mutta myös ihmiset ja osaaminen, vanhenisivat ajan saatossa ja tietosisällöt tuhoutuisivat. Keskeistä on varmistaa hyvin toimivat prosessit, jotka mahdollistavat henkilöriippumattoman toiminnan ja osaamisen siirron uusille tekijöille.

Opetus- ja kulttuuriministeriön kansalliset digitaalisen pitkäaikaissäilytyksen palvelut huolehtivat sekä kulttuuriperinnön että tutkimukseen liittyvien aineistojen säilymisestä tuleville sukupolville. Kulttuuriperintöaineistojen pitkäaikaissäilytys aloitettiin yhdessä kansallisten muistiorganisaatioiden kanssa syksyllä 2015 ja tutkimukseen liittyvien aineistojen pitkäaikaissäilytys vuoden 2019 lopulla.

Fairdata-palvelukokonaisuus

Fairdata-palvelut muodostavat yhteentoimivan palvelukokonaisuuden aineistonhallintaan, aineistojen kuvailuun ja turvalliseen säilytykseen sekä merkittävien tietoaineistojen pitkäaikaisäilytykseen. IDA on tutkimusdatan säilytyspalvelu, Qvaimen avulla tutkimusaineistoon liitetään kuvailutiedot eli metadata ja Fairdata PAS-palvelu on tutkimusaineistojen pitkäaikaissäilytyspalvelu. Etsimen avulla avulla tutkija voi hakea tietoa tutkimusaineistoista tai tutkimusaineistoja käyttöönsä. Palveluiden yhteentoimivuuden varmistaa yhteinen metatietovaranto.

 

Video

CSC – suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Katso video Youtubessa »

Uusimmat blogit ja artikkelit

Lisää sisältöjä

European Health Data Space: mobilising data for health innovation and AI development

Done in the right way, the European Health Data Space could boost research and new technologies for better health, resilience and competitiveness.

Lue lisää »

Pysyville tunnisteille kansallinen tiekartta

Pysyvistä tunnisteista (PID) on verkkoympäristössä selkeää hyötyä ja ne säästävät työtä. Jotta toimintamallit ja vastuut ovat selkeitä, Suomessa toimiva asiantuntijoista muodostuva PID-verkosto on vastikään julkaissut Kansallisen PID-tiekartan.

Lue lisää »

CSC:n ehdotukset Suomen digitaalisen kompassin toimeenpanon tueksi, osa 1: Toimia datatalouden ja TKI-ekosysteemin kehittämiseksi

Odotukset ovat valtavat sen suhteen, mitä kaikkea hyvää digitaalinen siirtymä meille tuo. Onko kuitenkaan täysin ymmärretty digitalisaation vaikuttavuutta tähän kokonaisuuteen, tai sitä, mitä se koko yhteiskunnalta edellyttää?

Lue lisää »

CSC eurooppalaisessa EUDATissa

EUDAT-jäsenyyden ansiosta CSC voi tarjota asiakkailleen korkealaatuisia EUDAT-teknologiaan perustuvia datapalveluja. EUDATin B2-tuoteperhe  auttaa tutkijoita tutkimusdatan hallinnassa. Palveluntarjoajille  EUDAT konsortio mahdollistaa työnjaon eri keskuksien välillä.

Lue lisää »