Datan säilytys ja turvaaminen

Datan säilytys ja turvaaminen

Tutkimuksessa käytetystä ja tuotetusta datasta huolehtiminen kuuluu tutkijan perustaitoihin. Jo tutkimuksen alkuvaiheessa tutkijoiden on huomioitava datan elinkaari.

Rahoitusta haettaessa monet rahoittajat kuten Suomen Akatemia vaativat datanhallintasuunnitelman, jossa huomioidaan mm. aineistonkeruu ja käsittely, oikeudet ja luvat, tiedostomuodot, metatiedot, pysyvät tunnisteet sekä datan tallennus, säilytys ja avaaminen. Datan sensitiivisyys, jatkuvat datavirrat ja suuret  datamäärät tuovat omat eritysvaatimuksensa datanhallintaan.

Datan tallennus

Hyvä datan tallennuspaikka on tietoturvallinen ja varmuuskopioitu ja data on helposti jaettavissa halutun ryhmän sisällä. Esimerkiksi CSC:n ympäristössä aktiiviselle datalle löytyy projektihakemistot laskentaympäristöstä ja pilvipalveluista tai datan voi tallentaa koko järjestelmän yhteiseen datanhallintaympäristöön. Aktiivisen datan tallennusvaihe on suhteellisen lyhyt ja sen jälkeen pysyvän (muuttumattoman) datan säilytykselle on omat säilytyspalvelunsa ja kansallisesti merkittävät aineistot siirretään digitaalisen pitkäaikaissäilytyksen piiriin.

Datan säilytyspalvelut

Datan säilyttämisellä tarkoitetaan pysyvän datan säilyttämistä useiden vuosien ajan. Tätä varten on olemassa erilaisia säilytyspalveluita. Esimerkiksi opetus- ja kulttuuriministeriön Fairdata-palveluihin kuuluu pysyvän datan säilytykseen ja jakamiseen tarkoitettu IDA ja yhteiseurooppalainen EUDAT tarjoaa B2SHARE-palvelun avoimesti lisensoidun tutkimusdatan säilyttämiselle ja jakamiselle.

Digitaalinen pitkäaikaissaatavuus

Digitaalinen pitkäaikaissäilytys (PAS) tarkoittaa digitaalisen informaation säilyttämistä ymmärrettävänä ja käytettävänä useiden kymmenien tai jopa satojen vuosien ajan.

Pitkäaikaissäilytyksen rinnalla puhutaan myös pitkäaikaissaatavuudesta, joka korostaa sitä, että data on paitsi säilöttynä, myös saatavilla tutkimuskäyttöön satojen vuosien päästäkin ja käytettävissä tulevilla laite- ja ohjelmistoympäristöissä ja tiedostomuodoissa. Tämä edellyttää jatkuvaa datan migraatiota.

Digitaalinen pitkäaikaissäilytys jaetaan usein semanttiseen, loogiseen ja bittitason säilyttämiseen. Näistä semanttinen säilyttäminen keskittyy aineistojen sisältöön, merkittävyyteen ja näiden kuvailuun, looginen säilyttäminen aineistojen käyttökelpoisuuden hallintaan ja bittitason säilyttäminen varmistaa datan eheyden.  

Loogisessa säilyttämisessä keskeinen menetelmä on tiedostomuotojen migraatiot, joita varten kehitetään menetelmiä ja välineitä sekä ylläpidetään tähän liittyvää osaamista. Bittitason säilytyksessä hallitaan datasta riittävää määrää kopioita heterogeenisessä laiteympäristössä maantieteellisesti hajautettuna. Päivittäisessä toiminnassa huolehditaan aineistojen eheydestä, korjataan mahdolliset poikkeamat ja huolehditaan laitteistojen elinkaaren hallinnasta.

Digitaalisessa pitkäaikaissäilytyksessä säilyttäminen muodostuu aktiiviseksi huolehtimiseksi siitä, että informaatio säilyy siihen kohdistuvista erilaisista murroksista huolimatta. Ilman tätä huolehtimista laitteet, ohjelmistot ja tiedostomuodot, mutta myös ihmiset ja osaaminen, vanhenisivat ajan saatossa ja tietosisällöt tuhoutuisivat. Keskeistä on varmistaa hyvin toimivat prosessit, jotka mahdollistavat henkilöriippumattoman toiminnan ja osaamisen siirron uusille tekijöille.

Opetus- ja kulttuuriministeriön kansalliset digitaalisen pitkäaikaissäilytyksen palvelut huolehtivat sekä kulttuuriperinnön että tutkimukseen liittyvien aineistojen säilymisestä tuleville sukupolville. Kulttuuriperintöaineistojen pitkäaikaissäilytys aloitettiin yhdessä kansallisten muistiorganisaatioiden kanssa syksyllä 2015 ja tutkimukseen liittyvien aineistojen pitkäaikaissäilytys vuoden 2019 lopulla.

Fairdata-palvelukokonaisuus

Fairdata-palvelut muodostavat yhteentoimivan palvelukokonaisuuden aineistonhallintaan, aineistojen kuvailuun ja turvalliseen säilytykseen sekä merkittävien tietoaineistojen pitkäaikaisäilytykseen. IDA on tutkimusdatan säilytyspalvelu, Qvaimen avulla tutkimusaineistoon liitetään kuvailutiedot eli metadata ja Fairdata PAS-palvelu on tutkimusaineistojen pitkäaikaissäilytyspalvelu. Etsimen avulla avulla tutkija voi hakea tietoa tutkimusaineistoista tai tutkimusaineistoja käyttöönsä. Palveluiden yhteentoimivuuden varmistaa yhteinen metatietovaranto.

 

Video

CSC – suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Katso video Youtubessa »

Uusimmat blogit ja artikkelit

Lisää sisältöjä

Suurteholaskenta herätti innostusta Euroopan sydämessä: LUMI-konsortion tapahtuma Brysselissä 5. maaliskuuta

"Meidän tulisi Euroopassa olla rohkeampia ja intohimoisempia sen suhteen, mitä voimme tehdä supertietokoneillamme, sekä laajentaa niiden ympärillä olevaa yhteisöä", sanoo EU:n digitaalisesta valmiudesta vastaava Euroopan komission varapuheenjohtaja Margrethe Vestager.

Lue lisää »

Antti Penttilä tutkii valon sirontaa avaruudessa

Dosentti Antti Penttilä Helsingin yliopistosta käyttää LUMIa tutkiakseen valon sirontaa avaruudessa. LUMI-supertietokoneen käyttö mahdollistaa merkittävästi aikaisempaa suurempien mallien laskemisen.

Lue lisää »

Summer School brings together learners interested in high-performance computing

CSC Summer School in High-Performance Computing was organized for the 13th time in Nuuksio in summer 2023. The number of participants broke all records. The course attracted more than 30 students from all corners of Europe with different educational backgrounds and starting points.

Lue lisää »

Kvanttihyppy vaatii isoa loikkaa myös tietoliikenteen salaamisessa

Tik tak, tik tak, kvanttikello tikittää. Internet täytti tämän vuoden alussa 40 vuotta. Samaan aikaan sen synnyn kanssa toisaalla ideoitiin täysin uusi tietokonetyyppi: kvanttitietokone. Alussa näillä ei juuri ollut yhtymäkohtia, mutta tänä päivänä nämä kaksi eri tietotekniikan ihmettä ovat kietoutuneet tiukasti toisiinsa.

Lue lisää »