Uudistus käytäntöihin: Sisällön säilytyksen linjaus CSC:n tutkimuksen ja opetuksen palveluissa

Kuvat: Adobe Stock

Uudistus käytäntöihin: Sisällön säilytyksen linjaus CSC:n tutkimuksen ja opetuksen palveluissa

Digitaalisen datan määrä kasvaa jatkuvasti. Sitä tuottavat niin tutkimusinstrumentit, supertietokoneiden algoritmit ja kuin kansalaistiedekin. Data voi sisältää esimerkiksi videoita, csv-tiedostoja, ohjelmakoodeja tai tekstiä. Data voi myös sisältää henkilötietoja tai arkaluonteisia tietoja. Näistä ovat esimerkkeinä haastatteluaineistot ja ihmisen genomidata. Näiden tekijöiden vuoksi hyvin suunniteltu aineistonhallinta on keskeistä.

Datan omistajan tulee olla tietoinen lainsäädännöllisistä velvoitteista, ymmärtää hyvien datanhallintakäytäntöjen merkitys ja suunnitella datan elinkaarta. GDPR asettaa datalle myös omat vaatimuksensa. Henkilötietoja tulee aina käsitellä ja poistaa julkaistujen suunnitelmien ja suostumusten mukaisesti.

 

CSC-projektissa vastuuhenkilö tekee päätökset datan elinkaaresta

CSC tarjoaa laajan valikoiman laskenta- ja datanhallintapalveluita datan elinkaaren eri vaiheisiin. Tutkimusprojektin aikana data voidaan ensin tallettaa Allas-palveluun, josta se voidaan helposti siirtää esimerkiksi Puhtiin prosessoitavaksi. Sen jälkeen data voidaan siirtää esimerkiksi Fairdata-palveluihin, EUDAT B2SHARE:en tai johonkin muuhun alakohtaiseen palveluun julkaistavaksi. Osa datasta voidaan siirtää tutkimusdatan pitkäaikaissäilytykseen (Fairdata PAS), joka säilyttää digitaalisen informaation ymmärrettävänä ja käytettävänä useiden kymmenien ja jopa satojen vuosien ajan, kun taas osa datasta on jossain vaiheessa poistettava.

Monen CSC:n datanhallintaan ja laskentaan liittyvän palvelun käyttöä varten tulee perustaa CSC-projekti, jossa yksi käyttäjä tulee olla nimetty projektin vastuuhenkilöksi. Tämä projektin vastuuhenkilö tekee päätökset datan elinkaaren hallinnasta CSC:n palveluissa projektin muiden jäsenten puolesta. 

Hyvä suunnittelu ja dokumentointi auttavat käsittelemään dataa vastuullisesti

Ainestonhallintasuunnitelma laatiminen ja ajantasaisena pitäminen auttaa varmistamaan, että kaikki datan erityisvaatimukset huomioidaan projektin eri vaiheissa. Aineistonhallintasuunnitelmaa laadittaessa datan omistajan ja muiden projektin jäsenten tulee miettiä esimerkiksi kuinka paljon dataa tuotetaan, missä se analysoidaan ja säilytetään ja mitä riskejä tulee ottaa huomioon eri vaiheissa. Hyvä aineistonhallintasuunnitelma kattaa myös datan poistamisen. Kun dataa muokataan ja versioidaan, hyvä datanhallinta tarkoittaa, että esimerkiksi tarpeeton data, helposti toistettavissa oleva triviaali data ja epäolennainen vanhentunut data poistetaan. Myös GDPR voi velvoittaa poistamaan dataa projektin tietyssä vaiheessa. Katso Helsingin yliopiston 5s-menetelmä turhan datan siivoamiseen: https://blogs.helsinki.fi/thinkopen/5s-method. 

Sisällön säilytyksen linjaus kertoo miten datasi poistetaan kun CSC-projektisi päättyy

Olemme tehneet käyttäjäkyselyitä ja keskustelleet eri mm. korkeakoulujen ja tutkimusorganisaatioiden tiedonhallinnan asiantuntijoiden kanssa datanhallinnan eri näkökulmista. Keskustelun perusteella olemme tunnistaneet seuraavia CSC-projekteihin ja datan elinkaarihallintaan liittyviä kehitystarpeita:

  • Käyttäjille tulee kertoa selkeästi, milloin ja miten CSC-projektien kestoa jatketaan, miten projekti lopetetaan ja milloin projektin data poistetaan
  • Palveluihin liittyvät roolit ja vastuut tulee olla selkeästi käyttäjien tiedosssa

Olemme samaa mieltä siitä, että on tärkeää tarkentaa käytäntöjämme paremman tiedonhallinnan tukemiseksi. Tämän vuoksi olemme nyt ottamassa käyttöön palveluille yhteistä sisällön säilytyksen linjausta CSC-projektin päättyessä.

Vuoden 2022 puolivälistä alkaen CSC:n tutkimuksen ja opetuksen palveluissa aletaan poistaa CSC-projektin sisältö (eli data, ohjelmistot, palvelimet, järjestelmät ja prosessit) datanhallinta-, säiltys ja laskentapalveluistamme yhteisen linjauksen mukaisesti. Tämän linjauksen mukaan CSC-projektin sisältö poistetaan palveluista CSC-projektin päätyttyä, jos käyttäjät eivät ole poistaneet sisältöjään itse tätä ennen. Tällä  varmistetaan, että palveluissamme olevia tietoja käsitellään vastuullisesti. Linjaus tulee koskemaan seuraavia palveluita: Puhti, Mahti, Allas, cPouta, ePouta, Rahti, SD Connect, SD Desktop ja Fairdata IDA. Fairdata IDA-palvelussa neuvottelemme ennen datan poistamista projektin vastuuhenkilön tai IDA-tallennustilan myöntäneen organisaation kanssa varmistaaksemme julkaistun datan asianmukaisen elinkaaren hallinnan.

Tulemme tiedottamaan aktiivisesti tästä muutoksesta vuoden 2022 aikana. Lisäksi päivitämme MyCSC-asiakasportaalia niin, että se CSC-projektin keston jatkaminen on mahdollisimman selkeää ja uusimme käyttäjäviestintäämme niin, että kaikki CSC-projektin jäsenet saavat useita muistutuksia CSC-projektin päättymisestä ja mahdollisuudesta jatkaa CSC-projektia.

Tutkimme myös muita kehityskohteita helpottaaksemme palveluiden ja datan elinkaaren hallintaa tulevaisuudessa. Lisäämme esimerkiksi tarkempaa tietoa projektin palveluiden käyttöstä MyCSC-asiakasportaaliin ja pyrimme hyödyntämään käyttäjien olemassa olevia aineistonhallintasuunnitelmia tehokkaammin. 

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Suvi Pousi

Kirjoittaja työskentelee tuoteomistajana datanhallinnan palveluissa ja vastaa CSC sisällön säilytyksen linjauksen implementaatiosta akateemisisten CSC-projektien osalta.