Datan arvon maksimointi

Datan arvon maksimointi

Dataa sanotaan usein uudeksi öljyksi, mutta tämä analogia ontuu monin tavoin. Toisin kuin öljy, data ei saastuta, data ei kulu käytössä ja datan arvo moninkertaistuu jakamalla.

Big data, nykyinen laskentateho ja kehittyneet analyysimenetelmät avaavat aivan uusia mahdollisuuksia tutkimukselle. Lääketieteen tutkijoille pääsy sensitiivisiin aineistoihin, kuten terveys- ja potilastietoihin, voi mahdollistaa eri tautien syiden ja uusien hoitokeinojen löytymisen ihmisten yksityisyyden ja tietoturvan vaarantumatta.

Koko yhteiskunnan digitalisaatio lisää suurten datamassojen yhdistelyä, käsittelyä ja analysointia ja tämä vaikuttaa myös tieteeseen. Data ja laskenta kulkevat aina käsi kädessä ja nämä edellyttävät tutkimuksen tarpeisiin suunniteltua tehokasta laskenta- ja datanhallintaympäristöä.

Big data ja data-analyysi

Big datalla tarkoitetaan erittäin suurten, järjestelemättömien ja jatkuvasti kasvavien datamäärien keräämistä, säilyttämistä ja analysoimista tietotekniikan ja tilastotieteen avulla. Big data voi kertyä esimerkiksi lukuisista mittalaitteista, internet-sivujen lokitiedoista tai vaikkapa sosiaalisen median sisällöistä.

Pelkkä data ei aina itsessään ole käyttökelpoista, vaan oleellista on osata koostaa datasta aineistoja, jotta ne ovat tutkimuksellisesti hyödynnettävissä. 

Big Datan analysoimisessa ongelmiksi muodostuvat esimerkiksi muistin loppuminen, tallennustilan loppuminen ja analyysiin kuluva aika. Näitä ongelmia voidaan  ratkaista  joustavilla ja helposti skaalautuvilla pilvipalveluilla, uusilla teknologioilla kuten  konttitekniiikalla ja Big Datan analysointiin suunnitelluilla työkaluilla kuten Spark, Hadoop and Kafka.

Avoin data

Digitalisaatio ja datatalous ovat suuria mahdollisuuksia edistää tiedettä, luoda kasvua ja uusia innovaatioita, ja lopulta uusia liiketoimintamuotoja. Datan avoimuus on yksi kehityksen keskeisistä lähtökohdista.

Tutkimusaineistojen avoimuudella edistetään tutkimusaineistojen jatkokäyttöä, josta hyötyvät aineiston tuottajan itsensä lisäksi muut tutkijat ja parhaimmillaan yhteiskunnat maailmanlaajuisesti. Tutkijat voivat etsiä käyttöönsä tarvitsemaansa dataa ja tutkijat hyötyvät itsekin oman datansa avaamisesta. Avoimuus parantaa tutkijan näkyvyvyttä: avoimella tausta-aineistolla varustetut julkaisut keräävät enemmän viittauksia kuin julkaisut, joiden tausta-aineisto ei ole saatavilla. Itse datakin voi tuoda tutkijalle viitauksia.

Avoin data parantaa tutkimuksen läpinäkyvyyttä ja toistetavuutta, ja tätä kautta tieteen laatua. Avoimuus myös demokratisoi tiedettä: tutkijoilla vähävaraisemmista yliopistoista ja kolmannen maailman yliopistoista on yhtälainen pääsy tutkimuksen tuotoksiin kuin varakkaiden yliopistojen tutkijoilla.

FAIR-periaatteet

Force11 julkisti FAIR-periaatteet vuonna 2016. FAIR-periaatteiden tarkoitus on tehdä data löydettäväksi (Findable), saavutettavaksi (Accessible), yhteentoimivaksi (Interoperable) ja uudelleenkäytettäväksi (Re-usable). FAIR-periaatteiden noudattamisesta on EU:n neuvoston linjaus vuodelta 2016. Opetus- ja kulttuuriministeriö on sitoutunut FAIR-periaatteisiin. Fairdata-palveluita kehitetään näiden periaatteiden pohjalta.

Sensitiivinen data

Sensitiivinen eli arkaluonteinen data on hyvin ajankohtainen aihe sen tarjoamien suurten mahdollisuuksien vuoksi. Sensitiivisen datan tarkka määrittely on vaikeaa, mutta EU:n tietosuoja-asetus (GDPR, 2018) ja kansallinen lainsäädäntö antavat yksinkertaisia ohjenuoria. Sensitiivinen data sisältää ihmisten  etniseen alkuperään, poliittisiin tai uskonnollisiin mielipiteisiin tai terveyteen liittyvää tietoja, genomiin tai biometriikaan koskevia tietoja tai sukupuoliseen suuntautumiseen liittyviä tietoja.

Ihmisillä on oikeus yksityisyyteen, joten sensitiivisen datan säilytys ja käsittely täytyy turvata huolellisesti. Arkaluonteisten henkilötietojen käsittely on pääsääntöisesti kielletty. Niiden käsittely on sallittu ainoastaan silloin, kun siitä on erikseen mainittu laissa ja tietojen keräämiseen täytyy olla peruste. Arkaluonteisen aineiston kuten väeston terveystietojen  käyttäminen esimerkiksi lääketieteelliseen tutkimukseen vaatii luvituksen ja ihmisten antaman suostumuksen tietojen käyttöön tutkimustarkoituksiin. Ihmisten yksityisyys turvataan anonymisoimalla tai pseudonymisoimalla dataa, jolloin datasta ei voida enää tunnistaa yksittäistä ihmistä.

Suomessa esimerkiksi Tilastokeskus, Terveyden- ja hyvinvoinnin laitos ja biopankit ovat keränneet vuosikausien ajan sensitiivistä tietoa. Tutkimuksessa sensitiivistä dataa voivat käyttää hyödyksi niin lääketieteen tutkijat, yhteiskuntatieteilijät kuin kielitieteilijätkin.

Datan toisiokäyttö

Sosiaali- ja terveystietojen toisiokäyttö on tietojen käyttöä muuhun kuin alkuperäiseen tarkoitukseen, usein tieteellisen tutkimukseen. Tätä säätelee ns toisiolaki, joka tuli voimaan keväällä 2019.

Uusi sosiaali- ja terveysalan tietolupaviranomainen, Findata, aloittaa toimintansa vuoden 2020 alussa. Findata perustetaan erilliseksi yksiköksi Terveyden ja hyvinvoinnin laitoksen (THL) yhteyteen. Kyseessä on muusta THL:n toiminnasta erillinen yksikkö.

Findata myöntää luvat sosiaali- ja terveystietojen toissijaiseen käyttöön silloin, kun tietoja yhdistellään useammalta rekisterinpitäjältä, rekisteritiedot ovat peräisin yksityisiltä sosiaali- ja terveydenhuollon palvelunjärjestäjiltä tai kyse on Kanta-palveluihin tallennetuista tiedoista.

Videot

Patrik Maltusch: Avoimen tutkimusdatan jakamisen periaatteet Aallossa

Katso video YouTubessa »

Uusimmat blogit ja artikkelit

Lisää sisältöjä

Suurteholaskenta herätti innostusta Euroopan sydämessä: LUMI-konsortion tapahtuma Brysselissä 5. maaliskuuta

"Meidän tulisi Euroopassa olla rohkeampia ja intohimoisempia sen suhteen, mitä voimme tehdä supertietokoneillamme, sekä laajentaa niiden ympärillä olevaa yhteisöä", sanoo EU:n digitaalisesta valmiudesta vastaava Euroopan komission varapuheenjohtaja Margrethe Vestager.

Lue lisää »

Antti Penttilä tutkii valon sirontaa avaruudessa

Dosentti Antti Penttilä Helsingin yliopistosta käyttää LUMIa tutkiakseen valon sirontaa avaruudessa. LUMI-supertietokoneen käyttö mahdollistaa merkittävästi aikaisempaa suurempien mallien laskemisen.

Lue lisää »

Summer School brings together learners interested in high-performance computing

CSC Summer School in High-Performance Computing was organized for the 13th time in Nuuksio in summer 2023. The number of participants broke all records. The course attracted more than 30 students from all corners of Europe with different educational backgrounds and starting points.

Lue lisää »

Kvanttihyppy vaatii isoa loikkaa myös tietoliikenteen salaamisessa

Tik tak, tik tak, kvanttikello tikittää. Internet täytti tämän vuoden alussa 40 vuotta. Samaan aikaan sen synnyn kanssa toisaalla ideoitiin täysin uusi tietokonetyyppi: kvanttitietokone. Alussa näillä ei juuri ollut yhtymäkohtia, mutta tänä päivänä nämä kaksi eri tietotekniikan ihmettä ovat kietoutuneet tiukasti toisiinsa.

Lue lisää »