Datasetit palveluna LUMI-tekoälytehtaasta – data lähellä laskentaa
Tekoälysovellusten kehittäminen vaatii osaamista, laskentaa ja dataa. Mieluiten paljon ja nopeasti. LUMI-tekoälytehtaan (LUMI AI Factory) täysin uudenlainen datasetit palveluna -ratkaisu, eli Dataset-as-a-Service (DaaS), tuo datan ja laskennan lähemmäs toisiaan tavalla, joka vastaa suoraan tekoälyn ja dataintensiivisen tutkimuksen kasvaviin tarpeisiin.
Perinteisesti suuria tietoaineistoja on siirrelty ympäristöstä toiseen käyttötapauskohtaisesti, arkistoista laskentapalveluihin ja takaisin, mikä vie aikaa ja resursseja. LUMI-tekoälytehtaan DaaS-palvelu lähestyy ongelmaa toisesta suunnasta: se kokoaa datan näkyviin paikkaan, jossa laskentateho jo odottaa. Tämä lyhentää matkaa datasta tuloksiin ja tekee kokeilusta ja tutkimuksesta sujuvampaa.
DaaSin käyttöliittymä on datakatalogi, jossa datan tuottajat voivat julkaista aineistojaan hallitusti, ja datan käyttäjät voivat löytää ne ilman manuaalista etsimistä tai erillisiä palveluita. Palvelu yhdistää metatiedon, käyttöoikeudet ja datan sijainnin kokonaisuudeksi, jossa aineistot ovat paitsi löydettävissä myös välittömästi hyödynnettävissä LUMI-supertietokoneessa. Tämä on erityisen tärkeää tekoälyn kehityksessä, jossa mallien kouluttaminen vaatii suuria datamääriä ja joissa datan fyysinen sijainti suhteessa laskentaan vaikuttaa merkittävästi suorituskykyyn ja työvaiheiden toistettavuuteen.
LUMI-tekoälytehtaan DaaS-palvelu tuottaa arvoa yhtä aikaa kahdelle käyttäjäryhmälle: datan hyödyntäjille ja datan jakajille. Datan käyttäjän näkökulmasta DaaS tekee AI-kehitykseen soveltuvien aineistojen etsimisestä suoraviivaista ja poistaa pullonkaulan, jossa suuri aineisto pitäisi kopioida johonkin toiseen paikkaan ennen kuin se on analysoitavissa. Datan tuottajalle palvelu tarjoaa selkeän julkaisupolun, jonka kautta aineistot tulevat löydettäviksi hallitusti, standardoidusti ja laajempaan käyttöön. Julkaistu datasetti ei hautaudu arkistoon, vaan saa näkyvyyttä ja käyttöä.
Mikä LUMI-tekoälytehtaan DaaSissa on uutta?
LUMI-tekoälytehtaan DaaS ei ole taas yksi uusi datarepositorio, eikä sen ensisijainen tarkoitus ole aineistojen säilyttäminen ja julkaiseminen viittaustietoineen. Datarepositorio ja DaaS ovat toisiaan täydentäviä palvelumalleja, joista ensinmainittu tukee säilytystä ja viitattavuutta, jälkimmäinen käyttöä.
Perinteinen datarepositorio on paikka, jonne aineisto arkistoidaan ja josta se voidaan ladata muualle käytettäväksi. DaaS puolestaan orkestroi pääsyn dataan, ohjaa käyttäjän oikeuksien piiriin ja tuo metatiedon, valtuutuksen ja datan sijainnin yhteen prosessiin. DaaSiin sisältyvät aineistot voivat fyysisesti sijaita eri järjestelmissä, mutta DaaS näyttää ne yhtenäisenä valikoimana ja mahdollistaa käyttöönoton ilman, että käyttäjän pitää siirtää aineistoja järjestelmästä toiseen.
Koska DaaS ei ole arkisto, sitä ei myöskään ole tarkoitettu pitkäaikaissäilytykseen. Data säilytetään DaaSissa vain niin kauan kuin sille on kysyntää AI-kehityksessä. Kun kysyntä laantuu, data voidaan poistaa DaaSista, mutta tarvittaessa säilytysversio yhä on saatavilla sopivassa datarepositoriossa.
Arkkitehtuuri olemassa olevan päälle
DaaS on nimenomaan palvelu, ei yksittäinen IT-järjestelmä. Sen arvo syntyy metatiedon, käyttöoikeuksien ja teknisen integraation yhdistelmästä. DaaS-palvelu rakentuu modulaarisesti jo olemassa olevien ja laajasti käytettyjen komponenttien varaan. CSC:n Fairdata-Metax tarjoaa metatietovaraston ja Fairdata-Etsin toimii käyttöliittymänä ja hakupalveluna,LUMI-O (englanniksi) tuo objektivaraston lähelle laskentaa, CSC:n Resource Entitlement Management System REMS (englanniksi) hallitsee käyttöoikeuksia ja niihin liittyviä lupaprosesseja, ja IT4I:n LEXIS (englanniksi) mahdollistaa datan siirtämisen ja orkestroinnin eri järjestelmien välillä. Tämä lähestymistapa on taloudellinen ja riskitön verrattuna täysin uuden järjestelmän rakentamiseen: kukin komponentti on jo testattu käytännössä, ja niiden yhdistäminen mahdollistaa joustavan, skaalautuvan ja kestävästi ylläpidettävän kokonaisuuden.
Modulaarisuus tarkoittaa myös sitä, että palvelua voidaan laajentaa pala kerrallaan käyttäjätarpeiden mukaan. Arkkitehtuuri ei ole jäykkä, eikä uusia kyvykkyyksiä tarvitse rakentaa tyhjästä, mikä nopeuttaa kehitystyötä ja pitää kustannukset kurissa.
Palvelu saatavilla, toiminnallisuuksien kehitys etenee
LUMI-tekoälytehtaan DaaS ei ole vielä täysin valmis palvelutuote, mutta sen ensimmäinen esituotteistettu versio on jo datan jakajien ja käyttäjien saatavilla. Esituotteistetussa versiossa palvelukomponenttien välisiä integraatioita vielä kehitetään ja jotkin osat palvelusta toimivat manuaalisesti LUMI-tekoälytehtaan palvelukeskuksen asiantuntijoiden toteuttamana. Toiminnallisuuksien automatisoiminen kuitenkin etenee koko ajan.
Myös DaaSin aineistotarjoama kehittyy alati. Tällä hetkellä datakatalogin kautta on löydettävissä kymmenen laajempaa datakokonaisuutta, jotka kukin koostuvat useista dataseteistä. Yksi kokonaisuuksista on Open Web Search Index, joka on jatkuvasti päivittyvä yli tuhannen, yhteisvolyymiltaan yli petatavun, datasetin resurssi. Open Web Indexin sisältö muodostuu rakenteisesta, indeksoidusta verkkodokumenttiaineistosta, joka on kerätty avoimilla menetelmillä ja tarkoitettu uudelleenkäytettäväksi ilman tarvetta indeksoida koko verkkoa itse. Open Web Index toimii siten perustason infrastruktuurina, jonka päälle voidaan rakentaa hakupalveluja, analytiikkaa, tutkimusta ja tekoälymalleja. Se tarjoaa mahdollisuuden “leikata ja viipaloida” verkkodataa omien tarpeiden mukaan, mikä tekee siitä erityisen arvokkaan resurssin esimerkiksi hakukonekehitykselle ja laajojen kielimallien kouluttamiselle.
Kun LUMI-tekoälytehtaan DaaS kypsyy kohti tuoteistettua palvelua, se muotoutuu yhä vahvemmin sekä datan tuottajien että datan hyödyntäjien työkaluksi. Tavoitteena on luoda palvelu, joka parantaa datan löydettävyyttä, vähentää manuaalista työtä ja ennen kaikkea edistää AI-kehitystä. DaaS ei siis ole vain uusi tekninen alusta, vaan osa laajempaa muutosta kohti dataa, joka on heti käyttökelpoista juuri siellä missä sen arvo syntyy.
Tutustu tarkemmin LUMI-tekoälytehtaan Datasets-as-a-Serviceen ja ota yhteyttä asiantuntijoihimme LUMI AI Factoryn sivuilta.


