Kielipankista, kieliteknologiasta ja lahjoitetusta puheesta

Kuva: Adobe Stock

Kielipankista, kieliteknologiasta ja lahjoitetusta puheesta

Kielipankki oli muutama viikko sitten esillä julkisuudessa aika huomaamattomasti mutta silti merkittävässä roolissa. Lahjoita puhetta -kampanjalle myönnettiin parhaan mobiilipalvelun palkinto digitaalisen median Grand One -gaalassa. Kampanja palkittiin myös kunniamaininnalla parhaan datan käytön kategoriassa.

Lahjoita puhetta on Ylen, Ilmastorahaston (entinen Valtion kehitysyhtiö Vake), Solitan ja Helsingin yliopiston hanke, jossa kerätään vapaasti tuotettua suomenkielistä puhetta tekoälyn ja puheentunnistuksen kehittämistä varten. Hankkeen tavoitteena on saada kasaan 10000 tuntia tavallista, arkista puhetta. Hankkeessa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista käyttää sekä tieteellisessä tutkimuksessa että kaupallisissa tarkoituksissa.

Puheen lahjoittaminen on tehty helpoksi mobiilisovellusten avulla. Tuloksena on sujuvasti suomen kielellä toimivia puheohjattuja laitteita ja palveluita. Tekoälyn kouluttamiseksi tarvitaan kuitenkin paljon dataa, jossa on edustettuna eri murteita, eri-ikäisten ihmisten puhetta ja erilaisia puhetyylejä, kuten vieraana kielenä opittua suomea. Datan pitää olla myös helposti tutkijoiden ja palveluiden kehittäjien saatavilla.

Lahjoita puhetta -kampanjassa kerättävä aineisto talletetaan Kielipankkiin, josta aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille.  

LUMI ja yrityskäyttö

Yksi LUMI-supertietokoneen mukanaan tuomista uutuuksista on CSC:n laskentaresurssien yrityskäyttö. Resurssienjako tapahtuu Business Finlandin kautta ja pienetkin kasvuyritykset pääsevät samalle viivalle kansainvälisten jättien kanssa, ainakin laskentaresurssien suhteen. Tätä yrityskäyttöä pilotoidaan jo nyt.

Yksi ensimmäisistä Busines Finlandin AI laskentatuen kautta tulleista piloteista on puhekäyttöliittymiin erikoistunut Speechly. Yhdeksän kuukauden ajan Speechlyn syviin neuroverkkoihin perustuvaa puheentunnistusteknologiaa kehitettiin CSC:n Puhti-AI -supertietokoneen voimalla ja Speechlyn omalla datalla.

CSC:n resurssit tarjoavat Speechlyn kaltaisille aikaisen vaiheen kasvuyrityksille laskentaresursseja, jollaisia vain maailman tunnetuimmilla teknologiabrändeillä kuten Googlella, Applella ja Amazonilla on aiemmin ollut käytettävissään. Projektin aikana Speechly sai parannettua puheentunnistusmallinsa tunnistustarkkuutta sanavirheluvulla mitattuna lähes 60 prosenttia.

– Speechlyn tuotekehitystyö on erilaisten koneoppimisalgoritmien testaamista parhaiden puheentunnistusmallien löytämiseksi. Modernit syvien neuroverkkojen koneoppimismallit vaativat suurta laskentakapasiteettia. Se, kuinka nopeasti saamme yhden mallin opetettua ja testattua, on yksi merkittävimmistä tuotekehityksen tuloksiin vaikuttavista tekijöistä. Yhden mallin kouluttaminen voi kestää päivistä jopa viikkoihin. CSC:n laskentakapasiteetin ansiosta pystyimme työskentelemään huomattavasti aikaisempaa nopeammin sekä merkittävästi laajemmilla data-aineistoilla, kertoo Janne Pylkkönen, Speechlyn johtava tutkija ja yksi perustajista, Business Finlandin tiedotteessa.

Jatkossa tältä combolta voi odottaa paljon: tarjolla on suuri määrä hyvälaatuista puhedataa ja supertietokoneen raskasta laskentaa niin korkeakoulututkijoiden, tutkimuslaitosten kuin yritystenkin käyttöön ja erilaisia yhteishankkeita on entistä helpompi toteuttaa.

Kielipankki on suomalaisten yliopistojen ja tutkimuslaitosten yhdessä rakentama palvelukokonaisuus, jota Helsingin yliopisto koordinoi ja jonka teknisestä puolesta vastaa CSC. Yhdessä nämä muodostavat FIN-CLARIN-konsortion, joka puolestaan on eurooppalaisen CLARIN-infrastruktuurin suomalainen osa. Kielipankista löytyy moninaisten kielten teksti- ja puheaineistoja sekä valikoima työkaluja niiden tutkimiseksi. Se palvelee kielentutkijoiden lisäksi myös laajemmin digitaalisten ihmistieteiden tutkijoita ja opiskelijoita.

 

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tommi Kutilainen

Kirjoittaja on työskennellyt muutaman vuosikymmenen CSC:n viestinnässä ja on erityisen kiinnostunut kaikesta. Twitter: @TommiKutilainen

 

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.