Käännösten avulla kohti kielen ymmärtämistä

Kuva: Adobe Stock.

Käännösten avulla kohti kielen ymmärtämistä

MultiMT, yksi CSC:n Puhti-supertietokoneen pilottiprojekteista, hyödyntää syväoppimista löytääkseen merkityksiä, jotka eivät ole sidoksissa mihinkään yksittäiseen kieleen.

Käyttökelpoista konekäännöstä on 1950-luvulta lähtien pidetty lähitulevaisuudessa, noin kymmenen vuoden kuluessa ratkaistavissa olevana haasteena. Se oli kuitenkin pitkään lähinnä raakatekstin esikäsittelytyökalu ja ihmiskääntäjien apulainen. Viimeisimmän vuosikymmenen aikana konekäännös saavutti viimein tason, jolla teknologia on jo sellaisenaan hyödyksi loppukäyttäjille.

Erilaisia kääntämisessä käytettäviä menetelmiä ovat kielitieteelliset säännöt, tilastot ja suurin datamäärin koulutetut neuroverkot. Syväoppimisneuroverkkotekniikat ovat viime aikoina kehittyneet nopeasti, ja niitä käyttää muun muassa Google Translate.

Pystyäkseen kilpailemaan ihmiskääntäjien kanssa koneen täytyy ymmärtää luonnollista enemmän kuin on pelkkien säännöstöjen ja tilastojen avulla mahdollista. Juuri tämä on tavoitteena MultiMT:ssä, joka on yksi CSC:n Puhti-pilottiprojekteista.

Kieliriippumattomia merkitysrakenteita

MultiMT perustuu FoTran-hankkeeseen (Found in Translation: Natural Language Understanding with Cross-lingual Grounding), jota johti Jörg Tiedemann, Helsingin yliopiston kieliteknologian professori. Siinä hyödynnetään ihmiskääntäjien tuottamia rinnakkaisaineistoja ja etsitään kieliriippumattomia merkitysrakenteita tulkitsemalla yli tuhannen luonnollisen kielen semantiikkaa.

Kielellinen monitulkintaisuus on yksi niin ihmis- kuin konekäännöksen päähaasteista. Kattamalla näin suuri osa maailman kielellisestä monimuotoisuudesta lähtödatasta paljastuu merkityksiä, joiden avulla pyritään kohoamaan ongelman yläpuolelle, poikkikielelliselle tasolle.

CSC:n supertietokoneet, erityisesti Puhti-AI:n tekoälyosio, tarjoavat runsaita laskentaresursseja, joita mallin kehittäminen vaatii.

– Ilman CSC:n palveluja suurin osa työstämme ei olisi mahdollista. Tarvitsemme raskasta, erityisesti GPU-pohjaista laskentaa. CSC on arvokas voimavara, joka mahdollistaa laajamittaisen kehitystyömme. Arvostamme nopeasti toimivia tukipalveluja, joista on ollut moneen otteeseen hyötyä, Tiedemann sanoo.

–  Hyödynnämme CSC:n HPC-mahdollisuuksia runsaasti. Kehitystyömme tapahtuu pääosin Puhdilla (aiemmin myös Taidolla), ja datamme on tallessa Allas-datanhallintajärjestelmässä. Lisäksi käytämme cPoudan verkkopalveluja ja demoja. Grand Challenge -pilottitutkimus oli positiivinen kokemus. Saimme tehtyä lukuisia kokeiluja ja käynnistettyä edelleen käynnissä olevan laaja-alaisen kehitystyömme, Tiedemann jatkaa.

Projektin toinen merkittävä aikaansaannos oli OPUS-MT, esikoulutettujen käännösmallien varanto, joka sisältää avointen käännöspalvelujen työkaluja ja muita resursseja.

Puhti-pilottiprojektien haku järjestettiin CSC:n Grand Challenge -haun kautta. Grand Challenge -hankkeet   ovat tieteellisiä tutkimushankkeita, jotka edellyttävät tavanomaista suurempia laskentaresursseja.  CSC:n Tieteellinen asiakaspaneeli valitsee projektit Grand Challenge -kutsuin niiden vaikuttavuuden perusteella.

Lue lisää Puhti-supertietokoneesta

Lue lisää Grand Challenge -hausta

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto