Root Signals pyrkii suurten kielimallien arvioinnin ja laadunvalvonnan kärkeen LUMI-supertietokoneen avulla
Helsingissä ja PaloAltossa Yhdysvalloissa toimiva suomalainen Root Signals pyrkii johtavaksi toimijaksi suurten kielimallien (LLM) arvioinnissa ja tekoälysovellusten laadunvalvonnassa. Se tarjoaa yrityksille monipuolisia työkaluja LLM-sovellusten luotettavuuden mittaamiseen, niiden luotettavuuden parantamiseen ja kielimallien jatkokehittämiseen. Heidän uusin tekoälymallinsa Root Judge LLM on kehitetty LUMI-supertietokoneen avulla.
Root Signals perustettiin vuonna 2023. Se sai toimintaansa tueksi kansainvälistä Venture Capital pre-seed-rahoitusta ja myöhemmin myös Business Finlandin rahoitusta. Root Judge -tuotteen julkaisun jälkeen yritys on saanut uusia maksavia asiakkaita eri toimialoilta ja työllistää nykyään seitsemän henkilöä. Oguzhan Gencoglu toimii yrityksen LUMI-tuotekehitystiimin vetäjänä ja pääkäyttäjänä.

Laajojen kielimallien arviointi ja vertailu on ollut äärimmäisen vaikeaa jo kielimalli-buumin alusta lähtien. Root Signalsin hiljattain julkistama, uraauurtava avoimen lähdekoodin työkalu nimeltä Root Judge on hienosäädetty LLM, joka arvioi muiden LLM:ien luotettavuutta, havaitsee niiden tarjoamaa harhaanjohtavaa tietoa ja tarjoaa läpinäkyviä perusteluja pisteytykselleen. Tämä auttaa mallien käyttäjä- ja kehittäjäorganisaatioita arvioimaan ja optimoimaan omia kielimallejaan, ja lopulta rakentamaan luottamusta tekoälyyn perustuvaan arviointiin sekä edistämään tekoälyn vastuullista ja tehokasta käyttöä.
LUMI ja Business Finlandin laskentatuki – avaimet sujuvaan alkuun
Business Finlandin tarjoama LUMI-laskentatuki mahdollisti vaivattoman LUMIn käytön Root Signalsille. Oguzhan Gencoglu tunsi LUMIn ja hänellä oli aiempaa käyttökokemusta CSC:n supertietokoneista yliopistoajoiltaan Tampereella, mikä luonnollisesti helpotti alkuun pääsyä.
”Tiesimme, että tarvitsimme valtavaa laskentakapasiteettia LLM:n kouluttamiseen, joten LUMI oli meille täydellinen valinta tähän tehtävään. Pikaiset testiajomme sujuivat hyvin. Hyödynsimme CSC:n LUMI-käyttäjätuen asiantuntemusta ja käytimme hyväksi dokumentaatiota, jotka mahdollistivat projektin sujuvan startin”, Gencoglu kertoo.
Yritykseltä vie yleensä vähän aikaa selvittää, mitä ja miten asioita tehdään supertietokoneympäristössä. Business Finlandin TKI-hanke taas käynnistyy tietyssä vaiheessa, mutta laskeminen ei välttämättä ala heti. LLM:n koulutus voi myös kestää odotettua kauemmin. Tämä oli myös Root Signalsin kokemus.
”Meillä oli pieni epäsuhta laskenta-ajan ja rahoitusajan välillä. Olisi nimittäin ollut todella hyödyllistä, jos projektimme laskenta-ajan jaksotuksessa olisi ollut enemmän joustavuutta. Olisimme voineet aloittaa ajot hieman myöhemmin ja käyttää pari ”ylimääräistä” kuukautta Root Judgen kouluttamiseen sen sijaan, että laskenta-aikamme loppui vähän kesken hankkeen lopussa”, Gencoglu selittää. ”Ehkäpä projektin etenemisen näkyvyyden lisääminen ja tiedonvaihto Business Finlandin kanssa projektin aikana voisi olla toimiva ratkaisu tällaisissa tapauksissa”, hän lisää.
Hankkeen onnistunut lopputulos – Root Judge
Kielimallien käyttäytymistä on joskus vaikea ennustaa. Niiden tarkkuus, sisällön relevanssi ja yrityksen vaatimusten mukaisuus sekä niiden ”sepittämän” harhaanjohtavan tiedon havaitseminen ovat mittareita luotettavuuden mittaamiseksi. Tarvitaan aivan tietynlainen LLM arvioimaan niiden luotettavuutta. Arviointiin, ”mallien tuomarointiin” erikoistuneen kielimallin – Judge LLMn kouluttamiseen tarvittiin valtava määrä sekä avoimen lähdekoodin dataa että synteettistä arviointidataa. Root Judge on suunniteltu ja koulutettu miljoonilla ja taas miljoonilla luotettavuuden arviointitehtävillä.
Kestää vertailun
”Käytimme lähes 400 GPU:ta kehittääksemme Root Judge -arviointi-LLMn. Julkaisimme sen avoimena lähdekoodina ja täysin avoimena erikoistuneena (painotettuna) mallina, joka on saatavilla myös kaupalliseen käyttöön. Vertailimme sitä arviointitehtävissä johtavia LLM:iä, kuten Open AI:ta, Antropic:ia sekä avoimen lähdekoodin LLM:iä vastaan, ja se päihitti ne kaikki arviointitehtävissä”, Gencoglu paljastaa.
Monilla ei ole käytössään valtavaa määrää GPU:ita, joten Root Judgen tuotteistuksessa kaupallisesti merkittävä päätös oli kvantifioida malli käyttämään vähemmän GPU:ita ja suoriutumaan silti tehtävästään hyvin kaupasta saatavilla GPU:illa. Root Judge on nyt nopea, helppokäyttöinen ja edullinen. Tämä on vahvistanut yrityksen markkina-asemaa ja vahvistanut Root Judgen ympärille kehitettyä laajaa ohjelmistokokonaisuutta, jolla tekoälyn virhetoimintoja voidaan mitata, estää ja korjata reaaliaikaisesti, jne.
Uusia asiakkaita ja brändin rakennusta
Yritysasiakkaat ovat ymmärtäneet Root Judgen eteen tehdyn pioneerityön arvon ja arvostavat sitä. He saavat sen avulla tarkempia tuloksia ja havaitsevat paremmin kielimallien tuottaman harhatiedon helposti saatavilla olevan laitteiston avulla, jota asiakkaat voivat jopa itse hallinnoida. Root Signals hallinnoi itse Root Judgea, mikä tuo sille säästöjä kalliiden Open Ai:n tai muiden suurten toimijoiden hallinnointikustannuksista.
”Olemme huomanneet, että potentiaalisia yritysasiakkaita on tullut lisää lanseerausjulkisuuden jälkeen ja omien markkinointiponnistelujemme ansiosta. Meille on ollut todella tärkeää, että olemme saaneet lisää tunnettuutta, kasvattaneet markkinaosuuttamme ja pystyneet sementoimaan asemamme asiakkaiden mielessä osaavana tekoälytalona. Meidän piti näyttää ja vakuuttaa asiakkaamme siitä, että he voivat luottaa meihin ja ulkoistaa arviointinsa meille. Voin sanoa, että avoin lähdekoodi on lähestulkoon kaupallisen strategiamme kulmakivi, jolla näytämme kehittäjille, mihin pystymme”, Gencoglu valottaa.
Uusia näköaloja
Heidän LUMI-laskentaprojektinsa on nyt päättynyt, mutta Root Signal ei tyydy nykyisiin TKI-tuloksiin. He toivovat voivansa jatkaa kehitystyötä LUMIlla tai muiden EuroHPC-supertietokoneiden avulla kehittääkseen ja kouluttaakseen päättelevän Judge-mallin. Tämä on uusi trendikäs AI-tuotekehityssuunta, joka kiehtoo myös Gencoglua ja hänen tiimiään.
”Haluamme kehittää palveluitamme ja laajentaa LLM-mallejamme, paitsi ennustamaan myös perustelemaan arviointiperusteitaan päätöstä tehdessään. Normaaleja arviointiin kehitettyjä LLM-malleja ei voida muuttaa päättelymalleiksi. Meidän on opetettava ne myös perustelemaan, kuten ihmiset omassa käyttäytymisessään”, perustelee Gencoglu.
”Kukaan ei ole vielä kouluttanut päättelyyn perustuvaa judge-mallia. Päättelymallien käyttö on myös hidasta, mutta myös käyttötapaukset ovat erilaisia”, Gencoglu toteaa lopuksi.
Odotellaan siis, milloin näemme tällaista kehitystä suomalaisessa tekoälyliiketoiminnassa.”CSC:lle tällainen kokeileva tekoäly on kiehtovaa ja on hyödyllistä kehittää osaamistamme yhdessä asiakkaidemme kanssa, ja toivomme näkevämme ja tukevamme uusia läpimurtoja suomalaisessa tekoälybisneksessä”, sanoo kumppanuuspäällikkö Dan Still CSC:ltä.

Dan Still
Dan Still vastaa teollisten kumppanuuksien ja verkostojen rakentamisesta, teollisen HPC käytön tehostamiseksi.