Avoimet kielimallit vahvistavat Euroopan tekoälykapasiteettia
Euroopan johtavat tekoälyalan yritykset ja tutkimuslaitokset yhdistävät voimansa ja asiantuntemuksensa kehittääkseen seuraavan sukupolven avoimen lähdekoodin kielimalleja eurooppalaisten tekoälyvalmiuksien edistämiseen tähtäävässä OpenEuroLLM-hankkeessa. Ennennäkemätöntä yhteistyötä varten perustetun konsortion 20 jäsenestä viidesosa on suomalaisia.
Hanketta koordinoi Tšekin Univerzita Karlova -yliopiston Jan Hajic, joka johtaa sitä yhdessä AMD Silo AI:n Peter Sarlinin kanssa. Konsortiossa on mukana 20 eurooppalaista johtavaa tutkimuslaitosta, yritystä ja -suurteholaskentakeskusta, jotka rakentavat suorituskykyisistä, monikielisistä, suurista perustakielimalleista koostuvan perheen. Mallit ovat hyödynnettävissä kaupallisiin ja teollisiin käyttötarkoituksiin sekä julkiseen palvelutuotantoon. Läpinäkyvät ja EU-sääntelyä noudattavat avoimen lähdekoodin mallit demokratisoivat korkealaatuisen tekoälyteknologian saatavuutta ja vahvistavat eurooppalaisten yritysten kykyä kilpailla globaaleilla markkinoilla. Lisäksi ne tukevat julkisten organisaatioiden kykyä tuottaa vaikuttavia julkisia palveluja.
Yhtenä EU:n kärkihankkeista OpenEuroLLM tukee Euroopan kilpailukyvyn ja digitaalisen itsemääräämisoikeuden parantamista. Hanke on malliesimerkki siitä, millaisia teknologiainfrastruktuureja eurooppalaisessa tekoälytuotekehityksessä ja -jalostuksessa tarvitaan. Se on myös osoitus avoimuuden, läpinäkyvyyden ja yhteisön osallistumisen merkityksestä ja heijastaa laajasti eurooppalaisten teknologiaekosysteemien tunnustamia arvoja. Malleja kehitetään Euroopan vankassa sääntelykehyksessä, mikä varmistaa eurooppalaisten arvojen ja sääntelyn noudattamisen sekä turvaa teknologista huippuosaamista.
Suomesta konsortioon osallistuvat AMD Silo AI, Turun yliopiston TurkuNLP-tutkimusryhmä, Helsingin yliopiston kieliteknologian tutkimusryhmä sekä CSC – Tieteen tietotekniikan keskus. Tämä merkittävä suomalaisosallistuminen EU:n kärkihankkeeseen osoittaa, että Suomeen on hyvää vauhtia syntymässä kilpailukykyinen tekoälykeskittymä osana eurooppalaista ekosysteemiä. Tämä asema on saavutettu pitkäjänteisellä yhteiskunnan eri siiloja ylittävällä yhteistyöllä: muun muassa AMD Silo AI:n ja TurkuNLP:n kehittämillä Poro- ja Viking-kielimalleilla, Helsingin yliopiston kieliteknologian käännösmalleihin liittyvän tutkimuksen sekä CSC:n operoiman yhteiseurooppalaisen supertietokone LUMIn ansiosta. Helsingin ja Turun yliopistot ovat myös aiemmin osallistuneet EU:n rahoittamaan High Performance Language Technology (HPLT) -hankkeeseen, jossa ne ovat kehittäneet yhteistyötään ja asemoineet Suomea eurooppalaisessa ekosysteemissä.
OpenEuroLLM tekee yhteistyötä avoimen lähdekoodin ja avoimen tieteen yhteisöjen, kuten LAIONin, open-sci:n ja OpenML:n kanssa sekä muiden alan asiantuntijoiden kanssa, jotka on koottu hankkeen neuvonantajiksi. OpenEuroLLM varmistaa, että mallit, ohjelmistot, tiedot ja arviointi ovat täysin avoimia ja että niitä voidaan hienosäätää ja ohjeistaa teollisuuden ja julkisen sektorin erityistarpeisiin. Nämä suorituskykyiset monikieliset mallit mahdollistavat sekä kielellisen että kulttuurisen monimuotoisuuden ylläpidon. Näistä huolehtien, eurooppalaiset yritykset voivat kehittää korkealaatuisia tuotteita ja palveluja tekoälyn aikakaudella.
Hankkeelle on myönnetty STEP-hyväksyntämerkki (Strategic Technologies for Europe Platform) ja siinä hyödynnetään konsortiojäsenten aiempien hankkeiden tuomaa kokemusta ja osaamista sekä ennenäkemättömiä suuria korkealaatuista dataa sisältäviä arkistoja. Konsortio aloittaa työnsä 1. helmikuuta 2025 Euroopan komission rahoituksella Digitaalinen Eurooppa -ohjelmasta.
Lisätietoja ja haastattelupyynnöt
Erika Halonen, AMD Silo AI, erika.halonen@silo.ai, 044 9013 888
Haastatteluja antaa:
- Peter Sarlin, AMD Silo AI
- Sampo Pyysalo, TurkuNLP, Turun yliopisto
- Jörg Tiedemann, Helsingin yliopisto
- Pekka Manninen, CSC – Tieteen tietotekniikan keskus
Konsortion kokoonpano
Ylipoistot ja tutkimuslaitokset
- Charles University (Institute of Formal and Applied Linguistics), Tšekki (koordinaattori)
- Alliance for Language Technologies EDIC (ALT-EDIC), Ranksa
- Eindhoven University of Technology, Alankomaat
- ELLIS Institute Tübingen, Saksa
- Fraunhofer IAIS, Saksa
- Lindholmen Science Park (AI Sweden), Ruotsi
- University of Helsinki, Suomi
- University of Oslo, Norja
- University of Turku, Suomi
- University of Tübingen (Tübingen AI Center), Saksa
Yritykset
- Silo GenAI (AMD Silo AI), Suomi (yhteisjohtaja)
- Aleph Alpha Research, Saksa
- Ellamind, Saksa
- LightOn, Ranska
- Prompsit Language Engineering, Espanja
EuroHPC-keskukset
- Barcelona Supercomputing Center, Espanja
- Cineca Consorzio Interuniversitario, Italia
- CSC – Tieteen tietotekniikan keskus, Suomi
- Research Center Juelich, Saksa
- SURF, Alankomaat