Kieliteknologia on pienten kielten selviytymisen elinehto – tutkijat kehittävät suomen kielen kielimalleja supertietokoneiden avulla

Turun yliopiston tietotekniikan laitoksen apulaisprofessorit Sampo Pyysalo (vas.) ja Filip Ginter ovat osa luonnollisen kielen käsittelyn TurkuNLP-tutkimusryhmää.

Kieliteknologia on pienten kielten selviytymisen elinehto – tutkijat kehittävät suomen kielen kielimalleja supertietokoneiden avulla

Turun yliopiston tietotekniikan laitoksen apulaisprofessorit Sampo Pyysalo ja Filip Ginter ovat osa luonnollisen kielen käsittelyn TurkuNLP-tutkimusryhmää, joka on ensimmäisten joukossa testaamassa LUMI-supertietokoneen grafiikkaprosessoreihin perustuvaa GPU-osiota. Ryhmän tavoitteena on kehittää suomen kielen kielimalleja tukemaan alan huippututkimusta ja tekoälyyn perustuvien suomenkielisten sovellusten kehitystä ja käyttöä.

– Kielimallit ovat nykyään kaikkien kieltä käsittelevien tekoälyjärjestelmien takana. Niin kutsutut generatiiviset kielimallit ovat olleet viime vuosina pinnalla, erityisesti OpenAI:n kehittämä GPT-3-kielimalli (Generative Pre-trained Transformer 3), joka on englannin kielen malli. Tämä malli on rikkonut aika monia rajoja: sen tuottamat tekstit ovat hyvin vaikea erottaa ihmisen kirjoittamista teksteistä, Pyysalo kertoo.

Kieleen liittyvä tekoäly on erityislaatuinen: sille ei voi kehittää yhtä yleispätevää universaalia mallia kuten esimerkiksi konenäölle voi. Myös suomen kielen ainutlaatuisuus tekee mallien kehittämisestä haastavaa.

– Jos halutaan suomen kieltä ymmärtäviä kielimalleja tai tekoälyjärjestelmä, ne on tehtävä suomeksi. Suhteellisen pienenä kielialueena suomen kieltä kohtaan on hyvin vähän intressejä suurilla kansainvälisillä kaupallisilla toimijoilla, kuten Googlella, Facebookilla ja Baidulla, jotka ovat kehittäneet maailman edistyksellisimpiä englannin- ja kiinankielisiä kielimalleja, Pyysalo jatkaa.

Kaikki muumit laaksossa?

Tällä hetkellä kielimalleista kehittynein on juuri todennäköisyyspohjainen GPT-3-malli. Tekstisyötteen jälkeen malli osaa esimerkiksi ennustaa, mitkä ovat seuraavat sanat. Malli auttaa esimerkiksi kielten konekääntämisessä ja dokumenttien luokittelussa. Pyysalon ja Ginterin ryhmän tavoitteena on kehittää suomen kielen kielimalleja kohti GPT-3-tason mallia.

– Ennen kaikkea tämä malli luo perustan seuraavan sukupolven suomenkielisille kieliteknologian sovelluksille. Melkein kaikkiin kieliteknologian sovelluksiin toivotaan, että tutkimuksemme avulla tuodaan parempi pohja ja mahdollistetaan myös sellaisia sovelluksia, jotka eivät ole aiemmin olleet mahdollisia suomeksi. Teemme yhteistyötä myös Aalto-yliopiston puheentunnistuksen tutkijoiden kanssa, Pyysalo toteaa.

– Tämän kielimallin myötä olemme myös siirtymässä tekoälypohjaiseen kielen ymmärtämiseen. Esimerkiksi sanonta ”hänellä ei ole kaikki muumit laaksossa” ja ”hän ei ole penaalin terävin kynä” tarkoittavat samaa ja ihmiset sen ymmärtävät, mutta nykyisin käytössä olevat kielimallit eivät. Tällaisten yhteyksien ymmärtäminen tekoälypohjaisesti auttaa muun muassa hakukoneita selviytymään erilaisista hauista suomen kielellä. Jos meillä on hyvä suomen kielen kielimalli, tämän tyyppiset sovellukset syntyvät sitten suomeksikin, Ginter toteaa. 


Kymmeniä miljardeja parametreja

Ryhmä on tehnyt aiempia kielimalleja CSC:n Puhti-supertietokoneen tekoälykapasiteettia hyödyntäen, mutta koneen GPU-suorituskyky on kuitenkin rajallinen LUMIn tekoälykapasiteettiin verraten. LUMIn valtaisaa GPU-laskentakapasiteettia tarvitaan kehittämään näitä syväoppiviin neuroverkkoihin perustuvia kielimalleja eteenpäin.

– Näiden mallien koon kasvu on eksponentiaalista. Puhti-supertietokoneella tekemässämme kielimallissa oli 110 miljoonaa parametria. LUMI-pilottiprojektissa laskettavana olevassa mallissa tähdätään kymmeniin miljardeihin parametreihin , eli tämä on neuroverkon säädettävien parametrien määrä, Pyysalo kertoo.

Kieliteknologia onkin yksi tieteenaloista, joka hyödyntää laskennallisia menetelmiä koko ajan enemmän.

– Laskennalliset menetelmät ovat menneet alallamme todella hurjaa vauhtia eteenpäin. Vielä viisi vuotta sitten emme osanneet uumoilla tätä tilannetta, missä tieteenala nykyään on. Aikamoisia harppauksia on otettu eteenpäin, Pyysalo toteaa.

  
Oman aikansa Lönnrotit ja Agricolat

Kielimallien kehittäminen perustuu valtaviin data-aineistoihin, jota syväoppivat neuroverkot hyödyntävät uuden kielimallin luomiseksi. Ginter on työskennellyt alalla jo vuosituhannen alkupuolelta saakka ja hänen aiemmin johtamansa  projekti kävi läpi koko suomenkielisen internetin ja keräsi sen data-aineistoksi kielimallien pohjaksi. 

– Olimme niitä ensimmäisiä, jotka lähtivät keräämään suomenkielisiä data-aineistoja. Imuroimme netistä niin paljon suomen kieltä kuin mahdollista.  Keräsimme yli 8 miljardia sanaa. Jo silloin huomasin, että suomen kieleen liittyen ei löydy juuri mitään data-aineistoja, Ginter muistelee.

Koko suomenkielisen internetin lisäksi tekstejä on monista muistakin eri lähteistä. Ongelmana on oikeastaan se, että kirjoitettua suomea ei löydy lähdeaineistoksi niin paljon, kuin kokonainen GPT-3-malli vaatisi. Data-aineistoa on koottu mm. CSC:n ja FIN-CLARINin ylläpitämästä Kielipankista, jonka kautta on saatu käyttöön Ylen ja STT:n uutisarkistot ja Suomi24:n keskustelut parinkymmenen vuoden ajalta. Lisäksi tutkimusryhmä tekee yhteistyötä Kansalliskirjaston kanssa.


Suomen kielen pelastajat 

Suomen kielen kannalta tämä tutkimus ja kielimallien kehittäminen on äärettömän arvokasta. 

– Kieliteknologia on pienten kielten selviytymisen elinehto, toteaa Pyysalo, joka on työskennellyt aiheen parissa parikymmentä vuotta. 

LUMI-pilottiprojektin jälkeen ryhmä jatkaa kielimallin kehittämistä LUMI Extreme Scale -projektissa, jota varten ryhmälle myönnettiin 2 miljoonaa GPU-tuntia LUMI-supertietokoneelta suomalaisille tutkijoille varatusta osuudesta. Tässä projektissa kehitettävän kielimallin kokoluokka tähtää sataan miljardiin parametriin. 

Tutkimusryhmä on mukana myös Horisontti Eurooppa -puiteohjelman High Performance Language Technologies -projektissa, joka alkaa ensi syksynä. Projektissa tuotetaan kielimalleja kaikille EU-kielille. Tähän projekti sai 3 miljoonaa GPU-tuntia LUMIlta. 

– Jos onnistumme uuden kielimallin kehittämisessä, niin suomen kieli on aika hienossa asemassa sen suhteen, että melko pienelle kielelle on tehty isoimpia kielimalleja, mitä maailmasta löytyy. Mallimme ovat vapaasti kaikkien saatavilla sekä tutkimus- että kaupalliseen käyttöön, Pyysalo iloitsee.

Katso haastattelu videolta alta (englanniksi):

 

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Anni Jakobsson