Metropolian tekoälytutkimus vahvasti esillä kansainvälisessä työpajassa

16.12.2025

Metropolia ja Itä-Suomen yliopisto järjestivät yhdessä IWCLUL-työpajan (International Workshop on Computational Linguistics for Uralic Languages), joka kokosi yhteen suomensukuisten kielten tutkijoita ympäri Eurooppaa. Työpaja järjestettiin osana kansainvälistä ACL-yhteisöä ja se tarjosi ajankohtaisen katsauksen uralilaisten kielten kieliteknologiseen tutkimukseen erityisesti tekoälyn ja suurten kielimallien aikakaudella.

Laaja kattaus Metropolian tutkimusta

Metropolian tekoälytutkimus oli työpajassa poikkeuksellisen vahvasti edustettuna. Työpajaan hyväksyttiin neljä Metropoliassa tehtyä täyttä artikkelia, jotka käsittelivät sekä pedagogisia että kieliteknologisia kysymyksiä useista näkökulmista.

Artikkelissa From NLG Evaluation to Modern Student Assessment in the Era of ChatGPT: The Great Misalignment Problem and Pedagogical Multi-Factor Assessment (P-MFA) tarkasteltiin tekoälyn vaikutusta korkeakouluopetuksen arviointikäytäntöihin. Tutkimus toi esiin niin sanotun Great Misalignment Problem -ilmiön, jossa arviointi ei enää mittaa sitä, mitä sen on tarkoitus mitata, kun opiskelijat voivat tuottaa korkeatasoisia lopputuloksia generatiivisten kielimallien avulla. Artikkelissa esiteltiin uusi Pedagogical Multi-Factor Assessment (P-MFA) -malli, joka painottaa oppimisprosessia, monipuolista näyttöä ja pedagogista läpinäkyvyyttä yksittäisten tuotosten sijaan.

Wasedan yliopiston kanssa kirjoitetussa artikkelissa Benchmarking Finnish Lemmatizers across Historical and Contemporary Texts arvioitiin suomen kielen lemmatisointityökaluja sekä nykykielisessä että historiallisessa aineistossa. Tutkimus hyödynsi Project Gutenberg -korpusta ja toi ensimmäistä kertaa Trankit-työkalun mukaan suomen lemmatisoinnin vertailuun. Keskeinen tulos oli, että Murre-esikäsittely parantaa merkittävästi lemmatisointituloksia murteellisissa ja historiallisissa teksteissä, kun taas nykysuomessa sen vaikutus on vähäinen.

Kuvassa Aki Morooka kertoo normalisointikokeista

Ajankohtainen tekoälyn sovellus ennakointiin esiteltiin artikkelissa ORACLE: Time-Dependent Recursive Summary Graphs for Foresight on News Data Using LLMs. Tutkimuksessa kehitettiin uusi menetelmä, jossa uutisaineistosta rakennetaan ajallisesti eteneviä rekursiivisia tiivistysgraafeja suurten kielimallien avulla. ORACLE-menetelmä mahdollistaa uutistiedon kehityskulkujen ja tulevien suuntausten tarkastelun tavalla, joka yhdistää ajallisen rakenteen ja kielimallipohjaisen tiivistämisen.

Neljäs Helsingin yliopiston kanssa kirjoitettu artikkeli, Evaluating OpenAI GPT Models for Translation of Endangered Uralic Languages: A Comparison of Reasoning and Non-Reasoning Architectures, keskittyi uhanalaisten uralilaisten kielten konekäännökseen. Tutkimuksessa vertailtiin OpenAI:n GPT-mallien päättelyyn perustuvia ja ei-päättelyyn perustuvia arkkitehtuureja ja analysoitiin niiden suoriutumista matalan resurssin kielissä. Tulokset tarjoavat arvokasta tietoa siitä, millaiset kielimalliratkaisut soveltuvat parhaiten pienten ja uhanalaisten kielten tukemiseen.

Metropolian salamapuheet: ketteriä avauksia ajankohtaisiin teemoihin

Metropolian näkyvyys IWCLUL-työpajassa ei rajoittunut täysiin tutkimusartikkeleihin, vaan se ulottui vahvasti myös salamapuheisiin. Salamapuheet tarjosivat tiiviin mutta sisällöllisesti painavan katsauksen nopeasti kehittyviin tutkimuslinjoihin, jotka ovat keskeisiä uralilaisten ja muiden pienten kielten kieliteknologialle.

Salamapuhe UralicMCP: Turning LLMs into Experts in Endangered Languages with MCP esitteli uuden Model Context Protocol (MCP) -pohjaisen laajennuksen UralicNLP-kirjastoon. UralicMCP:n keskeinen ajatus on liittää suurille kielimalleille sääntöpohjaisia kieliteknologisia työkaluja, kuten morfologinen analysaattori, taivutin, lemmatisaattori ja sanakirjat. Tämä mahdollistaa sen, että kielimallit voivat suorittaa NLP-tehtäviä myös sellaisissa uhanalaisissa uralilaisissa kielissä, joista niillä ei ole juurikaan koulutusdataa. Salamapuheessa esitetyt kokeet osoittivat, että MCP:n avulla kielimallit voivat onnistua tehtävissä, jotka olisivat muuten niille mahdottomia.

Lev Kharlashkin otti kantaa karjalan nykytilaan

Toinen salamapuhe, From Toki Pona to Uralic: A Grammar-Constrained Pipeline for Low-Resource Language Generation, käsitteli metodologista lähestymistapaa matalan resurssin kielimallien kouluttamiseen. Työssä hyödynnettiin Toki Ponan kaltaista äärimmäisen kontrolloitua kieltä testialustana kieliopillisesti ohjatulle synteettisen datan tuotannolle. Tavoitteena ei ollut itse Toki Pona, vaan skaalautuva menetelmä, joka voidaan siirtää morfologisesti rikkaisiin uralilaisiin kieliin. Salamapuhe toi esiin, miten eksplisiittinen kieliopillinen ohjaus ja tarkistettu synteettinen data voivat kompensoida suurten aineistojen puutetta.

Salamapuhe Did Karelian Survive the Year? A Small Data Update tarjosi ajantasaisen tilannekuvan karjalan kielen digitaalisesta elinvoimasta. Puheessa esiteltiin kevyt mutta toistettava tiedonkeruuprosessi, jolla analysoitiin karjalankielistä verkkosisältöä erityisesti uutis- ja artikkeliteksteissä. Tulokset osoittivat, että karjalaa tuotetaan verkossa aktiivisesti, erityisesti lyhyissä uutismuodoissa, ja että pienikin, säännöllisesti päivitettävä aineisto voi tarjota merkityksellistä tietoa uhanalaisen kielen nykytilasta.

Neljäs Metropolian salamapuhe, Evaluating Finnish Dialect Normalization in GPT Models with and without Reasoning, keskittyi suomen murteiden normalisointiin kielimalleilla. Tutkimuksessa vertailtiin perinteisesti hienosäädettyjä GPT-tyylisiä malleja ja erikseen päättelyllä (chain-of-thought) varustettuja malleja. Tulokset osoittivat, että vahva suomen kielen esikoulutus on ratkaisevampaa kuin eksplisiittinen päättely, ja että päättelyyn perustuva hienosäätö voi jopa heikentää normalisointituloksia tässä tehtävässä. Salamapuhe toi esiin tärkeitä havaintoja siitä, milloin ja miten päättelykykyä kannattaa hyödyntää kieliteknologisissa sovelluksissa.

Artur Roos kertoi, mitä uralilaset kielet voivat oppia synteettisiltä kieliltä

Tutkimuksesta käytäntöön: tekoäly pienten kielten tukena

IWCLUL-työpaja teki näkyväksi sen, miten Metropolian tekoälytutkimus yhdistää teoreettisen kielentutkimuksen, käytännöllisen kieliteknologian ja yhteiskunnallisen vaikuttavuuden. Sekä pitkät tutkimusartikkelit että salama-artikkelit osoittivat, että suuria kielimalleja ei tarkastella Metropoliassa irrallisina yleisratkaisuina, vaan välineinä, joita voidaan ohjata, rajata ja täydentää kielitieteellisellä asiantuntemuksella.

Yhteinen nimittäjä Metropolian esityksille oli uhanalaisten kielten todellisuus: rajalliset aineistot, rikas morfologia ja tarve läpinäkyville, ylläpidettäville ratkaisuille. Olipa kyse arvioinnin uudelleenajattelusta opetuksessa, uralilaisten kielten käännöksestä, karjalan kielen digitaalisesta elinvoimasta tai murteellisen suomen normalisoinnista, tutkimus painotti ratkaisuja, jotka toimivat myös silloin, kun valmista dataa tai täydellisiä malleja ei ole.

Työpaja vahvisti Metropolian roolia kansainvälisessä kieliteknologiayhteisössä toimijana, joka tuo yhteen tekoälyn, avoimen lähdekoodin ja kieliyhteisöjen tarpeet. Samalla se osoitti, että pienten kielten tutkimus ei ole tekoälyn kehityksen sivupolku, vaan yksi sen tärkeimmistä testialustoista: juuri siellä joudutaan tekemään näkyväksi ne oletukset, rajoitteet ja valinnat, joihin kielimallit muuten kätkeytyvät.

Kommentit

Ei kommentteja