Suomen sukukielten tekoälytutkimusta esiteltiin Metropoliassa

5.12.2024

http://Hirvi,%20joka%20seisoo%20kirjan%20päällä

Metropoliassa järjestettiin The 9th International Workshop on Computational Linguistics for Uralic Languages -tapahtuma, eli tuttavallisemmin IWCLUL. Tapahtuma kokosi Arabian kampukselle suuren joukon kansainvälisiä tutkijoita, jotka tulivat esittelemään omaa kieliteknologista tutkimustaan, joka liittyi Uralilaisiin, eli suomensukuisiin, kieliin.

Haasteena uhanalaisuus

Uralilaisista kielistä vain suomi, viro ja unkari ovat isoja kieliä, joilla on oman valtion virallinen tuki. Muut uralilaiset kielet ovat enemmän tai vähemmän uhanalaisia. Puhujamäärät vaihtelevat niittymarin 360 000 ja ersän 300 000 puhujasta aina koltansaamen 300 ja uumajansaamen 5 puhujaan. Osalla kielistä ei ole enää äidinkielisiä puhujia jäljellä. Toivoa ei kuitenkaan ole menetetty näidenkään kielten osalta, kuten Liivi-instituutin johtaja Valts Ernštreits tapaa todeta: “aina kun viimeisen liivin puhujan uskotaan kuolleen, uusi viimeinen puhuja ilmestyy jostai pirtistä”.

Jack Rueter pitämässä esitelmää Pikachuista — **Jack Rueter** muistutti populaarikulttuurin merkityksestä myös uhanalaisten kielten kontekstissa

Moderni kieliteknologia vaatii paljon dataa, mikä osaltaan hankaloittaa pienten kielten tekoälykehitystä. Dataa on usein niukasti jos ollenkaan ja siinä on paljon variaatiota. Oikeinkirjoitussäännöt eivät usein ole yhtä selkeästi määriteltyjä ja puhujakunnan selkärankaan iskostettuja kuin valtakielten kohdalla.

Suuret kielimallit puhuttivat

Suuret kielimallit kuten ChatGPT eivät tällä hetkellä puhu yhtäkään pientä uralilaista kieltä, mutta tutkijat olivat keksineet tapoja saada kielimalleilta vastauksia ulos muotoilemalla kehotteen oikealla tavalla. Oman esitelmäni lisäksi myös Flammie Pirinen ja Niko Partanen raportoivat tutkimuksensa tuloksia.

Lev Kharlashkin esiintymässä lavalla — IWCLUL järjestettiin talkoovoimin. Kuvassa **Lev Kharlashkin** on kutsumassa seuraavan puhujan paikalle

Suurten kielimallien ongelma myös suomen, viron ja unkarin kohdalla on se, että ne jakavat sanat pienempiin osiin, tokeneihin, englannin kielen perusteella. Tähän Iaroslav Chelombitkolla ja Aleksei Dorkinilla oli esittää ratkaisuehdotuksia.

Metropolian arvot esillä

Myös Metropoliassa tehty työ kestävän kehityksen ja tekoälyn saralla oli esillä tapahtumassa. Melany Macías esitteli tutkimustamme, jossa tekoäly oppii ennustamaan kestävän kehityksen tavoitteita suomeksi englanninkielisen datan perusteella.

Melany Macías puhumassa tuloksistaan. Kalvolla näkyy, että mBART-malli tuotti parhaat tulokset — Melany Macías esitteli kestävän kehityksen tavoitteiden ennustamisen tarkkuutta

Kommentit

Ei kommentteja

Kommentoi Peruuta vastaus

Bloggaajat

Mika Hämäläinen on kieliteknologian tohtori ja hän toimii AI-projektipäällikkönä Metropoliassa. Hänen viimeaikaiset tutkimusintressinsä ovat kieliteknologian kehittäminen uhanalaisille kielille sekä kieliteknologian ja digihumanismin yhteensovittaminen. Ota yhteyttä

Lev Kharlashkin is recent Bachelor's graduate, creates AI tools for education, passionate about data science and related fields. Inspired by what AI can help people with, he does NLP research in his spare time. Ota yhteyttä

Leo Huovinen works as an AI software engineer and is currently studying in the Master of Engineering program at Tampere University. Ota yhteyttä

Melany Macias Morán a recent IT graduate from Metropolia, is passionate about combining AI, NLP, and software to build innovative tools. With published research and experience developing the Moodle AI plugin, she focuses on creating practical AI applications that make a real-world impact. Ota yhteyttä

Uusimmat postaukset

Arkistot

2025 (8)
2024 (3)

Avainsanat

Sinua saattaisi kiinnostaa myös nämä

Metropolian tekoälytutkimus vahvasti esillä kansainvälisessä työpajassa

16.12.2025 Tekoälyä tutkimassa

Metropolia ja Itä-Suomen yliopisto järjestivät yhdessä IWCLUL-työpajan (International Workshop on Computational Linguistics for Uralic Languages), joka kokosi yhteen suomensukuisten kielten tutkijoita ympäri Eurooppaa. Työpaja järjestettiin osana kansainvälistä ACL-yhteisöä ja se tarjosi ajankohtaisen katsauksen uralilaisten kielten kieliteknologiseen tutkimukseen erityisesti tekoälyn ja suurten kielimallien aikakaudella. Laaja kattaus Metropolian tutkimusta Metropolian tekoälytutkimus oli työpajassa poikkeuksellisen vahvasti edustettuna. Työpajaan hyväksyttiin neljä Metropoliassa tehtyä täyttä artikkelia, jotka käsittelivät sekä pedagogisia että kieliteknologisia kysymyksiä useista näkökulmista. Artikkelissa From NLG Evaluation to Modern Student Assessment in the Era of ChatGPT: The Great Misalignment Problem and Pedagogical Multi-Factor Assessment (P-MFA) tarkasteltiin tekoälyn vaikutusta korkeakouluopetuksen arviointikäytäntöihin. Tutkimus toi esiin niin sanotun Great Misalignment Problem -ilmiön, jossa arviointi ei enää mittaa sitä, mitä sen on tarkoitus mitata, kun opiskelijat voivat tuottaa korkeatasoisia lopputuloksia generatiivisten kielimallien avulla. Artikkelissa esiteltiin uusi Pedagogical Multi-Factor Assessment (P-MFA) -malli, joka painottaa oppimisprosessia, monipuolista näyttöä ja pedagogista läpinäkyvyyttä yksittäisten tuotosten sijaan. Wasedan yliopiston kanssa kirjoitetussa artikkelissa Benchmarking Finnish Lemmatizers across Historical and Contemporary Texts arvioitiin suomen kielen lemmatisointityökaluja sekä nykykielisessä että historiallisessa aineistossa. Tutkimus hyödynsi Project Gutenberg -korpusta ja toi ensimmäistä kertaa Trankit-työkalun mukaan suomen lemmatisoinnin vertailuun. Keskeinen tulos oli, että Murre-esikäsittely parantaa merkittävästi lemmatisointituloksia murteellisissa ja historiallisissa teksteissä, kun taas nykysuomessa sen vaikutus on vähäinen. Kuvassa Aki Morooka kertoo normalisointikokeista Ajankohtainen tekoälyn sovellus ennakointiin esiteltiin artikkelissa ORACLE: Time-Dependent Recursive Summary Graphs for Foresight on News Data Using LLMs. Tutkimuksessa kehitettiin uusi menetelmä, jossa uutisaineistosta rakennetaan ajallisesti eteneviä rekursiivisia tiivistysgraafeja suurten kielimallien avulla. ORACLE-menetelmä mahdollistaa uutistiedon kehityskulkujen ja tulevien suuntausten tarkastelun tavalla, joka yhdistää ajallisen rakenteen ja kielimallipohjaisen tiivistämisen. Neljäs Helsingin yliopiston kanssa kirjoitettu artikkeli, Evaluating OpenAI GPT Models for Translation of Endangered Uralic Languages: A Comparison of Reasoning and Non-Reasoning Architectures, keskittyi uhanalaisten uralilaisten kielten konekäännökseen. Tutkimuksessa vertailtiin OpenAI:n GPT-mallien päättelyyn perustuvia ja ei-päättelyyn perustuvia arkkitehtuureja ja analysoitiin niiden suoriutumista matalan resurssin kielissä. Tulokset tarjoavat arvokasta tietoa siitä, millaiset kielimalliratkaisut soveltuvat parhaiten pienten ja uhanalaisten kielten tukemiseen. Metropolian salamapuheet: ketteriä avauksia ajankohtaisiin teemoihin Metropolian näkyvyys IWCLUL-työpajassa ei rajoittunut täysiin tutkimusartikkeleihin, vaan se ulottui vahvasti myös salamapuheisiin. Salamapuheet tarjosivat tiiviin mutta sisällöllisesti painavan katsauksen nopeasti kehittyviin tutkimuslinjoihin, jotka ovat keskeisiä uralilaisten ja muiden pienten kielten kieliteknologialle. Salamapuhe UralicMCP: Turning LLMs into Experts in Endangered Languages with MCP esitteli uuden Model Context Protocol (MCP) -pohjaisen laajennuksen UralicNLP-kirjastoon. UralicMCP:n keskeinen ajatus on liittää suurille kielimalleille sääntöpohjaisia kieliteknologisia työkaluja, kuten morfologinen analysaattori, taivutin, lemmatisaattori ja sanakirjat. Tämä mahdollistaa sen, että kielimallit voivat suorittaa NLP-tehtäviä myös sellaisissa uhanalaisissa uralilaisissa kielissä, joista niillä ei ole juurikaan koulutusdataa. Salamapuheessa esitetyt kokeet osoittivat, että MCP:n avulla kielimallit voivat onnistua tehtävissä, jotka olisivat muuten niille mahdottomia. Lev Kharlashkin otti kantaa karjalan nykytilaan Toinen salamapuhe, From Toki Pona to Uralic: A Grammar-Constrained Pipeline for Low-Resource Language Generation, käsitteli metodologista lähestymistapaa matalan resurssin kielimallien kouluttamiseen. Työssä hyödynnettiin Toki Ponan kaltaista äärimmäisen kontrolloitua kieltä testialustana kieliopillisesti ohjatulle synteettisen datan tuotannolle. Tavoitteena ei ollut itse Toki Pona, vaan skaalautuva menetelmä, joka voidaan siirtää morfologisesti rikkaisiin uralilaisiin kieliin. Salamapuhe toi esiin, miten eksplisiittinen kieliopillinen ohjaus ja tarkistettu synteettinen data voivat kompensoida suurten aineistojen puutetta. Salamapuhe Did Karelian Survive the Year? A Small Data Update tarjosi ajantasaisen tilannekuvan karjalan kielen digitaalisesta elinvoimasta. Puheessa esiteltiin kevyt mutta toistettava tiedonkeruuprosessi, jolla analysoitiin karjalankielistä verkkosisältöä erityisesti uutis- ja artikkeliteksteissä. Tulokset osoittivat, että karjalaa tuotetaan verkossa aktiivisesti, erityisesti lyhyissä uutismuodoissa, ja että pienikin, säännöllisesti päivitettävä aineisto voi tarjota merkityksellistä tietoa uhanalaisen kielen nykytilasta. Neljäs Metropolian salamapuhe, Evaluating Finnish Dialect Normalization in GPT Models with and without Reasoning, keskittyi suomen murteiden normalisointiin kielimalleilla. Tutkimuksessa vertailtiin perinteisesti hienosäädettyjä GPT-tyylisiä malleja ja erikseen päättelyllä (chain-of-thought) varustettuja malleja. Tulokset osoittivat, että vahva suomen kielen esikoulutus on ratkaisevampaa kuin eksplisiittinen päättely, ja että päättelyyn perustuva hienosäätö voi jopa heikentää normalisointituloksia tässä tehtävässä. Salamapuhe toi esiin tärkeitä havaintoja siitä, milloin ja miten päättelykykyä kannattaa hyödyntää kieliteknologisissa sovelluksissa. Artur Roos kertoi, mitä uralilaset kielet voivat oppia synteettisiltä kieliltä Tutkimuksesta käytäntöön: tekoäly pienten kielten tukena IWCLUL-työpaja teki näkyväksi sen, miten Metropolian tekoälytutkimus yhdistää teoreettisen kielentutkimuksen, käytännöllisen kieliteknologian ja yhteiskunnallisen vaikuttavuuden. Sekä pitkät tutkimusartikkelit että salama-artikkelit osoittivat, että suuria kielimalleja ei tarkastella Metropoliassa irrallisina yleisratkaisuina, vaan välineinä, joita voidaan ohjata, rajata ja täydentää kielitieteellisellä asiantuntemuksella. Yhteinen nimittäjä Metropolian esityksille oli uhanalaisten kielten todellisuus: rajalliset aineistot, rikas morfologia ja tarve läpinäkyville, ylläpidettäville ratkaisuille. Olipa kyse arvioinnin uudelleenajattelusta opetuksessa, uralilaisten kielten käännöksestä, karjalan kielen digitaalisesta elinvoimasta tai murteellisen suomen normalisoinnista, tutkimus painotti ratkaisuja, jotka toimivat myös silloin, kun valmista dataa tai täydellisiä malleja ei ole. Työpaja vahvisti Metropolian roolia kansainvälisessä kieliteknologiayhteisössä toimijana, joka tuo yhteen tekoälyn, avoimen lähdekoodin ja kieliyhteisöjen tarpeet. Samalla se osoitti, että pienten kielten tutkimus ei ole tekoälyn kehityksen sivupolku, vaan yksi sen tärkeimmistä testialustoista: juuri siellä joudutaan tekemään näkyväksi ne oletukset, rajoitteet ja valinnat, joihin kielimallit muuten kätkeytyvät.

Metropoliassa kehitetään tekoälyratkaisuja sisäisiin tarpeisiin

23.6.2025 Tekoälyä tutkimassa

Kehityspäällikkö Mika Hämäläisen johdolla Metropolian tekoälytiimi kehittää erilaisia suuriin kielimalleihin pohjautuvia ratkaisuja organisaation haasteiden ratkaisemiseksi. Kantavana ajatuksena on todellisten ongelmien ratkaiseminen käyttäjälähtöisesti ja ketterästi. Suuret kielimallit kehittyvät jatkuvasti, joten tekoälyä ei itsessään tarvitse enää kehittää – meidän tehtävämme onkin ennemmin ottaa tekoäly käyttöön ja tuoda se osaksi arkea helppokäyttöisessä muodossa. Tiimissämme työskentelevät tällä hetkellä ohjelmistokehittäjät Lev Kharlashkin, Melany Macías Morán ja Leo Huovinen sekä opiskelijaharjoittelijat Yehor Tereshchenko, Sheng Tai ja Aki Morooka. Kehittämämme työkalut ovat nimeltään OpintoHain, Oraakkeli, Hankehakemusapuri, Ops-työkalu sekä Moodlen tekoälylaajennus. OpintoHain OpintoHain kehitettiin osana Sonja Saarikiven luotsaamaa projektia, jonka tarkoituksena oli luoda työkalu jatkuvan oppijan käyttöön. Kohderyhmänä ovat Metropolian ulkoiset henkilöt, jotka haluavat päivittää omaa osaamistaan ja tulla Metropoliaan opiskelemaan esimerkiksi yhden kurssin tai mahdollisesti jopa sopivan YAMK-tutkinnon. Vastasimme haasteeseen kehittämällä Metropolian avoimen korkeakoulun opintotarjonnan tuntevan chatbotin. Taustalla työkalulla on RAG-malli, joka tuntee Metropolian kurssit ja tutkinnot sekä moniagenttijärjestelmä, jossa on erilliset agentit kurssien ja tutkintojen suosittelua varten sekä opinto-ohjausta varten. OpintoHain-työkalua voi testata Metropolian verkkosivuilla. Oraakkeli Ennakointi on noussut Metropoliassa entistä tärkeämpään rooliin – kaikkien pitäisi ennakoida, mutta miten? Lähdimme ratkaisemaan ongelmaa Oraakkeli-työkalulla, joka lukee sisään verkkoaineistoja kuten uutisia ja työpaikkailmoituksia. Näiden pohjalta, voimme analysoida dataa vektorisoimalla sekä klusteroimalla. Olemme jo kehittäneet menetelmiä esimerkiksi heikkojen signaalien ja megatrendien tunnistamiseen, muutosajureiden tunnistamiseen, datapohjaiseen skenaariotyöhön sekä moniagenttiseen Delphi-menetelmän toteuttamiseen automaattisesti. Kantava ajatus on se, että tekoäly pureskelee ennakointidataa valmiiseen muotoon, jotta loppukäyttäjä saisi ennakointitiedosta mahdollisimman suuren hyödyn, vaikkei hän välttämättä itse ennakoinnista juuri mitään tietäisikään. Oraakkelin viemisessä käytäntöön tukemaan todellisia käyttötapauksia meitä auttaa Maani Nyqvistin luotsaama ennakointityöryhmä sekä ennakointiguru Marita Huhtaniemi. Hankehakemusapuri Ulkoisen rahoituksen merkitys on kasvussa korkeakoulumaailmassa. Kilpailu rahoituksesta on kovaa ja usein vahvatkin hakemukset jäävät ilman rahoitusta. Rakennamme tekoälytyökalua yhdessä TKI- ja projektipalveluiden johtajan Maarit Haatajan ja hänen tiiminsä kanssa lisäämään Metropolian mahdollisuuksia saada ulkoista rahoitusta. Erityisesti EU:n horisonttihauissa on tärkeää, että jokaista hakukuulutuksen kohtaa on käsitelty hakemuksessa. Hyväkin hakemus saattaa jäädä vaille rahoitusta, jos hakemuksesta puuttuu maininta edes yhdestä alakohdasta. Hankehakemusapuri analysoi automaattisesti hakukuulutuksen ja vertaa sitä hakemustekstiin. Hakemuksesta puuttuvat kohdat ilmoitetaan selkeästi käyttäjälle, joka voi halutessaan korjata ne itse tai pyytää tekoälyä lisäämään hakemukseen puuttuvat kohdat automaattisesti. Työkalu osaa myös tunnistaa riskit sekä jakaa projektin työpaketteihin. Ops-työkalu Opintosuunnitelmien eli opsien kirjoittaminen on aikaa vievä prosessi. Kurssikohtaisesti opseissa pitäisi näkyä niin kestävän kehityksen tavoitteet kuin Arene-kompetenssit. Tätä varten kehitimme Ops-työkalun, joka mm. analysoi opsit ja näyttää tutkintojen sisällön Arenen ja kestävän kehityksen näkökulmista. Työkalun kehityksessä Metsälintu Pahkin toimi arvokkaana linkkinä tutkintovastaavien suuntaan. Lue työkalua kuvaava tieteellinen julkaisu. Moodlen tekoälylaajennus Moodlen tekoälylaajennus on kehitetty opettajia varten, jotta he pystyisivät tuottamaan omiin kurssimateriaaleihinsa pohjaavia tehtäviä automaattisesti suoraan Moodleen. Kantava ajatus on ollut tuoda tekoäly suoraan osaksi tuttua työkalua, eikä suinkaan erilliseksi järjestelmäksi. Opettajien suuntaan linkkinä toimi yliopettaja Tricia Cleland-Silva. Lue työkalua kuvaava tieteellinen julkaisu.

Metropolia mukana järjestämässä tekoälyyn keskittyvää NLP4DH-konferenssia Yhdysvalloissa

5.5.2025 Tekoälyä tutkimassa

Mika Hämäläinen Metropolia Ammattikorkeakoulusta toimi tänäkin vuona NLP4DH-konferenssin pääjärjestäjänä. Konferenssisarjan pääteema on kieliteknologian ja digihumanismin yhteensovittaminen. Vuona 2025 konferenssi järjestettiin korkea-arvoisen NAACL-konferenssin yhteydessä Albuquerquessa. NLP4DH järjestettiin Taos-salissa Kaksi päivää soveltavaa tekoälyä NLP4DH:ssa oli kaksi päivää täyttä asiaa Konferenssi tavoitti laajan joukon eri tieteenalojen edustajia. Esitelmiä oli niin kirjallisuudesta, murteista, ironiasta kuin tekoälyn psykologiastakin. Tutkimustuloksia esiteltiin monen kielen näkökulmasta kuten espanjan, arabian, islannin, tanskan ja sanskritin näkökulmasta. Tohtori Yuri Bizzoni valmistautumassa esitelmäänsä Tohtori Yuri Bizzoni, joka toimi myös konferenssin yhtenä järjestänä, esitteli konferenssissa kirjallisuuteen liittyvää tutkimustaan. Hän oli soveltanut ChatGPT:n edeltäjää, GPT-2-mallia, korpuksensa analysointiin. Yhdysvaltain politiikka pakotti osallistujia verkkoon Puolet tutkijoista osallistui konferenssiin etänä. Moni vaihtoi etäosallistumiseen viimetingassa vedoten Yhdysvaltain ulkopolitiikkaan. Huolet vaikuttivat jokseenkin ylimitoitetuilta – kukaan osallistujista ei joutunut rajalla mielivaltaisen kohtelun uhriksi. Yhdysvaltain huippuyliopistoista oli kattava edustus konferenssissa. Tutkijoita oli MIT:stä, Harvardista, Johns Hopkins -yliopistosta sekä Cornell-yliopistosta. Osallistujia saapui paikalle myös mm. Japanista, Uudesta Seelannista, Kiinasta ja Kolumbiasta. Posterisessio ei ollut ottaa loppuakseen Postereita pystyttämässä olleita tutkijoita Posterille oli varattu puoli tuntia aikaa iltapäiväkahvien jälkeen. Ilmoitin osallistujille, että posterisessio on ohi, nyt saa lähteä, muttei ole pakko. Jokaisella posterilla keskustelu kävi sen verran kuumana, että sessio jatkui vielä puoli tuntia suunniteltua pidempään. So Miyagawa hetkeä ennen posterisession alkua Konferenssia järjestämässä ollut apulaisprofessori So Miyagawa esitteli RAG-pohjaista mallia, jonka avulla hän sai suuret kielimallit ymmärtämään muinaisegyptiä. Kielimallit, jotka normaalisti eivät osaa tuottaa muinaisegyptiä, pystyivät RAG-mallin takana olevan sanakirjan kautta tulkitsemaan muinaisten tekstien merkityksen.