Suomen sukukielten tekoälytutkimusta esiteltiin Metropoliassa

5.12.2024
http://Hirvi,%20joka%20seisoo%20kirjan%20päällä

Metropoliassa järjestettiin The 9th International Workshop on Computational Linguistics for Uralic Languages -tapahtuma, eli tuttavallisemmin IWCLUL. Tapahtuma kokosi Arabian kampukselle suuren joukon kansainvälisiä tutkijoita, jotka tulivat esittelemään omaa kieliteknologista tutkimustaan, joka liittyi Uralilaisiin, eli suomensukuisiin, kieliin.

Haasteena uhanalaisuus

Uralilaisista kielistä vain suomi, viro ja unkari ovat isoja kieliä, joilla on oman valtion virallinen tuki. Muut uralilaiset kielet ovat enemmän tai vähemmän uhanalaisia. Puhujamäärät vaihtelevat niittymarin 360 000 ja ersän 300 000 puhujasta aina koltansaamen 300 ja uumajansaamen 5 puhujaan. Osalla kielistä ei ole enää äidinkielisiä puhujia jäljellä. Toivoa ei kuitenkaan ole menetetty näidenkään kielten osalta, kuten Liivi-instituutin johtaja Valts Ernštreits tapaa todeta: “aina kun viimeisen liivin puhujan uskotaan kuolleen, uusi viimeinen puhuja ilmestyy jostai pirtistä”. 

Jack Rueter pitämässä esitelmää Pikachuista
Jack Rueter muistutti populaarikulttuurin merkityksestä myös uhanalaisten kielten kontekstissa

Moderni kieliteknologia vaatii paljon dataa, mikä osaltaan hankaloittaa pienten kielten tekoälykehitystä. Dataa on usein niukasti jos ollenkaan ja siinä on paljon variaatiota. Oikeinkirjoitussäännöt eivät usein ole yhtä selkeästi määriteltyjä ja puhujakunnan selkärankaan iskostettuja kuin valtakielten kohdalla.

Suuret kielimallit puhuttivat

Suuret kielimallit kuten ChatGPT eivät tällä hetkellä puhu yhtäkään pientä uralilaista kieltä, mutta tutkijat olivat keksineet tapoja saada kielimalleilta vastauksia ulos muotoilemalla kehotteen oikealla tavalla. Oman esitelmäni lisäksi myös Flammie Pirinen ja Niko Partanen raportoivat tutkimuksensa tuloksia.

Lev Kharlashkin esiintymässä lavalla
IWCLUL järjestettiin talkoovoimin. Kuvassa Lev Kharlashkin on kutsumassa seuraavan puhujan paikalle

Suurten kielimallien ongelma myös suomen, viron ja unkarin kohdalla on se, että ne jakavat sanat pienempiin osiin, tokeneihin, englannin kielen perusteella. Tähän Iaroslav Chelombitkolla ja Aleksei Dorkinilla oli esittää ratkaisuehdotuksia. 

Metropolian arvot esillä

Myös Metropoliassa tehty työ kestävän kehityksen ja tekoälyn saralla oli esillä tapahtumassa. Melany Macías esitteli tutkimustamme, jossa tekoäly oppii ennustamaan kestävän kehityksen tavoitteita suomeksi englanninkielisen datan perusteella.

Melany Macías puhumassa tuloksistaan. Kalvolla näkyy, että mBART-malli tuotti parhaat tulokset
Melany Macías esitteli kestävän kehityksen tavoitteiden ennustamisen tarkkuutta

Kommentit

Ei kommentteja

Kommentoi