Toistaako tekoäly vain oppimaansa?
Tekoälyä syytetään usein väittäen, että se kykenee ainoastaan toistamaan opetusaineistoaan, ja siten se tuottaa aina plagiaatteja ja keskiarvoista tuotosta. Onko näissä väitteissä mitään perää? Väite 1: Tekoäly hakee vastauksen tietokannastaan Olen törmännyt tähän väitteeseen usein. Tekoäly hakee vastauksen tietokannastaan, ja siksi se plagioi tai ei löydä oikeaa vastausta. Suurilla kielimalleilla ja kuvia tuottavilla tekoälymalleilla ei ole käytössään oletuksena minkäänlaista tietokantaa, vaan mallit ovat oppineet tuottamaan vastauksen itsenäisesti. Tekoälyn tuottama kuva tai vaikkapa runo ei siis löydy sellaisenaan tietokannasta. Suuret kielimallit eivät käytä tietokantoja, mutta niihin voidaan sellainen yhdistää Nykyään suuret kielimallit voidaan toki yhdistää tietokantaan. Tällä hetkellä yleisin tapa tehdä näin on niin kutsuttu RAG-malli (Retrieval Augmented Generation). Tässä ratkaisussa tekoäly voi hakea tietokannasta tietoa vastauksen tueksi. Tekoäly kuitenkin kirjoittaa vastauksensa itse. Väite 2: Tekoäly tarjoaa vain keskivertoja vastauksia Tämä väite on hankalampi, sillä generatiivisia tekoälymalleja on monenlaisia. Kuvia tuotetaan usein diffuusiomalleilla, jotka lähtevät liikkeelle satunnaisesta pikselien sekamelskasta ja muuntavat pikselisekamelskaa asteittain paremmaksi kuvaksi. Kohteena tekoälyllä on jonkinlainen keskiarvoistus optimaalista vastauksesta, joten sen pyrkimys on kohti keskivertoa. Diffuusiomalleja ajetaan iteratiivisesti – jokainen iteraatio tuottaa paremman kuvan, joka on myös lähempänä keskivertoa. Jostain pikselisekamelskan ja keskiverron optimin väliltä löytyy iteraatio, jonka aikana tekoäly tuottaa hyviä kuvia, mutta jossa kuvat eivät ole vielä konvergoituneet kaikki samannäköisiksi keskiverroiksi. Nämä kuvat eivät ole suinkaan keskivertoja, vaikka jotain samaa niissä keskiverron optimin kanssa vääjäämättä onkin. Päivityksen myötä Adoben FireFly alkoi tuottamaan parempia, joskin erittäin samanlaisia kuvia Entä sitten suuret kielimallit? Suuret kielimallit toki pyrkivät tuottamaan parhaan mahdollisen vastauksen, mikä promptista riippuen hyvin usein tuottaa jonkinlaista keskivertoa vastausta. Suurissa kielimalleissa on kuitenkin ominaisuus, jolla voi säätää lämpötilaa (temperature), mikä vaikuttaa siihen, kuinka keskivertoja tai luovia vastauksia kielimalli tuottaa. Lämpötilaa säätämällä mallin saa ääripäissä tuottamaan todella kuivaa tekstiä tai suoranaista satunnaista siansaksaa. Emergoitunut äly Suurten kielimallien älykkyys on emergenttiä. Ne osaavat yleistää oppimaansa täysin uudenlaisiin tehtäviin. Tämä tarkoittaa yksinkertaisesti sitä, että tekoälymallit osaavat tuottaa vastauksia sellaisiin kysymyksiin, millaisia ne eivät koulutusaineistossaan koskaan nähneetkään. Nämä vastaukset eivät itsessään ole keskivertoa toistoa jo opitusta, sillä tekoäly ei voi toistaa vain oppimaansa ”hauki on kala” -tapaisesti. Koulutusdata ohjaa Adoben FireFlyta niin vahvasti, ettei se kykene tuottamaan reunoihin asti täyttä viinilasia Kuvia tuottavien tekoälymallien älykkyys ei osoita saman tasoista emergenssiä, sillä opetusmateriaali ohjaa niiden tuotoksia tekstiä tuottavia malleja enemmän. Usein kuvia tuottavilta malleilta voi olla lähes mahdotonta saada tietynlaisia kuvia ulos. Keskivertoa vai ei? Väite, että tekoäly tuottaa vain keskivertoja vastauksia, vetää mutkat liian suoriksi. Koulutusdata ohjaa tekoälyä mallista riippuen enemmän tai vähemmän, mutta se ei tarkoita sitä, että tekoäly kykenisi tuottamaan vain tylsiä itsestäänselvyyksiä. Tekoäly ei myöskään toista vain oppimaansa, sillä se on koulutettu tarjoamaan vastauksia myös ongelmiin, jollaisiin se ei ole ennen törmännyt.
Katsooko tekoäly vain menneisyyteen?
Viime aikoina eteeni on tullut mielenkiintoinen argumentti: ChatGPT katsoo vain menneisyyteen, mutta ihminen voi katsoa tulevaisuuteen. Ajatus juontaa juurensa siihen, että tekoäly koulutetaan vanhalla datalla ja esimerkiksi ChatGPT:n tietämys maailmasta rajoittuu koulutusaineiston viimeiseen päivämäärään asti. Tämä ei kuitenkaan yksiselitteisesti tarkoita sitä, että tekoäly katsoo vain menneisyyteen. Koneoppiminen katsoo aina kohti tuntematonta Koneoppimisen perusperiaate on ollut aina kouluttaa tekoäly vanhalla datalla ja testata sitä uudella, ennennäkemättömällä, datalla. Näin on voitu varmistaa, että tekoäly toimii halutulla tavalla myös kohdatessaan täysin uutta dataa. Koneoppiminen tähtää siihen, että tekoäly toimii myös uuden datan kanssa Ennen suuria kielimalleja kieliteknologiset koneoppimismallit kärsivät usein siitä, etteivät ne toimineet hyvin täysin uudenlaisella datalla. Esimerkiksi tuotearvioilla koulutettu tekoäly ei onnistunut kovinkaan hyvin tunnistamaan positiivisia ja negatiivisia ilmauksia kaunokirjallisessa tekstissä. Nämä rajoitteet ovat kuitenkin poistuneet suurten kielimallien myötä, sillä suuret kielimallit kykenevät yleistämään oppimaansa monta erilaista tehtävää varten. Miksi ihminen katsoisi sen enempää tulevaisuuteen? Kun me ihmiset kohtaamme jotain uutta, meidän on usein toimittava vanhan tiedon varassa. Meidänkin ”koulutusdatamme” päättyy aina nykyhetkeen. Jos kadulla meitä vastaan kävelee talutushihnassa oleva tunnistamaton karvainen möykky, oletamme loogisesti, että kyseessä on koira. Tämä oletus pohjaa vanhaan tietoon. Jos kyseessä onkin jokin meille täysin vieras eläinlaji, hämmästymme kohtaamista. Tekoälykin pohjaa olemassa olevaan tietoon kohdatessaan uusia asioita. Erotuksena ihmiseen on se, että tällä hetkellä meillä ei ole käytössä tekoälytyökaluja, jotka voisivat dynaamisesti oppia kokemuksistaan ja päivittää itseään. Tekoäly tulee täten aina ajattelemaan, että karvainen möykky on koira, kunnes sen koulutusaineistoon lisätään tieto siitä, että nyt on löytynyt täysin uusi lemmikiksi sopiva eläinlaji. Ihminen oppisi tämän välittömästi. Tulevaisuuden ennakointi on päättelyä Siinnä missä ihminenkin ennakoi tulevaa päättelyn avulla soveltaen esimerkiksi skenaariotyöskentelyä, tekoälykin voi ennakoida tulevaa päättelemällä. Suuret kielimallit osaavat jo päätellä ja suorittaa ajatusta vaativia töitä. Tekoäly voi siis katsoa tulevaisuuteen, mikäli sitä ohjataan oikein kehotteilla tekemään ennakointia. Monet tekoälytyökalut kuten ChatGPT ja Perplexity osaavat myös hakea lisää tietoa verkosta, jolloin ne voivat pohjata päättelynsä tuoreeseen tietoon.
Voidaanko tekoälyä käyttää muutoksen ennustamiseen MLPESTEL-mallilla?
Khalid Alnajjar ja Mika Hämäläinen tutkivat MBA-tutkinnon opinnäytetyössään tekoälyn kykyä ennustaa muutoksia yritysten toimintaympäristössä. Tätä tehtävää varten he hyödynsivät suurta kielimallia ja kehittivät uuden teoreettisen viitekehyksen nimeltä MLPESTEL. Paradigman muutos, joka mahdollisti ennustamisen Perinteisesti koneoppimisen tekniikat ovat perustuneet kaavojen oppimiseen datasta yksittäisiä tehtäviä varten. Tämän vuoksi tällaiset mallit ovat pystyneet tekemään ennusteita vain hyvin rajatuilla sovellusalueilla, kuten säätietojen tai taloudellisten trendien ennustamisessa. Kuitenkin suurten kielimallien aikakauden myötä tekoälylle on muodostunut kyky tehdä päättelyä myös kapeiden aihealueiden ulkopuolella sekä tekstuaalisen datan, eikä vain numeerisen datan, pohjalta. Tarve uudelle viitekehykselle Vaikka suuret kielimallit, kuten ChatGPT, omaavat uskomattomia kykyjä päättellä ja käsitellä erilaistia kehotteita, ne eivät pysty ennustamaan muutosta pelkän yksittäisen kehotteen avulla. Suuret kielimallit osaavat päätellä, mutta niiden on saatava käyttöönsä tarvittavat työkalut – aivan kuten me ihmistenkin. Lisäksi näin monimutkainen tehtävä on jaettava pienempiin osaongelmiin. MLPESTEL-viitekehys (Alnajjar & Hämäläinen, 2024) Tutkijat kehittivät uuden viitekehyksen nimeltä MLPESTEL, joka ammentaa inspiraationsa perinteisesti liiketaloustieteessä käytetystä PESTEL-mallista sekä ekologisten järjestelmien teoriasta (EST), jota yleensä hyödynnetään lapsen sosiaalisen kehityksen ymmärtämisessä. PESTEL on keskeinen tutkimuksen liiketoiminnallisen sovellusalueen kannalta, kun taas EST:tä käytettiin jakamaan jokainen PESTEL-kategoria neljään eri alajärjestelmään: mikro-, ekso-, meso- ja makrotasoon. Lopputuloksena syntynyt viitekehys oli ihmiselle varsin monimutkainen analysoitavaksi, mutta ei lainkaan liian vaativa suurelle kielimallille, joka pystyy helposti toimimaan tällaisella monimutkaisuuden tasolla. Tekoälypohjaisen ennustamisen ensimmäiset tulokset Tutkijat tutkivat menetelmänsä käyttökelpoisuutta analysoimalla suuren kielimallin ennustuskykyä MLPESTEL-viitekehyksen avulla kahden kansainvälisen yrityksen, Nokian ja Teslan, kohdalla. Menetelmä onnistui ennustamaan oikein 5G-teknologian tuoman mahdollisuuden Nokialle sekä maailmanlaajuisen sirupulan aiheuttamat haasteet, jotka vaikuttivat Teslaan. Opinnäytetyössä saadut tulokset ovat lupaavia ja toimivat todisteena konseptin toimivuudesta. Suuret kielimallit (LLM) ovat saavuttaneet kypsyystason, jossa niitä voidaan hyödyntää ennustamistehtävissä. MLPESTEL-viitekehys on laajentanut teoreettisia mahdollisuuksia liiketoimintaympäristön muutosten ennustamiseen. Tämä tutkimus on avannut tietä tuleville tutkimuksille suurten kielimallien ohjaamasta ennustamisesta ja tulevaisuuden tutkimuksesta. Tulokset toimivat ponnahduslautana laajemman ennakointialustan kehittämiselle Metropoliassa.