{"id":33,"date":"2024-12-02T11:04:44","date_gmt":"2024-12-02T09:04:44","guid":{"rendered":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/?p=33"},"modified":"2024-12-02T11:04:45","modified_gmt":"2024-12-02T09:04:45","slug":"mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit","status":"publish","type":"post","link":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/","title":{"rendered":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit?"},"content":{"rendered":"\n<p>Tavallinen k\u00e4ytt\u00e4j\u00e4 k\u00e4ytt\u00e4\u00e4 suuria kielimalleja, kuten ChatGPT:t\u00e4, kirjoittamalla sille kehotteita (prompteja) k\u00e4ytt\u00f6liittym\u00e4n kautta. T\u00e4m\u00e4n lis\u00e4ksi suuret kielimallit tarjoavat teknisesti harjaantuneille k\u00e4ytt\u00e4jille toisenlaisen toiminnon &#8211; upotusten (englanniksi <a href=\"https:\/\/www.ibm.com\/topics\/embedding\" target=\"_blank\" rel=\"noreferrer noopener\">embeddings<\/a>) luonnin tekstin pohjalta. Mutta mit\u00e4 n\u00e4m\u00e4 upotukset oikein ovat ja mihin niit\u00e4 k\u00e4ytet\u00e4\u00e4n?<\/p>\n\n\n\n<h1 class=\"wp-block-heading\">Tekstin merkitys vektoreissa<\/h1>\n\n\n\n<p>Kun suurelle kielimallille antaa teksti\u00e4 upotettavaksi, se tuottaa tulokseksi vektorin. Vektori on lista numeroita, jonka merkitys ei avaudu ihmissilm\u00e4lle, mutta se avaa mahdollisuuden tutkia tekstin merkityst\u00e4 matemaattisin keinoin. <strong>N\u00e4it\u00e4 kielimallin tuottamia vektoreita kutsutaan upotuksiksi eli embeddingeiksi.\u00a0<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/mikahama\/uralicNLP\/\">UralicNLP-Python-kirjasto<\/a> tarjoaa keinoja upottaa teksti\u00e4 eri kielimallien avulla. T\u00e4ss\u00e4 on esimerkki siit\u00e4, miten UralicNLP:ll\u00e4 voi upottaa tekstin OpenAI:n mallilla.<\/p>\n\n\n\n<p style=\"margin-left:64px\">from uralicNLP.llm import get_llm<br>llm = get_llm(&#8221;chatgpt&#8221;, &#8221;VAIHDA T\u00c4H\u00c4N API-AVAIMESI&#8221;, model=&#8221;text-embedding-3-small&#8221;)<br>llm.embed(&#8221;Teksti, jonka haluat upottaa&#8221;)<br>&gt;&gt;[-0.1803697, 1.1973963, 0.5283669, 1.5049516, -0.27077377&#8230;]<\/p>\n\n\n\n<p>Kuten esimerkist\u00e4 n\u00e4kee, upotuksen tulos on lista numeroita. N\u00e4m\u00e4 numerot kuvastavat tekstin merkityst\u00e4, ja niiden avulla voidaan vertailla tekstien samankaltaisuutta matemaattisin keinoin.<\/p>\n\n\n\n<h1 class=\"wp-block-heading\">Mit\u00e4 hy\u00f6ty\u00e4 on upotuksista?<\/h1>\n\n\n\n<p>Upotusten avulla tekstimassoja voidaan tallentaa nopeasti haettaviksi vektoritietokantaan. N\u00e4in tietokantahakua ei tehd\u00e4 kirjainmerkkien vaan merkityksen avulla. Yleisin k\u00e4ytt\u00f6tapaus t\u00e4llaisille vektoritietokannoille on t\u00e4ll\u00e4 hetkell\u00e4 <a href=\"https:\/\/blogs.nvidia.com\/blog\/what-is-retrieval-augmented-generation\/\" target=\"_blank\" rel=\"noreferrer noopener\">RAG-malli<\/a>.<\/p>\n\n\n\n<p>RAG tulee sanoista Retrieval-Augmented Generation ja se tarkoittaa sit\u00e4, ett\u00e4 suurelle kielimallille haetaan kehotteen lis\u00e4ksi l\u00e4hdeaineistoa, jonka avulla malli tuottaa vastauksen. L\u00e4hdeaineiston hakeminen tapahtuu hakemalla upotusten avulla k\u00e4ytt\u00e4j\u00e4n sy\u00f6tteeseen sopivia dokumentteja vektoritietokannasta. Esimerkiksi <a href=\"https:\/\/mikko.metropolia.fi\/\">Metropolian oma Mikro-Mikko<\/a> toimii t\u00e4ll\u00e4 periaatteella.\u00a0<\/p>\n\n\n\n<p>Upotusten avulla tekstidokumentteja voi my\u00f6s ryhmitell\u00e4 automaattisesti samankaltaisten tekstien ryhmiin. UralicNLP:ll\u00e4 t\u00e4m\u00e4 hoituu seuraavalla tavalla.<\/p>\n\n\n\n<p style=\"margin-left: 64px\">from uralicNLP.llm import get_llm<br>from uralicNLP import semantics<br>llm = get_llm(&#8221;chatgpt&#8221;, &#8221;VAIHDA T\u00c4H\u00c4N API-AVAIMESI&#8221;, model=&#8221;text-embedding-3-small&#8221;)<br>texts = [\u201ckoirat on hauskoja\u201d, \u201cautot ajaa nopeasti\u201d, \u201ckissat leikkii kesken\u00e4\u00e4n\u201d, \u201crekat ajaa kaupungista toiseen\u201d]<br>semantics.cluster(texts, llm)<br>&gt;&gt;[[\u201ckoirat on hauskoja\u201d, \u201ckissat leikkii kesken\u00e4\u00e4n\u201d], [\u201cautot ajaa nopeasti\u201d, \u201crekat ajaa kaupungista toiseen\u201d]]<\/p>\n\n\n\n<p>Tuloksena tekstit ryhmitell\u00e4\u00e4n samankaltaisten tekstien ryhmiin k\u00e4ytt\u00e4en upotuksia sek\u00e4 laskien niiden samankaltaisuuden.<\/p>\n\n\n\n<h1 class=\"wp-block-heading\">Onko mallilla v\u00e4li\u00e4 upottaessa?<\/h1>\n\n\n\n<p>Upotuksia voidaan tuottaa sek\u00e4 kaupallisilla suurilla kielimalleilla ett\u00e4 avoimilla kielimalleilla. Mallia valittaessa kannattaa muistaa, etteiv\u00e4t upotukset ole kesken\u00e4\u00e4n yhteensopivia. Osaa upotuksista ei siis voi tehd\u00e4 OpenAI:n GPT-4:ll\u00e4 ja osaa avoimella LLaMA:lla, ja olettaa, ett\u00e4 ne toimisivat yhteen. Jokainen malli on oppinut omanlaisensa merkitysrepresentaation datasta, joten upotuksen numeerinen sis\u00e4lt\u00f6 vaihtelee eri mallien v\u00e4lill\u00e4.<\/p>\n\n\n\n<p>Mallia valitessa kannattaa mietti\u00e4 mallin hintaa, sen tukemia kieli\u00e4 sek\u00e4 konteksti-ikkunaa. Suuremmat mallit voivat mahduttaa suurenkin tekstin konteksti-ikkunaan, jolloin kokonaiselle tekstille voidaan tehd\u00e4 yksi upotus. Pienemm\u00e4t mallit vaativat tekstin pilkkomista osiin. T\u00e4m\u00e4 tekninen rajoite voi olla merkityksellinen riippuen siit\u00e4, mihin upotuksia k\u00e4ytt\u00e4\u00e4.<\/p>\n\n\n\n<p>Kaikki mallit eiv\u00e4t my\u00f6sk\u00e4\u00e4n osaa kaikkia kieli\u00e4. Jos kielimalli tuottaa kehnoa suomea vastauksena kehotteisiin, se ei todenn\u00e4k\u00f6isesti my\u00f6sk\u00e4\u00e4n ymm\u00e4rr\u00e4 suomea kovinkaan hyvin. T\u00e4st\u00e4 seuraa se, ett\u00e4 suomenkieliselle tekstille teht\u00e4v\u00e4t upotuksetkaan eiv\u00e4t kuvaa merkityst\u00e4 riitt\u00e4v\u00e4n hyvin.&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tavallinen k\u00e4ytt\u00e4j\u00e4 k\u00e4ytt\u00e4\u00e4 suuria kielimalleja, kuten ChatGPT:t\u00e4, kirjoittamalla sille kehotteita (prompteja) k\u00e4ytt\u00f6liittym\u00e4n kautta. T\u00e4m\u00e4n lis\u00e4ksi suuret kielimallit tarjoavat teknisesti harjaantuneille k\u00e4ytt\u00e4jille toisenlaisen toiminnon &#8211; upotusten (englanniksi embeddings) luonnin tekstin pohjalta. Mutta mit\u00e4 n\u00e4m\u00e4 upotukset oikein ovat ja mihin niit\u00e4 k\u00e4ytet\u00e4\u00e4n? Tekstin merkitys vektoreissa Kun suurelle kielimallille antaa teksti\u00e4 upotettavaksi, se tuottaa tulokseksi vektorin. Vektori on [&hellip;]<\/p>\n","protected":false},"author":93,"featured_media":39,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[1],"tags":[29,27,16],"class_list":["post-33","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-yleinen","tag-llm","tag-python","tag-tekoaly"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.3 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa<\/title>\n<meta name=\"description\" content=\"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/\" \/>\n<meta property=\"og:locale\" content=\"fi_FI\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa\" \/>\n<meta property=\"og:description\" content=\"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/\" \/>\n<meta property=\"og:site_name\" content=\"Teko\u00e4ly\u00e4 tutkimassa\" \/>\n<meta property=\"article:published_time\" content=\"2024-12-02T09:04:44+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-12-02T09:04:45+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1463\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Mika H\u00e4m\u00e4l\u00e4inen\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Kirjoittanut\" \/>\n\t<meta name=\"twitter:data1\" content=\"Mika H\u00e4m\u00e4l\u00e4inen\" \/>\n\t<meta name=\"twitter:label2\" content=\"Arvioitu lukuaika\" \/>\n\t<meta name=\"twitter:data2\" content=\"3 minuuttia\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/\"},\"author\":{\"name\":\"Mika H\u00e4m\u00e4l\u00e4inen\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/#\\\/schema\\\/person\\\/3a4e7defe237b70cb74b463446adacbf\"},\"headline\":\"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit?\",\"datePublished\":\"2024-12-02T09:04:44+00:00\",\"dateModified\":\"2024-12-02T09:04:45+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/\"},\"wordCount\":505,\"commentCount\":1,\"image\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/wp-content\\\/uploads\\\/sites\\\/29\\\/2024\\\/12\\\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg\",\"keywords\":[\"LLM\",\"python\",\"teko\u00e4ly\"],\"inLanguage\":\"fi\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/\",\"url\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/\",\"name\":\"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/wp-content\\\/uploads\\\/sites\\\/29\\\/2024\\\/12\\\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg\",\"datePublished\":\"2024-12-02T09:04:44+00:00\",\"dateModified\":\"2024-12-02T09:04:45+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/#\\\/schema\\\/person\\\/3a4e7defe237b70cb74b463446adacbf\"},\"description\":\"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#breadcrumb\"},\"inLanguage\":\"fi\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fi\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#primaryimage\",\"url\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/wp-content\\\/uploads\\\/sites\\\/29\\\/2024\\\/12\\\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg\",\"contentUrl\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/wp-content\\\/uploads\\\/sites\\\/29\\\/2024\\\/12\\\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg\",\"width\":2560,\"height\":1463,\"caption\":\"Taikurin hattu, jonne putoaa A-kirjain ja joukko numeroita\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/2024\\\/12\\\/02\\\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Etusivu\",\"item\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/#website\",\"url\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/\",\"name\":\"Teko\u00e4ly\u00e4 tutkimassa\",\"description\":\"Tieteeseen perustuvaa tietoa teko\u00e4lyst\u00e4\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fi\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/#\\\/schema\\\/person\\\/3a4e7defe237b70cb74b463446adacbf\",\"name\":\"Mika H\u00e4m\u00e4l\u00e4inen\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fi\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g\",\"caption\":\"Mika H\u00e4m\u00e4l\u00e4inen\"},\"description\":\"on kieliteknologian tohtori ja h\u00e4n toimii AI-projektip\u00e4\u00e4llikk\u00f6n\u00e4 Metropoliassa. H\u00e4nen viimeaikaiset tutkimusintressins\u00e4 ovat kieliteknologian kehitt\u00e4minen uhanalaisille kielille sek\u00e4 kieliteknologian ja digihumanismin yhteensovittaminen.\",\"sameAs\":[\"https:\\\/\\\/peoplefinder.metropolia.fi\\\/fi\\\/profile\\\/325063\\\/staff\\\/Mika-Hamalainen\"],\"url\":\"https:\\\/\\\/blogit.metropolia.fi\\\/tekoalya-tutkimassa\\\/author\\\/mikakha\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa","description":"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/","og_locale":"fi_FI","og_type":"article","og_title":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa","og_description":"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?","og_url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/","og_site_name":"Teko\u00e4ly\u00e4 tutkimassa","article_published_time":"2024-12-02T09:04:44+00:00","article_modified_time":"2024-12-02T09:04:45+00:00","og_image":[{"width":2560,"height":1463,"url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg","type":"image\/jpeg"}],"author":"Mika H\u00e4m\u00e4l\u00e4inen","twitter_card":"summary_large_image","twitter_misc":{"Kirjoittanut":"Mika H\u00e4m\u00e4l\u00e4inen","Arvioitu lukuaika":"3 minuuttia"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#article","isPartOf":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/"},"author":{"name":"Mika H\u00e4m\u00e4l\u00e4inen","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/#\/schema\/person\/3a4e7defe237b70cb74b463446adacbf"},"headline":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit?","datePublished":"2024-12-02T09:04:44+00:00","dateModified":"2024-12-02T09:04:45+00:00","mainEntityOfPage":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/"},"wordCount":505,"commentCount":1,"image":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#primaryimage"},"thumbnailUrl":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg","keywords":["LLM","python","teko\u00e4ly"],"inLanguage":"fi","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/","url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/","name":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit? - Teko\u00e4ly\u00e4 tutkimassa","isPartOf":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#primaryimage"},"image":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#primaryimage"},"thumbnailUrl":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg","datePublished":"2024-12-02T09:04:44+00:00","dateModified":"2024-12-02T09:04:45+00:00","author":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/#\/schema\/person\/3a4e7defe237b70cb74b463446adacbf"},"description":"Tekstille voidaan tehd\u00e4 suurilla kielimalleilla upotus (embedding). Mit\u00e4 se tarkoittaa k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja mit\u00e4 hy\u00f6ty\u00e4 siit\u00e4 on?","breadcrumb":{"@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#breadcrumb"},"inLanguage":"fi","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/"]}]},{"@type":"ImageObject","inLanguage":"fi","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#primaryimage","url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg","contentUrl":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-content\/uploads\/sites\/29\/2024\/12\/Firefly-A-B-C-gets-converted-into-1-2-3-in-a-magical-way-through-a-magicians-hat-25811-scaled.jpg","width":2560,"height":1463,"caption":"Taikurin hattu, jonne putoaa A-kirjain ja joukko numeroita"},{"@type":"BreadcrumbList","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/2024\/12\/02\/mita-ovat-suurten-kielimallien-tuottamat-upotukset-eli-embeddingit\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Etusivu","item":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/"},{"@type":"ListItem","position":2,"name":"Mit\u00e4 ovat suurten kielimallien tuottamat upotukset eli embeddingit?"}]},{"@type":"WebSite","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/#website","url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/","name":"Teko\u00e4ly\u00e4 tutkimassa","description":"Tieteeseen perustuvaa tietoa teko\u00e4lyst\u00e4","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fi"},{"@type":"Person","@id":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/#\/schema\/person\/3a4e7defe237b70cb74b463446adacbf","name":"Mika H\u00e4m\u00e4l\u00e4inen","image":{"@type":"ImageObject","inLanguage":"fi","@id":"https:\/\/secure.gravatar.com\/avatar\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/ef863f72fd4d3cae89a7b4f76167d31e2ff8b2869d30d1fbd4ede7a2ab86a089?s=96&d=mm&r=g","caption":"Mika H\u00e4m\u00e4l\u00e4inen"},"description":"on kieliteknologian tohtori ja h\u00e4n toimii AI-projektip\u00e4\u00e4llikk\u00f6n\u00e4 Metropoliassa. H\u00e4nen viimeaikaiset tutkimusintressins\u00e4 ovat kieliteknologian kehitt\u00e4minen uhanalaisille kielille sek\u00e4 kieliteknologian ja digihumanismin yhteensovittaminen.","sameAs":["https:\/\/peoplefinder.metropolia.fi\/fi\/profile\/325063\/staff\/Mika-Hamalainen"],"url":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/author\/mikakha\/"}]}},"lang":"fi","translations":{"fi":33,"en":40},"pll_sync_post":[],"_links":{"self":[{"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/posts\/33","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/users\/93"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/comments?post=33"}],"version-history":[{"count":5,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/posts\/33\/revisions"}],"predecessor-version":[{"id":38,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/posts\/33\/revisions\/38"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/media\/39"}],"wp:attachment":[{"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/media?parent=33"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/categories?post=33"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.metropolia.fi\/tekoalya-tutkimassa\/wp-json\/wp\/v2\/tags?post=33"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}