GPT-kielimallin mukaan Suomessa Pohjoismaiden hilpeimmät joululaulut
On taas se aina vuodesta, että lauletaan joululauluja – niin hilpeitä kuin kaihoisiakin.
Kolme vuotta sitten kirjoitin blogin, jossa esittelin leikkimielisen analyysini pohjoismaisten joululaulujen tunnelmasta. Analyysiin arvioin joululauluista kunkin yksittäisen sanan hilpeyden, ja koko laulun tunnelma saatiin sitten laulun sanojen keskiarvona. Yksittäisten sanojen positiivisuus tai negatiivisuus haettiin käyttämällä aineistona joukkoa IMDB-leffa-arvioita ja twiittejä.
Hieman yllättäen tuon analyysin mukaan Pohjoismaista hilpeimmät joululaulut löytyivätkin Suomesta.
Kulunut vuosi on tuonut mukanaan GPT-kielimallit, joiden pitäisi osata aiempia tekoälymalleja paremmin ymmärtää kieltä kokonaisuutena. Niinpä oli luonteva ajatus toistaa tämä joululaulujen analyysi kielimallien avulla.
Analyysin työkaluna käytin Azuren ChatGPT 3.5 -mallia, jolle esitin yksinkertaisen kehotteen: ”Arvioi oheisen joululaulun sanoituksen tunnelma (asteikolla nollasta yhteen)”. Aineistona käytin puolestaan samoja joululauluja kuin edellisessäkin harjoituksessa.
Tulokset vaihtelivat mallien välillä
Ensimmäiseksi vertasin yksittäisten joululaulujen tunnelmaa eri analyysimenetelmien välillä. Eri menetelmillä saadut arviot laulujen tunnelmasta osoittautuivat hyvin erilaisiksi, sillä korrelaatio vanhan ja uuden mallin tuottamien tulosten välillä oli vain 0,13. Hitusen verran siis mallit arvioivat laulujen tunnelmaa samaan suuntaan, mutta yksittäisen laulun kohdalla tulokset vaihtelivat suuresti.
Seuraavaksi tarkastelin joululaulujen keskimääräistä hilpeyttä eri pohjoismaiden välillä, eli laskin maakohtaiset keskiarvot laulujen saamista tuloksista. Edellisen tuloksen huomioiden oli hieman yllättävää, että myös ChatGPT-kielimallin mielestä suomalaiset joululaulut olivat hilpeimpiä. Tässä suhteessa kielimallilla laskettu tulos oli siis yhteneväinen kolmen vuoden takaisen analyysini kanssa.
Toisaalta on syytä muistaa, että yleisen käsityksen mukaan suomalaiset joululaulut ovat sieltä synkimmästä päästä:
- Vinkka: Ihanat kamalat joululaulut – Miksi suomalaiset joululaulut ovat niin synkkiä?
- MTV: Ruotsinsuomalaisilta tylyä ilkeilyä – kuusi syytä, miksi joulun vietto on Suomessa kaikkein masentavinta.
Kuvassa analyysin tulokset eri malleilla: Vaaleansininen – ChatGPT -kielimalli, Tummansininen – yksittäisten sanojen arvioihin perustuva malli (sanojen arviointiin käytetty Tweet-aineistoa), Oranssi – kuten edellä, mutta IMDB-aineiston perusteella tehty sanojen luokittelu). X-akselilla ryhmitelty eri pohjoismaat. (Huom! Menetelmien erilaisuudesta johtuen palkkien ”korkeuden” vertailu ei ole mielekästä. Oleellista on huomioida eri maiden järjestys kunkin mallin puitteissa.)
Yksittäisissä lauluanalyyseissä yllätyksiä
Lopuksi tarkastelin vielä yksittäisten laulujen saamia tuloksia, jotka osoittautuiva mielenkiintoisiksi.
ChatGPT-kielimallin luokittelun mukaan hilpeiden laulujen kärjestä löytyy odotettuja lauluja, kuten "Tonttu Torvinen", "Tonttujen joulu" ja "Joulu on taas”. Synkkien laulujen kärkeä pitää puolestaan tontun unettomuudesta kertova laulu.
Joukkoon mahtuu kuitenkin myös yllättäviä tuloksia. Kielimallin analyysi laulusta ”Varpunen jouluaamuna” kuuluu seuraavasti: "Sanoitusten perusteella on vaikea määrittää kappaleen tarkkaa sävyä. Joulun maininta ja loppua kohden oleva kiitollinen ja iloinen sävy viittaa kuitenkin siihen, että se saattaa olla enemmän iloisen puolen puolella. Arvosanaksi antaisin noin 0,7 asteikolla synkästä iloiseen."
Sylvian joululaulun kielimalli arvioi näin: ”Sanoitusten perusteella on vaikea määrittää kappaleen tunnelmaa. Jotkut rivit viittaavat iloiseen ja juhlavaan tunnelmaan, kun taas toiset vihjaavat melankolisempaan sävyyn. Siksi antaisin tälle joululaululle arvosanaksi 0,5 asteikolla synkästä iloiseen.” No, onhan se sentään puolivälissä asteikolla.
Juice Leskisen jouluklassikosta "Sika" malli päättelee seuraavaa: "Synkän ja väkivaltaisen sanoituksen perusteella antaisin tälle joululaululle tuloksen nolla asteikolla synkästä iloiseen." Kielimalli ei selvästikään ymmärrä savolaista huumoria.
Kielimallit eivät ymmärrä tekstien kokonaismerkitystä – ainakaan vielä
Esimerkkilaulujen analyysit kuvaavat oikeastaan aika hyvin sitä, mistä kielimalleissa perimmiltään on kysymys: ne tarttuvat lopulta pääosin yksittäisiin sanoihin ja enintään lauseisiin mutta eivät siltikään "ymmärrä" sitä tekstien kokonaismerkitystä, jota sanoilla ja lauseilla halutaan välittää.
Toisaalta kielimallien läpilyönti yleiseen käyttöön tapahtui vasta reilu vuosi sitten, joten ne kehittyvät edelleen hurjalla nopeudella. Ensi jouluna niiden tuottamat analyysit voivat olla huomattavasti nykyistä parempia.
Ja kuka tietää – ehkäpä tulevaisuudessa mallit osaavat arvioida myös melodian hilpeyden tahi melankolian osana analyysiään?
Lisätietoja
Tagit
Liiketoimintaprosessi
BI ja raportointi |
Erikoisosaaminen
Tekoäly (AI) ja koneoppiminen |
Teknologia
Microsoft |
Omat tagit
Innofactor - Asiantuntijat ja yhteyshenkilöt
Innofactor - Muita referenssejä
Innofactor - Muita bloggauksia
It- ja ohjelmistoalan työpaikat
- Laura - Mobiilikehittäjä, Android
- Laura - Ohjelmistoarkkitehti, Tampere/Oulu
- Laura - Development Team Manager, Sports Games
- Taito United Oy - Senior Full Stack -kehittäjä
- Webscale Oy - Head of Sales, Cloud Services
- Laura - Hankinta-asiantuntija, tietohallinto
- Laura - Development Manager, Operations
Premium-asiakkaiden viimeisimmät referenssit
- SD Worx - Kehitystyö SD Worxin kanssa takaa Clas Ohlsonille parhaat palkanmaksun prosessit kasvun tiellä
- Digiteam Oy - Case Esperi Care Oy: Ketterä kumppanuus vei Esperin verkkosivu-uudistuksen maaliin sujuvasti ja aikataulussa
- Kisko Labs Oy - Howspace Hub - Mukautuva oppimisen hallintajärjestelmä kasvaviin oppimisalustavaatimuksiin
- Kisko Labs Oy - Sanoma Pro: Multimediasisältöjen hallinnan uudistaminen
- Kisko Labs Oy - Svean helppokäyttöinen palvelu asiakkaan verkko-ostosten hallintaan
- Kisko Labs Oy - Yhtenäinen käyttöliittymä luovien alojen ammattilaisille
- Codemate - Digitaalisen murroksen nopeuttaminen Flutterin avulla
Tapahtumat & webinaarit
- 27.11.2024 - Green ICT -ekosysteemitapaaminen III: Ohjelmistojärjestelmien virrankulutuksen mittaaminen ja kasvihuonepäästöjen arviointi
- 27.11.2024 - Digitaalisen asiakaskokemuksen uusi aikakausi
- 28.11.2024 - Webinaari: Keskity myyntityön laatuun!
- 28.11.2024 - Copilot-webinaari – Mielekkäämpää tietotyötä turvallisesti
- 04.12.2024 - Kuinka oikea matka- ja kululaskujärjestelmä tehostaa prosesseja?
- 05.12.2024 - Green ICT VICTIS -hankkeen kick off -tilaisuus
- 15.01.2025 - Datavastuullisuuden valmennus: hanki valmiudet vastuulliseen datan ja tekoälyn hyödyntämiseen
Premium-asiakkaiden viimeisimmät bloggaukset
- Kisko Labs Oy - Heroku: Millaisiin projekteihin se sopii ja mitkä ovat sen todelliset hyödyt ja haitat?
- Zimple Oy - Pipedrive vai Hubspot? Kumpi kannattaa valita?
- SC Software Oy - Jatkuvat palvelut – asiakaslähtöistä kumppanuutta projekteista ylläpitoon
- Timeless Technology - Ohjelmoitavat logiikat (PLC): Ratkaisevat työkalut automaatioon ControlByWebiltä.
- Kisko Labs Oy - Heroku: Ohjelmistokehittäjän ykköstyökalu skaalautuvien sovellusten rakentamiseen
- SD Worx - Näin luot vakuuttavan Business Casen palkkahallinnon ulkoistukselle
- Timeless Technology - Kyberriskien tunnistaminen Profitap IOTA verkkoanalysaattorin avulla.
Digitalisaatio & innovaatiot blogimediaBlogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä |