Enemmän irti datasta

Bloggaus Tilastotieteen menetelmäkehitys mahdollistaa yhä monimutkaisempien aineistojen analyysin. Palkitussa väitöskirjassa esitetään uusia tilastollisia tekniikoita moniulotteisille aineistoille, ja menetelmillä voidaan esimerkiksi tehdä uusia lääketieteellisiä löytöjä.

Tekoälyn huima kehitys viime vuosina ei ole jäänyt alaa seuraavilta ihmisiltä takuulla huomaamatta, ja aihe on saanut laajasti huomiota myös populaarimediassa. Toisinaan valtavirran uutisissa tekoäly esittäytyy mystisenä teknologiana, joka yhdistetään tieteisfiktiosta tuttuihin apokalyptisiin tulevaisuuden uhkakuviin. Todellisuudessa tekoälyssä on pohjimmiltaan kyse huomattavasti vähemmän mystisestä asiasta: tilastollisista malleista, joiden avulla voidaan tehdä uusia tieteellisiä löytöjä sekä kehittää teknologioita, joilla ihmisten elämästä voidaan tehdä entistä parempaa.

Moderni tekoäly perustuu niin kutsuttuun koneoppimiseen, jossa algoritmit oppivat datan eli havaintoaineistojen perusteella optimaalisen tavan toimia annetussa tilanteessa. Tämä eroaa ratkaisevasti lähestymistavasta, jossa kone yritetään ohjelmoida jäljittelemään ihmisen tapaa toimia. Koneoppiminen puolestaan perustuu pitkälti tilastolliseen mallintamiseen. Monesti tekoälyn opettamisessa on siis yksinkertaistaen pohjimmiltaan kyse tilastollisen mallin sovittamisesta havaintoaineistoon.

Koneoppimista tilastollisten mallien avulla on helpointa havainnollistaa esimerkin avulla. Ajatellaan vaikkapa sovellusta, joka osaa kertoa annetusta valokuvasta, esiintyykö kuvassa kissa vai koira. Ongelma voidaan ratkaista muodostamalla sopiva tilastollinen malli, jonka syötteenä on valokuva, ja malli antaa kullekin kuvalle vastaukseksi joko ”kissa” tai “koira”. Mallin vastaus kullekin kuvalle riippuu sen sisäisten parametrien arvoista, joita säätämällä saadaan annetulle kuvalle haluttu tulos. Mallin parametreja voi ajatella hieman samaan tapaan kuin vaikkapa kitaran viritysnuppeja; kun nupit on säädetty oikeaan asentoon, saadaan soittimesta tietyllä otteella haluttu ääni. Tätä parametrien viritystä kutsutaan siis mallin sovittamiseksi. Kuvanluokittelija voidaan sovittaa siten, että sille näytetään riittävä määrä kuvia sekä kissoista että koirista, ja säädetään sen parametrien arvot niin, että mallin antama tulos on oikein mahdollisimman monelle kuvalle. Tämän jälkeen mallia voidaan käyttää luokittelemaan myös uusia kuvia, joita se ei ole ennen nähnyt.

Esimerkiksi voidaan tutkia, pystytäänkö aineiston perustella ennustamaan uusille henkilöille heidän riskinsä sairastua kyseiseen sairauteen.

Edellä kuvattu menetelmä oppia tilastollisten mallien ja havaintoaineistojen perusteella on osoittautunut erittäin hyödylliseksi lukuisissa eri sovelluksissa. Viime vuosien tekoälykehityksen voidaankin sanoa johtuvan yhtäältä uusista innovaatioista sekä itse malleissa että niiden sovittamisalgoritmeissa, ja toisaalta yhä laajemmista, laadukkaammista ja helpommin saatavilla olevista havaintoaineistoista. Parempien ja kattavampien havaintoaineistojen saatavuus on myös osaltaan kiihdyttänyt metodologista kehitystä, joka avaa ovia uusille tieteellisille löydöksille.

Menetelmiä moniulotteisille aineistoille

Palkitussa väitöskirjassa kehitetään uusia tilastollisia menetelmiä aineistoille, joissa on mitattu suuri määrä erilaisia tekijöitä eli piirteitä, joiden perusteella halutaan tutkia jotakin mielenkiinnon kohteena olevaa ilmiötä. Tyypillinen esimerkki voisi olla vaikkapa lääketieteellinen aineisto, jossa sekä terveiltä että jotakin tautia sairastavilta ihmisiltä on mitattu erilaisia piirteitä kuten perintötekijöitä, ravinto- ja liikuntatottumuksia, veriarvoja ja niin edelleen.

Tällaiset aineistot mahdollistavat monien tutkimuskysymysten tarkastelun. Esimerkiksi voidaan tutkia, pystytäänkö aineiston perustella ennustamaan uusille henkilöille heidän riskinsä sairastua kyseiseen sairauteen, kun nämä annetut piirteet on mitattu. Väitöskirjassa esitetään useita menetelmällisiä parannuksia, joilla saavutetaan entistä tarkempia ennusteita erityisesti tilanteissa, joissa mitattujen piirteiden määrä on suuri, mutta aineiston otoskoko on pieni. Tilanne on tyypillinen silloin, kun aineiston kerääminen on kallista, työlästä tai muutoin aikaa vievää. Tarkoilla ennusteilla on usein huomattavaa käytännön merkitystä: mikäli riskiryhmään kuuluvat henkilöt on helppo tunnistaa, heille voidaan kohdistaa hoitoa ajoissa. Silloin päästään sekä parempiin tuloksiin että saavutetaan kustannussäästöjä, kun hoitoja kohdennetaan tehokkaammin. Ennustetarkkuudella on käytännön merkitystä myös tilanteessa, jossa tavoitteena on esimerkiksi oppia tunnistamaan eli diagnosoimaan sairaus tiettyjen oireiden perusteella. Näin voidaan parantaa harvinaisten tai muuten vaikeasti tunnistettavien tautien diagnosointia, ja täten helpottaa lääkärien työtä.

Varsinaisten ennusteiden lisäksi on usein hedelmällistä tarkastella eri piirteiden merkittävyyttä ennusteiden kannalta. Voidaan siis tarkastella esimerkiksi sitä, onko riski sairastua johonkin tautiin yhteydessä vaikkapa perinnöllisiin tekijöihin tai tiettyihin elämäntapoihin, vai molempiin. Tällaista tarkastelua kutsutaan piirrevalinnaksi. Väitöskirjassa tutkitaan yksityiskohtaisesti myös piirrevalintaa ja esitetään useita parannuksia olemassa oleviin tekniikoihin. Kun ymmärrys esimerkiksi perintötekijöiden ja elämäntapojen vaikutuksista taudin riskiryhmään paranee, tämä mahdollistaa myös uusien, tehokkaampien ja henkilökohtaisempien hoitojen kehittämisen. Viimeksi mainittua kutsutaan yksilöllistetyksi lääketieteeksi (engl. personalised medicine). Piirrevalinnalla voidaan myös auttaa rakentamaan ennustemalleja, joilla saadaan tarkkoja ennusteita käyttäen vain pientä määrää piirteitä. Tämä on hyödyllistä, mikäli suuren piirremäärän käyttöön liittyy ajallisia tai rahallisia kustannuksia.

Vaikka edellä on esimerkkeinä käytetty sovelluksia vain lääketieteestä, väitöskirjassa esitettyjä menetelmiä voidaan soveltaa aineistojen käsittelyyn miltä tahansa sovellusalueelta. Tämän lisäksi väitöskirjan menetelmät on toteutettu vapaan lähdekoodin ohjelmistokirjastoihin, mikä asettaa ne vapaasti ja helposti tiedeyhteisön saataville.

Juho Piirosen väitöskirjaan voi tutustua verkkoversiona Aalto-yliopiston sivustolla: https://bit.ly/juho-piironen-vaitos

Teksti: Juho Piironen

Juho Piironen on tekniikan tohtori, tilastotieteen ja koneoppimisen asiantuntija, ja työskentelee vanhempana tutkijana Top Data Science -yrityksessä.

Lisätietoja

Yritysprofiili TIVIA ry kotisivut

Tagit

Jos tarjontatagi on sininen, pääset klikkaamalla sen kuvaukseen

Siirry yrityksen profiiliin TIVIA ry kotisivut Yrityshaku Referenssihaku Julkaisuhaku

TIVIA ry - Asiantuntijat ja yhteyshenkilöt

Asiantuntijoita ja yhteyshenkilöitä ei ole vielä kuvattu.

TIVIA ry - Muita referenssejä

Muita referenssejä ei löytynyt.

TIVIA ry - Muita bloggauksia

BloggausTietoturva-asiantuntijat antavat kolme näkemystä vuodelle 2024

Älä laiminlyö tietoturvaasi Alkuvuodesta 2024 tietoturvan haasteet ovat nousseet uutisotsikoihin useiden uhkien ja Lue lisää..

Bloggaus TIVIAn hallitus tutuksi – Minna Lounatvuori

TIVIA haluaa tehdä aiempien vuosien tapaan hallituksen jäsenet tutummiksi suurelle yleisölle. Esittelemme muutamia TIVIAn Lue lisää..

Tagit: TIVIA70

BloggausKooste E-Commerce Berlin -messuista

Sähköiseen kaupankäyntiin liittyvien palvelujen kasvu on kova tämän tapahtuman mittareiden perusteella. Kasvu on ollut nopea Lue lisää..

Bloggaus40 vuotta sitten syntyi uusi ammattiryhmä

Mikrotietokone rantautui Suomeen vuonna 1973, mutta ei saanut seuraavien kymmenen vuoden aikana jalansijaa yritysmaailmassa. Lue lisää..

Tagit: It-infra loppukäyttäjäpalvelut, Tuki- ja ylläpitotyö

BloggausTekoäly vaikuttaa jokaisen elämään – halusi tai ei

Halusimme tai emme, tekoäly on jo vaikuttanut lähes elämäämme tavalla tai toisella. Muutos on jatkuvaa, joten kannattaa Lue lisää..

Tagit: Markkinointi, Tekoäly (AI) ja koneoppiminen

BloggausKun Spede tietokoneen sai

Tietojenkäsittelyliiton ja Insinöörilehtien puoliksi omistama Tietoviikko Ky julkaisi Mikro-lehden ensimmäisen numeron Lue lisää..

Tagit: Markkinointi, TIVIA70

Digitalisaatio & innovaatiot blogimedia

Blogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä

Marras 20

Suomalaisten it- ja ohjelmistoyritysten uusimmat referenssit ja asiakassuositukset

Asiakaskokemukset ohjaavat it-hankkijat osaavien it-toimittajien suuntaan

Marras 7

It-kilpailutusprosessin ja it-hankinnan vaiheet, tarjouspyynnön teko ja it-toimittajan valinta

Näiden vaiheiden avulla yritys voi varmistaa, että it-kilpailutus etenee suunnitellusti

Loka 30

Suomalainen innovaatiotoimisto on kansainvälisesti palkittu ja kehittää digitaalisia palveluita maailman suurimmille firmoille - Näin Hellonin palvelumuotoiluprosessi eroaa it-toimittajien mallista

Hellon on kerännyt useita kansainvälisiä digitaalisen designin palkintoja

Siirry blogiin

Etusivu Yrityshaku Pikahaku Referenssihaku Julkaisuhaku Blogimedia

Hae it-yrityksiä
osaamisalueittain:

Enemmän irti datasta

Menetelmiä moniulotteisille aineistoille

Lisätietoja

Tagit

TIVIA ry - Asiantuntijat ja yhteyshenkilöt

TIVIA ry - Muita referenssejä

TIVIA ry - Muita bloggauksia

Löydä sopivimmat it- ja ohjelmistoyritykset liiketoiminnan kehityskumppaneiksi

It- ja ohjelmistoalan työpaikat

Premium-asiakkaiden viimeisimmät referenssit

Tapahtumat & webinaarit

Premium-asiakkaiden viimeisimmät bloggaukset

Digitalisaatio & innovaatiot blogimedia

Yhteystiedot

ite wiki somessa

Sähköpostilista

Hallinta

Info

ite wikin keskeiset osiot

Sivukartta

ite wikin analytiikkaa

Enemmän irti datasta

Menetelmiä moniulotteisille aineistoille

Lisätietoja

Tagit

Erikoisosaaminen

TIVIA ry - Asiantuntijat ja yhteyshenkilöt

TIVIA ry - Muita referenssejä

TIVIA ry - Muita bloggauksia

Löydä sopivimmat it- ja ohjelmistoyritykset liiketoiminnan kehityskumppaneiksi

It- ja ohjelmistoalan työpaikat

Premium-asiakkaiden viimeisimmät referenssit

Tapahtumat & webinaarit

Premium-asiakkaiden viimeisimmät bloggaukset

Digitalisaatio & innovaatiot blogimedia