Muuttujat ja mittaaminen data-analytiikassa
Muuttujat ja mittaaminen
Yleisesti havainnointi maailmasta perustuu erilaisten ilmiöiden mittaamiseen ja mittaamisesta syntyneen datan käsittelyyn ja raportointiin.
Mitä voidaan data-analytiikassa mitata ja mitä tarkoittaa muuttujan mitta-asteikko?
Muuttujien mitta-asteikot
Erään perinteisen jaottelun tilastotieteessä loi psykologi Stanley Stevens vuonna 1946, muitakin vaihtoehtoja on esitetty mutta alla oleva on varsin vakiintunut. Muuttujan mitta-asteikollisuus vaikuttaa siihen mitkä ovat muuttujalle sallitut tunnusluvut ja menetelmät.
Luokka-asteikollinen eli nominaalinen muuttuja
Luokka-asteikollinen eli nominaalinen muuttuja on muuttuja, jolla on kaksi tai useampia kategorioita, mutta niillä ei ole luonnollista järjestystä. Esimerkiksi sukupuoli (mies, nainen), ammattiluokitus (työntekijä, toimihenkilö, ylempi toimihenkilö, johtaja) ovat kaikki nominaalisia muuttujia.
Nominaaliselle muuttujalle voidaan esittää useita tunnuslukuja kuten:
- Frekvenssi: kuinka usein tietty luokka-arvo esiintyy datassa
- Prosenttiosuus: kunkin luokka-arvon osuus kaikista havainnoista.
- Moodi: yleisin luokka-arvo aineistossa
- Havaintojen lukumäärä: kokonaishavaintojen lukumäärä. Tätä tunnuslukua voidaan käyttää kuvaamaan ja vertailemaan nominaalisten muuttujien jakaumaa eri luokka-arvojen ryhmissä
- Kontingenssikerroin: eräänlaista assosiaatiota luokka-arvojen välillä kuvaava tunnusluku
Järjestysasteikollinen eli ordinaalinen muuttuja
Järjestysasteikollinen muuttuja eli ordinaalinen muuttuja on muuttuja, jolla on kaksi tai useampia kategorioita, joilla on luonnollinen järjestys mutta järjestyksen absoluuttista eroa ei voida määritellä. Esimerkiksi koulutustaso (peruskoulu, lukio, korkeakoulu) ja asenne (täysin eri mieltä, osittain eri mieltä, neutraali, osittain samaa mieltä, täysin samaa mieltä) ovat järjestysasteikollisia muuttujia.
Järjestysasteikolliselle muuttujalle voidaan esittää useita tunnuslukuja, kuten:
- Mediaani: aineiston keskimmäinen arvo, kun havainnot on järjestetty suuruusjärjestykseen.
- Kvartiilit: aineiston ala-, keski- ja yläkvartiilit jakavat aineiston neljään yhtä suureen osaan.
- Persentiilit: aineiston persentiilit jakavat aineiston sataan yhtä suureen osaan.
- Moodi: yleisin arvo muuttujalle aineistossa. Näitä tunnuslukuja voidaan käyttää kuvaamaan ja vertailemaan järjestysasteikollisten muuttujien jakaumaa eri ryhmissä
- Järjestyskorrelaatiokerroin: perinteinen muuttujien keskinäistä riippuvuutta kuvaava tunnusluku
Välimatka-asteikollinen eli intervalliasteikollinen muuttuja
Välimatka-asteikollinen muuttuja on muuttuja, jonka arvoilla on kiinteä mittayksikkö ja jonka arvojen välillä on kiinteä välimatka. Tämä tarkoittaa, että muuttujan arvojen välisiä eroja voidaan mitata ja vertailla. Esimerkkejä välimatka-asteikollisista muuttujista ovat ulkolämpötila celsius-asteina ja henkilön pituus senttimetreinä.
Välimatka-asteikolliselle muuttujalle voidaan esittää useita tunnuslukuja, kuten:
- Keskiarvo: muuttujan kaikkien arvojen summa jaettuna muuttujan havaintojen lukumäärällä.
- Mediaani: muuttujan keskimmäinen arvo, kun havainnot on järjestetty suuruusjärjestykseen.
- Keskihajonta: muuttujan hajontaa eli variaatiota kuvaava tunnusluku
- Maksimi ja minimi: muuttujan suurin ja pienin arvo. Näitä tunnuslukuja voidaan käyttää kuvaamaan ja vertailemaan välimatka-asteikollisten muuttujien jakaumaa eri ryhmissä
- Korrelaationkerroin: muuttujien keskinäistä riippuvuutta kuvaava perinteinen tunnusluku
Suhdeasteikollinen muuttuja
Suhdeasteikollinen muuttuja on muuttuja, jonka arvoilla on kiinteä mittayksikkö ja jonka arvojen välillä on kiinteä suhde. Tämä tarkoittaa, että muuttujan arvojen suhteita voidaan mitata ja vertailla. Esimerkkejä suhdeasteikollisista muuttujista ovat paino kilogrammoina ja pituus metreinä. Suhdeasteikollisille muuttujille sopii käytännössä kaikki tunnusluvut jotka ovat käytettävissä välimatka-asteikollisille muuttujille, mutta lisäksi sellaiset tunnusluvut jotka perustuvat muuttujien välisiin suhteisiin. Tällainen on esimerkiksi variaatiokerroin.
Muuttujien koodauskäytännöt
Käytännössä monet ennustemallien ja data-analytiikan algoritmit edellyttävät luokka-asteikollisten ja järjestysasteikollisten muuttujien koodausta tai tekevät sen suoraan piilossa käyttäjältä. Erilaisilla muuttujien koodauksen vaihtoehdoilla voi olla paljonkin merkitystä lopputulosten tulkinnassa, onko koodaus sellainen että joku solu on aineistossa referenssinä tuloksille vai esitetäänkö kaikki poikkeamina keskimääräisestä?
Lisätietoja
Tagit
Liiketoimintaprosessi
BI ja raportointi |
Erikoisosaaminen
Analytiikka |
Teknologia
Azure | |
Microsoft | |
Python |
Tarjonnan tyyppi
Konsultointi | |
Koulutus |
Ready Solutions - Asiantuntijat ja yhteyshenkilöt
Ready Solutions - Muita referenssejä
Ready Solutions - Muita bloggauksia
It- ja ohjelmistoalan työpaikat
- Frends iPaaS - Technical Community Manager
- Druid Oy - Myyjä - hunter-henkinen tekijä, joka saa tuloksia aikaiseksi!
- Laura - Järjestelmäasiantuntija, Millog Oy Pansio
- Laura - Signaalinkäsittelijä
- Nordea - Senior IT Analyst with Mainframe Experience / Cards Technology Requirements and Analysis Team
- Sysart Oy - Kokeneita ohjelmistokehittäjiä Helsinkiin tai Ouluun
- Laura - Director, Risk
Premium-asiakkaiden viimeisimmät referenssit
- Hellon - Redefining Digital Insurance for Vodafone
- Agenda Digital - Fican.fi WordPress-verkkosivut
- Red & Blue Oy - Taivalkosken uusi saavutettava ja erottuva verkkopalvelu
- Hion Digital Oy - Vauvan ja vanhemman matkassa – Verkkosovellus, jonka sisältö mukautuu elämäntilanteeseen
- Verkkovaraani Oy - Uudet kotisivut Talin ja Ruusulan keilahalleille
- S1 Networks Oy - Pitäiskö teidän hankkia parempi netti?
- Altoros Finland Oy - Automaattinen kestävyysraportointityökalu CSRD siirtymää varten / Sustashift
Tapahtumat & webinaarit
- 15.01.2025 - Datavastuullisuuden valmennus: hanki valmiudet vastuulliseen datan ja tekoälyn hyödyntämiseen
- 15.01.2025 - SaaS-klubi: Myyntivetoinen kasvu
- 23.01.2025 - Generatiivisen tekoälyn hyödyt liiketoimintajohtajalle
- 29.01.2025 - Modern toolchain and AI breakfast seminar with Eficode, AWS and HashiCorp
- 30.01.2025 - Suuri Rahoitusilta
Premium-asiakkaiden viimeisimmät bloggaukset
- Aveso Oy - Kestävää tulevaisuutta rakentamassa teknologian avulla – IFS ESG-työkalut integroituna järjestelmään
- Identio Oy - Web Applications: How We Build Minimum Lovable Products in 2025 – Launching the Product
- Kisko Labs Oy - Ideasta innovatiiviseksi ohjelmistoksi ja menestyväksi liiketoiminnaksi
- Timeless Technology - Tempmate dataloggerit äärimmäisten lämpötilojen mittaamiseen.
- Efima Oyj - Vastuullisuusjohtaminen on liiketoiminnan johtamista – Muista nämä 10 asiaa, kun valitset työkalua kestävyysraportointiin
- Nordea - Mietteitä Nordean graduaattiohjelmasta
- Kisko Labs Oy - Hackathonien haasteet ja ratkaisut: reiluuden ja tuloksellisuuden tavoittelu
Digitalisaatio & innovaatiot blogimediaBlogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä |