Lakehouse – alusta vai tietovarasto moderniin analytiikkakehitykseen?
Modernien lakehouse – alustojen taustalla olevat teknologiat tarjoavat analyyttisten tietokantatuotteiden ominaisuuksia
Aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset lakehouse – tyyppiset teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.
Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle analyyttiselle tietokantatuotteelle osana data-alustaa. Mitä tämä sitten käytännössä tarkoittaa analytiikan kehittämisen kannalta, asiaa käsitellään tässä kirjoituksessa?
Lakehouse – alusta ja object storage - tallennusratkaisut
Lakehouse – alustojen teknologioissa yhdistyvät erilaiset joustavat datankäsittelyn moottorit ja toisaalta datan tallennuksen ratkaisut yleisiin pilvipalveluiden object storage – tiedontallennuspalveluihin kuten Azure Storageen. Apache Spark, tai sen kaupalliset johdannaiset kuten Azure Databricks, ovat olleet pitkään keskeisiä datankäsittelyn moottoreita lakehouse – alustoilla.
Lakehouse – alustalla datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, samaa dataa on mahdollista käsitellä hyödyntäen useita erilaisia datankäsittelyn moottoreita.
Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä. Parhaimmillaan käyttäjät voivat hyödyntää erilaisia lakehouse – tauluja datankäsittelyn SQL – moottorin läpi huomaamatta eroa mihinkään tietokantatuotteeseen. Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.
Delta Lake ei ole ainoa tällainen avoin tiedostoformaatti, myös AWS:n Apache Iceberg on vastaava avoin tiedostoformaatti.
Mitali – arkkitehtuuri jakaa datankäsittelyn eri osa-alueisiin vaiheen perusteella
Mitali – arkkitehtuuri (medallion architecture) tarkoittaa tapaa jäsentää lakehouse - data-alustalla olevat datankäsittelyn kerrokset käsittelyn vaiheen mukaan. Kyseessä on oikeastaan uusi nimi perinteiselle asialle, jota tietovarastoinnissa on käytetty. Mitali – arkkitehtuuriin kuuluu seuraavat kerrokset.
- Pronssikerros raakadatalle
- Hopeakerros mallinnetulle datalle
- Kultakerros loppukäyttäjien käyttämälle datalle
Prosessikerros vastaa siitä, että raakadatat eri lähteistä tulevat datat tulevat käsitellyiksi, hopeakerros muodostaa tietynlaisen tietovarastokerroksen ja kultakerrokseen luodaan optimoituja tietorakenteita. Ei ole itsestään selvää millä tavalla hopeakerroksen data pitäisi mallintaa, vaihtoehtoja on useita ja perinteinen Ralf Kimballin esittämä dimensiomalli voi olla käyttökelpoinen. Toisaalta mikään ei estä mallintamasta hopeakerroksen dataa vaikkapa jotain toimialan tai organisaation tietomallia käyttäen ja hyödyntämällä dimensiomallia vasta kultakerrokseen.
Lakehouse – alustalla varmasti mallinnetaan tietoa, mutta on todennäköistä, että ei ole mitään yksittäistä metodologiaa joka nousee hallitsevaksi.
Azure Databricks ja Microsoft Fabric
Azuressa Microsoft Fabric ja Azure Databricks ovat molemmat hyviä vaihtoehtoja lakehouse – alustan teknologioiksi.
Molemmat mahdollistavat mitali – arkkitehtuurin, jossa data erilaisista tietolähteistä käsitellään kerroksittain ja lopulta tarjotaan loppukäyttäjille eri muodoissaan. Suurin ero näissä on se että lopulta Azure Databricks on ulkoinen palvelu jonka käyttöönottoon liittyy enemmän konfigurointia ja muiden Azuren palveluiden hyödyntämistä, Microsoft Fabric on suoraviivaisempi ottaa käyttöön. Microsoft Fabricin Data Factoryn toiminnallisuudet tarjoavat myös erilaisia low code – kehitystyövälineitä kun taas Azure Databricks perustuu koodipohjaiseen kehittämiseen.
Lisätietoja
Tagit
Liiketoimintaprosessi
BI ja raportointi |
Erikoisosaaminen
Analytiikka | |
Arkkitehtuuri | |
Big Data | |
Tekoäly (AI) ja koneoppiminen | |
Pilvipalvelut / SaaS |
Teknologia
Azure | |
Microsoft |
Tarjonnan tyyppi
Konsultointi | |
Toteutustyö | |
Tuki- ja ylläpitotyö |
Omat tagit
Ready Solutions - Asiantuntijat ja yhteyshenkilöt
Ready Solutions - Muita referenssejä
Ready Solutions - Muita bloggauksia
It- ja ohjelmistoalan työpaikat
- Frends iPaaS - Technical Community Manager
- Druid Oy - Myyjä - hunter-henkinen tekijä, joka saa tuloksia aikaiseksi!
- Laura - Järjestelmäasiantuntija, Millog Oy Pansio
- Laura - Signaalinkäsittelijä
- Nordea - Senior IT Analyst with Mainframe Experience / Cards Technology Requirements and Analysis Team
- Sysart Oy - Kokeneita ohjelmistokehittäjiä Helsinkiin tai Ouluun
- Laura - Director, Risk
Premium-asiakkaiden viimeisimmät referenssit
- Hellon - Redefining Digital Insurance for Vodafone
- Agenda Digital - Fican.fi WordPress-verkkosivut
- Red & Blue Oy - Taivalkosken uusi saavutettava ja erottuva verkkopalvelu
- Hion Digital Oy - Vauvan ja vanhemman matkassa – Verkkosovellus, jonka sisältö mukautuu elämäntilanteeseen
- Verkkovaraani Oy - Uudet kotisivut Talin ja Ruusulan keilahalleille
- S1 Networks Oy - Pitäiskö teidän hankkia parempi netti?
- Altoros Finland Oy - Automaattinen kestävyysraportointityökalu CSRD siirtymää varten / Sustashift
Tapahtumat & webinaarit
- 15.01.2025 - Datavastuullisuuden valmennus: hanki valmiudet vastuulliseen datan ja tekoälyn hyödyntämiseen
- 15.01.2025 - SaaS-klubi: Myyntivetoinen kasvu
- 23.01.2025 - Generatiivisen tekoälyn hyödyt liiketoimintajohtajalle
- 29.01.2025 - Modern toolchain and AI breakfast seminar with Eficode, AWS and HashiCorp
- 30.01.2025 - Suuri Rahoitusilta
Premium-asiakkaiden viimeisimmät bloggaukset
- Aveso Oy - Kestävää tulevaisuutta rakentamassa teknologian avulla – IFS ESG-työkalut integroituna järjestelmään
- Identio Oy - Web Applications: How We Build Minimum Lovable Products in 2025 – Launching the Product
- Kisko Labs Oy - Ideasta innovatiiviseksi ohjelmistoksi ja menestyväksi liiketoiminnaksi
- Timeless Technology - Tempmate dataloggerit äärimmäisten lämpötilojen mittaamiseen.
- Efima Oyj - Vastuullisuusjohtaminen on liiketoiminnan johtamista – Muista nämä 10 asiaa, kun valitset työkalua kestävyysraportointiin
- Nordea - Mietteitä Nordean graduaattiohjelmasta
- Kisko Labs Oy - Hackathonien haasteet ja ratkaisut: reiluuden ja tuloksellisuuden tavoittelu
Digitalisaatio & innovaatiot blogimediaBlogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä |