Lakehouse – alusta vai tietovarasto moderniin analytiikkakehitykseen?
Modernien lakehouse – alustojen taustalla olevat teknologiat tarjoavat analyyttisten tietokantatuotteiden ominaisuuksia
Aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset lakehouse – tyyppiset teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.
Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle analyyttiselle tietokantatuotteelle osana data-alustaa. Mitä tämä sitten käytännössä tarkoittaa analytiikan kehittämisen kannalta, asiaa käsitellään tässä kirjoituksessa?
Lakehouse – alusta ja object storage - tallennusratkaisut
Lakehouse – alustojen teknologioissa yhdistyvät erilaiset joustavat datankäsittelyn moottorit ja toisaalta datan tallennuksen ratkaisut yleisiin pilvipalveluiden object storage – tiedontallennuspalveluihin kuten Azure Storageen. Apache Spark, tai sen kaupalliset johdannaiset kuten Azure Databricks, ovat olleet pitkään keskeisiä datankäsittelyn moottoreita lakehouse – alustoilla.
Lakehouse – alustalla datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, samaa dataa on mahdollista käsitellä hyödyntäen useita erilaisia datankäsittelyn moottoreita.
Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä. Parhaimmillaan käyttäjät voivat hyödyntää erilaisia lakehouse – tauluja datankäsittelyn SQL – moottorin läpi huomaamatta eroa mihinkään tietokantatuotteeseen. Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.
Delta Lake ei ole ainoa tällainen avoin tiedostoformaatti, myös AWS:n Apache Iceberg on vastaava avoin tiedostoformaatti.
Mitali – arkkitehtuuri jakaa datankäsittelyn eri osa-alueisiin vaiheen perusteella
Mitali – arkkitehtuuri (medallion architecture) tarkoittaa tapaa jäsentää lakehouse - data-alustalla olevat datankäsittelyn kerrokset käsittelyn vaiheen mukaan. Kyseessä on oikeastaan uusi nimi perinteiselle asialle, jota tietovarastoinnissa on käytetty. Mitali – arkkitehtuuriin kuuluu seuraavat kerrokset.
- Pronssikerros raakadatalle
- Hopeakerros mallinnetulle datalle
- Kultakerros loppukäyttäjien käyttämälle datalle
Prosessikerros vastaa siitä, että raakadatat eri lähteistä tulevat datat tulevat käsitellyiksi, hopeakerros muodostaa tietynlaisen tietovarastokerroksen ja kultakerrokseen luodaan optimoituja tietorakenteita. Ei ole itsestään selvää millä tavalla hopeakerroksen data pitäisi mallintaa, vaihtoehtoja on useita ja perinteinen Ralf Kimballin esittämä dimensiomalli voi olla käyttökelpoinen. Toisaalta mikään ei estä mallintamasta hopeakerroksen dataa vaikkapa jotain toimialan tai organisaation tietomallia käyttäen ja hyödyntämällä dimensiomallia vasta kultakerrokseen.
Lakehouse – alustalla varmasti mallinnetaan tietoa, mutta on todennäköistä, että ei ole mitään yksittäistä metodologiaa joka nousee hallitsevaksi.
Azure Databricks ja Microsoft Fabric
Azuressa Microsoft Fabric ja Azure Databricks ovat molemmat hyviä vaihtoehtoja lakehouse – alustan teknologioiksi.
Molemmat mahdollistavat mitali – arkkitehtuurin, jossa data erilaisista tietolähteistä käsitellään kerroksittain ja lopulta tarjotaan loppukäyttäjille eri muodoissaan. Suurin ero näissä on se että lopulta Azure Databricks on ulkoinen palvelu jonka käyttöönottoon liittyy enemmän konfigurointia ja muiden Azuren palveluiden hyödyntämistä, Microsoft Fabric on suoraviivaisempi ottaa käyttöön. Microsoft Fabricin Data Factoryn toiminnallisuudet tarjoavat myös erilaisia low code – kehitystyövälineitä kun taas Azure Databricks perustuu koodipohjaiseen kehittämiseen.
Lisätietoja
Tagit
Liiketoimintaprosessi
BI ja raportointi |
Erikoisosaaminen
Analytiikka | |
Arkkitehtuuri | |
Big Data | |
Tekoäly (AI) ja koneoppiminen | |
Pilvipalvelut / SaaS |
Teknologia
Azure | |
Microsoft |
Tarjonnan tyyppi
Konsultointi | |
Toteutustyö | |
Tuki- ja ylläpitotyö |
Omat tagit
Ready Solutions - Asiantuntijat ja yhteyshenkilöt
Ready Solutions - Muita referenssejä
Ready Solutions - Muita bloggauksia
It- ja ohjelmistoalan työpaikat
- Laura - Cloud Engineer
- Laura - UX/UI Designer
- Laura - Solution Architect
- Laura - Scrum Master
- Laura - Ohjelmistotestaaja
- Nordea - Senior IT Analyst, Cards domain, Nordea Payments
- Laura - Product Owner
Premium-asiakkaiden viimeisimmät referenssit
- Codemate - Digitaalisen murroksen nopeuttaminen Flutterin avulla
- Codemate - Nucu-sovelluksen käyttäjäkokemuksen muotoilu
- TNNet Oy - Aksulit Oy – TNNet osoittautui parhaaksi palvelinkumppaniksi
- SD Worx - Säästöjä, sujuvuutta ja varmuutta pilvipalveluiden avulla
- SD Worx - Stella hankki tarpeitansa vastaavan palkkajärjestelmän – nyt säästyy monta työpäivää kuukaudessa
- Vetonaula Oy - Vetonaula HTJ:n liiketoiminnan kasvun mahdollistajana
- SD Worx - LUMENE ja SD Worx yhteistyössä jo yli 10 vuotta
Tapahtumat & webinaarit
- 19.11.2024 - The Future of Software - Embracing Collaboration in an AI-Powered World
- 19.11.2024 - Tehokkuutta ja säästöjä low-code-ratkaisuilla
- 27.11.2024 - Green ICT -ekosysteemitapaaminen III: Ohjelmistojärjestelmien virrankulutuksen mittaaminen ja kasvihuonepäästöjen arviointi
- 27.11.2024 - Digitaalisen asiakaskokemuksen uusi aikakausi
- 28.11.2024 - Copilot-webinaari – Mielekkäämpää tietotyötä turvallisesti
- 05.12.2024 - Green ICT VICTIS -hankkeen kick off -tilaisuus
- 15.01.2025 - Datavastuullisuuden valmennus: hanki valmiudet vastuulliseen datan ja tekoälyn hyödyntämiseen
Premium-asiakkaiden viimeisimmät bloggaukset
- Innofactor Oyj - 5 huomiota Microsoft Digital Defense Report 2024 -julkaisusta
- TNNet Oy - Ethän lepsuile sähköpostin suojauksessa – Sipulisuojaus kuntoon!
- TNNet Oy - Mitä TNNet tarjoaa pilvipalvelukumppanina?
- TNNet Oy - Tietoturvavalvonta SOC – Kansainvälinen tiimi havainnoi ja reagoi TNNetin kanssa 24/7
- ICT Elmo Oy - Mitä on IT-palvelunhallinta
- ICT Elmo Oy - Mitä on IT-palvelunhallinta
- Hion Digital Oy - Ostajan muistilista: Mitä ottaa huomioon ennen verkkosivuston uudistamista?
Digitalisaatio & innovaatiot blogimediaBlogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä |