Logika data warehousu a data martu | Mňamka #207
Každá firma by si měla položit otázku, kde a především v jaké podobě mít svá data uložená, aby je mohla skutečně efektivně používat pro řízení svého byznysu. Jedním z možných řešení je právě vytvořit tzv. data warehouse (datový sklad), popř. data marts (datová tržiště).
Nejprve si velmi krátce vysvětleme oba pojmy.
Data warehouse (DWH)
= typ relační databáze, která umožňuje řešit analytické úlohy pro podporu rozhodování. Jsou centralizovány různé datové zdroje v rámci celé organizace.
Data warehouse by měl mít tyto vlastnosti:
- zdroj pravdy pro celou organizaci
- orientovaný na subjekt
- integrita - všechna data jsou ukládána podle významu, nikoliv podle datového zdroje
- důraz na srozumitelnost pro koncové uživatele
- historizovaný - data se ukládají v čase jako snímky, tím umožňují analyzovat vývoj v čase
- nízká proměnlivost - již uložená data se v čase nemění
- jednoduchost a srozumitelnost pro analytiky
Co by měl umět:
- extrakce dat z datových zdrojů
- transformace a integrace dat
- možnost dotazování se, provádění analýz
- sandbox - izolované bezpečné prostředí pro dotazování a testování dat
Data mart (DM)
= podmnožina datového warehousu orientovaná pro jedno konkrétní oddělení (např. Sales department, Finance,..)
Cloud vs. on-premise?
Rozhodně cloud, tedy... ve většině případů. Původní datové sklady on-premise jsou dnes už překonaná věc, jsou složité na administraci a nákladné na provoz. V cloudu máte navíc možnost poskládat si své řešení z různých cloudových služeb - integračních ETL platforem, databází, vizualizačních platforem atd.
Přístupy k data warehousingu
Existují dva základní přístupy k designu data warehousů, jejichž autory jsou Ralph Kimball a Bill Inmon, dva průkopníci tohoto konceptu.
Bill Inmon vidí data warehouse jako centralizovanou množinu všech důležitých dat napříč organizací, uložených v 3. normální formě, ze které pak vychází data marty pro konkrétní účely. Označuje se také jako přístup "shora dolu".
Ralph Kimball designuje data warehouse právě naopak, nejprve se vytvoří data marty pro analýzu klíčových business procesů, data warehouse je pak až v další vrstvě nad data marty, ze kterých si bere data.
Jaký přístup je ten správný?Samozřejmě záleží na konkrétním use-case, velikosti firmy, počtu datových zdrojů atd. Někdy prostě dává smysl nejprve analyzovat konkrétní procesy pro konkrétní oddělení, někdy je naopak cílem propojit data napříč firmou a jejími datovými zdroji, aby získala komplexní pohled na svůj byznys.
Rozhodně je dobré se nad efektivním jednoduchým datovým řešením na míru pro Vaší firmu dostatečně zamyslet :).
Průzkum: Business Intelligence v malých a středních firmách
V několika minulých týdnech jsme se poměrně intenzivně věnovali zmapování situace v oblasti využívání Business Intelligence malými a středními firmami (SME) v ČR. Zajímala nás vyspělost trhu v této oblasti a to, jakým způsobem se zde projevují trendy demokratizace a decentralizace datové analytiky a přesunu vlivu od IT oddělení směrem k byznys uživatelům, jak to např. popisuje Gartner ve svém posledním vydání BI Magic Quadrantu.
Stará dobrá eReFeM
O RFM segmentaci napsal snad každý, kdo se zabývá datovou analýzou, segmentací zákazníků, využitím dat v marketingu apod. Jeden z nejlepších článků o tom, co to je, jak to funguje a k čemu všemu to může být dobré, najdete v Padákově deníčku - doporučuju, pokud se chcete s metodou lépe seznámit.
Datovej Woodstock 2018
Před víc jak dvěma lety jsem na blogu psal o tom, jak moc nechodíme na hackathony, ale občas je spolupořádáme. Tentokrát jsme se ale pustili do akce násobně větší. Jak to dopadlo?