Základní pojmy v datovém modelování | Mňamka #457
Designově atraktivní dashboardy jsou fajn, ale neméně důležité je také to, co se nachází pod nimi. Správně postavené datové modely pomohou vybudovat efektivní self service BI ve vaší firmě.
Dnes si dáme takové intro a mrkneme se na základní pojmy.
Obecně o datovém modelu:
- Datový model: Abstraktní reprezentace dat a jejich vztahů v organizaci, nebo pro konkrétní use case. Popisuje strukturu dat, atributy a vztahy mezi nimi.
- Konceptuální datový model: Nejvyšší úroveň abstrakce datového modelu, který popisuje koncepty, vztahy a základní atributy dat bez ohledu na konkrétní technickou implementaci. Typicky vzniká jako první pro základní orientaci. Jednoduchý příklad viz níže.
- Logický datový model: Detailní specifikace datové struktury, která je nezávislá na konkrétním databázovém systému. Zahrnuje definici tabulek, klíčů, vztahů a integritních omezení.
- Fyzický datový model: Konkrétní implementace logického datového modelu v rámci vybraného databázového systému (MSSQL, Postgre, BigQuery,..). Obsahuje informace o konkrétních datových typech, indexech atd.
- Relační datový model: Nejběžnější typ datového modelu v business intelligence. Používá relační tabulky pro reprezentaci dat, kde jsou entitní vztahy definovány pomocí primárních a cizích klíčů.
Co najdeme v datových modelech:
- Entita: Obecně reprezentuje skutečný objekt, který je důležitý pro organizaci. Může to být například zákazník, produkt, zaměstnanec apod.
- Atribut: Jednotlivá vlastnost nebo charakteristika entity. Například jméno, adresa, datum narození.
- Faktová tabulka: Tabulka, která obsahuje nějaké číselné veličiny (fakty). Typickým příkladem jsou tabulky transakcí, např. objednávky.
- Dimenzionální tabulka: Tabulka, která obsahuje popisné charakteristiky k datům ve faktových tabulkách. Např. zákazníci a jejich atributy.
- Klíč: Unikátní identifikátor, který slouží k jednoznačné identifikaci záznamů v tabulce. Primární klíč slouží jako hlavní identifikátor entity, zatímco cizí klíč je odkaz na klíč v jiné tabulce.
- Vztah: Popisuje spojení mezi entitami v datovém modelu. Může být jedna ku jedné, jedna ku mnoha nebo mnoho ku mnoha.
- Normalizace: Proces návrhu relačního datového modelu, který se zaměřuje na eliminaci redundance dat a zachování integritních omezení. Normalizace zajišťuje, aby data byla efektivně strukturována. Např. data o zákazníkovi chci mít uložená na jednom místě a to v tabulce zákazníci, a s ostatními tabulkami ji propojit pomocí klíčů.
Jednoduchý příklad:
Konceptuální model pro jednoduchý case pro sales:
Logický model by pak vypadal nějak takto:
Toto jednoduché “cvičení” vám velmi dobře pomůže navrhnout co nejvhodnější datový model pro váš use case.
Ve zkratce, bez datového modelování se dnes v BI neobejdete a je to jedna z klíčových dovedností dobrého dataře. V budoucnu si určitě dáme konkrétnější témata z této oblasti, např. datové modelování s ohledem na konkrétní vizualizační nástroje.
Průzkum: Business Intelligence v malých a středních firmách
V několika minulých týdnech jsme se poměrně intenzivně věnovali zmapování situace v oblasti využívání Business Intelligence malými a středními firmami (SME) v ČR. Zajímala nás vyspělost trhu v této oblasti a to, jakým způsobem se zde projevují trendy demokratizace a decentralizace datové analytiky a přesunu vlivu od IT oddělení směrem k byznys uživatelům, jak to např. popisuje Gartner ve svém posledním vydání BI Magic Quadrantu.
Stará dobrá eReFeM
O RFM segmentaci napsal snad každý, kdo se zabývá datovou analýzou, segmentací zákazníků, využitím dat v marketingu apod. Jeden z nejlepších článků o tom, co to je, jak to funguje a k čemu všemu to může být dobré, najdete v Padákově deníčku - doporučuju, pokud se chcete s metodou lépe seznámit.
Datovej Woodstock 2018
Před víc jak dvěma lety jsem na blogu psal o tom, jak moc nechodíme na hackathony, ale občas je spolupořádáme. Tentokrát jsme se ale pustili do akce násobně větší. Jak to dopadlo?