Metriky a dimenze | Mňamka #64

Já vím, já vím! Je to přece úplně triviální záležitost... Ale...Jste si tím jisti? 

Často se při lektorování studentek ptám, co to je metrika a dimenze. Odpovědi jsou různé a ne vždy je v tom úplně jasno. A tak jsem se rozhodla vrátit k úplným základům a postupně je probrat. Vítejte v takové malé bizztreat akademii :-)

Tabulka jako základní stavební jednotka

Než se podíváme na samotné metriky a dimenze, je potřeba se podívat o krok zpět. Tabulka patří do tzv. strukturovaných dat (o tom si povíme někdy příště). Asi každý znás je schopen říct, že tabulka - představte si třeba tu klasickou excelovou - má nějaké řádky a sloupce. To je dobrý start, ale pro datového analytika je to trochu málo. 

Takže, z čeho se taková obyčejná tabulka může skládat:

  • řádky a sloupce
  • datové typy - přečtěte si více o základních datových typech: Základní datové typy
  • identifikátory - projdeme si někdy příště (id_klienta a id_sidlo)
  • fakta -> metriky (hodnoty)
  • atributy, dimenze (charakteristiky)

A protože se nejlépe vysvětluje na příkladu - tady je tabulka, která všechno vyjmenované obsahuje:

Organizace se stává tím, co měří

Na začátku je potřeba si říci, jaké sloupce jsou pro nás důležité a v tabulce by měly zůstat. Některé tabulky jsou plné informací, které vlastně ani nebudeme potřebovat. Než se tedy do něčeho pustíte, je nutnost si dobře definovat use case nebo výstupy. Je dobré si například položit otázky:

  • Čeho hodlám dosáhnout?
  • Jaké chování sleduji?
  • Co naplňuje moje cíle?

A o tom to vlastně je - abyste si mohli navrhnout dobrý datový model, který bude splňovat business požadavky, musíte vědět, na co se chcete dívat (fakta, metriky) a přes co (atributy, dimenze).

Fakta

jsou vlastně konkrétní hodnoty - čísla, ukazatele, absolutní hodnoty - které chceme sledovat, se kterými chceme počítat - prostě, které pro nás mají nějaký business význam. V naší tabulce jsou to sloupce pocet_aut a najete_km.

Metriky

metrika je agregace faktu - čili už nějaký výpočet s fakty. V naší tabulce je to sloupec SUM_auta_km - protože nás zajímá, kolik celkově naše auta ujela - např. ten daný rok. Prostě nás jednoduše zajímá - kolik.

Datům přiřadíme atributy a koukáme na ně v dimenzích

Dalším krokem je otázka - jak se na data (fakta, metriky) potřebujeme dívat? 

Atributy

Každé hodnotě můžeme přiřadit tzv. atribut - v podstatě je to nějaký popis - charakteristika, podle které budeme chtít naše data filtrovat - u aut to může být např. barva auta, typ auta a v naší tabulce to asi nejlépe vystihuje sloupec sidlo a klient. Na první pohled by to měl být i sloupec rok, ale my ho budeme řadit do tzv. datumové dimenze - viz níže.

Dimenze

Když víte, na co se chcete dívat (metriky), tak druhým krokem je vědět "přes co" se na data chcete dívat = dimenze. Já je ráda dělím na 3 základní druhy - prostě jednoduše kdo, kdy a kde:

  • demografické dimenze - např. pohlaví, věk, muž/žena, ...
  • časové (datumové) dimenze - např. rok, měsíc, hodina, ... 
  • interní dimenze - každá firma může mít své vlastní - např. oblast, segment, kategorie, ...

Často se setkávám i s jinými definicemi nebo dělením. Takže pokud máte nějaký svůj pohled nebo si myslíte, že to je jinak, napište mi! 

Eva

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, ráda to s Vámi proberu :-)

Eva Hankusová
detektiv nových příležitostí
LinkedIn

Microsoft Fabric vs. Power BI: Jaké jsou rozdíly? | Mňamka #496

Microsoft Fabric vs. Power BI: Jaké jsou rozdíly? | Mňamka #496

Výběr správného nástroje pro analýzu dat může být náročný vzhledem k množství dostupných možností. Od společnosti Microsoft se nabízí dvě populární volby, kterými jsou Power BI a Microsoft Fabric. Pojďme se podrobněji podívat na jejich funkčnost, design, bezpečnost, zaměření na jednotlivá odvětví a mnoho dalšího.

Příběh transformace Crocodille ČR s Bizztreatem | Mňamka #495

Příběh transformace Crocodille ČR s Bizztreatem | Mňamka #495

🔊Jsme pyšný, že s vámi můžeme sdílej skutečný příběh, který píšeme už několik let s naším velkým klientem Crocodille ČR. Právě totiž vyšla nová epizoda Data Talku, ve které máme prostor vyprávět tento příběh! 💥 Reference je tou nejlepší zpětnou vazbou na naší práci, a tady ta reference zaznívá přímo od Jiřího Brothánka a dostává reálný hlas. 🥪 Jsme součástí transformace Crocodille ČR od počátečních někdy i bolestivých kroků, přes výzvy až po triumfy! Jiří Vicherek vede rozhovor s Jiřím Brothánkem, Head of IT v Crocodille, a naším team leaderem Tomášem Dědkem. Společně odhalují, jak jsme s Crocodille postupovali na cestě od tradičních business modelů k implementaci moderního BI a nyní i AI! 🕵️ Jsme hrdí, že můžeme být datovými detektivy pro jedny z hlavních hráčů na českém trhu.🎧Nenechte si tu epizodu ujít!

Zpracování dat z LinkedInu prostřednictvím ETL nástroje Bizzflow  | Mňamka #494

Zpracování dat z LinkedInu prostřednictvím ETL nástroje Bizzflow | Mňamka #494

Pro některé je LinkedIn pouze sociální sítí, na které mají svůj profesní profil, jen aby se neřeklo a pro některé může být LinkedIn jakási svatyně personal brandingu a navazování profesních kontaktů. Fakt, že LinkedIn generuje celosvětově až 80% B2B leadů ze všech sociálních sítí jen potvrzuje to, že zvláště pro firmy je LinkedIn skvělým místem, kde prezentovat svoje produkty či služby. V dnešní mňamce bych ráda mluvila o tom, jak jsem postupovala ve své bakalářské práci na téma Zpracování marketingových dat prostřednictvím ETL nástroje Bizzflow a v podstatě tak představit velmi krátký příběh, jak jsem se dostala z nápadu až k hotovému dashboardu.