Životní cyklus dat a proč nic nevynechat | Mňamka #106

Často na prvních schůzkách slýcháme větu: “Tady mám vyexportovaný excel s účetnictvím a potřebuju ho napojit na GoodData…”
Tak jako asi by to nějak teoreticky šlo, ale dnes se vám pokusím ukázat, proč to takto vlastně dělat nechcete...

A začneme u toho, co se s našimi daty děje celou tou dlouhou cestou od vzniku někde ve zdrojovém systému (účetní systém, FB, Hubspot,….) až po to, kdy koukáte na graf na vaší obrazovce počítače.

Životní cyklus data

Vysypeme data z krabic 

Extrakce ze zdrojových systémů nebo také jednoduše - získávání dat. Tak jak si to vlastně představit. Pravděpodobně máte někde uloženy nebo sbíráte informace o zákaznících (Hubspot), o účetnictví (Pohoda) nebo třeba o logistice (SAP) atd…Těmto všem “krabicím” říkáme zdrojové systémy. V nich mají vaše data nějakou strukturu, čistotu a kvalitu. Jsem přesvědčená o tom, že velké procento z nich nebude v pořádku. Co tím myslím? Do vašich krabic vkládají data pravděpodobně lidé, takže budou plné překlepů, mezer, špatných datových typů  nebo budou rovnou chybět úplně.

A tady máme první “proč nic nevynechat”. Představte si, že si stáhnete třeba CSV s daty vašich zákazníků a nahrajete do GoodData. Po chvíli budete překvapeni, že vidíte špatná čísla, často i úplné nesmysly a nejde vám vytvořit žádná kloudná vizualizace. Ano, je to proto, že se v datech vyskytují chyby, špatné datové typy nebo chybí údaje - prostě s tímhle si vizualizační nástroj neporadí. Pokud nechcete vymazávat mezery ve všech řádcích ručně, potřebujete data vyčistit. A pokud se chcete dozvědět i něco navíc, musíte obohacovat.

Data vyčistíme, propojíme a obohatíme 

Abychom s daty mohli pracovat, potřebujeme je dostat ze zdrojového systému, protože v nich SQL v drtivé většině nepoužijeme. Mají prostě jiný účel než je hrát si s daty. Cílem je je dostat někam, kde s nimi můžeme pracovat, kde je můžeme očistit, aby byla stravitelná k dalšímu použití. Třeba je i rovnou lépe strukturujeme. A taky je propojíme a obohatíme. A tady máme druhé“proč nic nevynechat”. Představte si, že chcete vědět nejen informace o zákazníkovi, ale i kolik průměrně utratil za poslední měsíc nebo kdy udělal poslední objednávku. Ano, všechny informace někde máte, ovšem pokaždé v jiné “krabici”. Propojením získáte úplně nové informace, úplně jinou odpověď na vaši business otázku.

Jednoho dne tedy přijde chvíle, kdy budeme potřebovat data ze zdrojových systémů získat a vylít na jednu hromadu tak, jak jsou (tomu říkáme Raw Stage). To jakým způsobem pak jednotlivé fáze probíhají je otázka, existují dva základní přístupy ETL (extract - transform - load) a ELT (extract - load - transform). Jak to třeba řešíme my pomocí cloudových služeb se můžete podívat na tomto videu. 

Nedávno jsme v této souvisloti narazili na technologii dbt - data built tool a se k tomu snad jen říct, že tuhle pecku si žádný analytik nesmí nechat ujíst. Je to nástroj (opensource), který se v ETL stará o to “T”. Základem je projekt, který se konfiguruje sadou YAML souborů a SQL souborů s makry. Řekla bych, že jde o nový způsob tranformace dat. 

Nad vyčištěnými daty se pak dělají všechny  ty vizualizace, predikce, ML atd.

Data máme na jedné hromadě 

Je vlastně potřeba vzít nějakou jinou, pro naše účely vhodnou, krabici a data z našich původních krabic mít tam. A tady to zase může být různé - někdy máme všechna data na hromadě, často ale máme na hromadě jen ta data, která potřebujeme k našich analýzám. Někdy tam máme i historii, někdy ne… Prostě co use case, to případ. My pro tyhle potřeby využíváme cloudových služeb (Google Cloud Platform / Amazon AWS / MS Azure) - jsou bezpečné a hlavně platíte jen za data co máte a využíváte. Pro ukládání dat pak využíváme jejich analytické databáze - Google BigQuery, Amazon Redshift, Azure Synapse a nebo taky oblíbený Snowflake. Jaké jsou mezi nimi rozdíly krásně shrnul Radovan na našem blogu.  
 

Konečně to vidíme 

Hurá! Špička ledovce! To je to, co zajímá business, ne ty týdny práce pod tím :-) Takže, data získáváme ze zdrojových systémů, čistíme, obohacujeme, spojujeme a ukládáme do různých vrstev nebo struktur k následné konzumaci. Klasická konzumace v business intelligence světě je pomocí vizualizačních nástrojů - my máme rádi v podstatě čtyři (v odkazech najdete jejich srovnání, jejich užití) - Tableau, PowerBI, GoodData a CleverMaps. Pokud máte dobré a pevné základy, vizualizační nástroje fungují rychle a vy konečně vidíte ta správná čísla. A pokud vás zajímá, jak by měla taková vizualizace vypadat a jaká by se měla dodržovat pravidla, mrkněte třeba na naše články: 8 chyb při zadávání dashboardu, Data Storytelling nebo Barevný svět Business Intelligence.

Ještě zmíním jeden případ. Představte si, že výstup není vizualizace, ale třeba data pro call centrum, která se jim zobrazují v jejich systému. Získají tak třeba kompletní obrázek o zákazníkovi, o jeho životním cyklu, objednávkách atd. A teď si představte situaci, že se během hovoru operátorka dozví, že zákazník má novou informaci. Operátorka tedy do systému ručně napíše informaci XY - tím se software call centra stává datovým zdrojem a tato informace putuje do RAW stage, kde se s ní bude může dále pracovat.

Takže, co z toho plyne 

Ano, jsou případy, kdy se můžete na svá data podívat přímo ve vizualizačním nástroji. Když pominu tu manuální práci s tím, tak se hlavně vystavujete riziku nekvalitních dat a přicházíte o nové pohledy a informace.

Zapomněla jsem na něco? Chcete se na něco zeptat? Napište mi. 

Eva

Eva Hankusová
detektiv nových příležitostí
LinkedIn

Cvičíte svůj mozek? | Mňamka #161

Cvičíte svůj mozek? | Mňamka #161

Máte analytický mozek, baví vás různé hlavolamy a pak taky data? Máme tu fajn tipy na prodlužující se jarní večery! Mrkněte na Puzzlefry, kde najdete sekci hlavolamů zaměřenou přímo na datovou analytiku! Pomáhají procvičovat a rozvíjet mozek. Tak ho trošku pošimrejte!

GoodData: Sledování klíčových metrik pomocí filtrů "measure value" | Mňamka #160

GoodData: Sledování klíčových metrik pomocí filtrů "measure value" | Mňamka #160

Naservírovat ta správná data správným lidem je v datovém světě jeden z klíčů k úspěchu. Lidé, kteří potřebují ke své každodenní práci data, často už nemají časovou kapacitu na experimentování s různými datovými nástroji. Potřebují se „podívat a vidět“ . GoodData nově umožňují přidat na dashboard „measure filter“, díky kterému můžete celý dashboard filtrovat dle určitých hodnot vybraných metrik. Sdílíme bližší info!

SQL a čištění dat  | Mňamka #159

SQL a čištění dat | Mňamka #159

Jedna z prvních věcí, do které se pustíme, když nám přistane na stole balík dat, je jejich čištění. Prostě se to musí odmakat. Garbage in, garbage out v tomto případě platí dvojnásob. Zabere to dost času, SQL nám v tom ale může hodně pomoci. Pojďme se podívat na různé funkce používané k čištění, transformaci nebo odebrání duplicitních dat. A přidáváme link na data Cooltivátor z naší dílny! ... mimochodem... lety praxe jsme došli k tomu, že pokud si někdo myslí, že má v datech pořádek, pravděpodobně se mýlí ☺