Je to mezera, není to mezera? | Mňamka #370

O čištění dat a jeho významu už jsme toho napsali poměrně hodně. Jednoduše řečeno - bez úklidu na vstupu budeme mít bordel i na výstupu.

Dokonce na to máme appku (Cooltivator), která tuhle mravenčí práci umí výrazně zjednodušit. :)

Co ale dělat, když potřebujeme “přechroustat” finanční čísla (například nějaký mapovací Google sheet s budgety)? Ono totiž jeden budget můžete napsat několika způsoby - a reálně se to i stává - copy & paste a najednou tam máte nový formát. :)

Třeba takhle:

Ale co s tím? Čistící skript by měl být univerzální a umět ošetřit všechny tyto možnosti.

Vezměme si to na příkladu Snowflake SQL a pěkně postupně:

1. “číslo” - pohodička, tady není o čem

2. “finanční” - tady už nám TO_NUMBER() stačit nebude - musíme nejdřív nahradit mezery a desetinnou čárku a až poté převést na číslo – rozehříváme se :)

3. “měna” - musíme navíc vyhodit “Kč”, vyzkoušíme

“Oops.. co se děje?” říkal jsem si, když jsem to viděl poprvý a zkusil to dvakrát znovu - chyba mezi klávesnicí a židlí? Není, ani napotřetí to neprošlo... Po chvíli googlení a zkoušení mi to došlo.

Poznáte rozdíl? :)

Ne? Já taky ne, až tady je vidět:

Zatímco v prvním případě jsme nahrazovali znak mezery, v tom druhém jde o oddělovač tisíců, což sice vizuálně vypadá úplně stejně, ale jde o jiný znak.

Takže:

Voilá - funguje! :)

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Petr

Petr Koza
datový detektiv
LinkedIn

4 alternativy k nadužívaným grafům | Mňamka #415

4 alternativy k nadužívaným grafům | Mňamka #415

Sloupcový, bodový a spojnicový graf. Pokud už jste někdy vizualizovali data, je vysoce pravděpodobné, že jste tyto velmi populární grafy použili. A není se vlastně ani čemu divit, jde totiž o poměrně jednoduché grafy, se kterými každý z nás začínal. Má to ale i svou stinnou stránku. Často totiž máme tendenci používat tyto grafy i pro use casy, pro které se tak úplně nehodí. Dobrou zprávou ale je, že existuje celá řada zajímavých alternativ. Slyšeli jste např. o vodopádových grafech? Pokud ne, tak se mrkněte na dnešní mňamku!

Jak na datovou extrakci | Mňamka #414

Jak na datovou extrakci | Mňamka #414

Většina z nás má v dnešní době přístup k většímu množství dat než kdykoliv předtím. I firmy už se poměrně běžně snaží čerpat data z co nejširšího spektra datových zdrojů nejrůznějšího charakteru. Pokud ale takto získaná data chcete dobře využít a odvodit z nich cenné poznatky, potřebujete je nejprve dostat na jedno místo a optimalizovat pro další analýzu. Prvním a nejkritičtějším krokem v tomto procesu je tzv. extrakce dat. Dnes si proto ukážeme, jaké typy extrakce dat existují a jak tento proces vlastně funguje!

Jak (ne)vytvářet datovou strategii | Mňamka #413

Jak (ne)vytvářet datovou strategii | Mňamka #413

V některých firmách dají nejprve pracně dohromady datovou strategii, pak si ji založí do šuplíku a vyhlížejí dalšího experta, který toto téma znovu vytáhne. V jiných společnostech se zase až příliš zaměřují na data a byznysová stránka věci je odsunuta na druhou kolej. Výsledkem pak často bývá strategie, která slouží spíše potřebám analytiky než celého byznysu. Pokud se chcete těmto a dalším problémům vyvarovat, máme tu mňamku přímo pro vás. Bez kvalitní datové strategie se totiž v dnešní době už jen stěží obejdete!