Je to mezera, není to mezera? | Mňamka #370

O čištění dat a jeho významu už jsme toho napsali poměrně hodně. Jednoduše řečeno - bez úklidu na vstupu budeme mít bordel i na výstupu.

Dokonce na to máme appku (Cooltivator), která tuhle mravenčí práci umí výrazně zjednodušit. :)

Co ale dělat, když potřebujeme “přechroustat” finanční čísla (například nějaký mapovací Google sheet s budgety)? Ono totiž jeden budget můžete napsat několika způsoby - a reálně se to i stává - copy & paste a najednou tam máte nový formát. :)

Třeba takhle:

Ale co s tím? Čistící skript by měl být univerzální a umět ošetřit všechny tyto možnosti.

Vezměme si to na příkladu Snowflake SQL a pěkně postupně:

1. “číslo” - pohodička, tady není o čem

2. “finanční” - tady už nám TO_NUMBER() stačit nebude - musíme nejdřív nahradit mezery a desetinnou čárku a až poté převést na číslo – rozehříváme se :)

3. “měna” - musíme navíc vyhodit “Kč”, vyzkoušíme

“Oops.. co se děje?” říkal jsem si, když jsem to viděl poprvý a zkusil to dvakrát znovu - chyba mezi klávesnicí a židlí? Není, ani napotřetí to neprošlo... Po chvíli googlení a zkoušení mi to došlo.

Poznáte rozdíl? :)

Ne? Já taky ne, až tady je vidět:

Zatímco v prvním případě jsme nahrazovali znak mezery, v tom druhém jde o oddělovač tisíců, což sice vizuálně vypadá úplně stejně, ale jde o jiný znak.

Takže:

Voilá - funguje! :)

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Petr

Petr Koza
datový detektiv
LinkedIn

Jak na web scraping prakticky? | Mňamka #514

Jak na web scraping prakticky? | Mňamka #514

Převod informací z webových stránek, které používají HTML a JavaScript, do čitelného formátu v podobě řádků a sloupců (tabulek) pro účely analýzy, se provádí procesem nazývaným web scraping, což je zkrácenina pro sbírání dat z webových stránek. Jednoduše řečeno, jde o kopírování obsahu webových stránek na jiné místo. Cílem tohoto článku je poskytnout praktický průvodce tím, jak to udělat.

Představení Microsoft Fabric | Mňamka #515

Představení Microsoft Fabric | Mňamka #515

Dovolte nám představit Microsoft Fabric - komplexní analytickou platformu, která spojuje všechna data a analytické nástroje, které organizace potřebují. Fabric integruje technologie jako Azure Data Factory, Azure Synapse Analytics a Power BI do jednoho jednotného produktu, umožňující jak datovým, tak obchodním profesionálům odemknout potenciál svých dat a položit základy pro éru umělé inteligence.

Jak vytvořit nejlepší čárové grafy? | Mňamka #513

Jak vytvořit nejlepší čárové grafy? | Mňamka #513

Čárové grafy patří mezi jedny z nejoblíbenějších grafů ve světě datové vizualizace. Umí přehledně sdělit data bez nutnosti dlouhých vysvětlení. Nicméně, aby byla jejich síla efektivně využita, je třeba dodržovat klíčové principy a osvědčené postupy. Jaká pravidla zde platí?