Je to mezera, není to mezera? | Mňamka #370

O čištění dat a jeho významu už jsme toho napsali poměrně hodně. Jednoduše řečeno - bez úklidu na vstupu budeme mít bordel i na výstupu.

Dokonce na to máme appku (Cooltivator), která tuhle mravenčí práci umí výrazně zjednodušit. :)

Co ale dělat, když potřebujeme “přechroustat” finanční čísla (například nějaký mapovací Google sheet s budgety)? Ono totiž jeden budget můžete napsat několika způsoby - a reálně se to i stává - copy & paste a najednou tam máte nový formát. :)

Třeba takhle:

Ale co s tím? Čistící skript by měl být univerzální a umět ošetřit všechny tyto možnosti.

Vezměme si to na příkladu Snowflake SQL a pěkně postupně:

1. “číslo” - pohodička, tady není o čem

2. “finanční” - tady už nám TO_NUMBER() stačit nebude - musíme nejdřív nahradit mezery a desetinnou čárku a až poté převést na číslo – rozehříváme se :)

3. “měna” - musíme navíc vyhodit “Kč”, vyzkoušíme

“Oops.. co se děje?” říkal jsem si, když jsem to viděl poprvý a zkusil to dvakrát znovu - chyba mezi klávesnicí a židlí? Není, ani napotřetí to neprošlo... Po chvíli googlení a zkoušení mi to došlo.

Poznáte rozdíl? :)

Ne? Já taky ne, až tady je vidět:

Zatímco v prvním případě jsme nahrazovali znak mezery, v tom druhém jde o oddělovač tisíců, což sice vizuálně vypadá úplně stejně, ale jde o jiný znak.

Takže:

Voilá - funguje! :)

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Petr

Petr Koza
datový detektiv
LinkedIn

Nahradí AI datové analytiky? | Mňamka #461

Nahradí AI datové analytiky? | Mňamka #461

Koho všeho nahradí umělá inteligence? To je asi jedno z nejdiskutovanějších témat letošního roku. Dnes se proto podíváme, zda na seznamu ohrožených profesí najdeme i datové analytiky. ChatGPT si totiž dokáže poradit i s SQL, Pythonem a R kódováním. A s pomocí pluginu Code Interpreter můžete dokonce provádět analýzu dat a vytvářet grafy. Na první pohled by se tedy mohlo zdát, že datovým analytikům zvoní hrana. Ve skutečnosti to ale tak jednoduché není, jelikož generativní AI má stále jednu velkou Achillovu patu. Více o tom už v dnešní mňamce!

Web scraping – jak překonat nejčastější problémy | Mňamka #460

Web scraping – jak překonat nejčastější problémy | Mňamka #460

Data z webových stránek představují cenný zdroj informací snad pro každou firmu. Možností jejich využití je totiž celá řada – můžete např. sledovat ceny konkurence a na základě toho dynamicky upravovat ceny vlastní nebo provádět rozsáhlé průzkumy trhu a popularity jednotlivých produktů. No jo, jenže jak taková data získat? Mohli byste je samozřejmě sbírat ručně, mnohem lepší ale je vše zautomatizovat pomocí tzv. web scrapingu. To ovšem není jen tak. Podívejte se, na jaké problémy při tom můžete narazit a jak je překonat!

Jak na smysluplné vizualizace | Mňamka #459

Jak na smysluplné vizualizace | Mňamka #459

Data mluví jasně! Tedy až na případy, kdy to není pravda. Datové vizualizace mohou být mocným nástrojem pro srozumitelnou reprezentaci i dosti komplexních informací. Platí to ale pouze za předpokladu, že se při tvorbě grafů a dashboardů držíme těch nejlepších designových principů a best practices. I velmi jednoduchý graf totiž může být značně matoucí, pokud zvolíme např. nevhodné škálování os nebo jestliže si vybereme jen takové datové body, které podporují náš pohled na věc. Přečtěte si, na co si dát při tvorbě vizualizací pozor!