Je to mezera, není to mezera? | Mňamka #370
O čištění dat a jeho významu už jsme toho napsali poměrně hodně. Jednoduše řečeno - bez úklidu na vstupu budeme mít bordel i na výstupu.
Dokonce na to máme appku (Cooltivator), která tuhle mravenčí práci umí výrazně zjednodušit. :)
Co ale dělat, když potřebujeme “přechroustat” finanční čísla (například nějaký mapovací Google sheet s budgety)? Ono totiž jeden budget můžete napsat několika způsoby - a reálně se to i stává - copy & paste a najednou tam máte nový formát. :)
Třeba takhle:
Ale co s tím? Čistící skript by měl být univerzální a umět ošetřit všechny tyto možnosti.
Vezměme si to na příkladu Snowflake SQL a pěkně postupně:
1. “číslo” - pohodička, tady není o čem
2. “finanční” - tady už nám TO_NUMBER() stačit nebude - musíme nejdřív nahradit mezery a desetinnou čárku a až poté převést na číslo – rozehříváme se :)
3. “měna” - musíme navíc vyhodit “Kč”, vyzkoušíme
“Oops.. co se děje?” říkal jsem si, když jsem to viděl poprvý a zkusil to dvakrát znovu - chyba mezi klávesnicí a židlí? Není, ani napotřetí to neprošlo... Po chvíli googlení a zkoušení mi to došlo.
Poznáte rozdíl? :)
Ne? Já taky ne, až tady je vidět:
Zatímco v prvním případě jsme nahrazovali znak mezery, v tom druhém jde o oddělovač tisíců, což sice vizuálně vypadá úplně stejně, ale jde o jiný znak.
Takže:
Data Storytelling: Rychlé vs Pomalé datové myšlení | Mňamka #525
Znáte ten pocit, když se už několik desítek minut hrabete ve složité tabulce a stále nemůžete najít odpovědi na svoje otázky? My už dávno ne. Umíme si totiž najít zkratku z pomalého myšlení do toho rychlého.
Keboola a Kai PromtLab | Mňamka #524
Objavte PromptLab, sofistikované riešenie od Kebooly a Kai PromtLab na zlepšenie interakcií s umelou inteligenciou. V tomto článku sa dozviete, ako PromptLab využíva technológiu Streamlit na automatické prispôsobovanie výziev za účelom dosiahnutia lepšej jasnosti a presnosti vo vašich projektoch. Oboznámte sa s intuitívnym rozhraním, ktoré vám umožní porovnávať výsledky a optimalizovať pracovné postupy.