Je to mezera, není to mezera? | Mňamka #370
O čištění dat a jeho významu už jsme toho napsali poměrně hodně. Jednoduše řečeno - bez úklidu na vstupu budeme mít bordel i na výstupu.
Dokonce na to máme appku (Cooltivator), která tuhle mravenčí práci umí výrazně zjednodušit. :)
Co ale dělat, když potřebujeme “přechroustat” finanční čísla (například nějaký mapovací Google sheet s budgety)? Ono totiž jeden budget můžete napsat několika způsoby - a reálně se to i stává - copy & paste a najednou tam máte nový formát. :)
Třeba takhle:

Ale co s tím? Čistící skript by měl být univerzální a umět ošetřit všechny tyto možnosti.
Vezměme si to na příkladu Snowflake SQL a pěkně postupně:
1. “číslo” - pohodička, tady není o čem


2. “finanční” - tady už nám TO_NUMBER() stačit nebude - musíme nejdřív nahradit mezery a desetinnou čárku a až poté převést na číslo – rozehříváme se :)


3. “měna” - musíme navíc vyhodit “Kč”, vyzkoušíme


“Oops.. co se děje?” říkal jsem si, když jsem to viděl poprvý a zkusil to dvakrát znovu - chyba mezi klávesnicí a židlí? Není, ani napotřetí to neprošlo... Po chvíli googlení a zkoušení mi to došlo.
Poznáte rozdíl? :)

Ne? Já taky ne, až tady je vidět:

Zatímco v prvním případě jsme nahrazovali znak mezery, v tom druhém jde o oddělovač tisíců, což sice vizuálně vypadá úplně stejně, ale jde o jiný znak.
Takže:


Metadata management: Proč je katalog dat nutností, ne luxusem | Mňamka #551
“Metadata jsou data o datech.“ - tohle, když od nás slyšeli profesoři na VŠE (Vysoké škole ekonomické), rovnou nás poslali ze zkoušky domů s tím, že se za nedlouho opět uvidíme. 😀Ona je to sice pravda, ale nejde ani tak úplně o jednu pevně stanovenou “definici” jako spíš o tu samotnou podstatu. Díky metadatům organizace chápe svá data, své systémy i pracovní postupy, protože metadata popisují, vysvětlují a usnadňují vyhledání, použití a správu jakéhokoliv datového zdroje.
7 nejběžnějších promptů datového analytika a inženýra | Mňamka #550
Datoví analytici a inženýři tráví spoustu času rutinními úkoly – od čištění dat až po ladění kódu. Umělá inteligence dnes dokáže část téhle práce výrazně urychlit. Klíčem je dobře napsaný prompt – zadání, kterým AI přesně řeknete, co má udělat. Podívejme se na 7 promptů, které se v praxi hodí nejčastěji.
BI + generativní AI = Analytika na steroidech | Mňamka #549
Jak GPT a spol. mění roli analytiků? Konverzace s daty, automatické vizualizace i predikce. Ještě nedávno jsme o umělé inteligenci mluvili spíš jako o budoucnosti. Dnes je generativní AI všude, od psaní textů přes tvorbu obrázků až po generování kódu. A během posledních měsíců začala výrazně měnit i oblast business intelligence. Firmy po celém světě zjišťují, že generativní modely dokážou zjednodušit práci s daty a zároveň ji zpřístupnit lidem, kteří nejsou datoví analytici.



