Nový způsob transformace dat: Co to je dbt | Mňamka #129
Máme technologie, které milujeme, máme je odzkoušené a umíme je. To ale rozhodně neznamená, že stále netestujeme nové. A tak jsme narazili na dbt (Data Build Tool) - open source, který nás hodně baví.
Než si řekneme víc, pojďme o krok zpět. Máme data ve zdrojových systémech a ve finále se na ně potřebujeme koukat třeba v nějakém vizualizačním nástroji. Ale než se podíváme na pěkný grafíky a rozjedeme naplno business intelligence, musíme ujít ještě dlouhou cestu (který datový analytik by neznal, že...). No a ta cesta je zjednodušeně v zásadě dvojí. Buď si data vezmeme ze zdrojového systému (extract), cestou v nich uklidíme (transform) a upravené je natáhneme do cíle (třeba cílový data warehouse) = ETL (na to se dá využít například nástroj Keboola nebo si to můžeme postavit na cloudových službách), nebo je ze zdrojového systému vytáhneme tak jak jsou a ten úklid děláme až v cíli, plus často až když je potřeba = ELT.
Co to je dbt?
Je to nástroj, který se v ELT stará o to “T”. Základem je projekt, který se konfiguruje sadou YAML souborů a SQL souborů s makry.

Zdroj obrázku: https://blog.getdbt.com/what--exactly--is-dbt-/
V čem je jeho kouzlo?
Tím, že dbt podporuje makra v SQL spojuje silu skriptovacího jazyka Python a SQL. Umožňuje používat cykly pro generování SQL, takže minimalizuje kopírování kódu. Automatické testování - stačí popsat, jak mají vypadat data, která vystupují z transformace, a dbt se postará o to, že to tak fakt je.
Prostě kouzlo dbt je v tom, že k tomu “T” přistupuje tak, že se snaží usnadňovat věci, který jsou často třeba a je nutný je řešit opakováním kódu, případně kódem, kterej je náchylnej k chybám. V případě, že se něco změní v datech, transformace s dbt se dají napsat tak, že to dbt buď pozná a řekne, že je něco špatně, nebo na to bude připravený a zařídí, že se nestane nic špatného.
A mimojiné - je to opensource s velmi snadnou instalací. Správa kódu v gitu, která podporuje CI/CD principy a spolupráci týmu na projektu. Dá se integrovat do existující pipeline, de facto poběží všude, kde běží Python.
Za nás je to pecka. Chcete vědět víc? Mrkněte výše na Tomovo video.
Zapomněla jsem na něco? Chcete se na něco zeptat? Napište mi.
Eva
Nahradí AI datové analytiky? | Mňamka #461
Koho všeho nahradí umělá inteligence? To je asi jedno z nejdiskutovanějších témat letošního roku. Dnes se proto podíváme, zda na seznamu ohrožených profesí najdeme i datové analytiky. ChatGPT si totiž dokáže poradit i s SQL, Pythonem a R kódováním. A s pomocí pluginu Code Interpreter můžete dokonce provádět analýzu dat a vytvářet grafy. Na první pohled by se tedy mohlo zdát, že datovým analytikům zvoní hrana. Ve skutečnosti to ale tak jednoduché není, jelikož generativní AI má stále jednu velkou Achillovu patu. Více o tom už v dnešní mňamce!
Web scraping – jak překonat nejčastější problémy | Mňamka #460
Data z webových stránek představují cenný zdroj informací snad pro každou firmu. Možností jejich využití je totiž celá řada – můžete např. sledovat ceny konkurence a na základě toho dynamicky upravovat ceny vlastní nebo provádět rozsáhlé průzkumy trhu a popularity jednotlivých produktů. No jo, jenže jak taková data získat? Mohli byste je samozřejmě sbírat ručně, mnohem lepší ale je vše zautomatizovat pomocí tzv. web scrapingu. To ovšem není jen tak. Podívejte se, na jaké problémy při tom můžete narazit a jak je překonat!
Jak na smysluplné vizualizace | Mňamka #459
Data mluví jasně! Tedy až na případy, kdy to není pravda. Datové vizualizace mohou být mocným nástrojem pro srozumitelnou reprezentaci i dosti komplexních informací. Platí to ale pouze za předpokladu, že se při tvorbě grafů a dashboardů držíme těch nejlepších designových principů a best practices. I velmi jednoduchý graf totiž může být značně matoucí, pokud zvolíme např. nevhodné škálování os nebo jestliže si vybereme jen takové datové body, které podporují náš pohled na věc. Přečtěte si, na co si dát při tvorbě vizualizací pozor!