Nový způsob transformace dat: Co to je dbt | Mňamka #129

Máme technologie, které milujeme, máme je odzkoušené a umíme je. To ale rozhodně neznamená, že stále netestujeme nové. A tak jsme narazili na dbt (Data Build Tool) - open source, který nás hodně baví.

Než si řekneme víc, pojďme o krok zpět. Máme data ve zdrojových systémech a ve finále se na ně potřebujeme koukat třeba v nějakém vizualizačním nástroji. Ale než se podíváme na pěkný grafíky a rozjedeme naplno business intelligence, musíme ujít ještě dlouhou cestu (který datový analytik by neznal, že...). No a ta cesta je zjednodušeně v zásadě dvojí. Buď si data vezmeme ze zdrojového systému (extract), cestou v nich uklidíme  (transform) a upravené je natáhneme do cíle (třeba cílový data warehouse) = ETL (na to se dá využít například nástroj Keboola nebo si to můžeme postavit na cloudových službách), nebo je ze zdrojového systému vytáhneme tak jak jsou a ten úklid děláme až v cíli, plus často až když je potřeba = ELT.

Co to je dbt?

Je to nástroj, který se v ELT stará o to “T”. Základem je projekt, který se konfiguruje sadou YAML souborů a SQL souborů s makry.
 

Zdroj obrázku: https://blog.getdbt.com/what--exactly--is-dbt-/

V čem je jeho kouzlo?


Tím, že dbt podporuje makra v SQL spojuje silu skriptovacího jazyka Python a SQL. Umožňuje používat cykly pro generování SQL, takže minimalizuje kopírování kóduAutomatické testování - stačí popsat, jak mají vypadat data, která vystupují z transformace, a dbt se postará o to, že to tak fakt je. 
 

Prostě kouzlo dbt je v tom, že k tomu “T” přistupuje tak, že se snaží usnadňovat věci, který jsou často třeba a je nutný je řešit opakováním kódu, případně kódem, kterej je náchylnej k chybám. V případě, že se něco změní v datech, transformace s dbt se dají napsat tak, že to dbt buď pozná a řekne, že je něco špatně, nebo na to bude připravený a zařídí, že se nestane nic špatného.

A mimojiné - je to opensource s velmi snadnou instalací. Správa kódu v gitu, která podporuje CI/CD principy a spolupráci týmu na projektu. Dá se integrovat do existující pipeline, de facto poběží všude, kde běží Python.

Za nás je to pecka. Chcete vědět víc? Mrkněte výše na Tomovo video. 

Zapomněla jsem na něco? Chcete se na něco zeptat? Napište mi. 

Eva

Eva Hankusová
detektiv nových příležitostí
LinkedIn

Cirkulární graf co rozbil twitter | Mňamka #279

Cirkulární graf co rozbil twitter | Mňamka #279

V této mňamce se podíváme na trochu vizualizačního masakru, co udělal velký rozruch na Twitteru. Jde o graf, který vytvořili v New York Times a někteří ho už sedmí den roku 2022 nazvali nejhorší vizualizací tohoto roku. Jakožto každá trochu kontroverzní věc má i tento graf svoje obhájce. Co myslíte? Je to super způsob, jak ukázat timeline dat anebo to vypadá otřesně a někomu by měli sebrat licenci k vizuálním nástrojům?

Co je to Data Security? | Mňamka #278

Co je to Data Security? | Mňamka #278

V tomto článku se podíváme na základy toho, co je Data security neboli datová bezpečnost. V bizztreatu nám na security záleží, a myslíme si, že toto bude jedno z „hot“ témat roku 2022. Pojďme is tedy připomenout co se pod tímto výrazem skrývá. Pod odkazem se skrývá článek z dataversity, který vás navede na velké množství zdrojů o datové bezpečnosti například od MIT. Tak se pojďte podívat co je v bezpečnosti nového a proč je to tak důležité.

Ze života datového detektiva 4: Designér, architekt a konzultant #277

Ze života datového detektiva 4: Designér, architekt a konzultant #277

Je to tady, další článek ze seriálu „Ze života datového detektiva“, tentokrát se budeme bavit o tom co dělá architekt, designér a konzultant v Bizztreatu. Naše Verča vám to pěkně sepsala a je to fakt zajímavý čtení s hromadou prokliků na další zajímavý kontent od nás. Zajímá vás, jak to v bizztreatu s architekturou děláme? Jaký je postup pro architekta samotného? Nebo jak na architekturu navazuje datová kvalita a data governance? Pokud jste na jednu z těchto otázek odpověděli „ano“ tak šup na link a pusťte se do toho.