Zpracování dat - integrace a transformace

Když vidím dataset poprvé| Mňamka #174

Když vidím dataset poprvé| Mňamka #174

Máte na stole nový dataset. Kde začít, abyste svou datovou analýzu postavili na kvalitních základech? Patrikovi už nějaký ten dataset rukama prošel a dal dohromady své best practices!

Design Pattern #5: Transakční data | Mňamka #165

Design Pattern #5: Transakční data | Mňamka #165

Transakční data si asi umí představit každý. Hromada řádků z eshopu, to je přece jasný. Spočítat revenue je přece hračka... jenže pak to přijde. Na každý řádek jiná sleva, jinak datum, teď které datum?, slevy na položku, slevy na fakturu, slevový kupón, s dopravou nebo bez? a tak dále. Denní chléb datového detektiva. Skvěle vám poslouží tyto tři designové patterny, které usnadní zpracování transakčních dat. Stačí se zorientovat v databázi!

Nový způsob transformace dat: Co to je dbt | Mňamka #129

Nový způsob transformace dat: Co to je dbt | Mňamka #129

Slyšeli jste už o dbt? Tahle pecka dokáže ulehčit práci nejednoho datového analytika. Jde o open source, který teď hodně testujeme a nemůžeme si ho vynachválit. Uvnitř článku najdete o krátké video od našeho CTO Toma.

Životní cyklus dat a proč nic nevynechat | Mňamka #106

Životní cyklus dat a proč nic nevynechat | Mňamka #106

Často na prvních schůzkách řešíme požadavek napojení vyexportovaného CSV přímo na vizualizační nástroj… Teoreticky to jde, ale existují pádné důvody, proč to tak nedělat. Pojďme si dnes projít, co se děje s daty v jejich životním cyklu a hlavně proč je každá fáze tolik důležitá.

SQL taháky pro začátečníky i pokročilé | Mňamka #87

SQL taháky pro začátečníky i pokročilé | Mňamka #87

A je tu další moje taháko-mánie :-) Nedávno jsme sdíleli našeptávače na Python. A to by přece byla škoda, kdybychom si neukázali i pár pro SQL. Na webu je najdete pod pojmem "SQL cheatsheets" a stejně jako pro Python, i pro SQL se jich na netu potuluje velké množství.

Jak na optimalizaci výkonu v BigQuery | Mňamka #86

Jak na optimalizaci výkonu v BigQuery | Mňamka #86

Ten, kdo začíná s BigQuery, bývá zpravidla překvapený, že BigQuery sama neposkytuje žádné přímé možnosti, jak vývojář může ovlivnit výkon či rychlost zpracování. Transakční databáze používají indexy, analytické databáze zase např. způsob, jak je výpočet paralelizován (pomocí uživatelem definovaného partitioningu), či může přímo ovlivnit výkon zakoupeným výkonem. BigQuery nic takového nemá a proto někdy začátečníky odrazuje. Ale i zde existuje celá řada způsobů, jak optimalizovat výkon konkrétních queries. Máme tady pro vás pár tipů.