Rozdílné přístupy v transformaci dat - ETL / ELT | Mňamka #295

Při budování nebo údržbě datového skladu budete k integraci dat používat takzvané ETL.

ETL (extract, transform, load) existuje již desítky let a je to přístup, který slouží ke shromažďování a strukturování dat. S nástupem cloudových datových skladů se však jako novější přístup ke kombinování dat objevil ELT (extract, load, transform).

Je důležité si uvědomit, že ETL i ELT slouží stejnému účelu, ale liší se v implementaci.

 

Co je ETL a ELT?

ETL a ELT jsou dva rozdílné modely pro zpracování a nahrání dat do datového skladu.

V ETL se nejprve extrahují data z datových zdrojů, což jsou obvykle databáze a jsou následně uložena v dočasné staging databázi. Ve staging databázi se provádí transformační operace, v této fázi se data čistí, zpracovávají a strukturují do finální podoby pro cílový systém datového skladu. Transformovaná data se následně načtou do cílového datového skladu a analyzují se pomocí vhodných BI nástrojů.

Pomocí ELT se data načítají do datového skladu ihned po extrakci z datových zdrojů. Neexistuje žádná staging databáze. Data jsou transformována uvnitř systému datového skladu pro následnou analýzu.

VÝHODY ETL

  • Dostupnost zpracovaných dat - Pomocí ETL získáme datový sklad připravený k pro rychlou analýzu dat, protože k transformaci dochází před načtením dat do datového skladu. ETL je nejvhodnější pro práci s datasety, které vyžadují složité transformace.

  • Normy jako GDPR a HIPPA lze s ETL snáze implementovat vzhledem k tomu, že datoví detektivové mohou před načtením do cílového datového skladu vynechat veškerá citlivá data.
  • Správa úložiště datového skladu - Pokud je váš datový sklad nákladově náročný systém, je možné pomocí ETL udržet náklady na nízké úrovni. Nástroje ETL transformují a filtrují tak, aby uchovávaly pouze data, která potřebujete. Tímto způsobem je možné náklady na datový sklad razantně snížit.
  •  ETL je v oboru již několik desetiletí a jsou k dispozici dobře vyvinuté nástroje a procesy.

NEVÝHODY ETL

  • Nízká flexibilita: Máte zdroje a formáty vstupních dat, které se mohou často měnit? Pokud používáte ETL, budete muset transformace pro takové změny formátů a okrajové případy předem nakonfigurovat. V opačném případě budete muset proces ETL zastavit a upravit pro každý okrajový případ. To může mít za následek značné náklady na údržbu.
  • Rychlost: Budete muset počkat, až budou všechny transformace dokončeny, abyste mohli data načíst do skladu.
  • Průběžná údržba: Jak již bylo zmíněno, možná budete muset proces ETL průběžně udržovat, abyste zajistili jeho aktuálnost s měnícími se vstupními zdroji.
  • Vysoké počáteční náklady: Počáteční náklady na nastavení procesu ETL mohou být vysoké, protože možná budete muset definovat procesy a transformace, které budete pro svůj projekt potřebovat.

VÝHODY ELT
 

  • Flexibilní: Vzhledem k tomu, že transformace není třeba definovat na začátku, můžete do procesu ELT snadno integrovat nové a různé zdroje dat.
  • Dostupnost raw dat - S ELT můžeme všechna data načíst okamžitě a uživatelé mohou později určit, která data mají transformovat a analyzovat.
  • Nízké počáteční náklady: Nástroje ELT mohou snadno automatizovat proces zapracování dat. Vzhledem k tomu, že nemusíte definovat transformace, jsou počáteční náklady ve srovnání s ETL nižší.
  • Rychlost: V procesu ELT není třeba čekat. Nejlepší nástroje ELT okamžitě načtou data do vašeho datového skladu, kde jsou připravena k transformaci.

NEVÝHODY ELT

  • Bezpečnost - Při vkládání velkého množství nezpracovaných dat do úložiště může být bezpečnost dat problémem. Chcete-li minimalizovat bezpečnostní rizika, budete muset řídit přístup uživatelů a aplikací k nezpracovaným datům uloženým v datovém skladu.
  • Nízký soulad s protokoly o zabezpečení dat - Vzhledem k tomu, že data jsou ukládána s minimálním zpracováním, může být nutné přijmout další opatření k zajištění souladu s protokoly o zabezpečení dat.

KDY BYSTE MĚLI POUŽÍ ELT MÍSTO ETL?


Nyní, když znáte rozdíly mezi ETL a ELT, možná přemýšlíte, která možnost je pro vás nejlepší.

Zde je několik praktických případů použití, kdy by vám použití ETL přineslo lepší výsledek

  • Čištění dat - odstranění osobních údajů nebo jiných citlivých dat předtím, než se dostanou do úložiště a mohou k nim mít přístup všichni.
  • Extrémně velké objemy dat - například nemusíme chtít ukládat binární data obrázků nebo obsahu generovaného uživateli přímo do našeho úložiště, protože by to mohlo být nákladné nebo pomalé.
  • Streamování - většina datových skladů nepodporuje proudové transformace. Ty mohou snížit latenci i náklady zejména při velkých objemech dat.
 

Hlavní výhodou přístupu ELT je, že můžete přesunout všechna nezpracovaná data z mnoha zdrojů do jednoho jednotného úložiště a mít kdykoli neomezený přístup ke všem datům. Můžete pracovat pružněji a usnadňuje to ukládání nových, nestrukturovaných dat. Datoví detektivové ušetří čas při práci s novými informacemi, protože již nemusí vyvíjet složité procesy ETL před načtením dat do uložiště.

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Emil

Emil Samko

datový detektiv
LinkedIn

Jak přistupovat k user managementu v datové analytice? | Mňamka #373

Jak přistupovat k user managementu v datové analytice? | Mňamka #373

Ne každý ve firmě by měl mít přístup úplně ke všem datům. A to ani tam, kde naplno vládne datová demokratizace. Základem dobré bezpečnosti je totiž tzv. princip nejnižších privilegií – nedávejte uživatelům přístup tam, kam ho nepotřebují. Stejně tak je ale potřeba pro klíčové procesy nastavit odpovídající kontrolní mechanismy, které povedou k minimalizaci bezpečnostních rizik. Co dalšího ještě můžete udělat? Verča pro vás popsala 5 důležitých bodů, kterých se společně s našimi klienty při přidělování uživatelských přístupů a práv snažíme držet.

Je to mezera, není to mezera? | Mňamka #370

Je to mezera, není to mezera? | Mňamka #370

O významu čištění dat toho bylo napsáno již poměrně hodně. Zjednodušeně by se to dalo shrnout takto – pokud si neuděláte úklid už na vstupu, budete mít neskutečný bordel i na výstupu. Dnes se proto podíváme, jak ve si Snowflake SQL vyčistit finanční čísla z Google Sheets. Petr vám postupně ukáže, jak by měl vypadat čistící skript pro data různých formátů. A narazil při tom i na jeden opravdu záludný oříšek. Není totiž mezera jako mezera. O tom už ale více v dnešní mňamce!

Period Over Period v Tableau | Mňamka #367

Period Over Period v Tableau | Mňamka #367

Při práci s daty ve vizualizačních nástrojích si velmi často potřebujete porovnat jednotlivá časová období. Zajímají vás např. prodeje tento vs. předchozí rok. V Tableau máte hned několik možností, jak takové period over period srovnání provést. Kterou z nich ale zvolit? Tomáš pro vás sepsal mňamku, ve které vás postupně provede výhodami a nevýhodami standardního řešení v podobě Quick Table Calculation, použití LOOKUP funkce, výpočetně náročnějšího data blendingu a variabilního custom filteru s předdefinovaným obdobím.