Rozdílné přístupy v transformaci dat - ETL / ELT | Mňamka #295

Při budování nebo údržbě datového skladu budete k integraci dat používat takzvané ETL.

ETL (extract, transform, load) existuje již desítky let a je to přístup, který slouží ke shromažďování a strukturování dat. S nástupem cloudových datových skladů se však jako novější přístup ke kombinování dat objevil ELT (extract, load, transform).

Je důležité si uvědomit, že ETL i ELT slouží stejnému účelu, ale liší se v implementaci.

 

Co je ETL a ELT?

ETL a ELT jsou dva rozdílné modely pro zpracování a nahrání dat do datového skladu.

V ETL se nejprve extrahují data z datových zdrojů, což jsou obvykle databáze a jsou následně uložena v dočasné staging databázi. Ve staging databázi se provádí transformační operace, v této fázi se data čistí, zpracovávají a strukturují do finální podoby pro cílový systém datového skladu. Transformovaná data se následně načtou do cílového datového skladu a analyzují se pomocí vhodných BI nástrojů.

Pomocí ELT se data načítají do datového skladu ihned po extrakci z datových zdrojů. Neexistuje žádná staging databáze. Data jsou transformována uvnitř systému datového skladu pro následnou analýzu.

VÝHODY ETL

  • Dostupnost zpracovaných dat - Pomocí ETL získáme datový sklad připravený k pro rychlou analýzu dat, protože k transformaci dochází před načtením dat do datového skladu. ETL je nejvhodnější pro práci s datasety, které vyžadují složité transformace.

  • Normy jako GDPR a HIPPA lze s ETL snáze implementovat vzhledem k tomu, že datoví detektivové mohou před načtením do cílového datového skladu vynechat veškerá citlivá data.
  • Správa úložiště datového skladu - Pokud je váš datový sklad nákladově náročný systém, je možné pomocí ETL udržet náklady na nízké úrovni. Nástroje ETL transformují a filtrují tak, aby uchovávaly pouze data, která potřebujete. Tímto způsobem je možné náklady na datový sklad razantně snížit.
  •  ETL je v oboru již několik desetiletí a jsou k dispozici dobře vyvinuté nástroje a procesy.

NEVÝHODY ETL

  • Nízká flexibilita: Máte zdroje a formáty vstupních dat, které se mohou často měnit? Pokud používáte ETL, budete muset transformace pro takové změny formátů a okrajové případy předem nakonfigurovat. V opačném případě budete muset proces ETL zastavit a upravit pro každý okrajový případ. To může mít za následek značné náklady na údržbu.
  • Rychlost: Budete muset počkat, až budou všechny transformace dokončeny, abyste mohli data načíst do skladu.
  • Průběžná údržba: Jak již bylo zmíněno, možná budete muset proces ETL průběžně udržovat, abyste zajistili jeho aktuálnost s měnícími se vstupními zdroji.
  • Vysoké počáteční náklady: Počáteční náklady na nastavení procesu ETL mohou být vysoké, protože možná budete muset definovat procesy a transformace, které budete pro svůj projekt potřebovat.

VÝHODY ELT
 

  • Flexibilní: Vzhledem k tomu, že transformace není třeba definovat na začátku, můžete do procesu ELT snadno integrovat nové a různé zdroje dat.
  • Dostupnost raw dat - S ELT můžeme všechna data načíst okamžitě a uživatelé mohou později určit, která data mají transformovat a analyzovat.
  • Nízké počáteční náklady: Nástroje ELT mohou snadno automatizovat proces zapracování dat. Vzhledem k tomu, že nemusíte definovat transformace, jsou počáteční náklady ve srovnání s ETL nižší.
  • Rychlost: V procesu ELT není třeba čekat. Nejlepší nástroje ELT okamžitě načtou data do vašeho datového skladu, kde jsou připravena k transformaci.

NEVÝHODY ELT

  • Bezpečnost - Při vkládání velkého množství nezpracovaných dat do úložiště může být bezpečnost dat problémem. Chcete-li minimalizovat bezpečnostní rizika, budete muset řídit přístup uživatelů a aplikací k nezpracovaným datům uloženým v datovém skladu.
  • Nízký soulad s protokoly o zabezpečení dat - Vzhledem k tomu, že data jsou ukládána s minimálním zpracováním, může být nutné přijmout další opatření k zajištění souladu s protokoly o zabezpečení dat.

KDY BYSTE MĚLI POUŽÍ ELT MÍSTO ETL?


Nyní, když znáte rozdíly mezi ETL a ELT, možná přemýšlíte, která možnost je pro vás nejlepší.

Zde je několik praktických případů použití, kdy by vám použití ETL přineslo lepší výsledek

  • Čištění dat - odstranění osobních údajů nebo jiných citlivých dat předtím, než se dostanou do úložiště a mohou k nim mít přístup všichni.
  • Extrémně velké objemy dat - například nemusíme chtít ukládat binární data obrázků nebo obsahu generovaného uživateli přímo do našeho úložiště, protože by to mohlo být nákladné nebo pomalé.
  • Streamování - většina datových skladů nepodporuje proudové transformace. Ty mohou snížit latenci i náklady zejména při velkých objemech dat.
 

Hlavní výhodou přístupu ELT je, že můžete přesunout všechna nezpracovaná data z mnoha zdrojů do jednoho jednotného úložiště a mít kdykoli neomezený přístup ke všem datům. Můžete pracovat pružněji a usnadňuje to ukládání nových, nestrukturovaných dat. Datoví detektivové ušetří čas při práci s novými informacemi, protože již nemusí vyvíjet složité procesy ETL před načtením dat do uložiště.

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Emil

Emil Samko

datový detektiv
LinkedIn

Power BI Bookmarks III. – možnosti a limitace využití | Mňamka #409

Power BI Bookmarks III. – možnosti a limitace využití | Mňamka #409

Kdy záložky používat a kdy raději zvolit jiné možnosti vizualizace? Máme tady poslední díl naší krátké minisérie „Power BI Bookmarks“ od Terky. V předchozích částech jsme si názorně ukázali, že záložky jsou skvělým nástrojem, když na report potřebujete vtěsnat více vizuálů a zároveň zachovat jeho přehlednost. I to má ale svoje limity. Dnes si proto posvítíme na jeden alternativní nástroj – parametry polí. Využití parametrů je totiž v mnoha případech jednodušší, rychlejší, a hlavně méně náročné na paměť vašeho systému. Pojďme se na to podívat!

Jak Excel zruinuje váš byznys! | Mňamka #398

Jak Excel zruinuje váš byznys! | Mňamka #398

Excel může být dobrým pomocníkem pro rychlé analýzy, pro řízení středních a velkých firem se už však dávno nehodí. Pokud jste v něm někdy zkoušeli otevřít opravdu velký soubor se spoustou záznamů, asi moc dobře víte, o čem mluvíme. Není to ale zdaleka jen o promrhaném času, ve velké firmě vás totiž takové „excelování“ může stát i pěknou fůru peněz. Jak velkou? To už se dozvíte v dnešní mňamce, ve které pro vás Patrik sepsal největší bolístky řešení dat v Excelu!

Power BI Bookmarks II. – tvorba filtrovacího panelu | Mňamka #385

Power BI Bookmarks II. – tvorba filtrovacího panelu | Mňamka #385

Jak si v Power BI vytvořit záložky? Máme tady pokračování naší krátké minisérie o záložkách od Terky. V minulém díle jsme si udělali generální úklid v sekci Selection a dnes už se tak konečně můžeme pustit do samotné tvorby záložek. Vše si přitom demonstrujeme pěkně krok po kroku na jednoduchém příkladu tvorby filtrovacího panelu, který se na stránce zobrazí při stisku ikony filtru. Další praktické příklady si pak ukážeme v závěrečném díle našeho průvodce po záložkách, kde se zároveň podíváme i na jejich limity a omezení. Tak jdeme na to!