Rozdílné přístupy v transformaci dat - ETL / ELT | Mňamka #295

Při budování nebo údržbě datového skladu budete k integraci dat používat takzvané ETL.

ETL (extract, transform, load) existuje již desítky let a je to přístup, který slouží ke shromažďování a strukturování dat. S nástupem cloudových datových skladů se však jako novější přístup ke kombinování dat objevil ELT (extract, load, transform).

Je důležité si uvědomit, že ETL i ELT slouží stejnému účelu, ale liší se v implementaci.

 

Co je ETL a ELT?

ETL a ELT jsou dva rozdílné modely pro zpracování a nahrání dat do datového skladu.

V ETL se nejprve extrahují data z datových zdrojů, což jsou obvykle databáze a jsou následně uložena v dočasné staging databázi. Ve staging databázi se provádí transformační operace, v této fázi se data čistí, zpracovávají a strukturují do finální podoby pro cílový systém datového skladu. Transformovaná data se následně načtou do cílového datového skladu a analyzují se pomocí vhodných BI nástrojů.

Pomocí ELT se data načítají do datového skladu ihned po extrakci z datových zdrojů. Neexistuje žádná staging databáze. Data jsou transformována uvnitř systému datového skladu pro následnou analýzu.

VÝHODY ETL

  • Dostupnost zpracovaných dat - Pomocí ETL získáme datový sklad připravený k pro rychlou analýzu dat, protože k transformaci dochází před načtením dat do datového skladu. ETL je nejvhodnější pro práci s datasety, které vyžadují složité transformace.

  • Normy jako GDPR a HIPPA lze s ETL snáze implementovat vzhledem k tomu, že datoví detektivové mohou před načtením do cílového datového skladu vynechat veškerá citlivá data.
  • Správa úložiště datového skladu - Pokud je váš datový sklad nákladově náročný systém, je možné pomocí ETL udržet náklady na nízké úrovni. Nástroje ETL transformují a filtrují tak, aby uchovávaly pouze data, která potřebujete. Tímto způsobem je možné náklady na datový sklad razantně snížit.
  •  ETL je v oboru již několik desetiletí a jsou k dispozici dobře vyvinuté nástroje a procesy.

NEVÝHODY ETL

  • Nízká flexibilita: Máte zdroje a formáty vstupních dat, které se mohou často měnit? Pokud používáte ETL, budete muset transformace pro takové změny formátů a okrajové případy předem nakonfigurovat. V opačném případě budete muset proces ETL zastavit a upravit pro každý okrajový případ. To může mít za následek značné náklady na údržbu.
  • Rychlost: Budete muset počkat, až budou všechny transformace dokončeny, abyste mohli data načíst do skladu.
  • Průběžná údržba: Jak již bylo zmíněno, možná budete muset proces ETL průběžně udržovat, abyste zajistili jeho aktuálnost s měnícími se vstupními zdroji.
  • Vysoké počáteční náklady: Počáteční náklady na nastavení procesu ETL mohou být vysoké, protože možná budete muset definovat procesy a transformace, které budete pro svůj projekt potřebovat.

VÝHODY ELT
 

  • Flexibilní: Vzhledem k tomu, že transformace není třeba definovat na začátku, můžete do procesu ELT snadno integrovat nové a různé zdroje dat.
  • Dostupnost raw dat - S ELT můžeme všechna data načíst okamžitě a uživatelé mohou později určit, která data mají transformovat a analyzovat.
  • Nízké počáteční náklady: Nástroje ELT mohou snadno automatizovat proces zapracování dat. Vzhledem k tomu, že nemusíte definovat transformace, jsou počáteční náklady ve srovnání s ETL nižší.
  • Rychlost: V procesu ELT není třeba čekat. Nejlepší nástroje ELT okamžitě načtou data do vašeho datového skladu, kde jsou připravena k transformaci.

NEVÝHODY ELT

  • Bezpečnost - Při vkládání velkého množství nezpracovaných dat do úložiště může být bezpečnost dat problémem. Chcete-li minimalizovat bezpečnostní rizika, budete muset řídit přístup uživatelů a aplikací k nezpracovaným datům uloženým v datovém skladu.
  • Nízký soulad s protokoly o zabezpečení dat - Vzhledem k tomu, že data jsou ukládána s minimálním zpracováním, může být nutné přijmout další opatření k zajištění souladu s protokoly o zabezpečení dat.

KDY BYSTE MĚLI POUŽÍ ELT MÍSTO ETL?


Nyní, když znáte rozdíly mezi ETL a ELT, možná přemýšlíte, která možnost je pro vás nejlepší.

Zde je několik praktických případů použití, kdy by vám použití ETL přineslo lepší výsledek

  • Čištění dat - odstranění osobních údajů nebo jiných citlivých dat předtím, než se dostanou do úložiště a mohou k nim mít přístup všichni.
  • Extrémně velké objemy dat - například nemusíme chtít ukládat binární data obrázků nebo obsahu generovaného uživateli přímo do našeho úložiště, protože by to mohlo být nákladné nebo pomalé.
  • Streamování - většina datových skladů nepodporuje proudové transformace. Ty mohou snížit latenci i náklady zejména při velkých objemech dat.
 

Hlavní výhodou přístupu ELT je, že můžete přesunout všechna nezpracovaná data z mnoha zdrojů do jednoho jednotného úložiště a mít kdykoli neomezený přístup ke všem datům. Můžete pracovat pružněji a usnadňuje to ukládání nových, nestrukturovaných dat. Datoví detektivové ušetří čas při práci s novými informacemi, protože již nemusí vyvíjet složité procesy ETL před načtením dat do uložiště.

Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi. 

Emil

Emil Samko

datový detektiv
LinkedIn

Datové sklady, jezera a lakehouse: Jak vybrat správnou architekturu pro správu dat? | Mňamka #533

Datové sklady, jezera a lakehouse: Jak vybrat správnou architekturu pro správu dat? | Mňamka #533

Svět správy dat prošel rychlým vývojem, který je poháněn rostoucí potřebou zpracovávat a analyzovat obrovské množství dat v reálném čase. Firmy, které chtějí porozumět svým datům, narazily na různé architektury – datové sklady, datová jezera a nyní i tzv. lakehouse – které nabízejí různé možnosti pro ukládání a správu dat. Tento článek se zabývá těmito třemi architekturami, porovnává jejich výhody a nevýhody a podrobněji se zaměřuje na lakehouse, nejnovější inovaci, která se snaží řešit problémy z dřívějších systémů.

Microsoft Fabric a jeho uživatelské rozhraní | Mňamka #532

Microsoft Fabric a jeho uživatelské rozhraní | Mňamka #532

Mircosoft Fabric je komplexní datová platforma, která má intuitivním grafické rozhraní, je však vhodná pro začínající i zkušené datové analytiky. Nabízí nástroje jako Data Factory pro zpracování dat, Power BI pro vizualizace a integraci s Git pro DevOps. Přestože je Fabric stále ve vývoji a některé funkce jsou v režimu "preview", jeho hlavní výhodou je přímá integrace vizualizací do jednoho prostředí. Pojďme si detailně projít jeho uživatelské prostředí, sepsali jsme pro vás základní přehled.

Jak se pracuje s Microsoft Fabric | Mňamka #531

Jak se pracuje s Microsoft Fabric | Mňamka #531

Microsoft Fabric slibuje revoluci ve zpracování dat ve firmách tím, že zefektivňuje správu dat a umožňuje připravovat, analyzovat a vizualizovat data bez nutnosti používat více oddělených systémů. Teorie zní skvěle, ale jaká je realita, když se rozhodnete tento nový "švýcarský nůž" pro práci s daty implementovat a používat? Podívejme se na to, jak se s Microsoft Fabric pracuje, s jakými výzvami se můžete setkat a jak rychle se stanete odborníkem na tuto platformu.