Rozdílné přístupy v transformaci dat - ETL / ELT | Mňamka #295
Při budování nebo údržbě datového skladu budete k integraci dat používat takzvané ETL.
ETL (extract, transform, load) existuje již desítky let a je to přístup, který slouží ke shromažďování a strukturování dat. S nástupem cloudových datových skladů se však jako novější přístup ke kombinování dat objevil ELT (extract, load, transform).
Je důležité si uvědomit, že ETL i ELT slouží stejnému účelu, ale liší se v implementaci.
Co je ETL a ELT?
ETL a ELT jsou dva rozdílné modely pro zpracování a nahrání dat do datového skladu.
V ETL se nejprve extrahují data z datových zdrojů, což jsou obvykle databáze a jsou následně uložena v dočasné staging databázi. Ve staging databázi se provádí transformační operace, v této fázi se data čistí, zpracovávají a strukturují do finální podoby pro cílový systém datového skladu. Transformovaná data se následně načtou do cílového datového skladu a analyzují se pomocí vhodných BI nástrojů.
Pomocí ELT se data načítají do datového skladu ihned po extrakci z datových zdrojů. Neexistuje žádná staging databáze. Data jsou transformována uvnitř systému datového skladu pro následnou analýzu.
VÝHODY ETL
-
Dostupnost zpracovaných dat - Pomocí ETL získáme datový sklad připravený k pro rychlou analýzu dat, protože k transformaci dochází před načtením dat do datového skladu. ETL je nejvhodnější pro práci s datasety, které vyžadují složité transformace.
- Normy jako GDPR a HIPPA lze s ETL snáze implementovat vzhledem k tomu, že datoví detektivové mohou před načtením do cílového datového skladu vynechat veškerá citlivá data.
- Správa úložiště datového skladu - Pokud je váš datový sklad nákladově náročný systém, je možné pomocí ETL udržet náklady na nízké úrovni. Nástroje ETL transformují a filtrují tak, aby uchovávaly pouze data, která potřebujete. Tímto způsobem je možné náklady na datový sklad razantně snížit.
-
ETL je v oboru již několik desetiletí a jsou k dispozici dobře vyvinuté nástroje a procesy.
NEVÝHODY ETL
- Nízká flexibilita: Máte zdroje a formáty vstupních dat, které se mohou často měnit? Pokud používáte ETL, budete muset transformace pro takové změny formátů a okrajové případy předem nakonfigurovat. V opačném případě budete muset proces ETL zastavit a upravit pro každý okrajový případ. To může mít za následek značné náklady na údržbu.
- Rychlost: Budete muset počkat, až budou všechny transformace dokončeny, abyste mohli data načíst do skladu.
- Průběžná údržba: Jak již bylo zmíněno, možná budete muset proces ETL průběžně udržovat, abyste zajistili jeho aktuálnost s měnícími se vstupními zdroji.
- Vysoké počáteční náklady: Počáteční náklady na nastavení procesu ETL mohou být vysoké, protože možná budete muset definovat procesy a transformace, které budete pro svůj projekt potřebovat.
VÝHODY ELT
- Flexibilní: Vzhledem k tomu, že transformace není třeba definovat na začátku, můžete do procesu ELT snadno integrovat nové a různé zdroje dat.
- Dostupnost raw dat - S ELT můžeme všechna data načíst okamžitě a uživatelé mohou později určit, která data mají transformovat a analyzovat.
- Nízké počáteční náklady: Nástroje ELT mohou snadno automatizovat proces zapracování dat. Vzhledem k tomu, že nemusíte definovat transformace, jsou počáteční náklady ve srovnání s ETL nižší.
- Rychlost: V procesu ELT není třeba čekat. Nejlepší nástroje ELT okamžitě načtou data do vašeho datového skladu, kde jsou připravena k transformaci.
NEVÝHODY ELT
- Bezpečnost - Při vkládání velkého množství nezpracovaných dat do úložiště může být bezpečnost dat problémem. Chcete-li minimalizovat bezpečnostní rizika, budete muset řídit přístup uživatelů a aplikací k nezpracovaným datům uloženým v datovém skladu.
- Nízký soulad s protokoly o zabezpečení dat - Vzhledem k tomu, že data jsou ukládána s minimálním zpracováním, může být nutné přijmout další opatření k zajištění souladu s protokoly o zabezpečení dat.
KDY BYSTE MĚLI POUŽÍ ELT MÍSTO ETL?
Nyní, když znáte rozdíly mezi ETL a ELT, možná přemýšlíte, která možnost je pro vás nejlepší.
Zde je několik praktických případů použití, kdy by vám použití ETL přineslo lepší výsledek
- Čištění dat - odstranění osobních údajů nebo jiných citlivých dat předtím, než se dostanou do úložiště a mohou k nim mít přístup všichni.
- Extrémně velké objemy dat - například nemusíme chtít ukládat binární data obrázků nebo obsahu generovaného uživateli přímo do našeho úložiště, protože by to mohlo být nákladné nebo pomalé.
- Streamování - většina datových skladů nepodporuje proudové transformace. Ty mohou snížit latenci i náklady zejména při velkých objemech dat.
Hlavní výhodou přístupu ELT je, že můžete přesunout všechna nezpracovaná data z mnoha zdrojů do jednoho jednotného úložiště a mít kdykoli neomezený přístup ke všem datům. Můžete pracovat pružněji a usnadňuje to ukládání nových, nestrukturovaných dat. Datoví detektivové ušetří čas při práci s novými informacemi, protože již nemusí vyvíjet složité procesy ETL před načtením dat do uložiště.
Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi.
Emil
Certifikace Fabric DP-600: Co mi přinesla a proč je přínosná i pro naše klienty | Mňamka #548
Certifikace Fabric DP-600 je čerstvě v kapse! 🎓 V naší konzultační praxi se stále více soustředíme na řešení v Microsoft Fabric, které integruje datovou analýzu, inženýrství i vizualizace. Ráda bych se s vámi podělila o své zkušenosti a ukázala, proč tato certifikace není jen o nových znalostech, ale hlavně o přidané hodnotě pro vás, naše klienty. Zjistěte, jak mi pomohla získat hlubší porozumění celému ekosystému a odemknout jeho plný potenciál.
Jak data mění firmy: zkušenosti z byznysových rozhovorů | Mňamka #547
„A k čemu nám to vlastně bude?“ To je otázka, kterou v datových projektech slyšíme nejčastěji. A správná odpověď se nehledá v tabulkách nebo dashboardech, ale přímo u lidí, kteří rozhodují. Právě v rozhovorech se rodí skutečná byznysová hodnota. Proč bez rozhovorů projekty selhávají? Praxe nám několikrát ukázala, že bez byznysových rozhovorů, které jdou do hloubky, jde pouze o drahé cvičení bez měřitelného dopadu.
WEBINÁŘ: Manažer a AI
V dnešním byznyse je AI všude! Ale jak ji opravdu využít k růstu, i když nejste IT expert? Tento webinář je připraven pro manažery, kteří chtějí jít dál než jen uvažovat o AI a začít ji reálně implementovat. Co se z webináře dozvíte? Záznam webináře vám nabídne praktické tipy, konkrétní nástroje a jasné návody, jak transformovat vaše nápady do hmatatelných AI řešení.