Rozdílné přístupy v transformaci dat - ETL / ELT | Mňamka #295
Při budování nebo údržbě datového skladu budete k integraci dat používat takzvané ETL.
ETL (extract, transform, load) existuje již desítky let a je to přístup, který slouží ke shromažďování a strukturování dat. S nástupem cloudových datových skladů se však jako novější přístup ke kombinování dat objevil ELT (extract, load, transform).
Je důležité si uvědomit, že ETL i ELT slouží stejnému účelu, ale liší se v implementaci.
Co je ETL a ELT?
ETL a ELT jsou dva rozdílné modely pro zpracování a nahrání dat do datového skladu.
V ETL se nejprve extrahují data z datových zdrojů, což jsou obvykle databáze a jsou následně uložena v dočasné staging databázi. Ve staging databázi se provádí transformační operace, v této fázi se data čistí, zpracovávají a strukturují do finální podoby pro cílový systém datového skladu. Transformovaná data se následně načtou do cílového datového skladu a analyzují se pomocí vhodných BI nástrojů.
Pomocí ELT se data načítají do datového skladu ihned po extrakci z datových zdrojů. Neexistuje žádná staging databáze. Data jsou transformována uvnitř systému datového skladu pro následnou analýzu.
VÝHODY ETL
-
Dostupnost zpracovaných dat - Pomocí ETL získáme datový sklad připravený k pro rychlou analýzu dat, protože k transformaci dochází před načtením dat do datového skladu. ETL je nejvhodnější pro práci s datasety, které vyžadují složité transformace.
- Normy jako GDPR a HIPPA lze s ETL snáze implementovat vzhledem k tomu, že datoví detektivové mohou před načtením do cílového datového skladu vynechat veškerá citlivá data.
- Správa úložiště datového skladu - Pokud je váš datový sklad nákladově náročný systém, je možné pomocí ETL udržet náklady na nízké úrovni. Nástroje ETL transformují a filtrují tak, aby uchovávaly pouze data, která potřebujete. Tímto způsobem je možné náklady na datový sklad razantně snížit.
-
ETL je v oboru již několik desetiletí a jsou k dispozici dobře vyvinuté nástroje a procesy.
NEVÝHODY ETL
- Nízká flexibilita: Máte zdroje a formáty vstupních dat, které se mohou často měnit? Pokud používáte ETL, budete muset transformace pro takové změny formátů a okrajové případy předem nakonfigurovat. V opačném případě budete muset proces ETL zastavit a upravit pro každý okrajový případ. To může mít za následek značné náklady na údržbu.
- Rychlost: Budete muset počkat, až budou všechny transformace dokončeny, abyste mohli data načíst do skladu.
- Průběžná údržba: Jak již bylo zmíněno, možná budete muset proces ETL průběžně udržovat, abyste zajistili jeho aktuálnost s měnícími se vstupními zdroji.
- Vysoké počáteční náklady: Počáteční náklady na nastavení procesu ETL mohou být vysoké, protože možná budete muset definovat procesy a transformace, které budete pro svůj projekt potřebovat.
VÝHODY ELT
- Flexibilní: Vzhledem k tomu, že transformace není třeba definovat na začátku, můžete do procesu ELT snadno integrovat nové a různé zdroje dat.
- Dostupnost raw dat - S ELT můžeme všechna data načíst okamžitě a uživatelé mohou později určit, která data mají transformovat a analyzovat.
- Nízké počáteční náklady: Nástroje ELT mohou snadno automatizovat proces zapracování dat. Vzhledem k tomu, že nemusíte definovat transformace, jsou počáteční náklady ve srovnání s ETL nižší.
- Rychlost: V procesu ELT není třeba čekat. Nejlepší nástroje ELT okamžitě načtou data do vašeho datového skladu, kde jsou připravena k transformaci.
NEVÝHODY ELT
- Bezpečnost - Při vkládání velkého množství nezpracovaných dat do úložiště může být bezpečnost dat problémem. Chcete-li minimalizovat bezpečnostní rizika, budete muset řídit přístup uživatelů a aplikací k nezpracovaným datům uloženým v datovém skladu.
- Nízký soulad s protokoly o zabezpečení dat - Vzhledem k tomu, že data jsou ukládána s minimálním zpracováním, může být nutné přijmout další opatření k zajištění souladu s protokoly o zabezpečení dat.
KDY BYSTE MĚLI POUŽÍ ELT MÍSTO ETL?
Nyní, když znáte rozdíly mezi ETL a ELT, možná přemýšlíte, která možnost je pro vás nejlepší.
Zde je několik praktických případů použití, kdy by vám použití ETL přineslo lepší výsledek
- Čištění dat - odstranění osobních údajů nebo jiných citlivých dat předtím, než se dostanou do úložiště a mohou k nim mít přístup všichni.
- Extrémně velké objemy dat - například nemusíme chtít ukládat binární data obrázků nebo obsahu generovaného uživateli přímo do našeho úložiště, protože by to mohlo být nákladné nebo pomalé.
- Streamování - většina datových skladů nepodporuje proudové transformace. Ty mohou snížit latenci i náklady zejména při velkých objemech dat.
Hlavní výhodou přístupu ELT je, že můžete přesunout všechna nezpracovaná data z mnoha zdrojů do jednoho jednotného úložiště a mít kdykoli neomezený přístup ke všem datům. Můžete pracovat pružněji a usnadňuje to ukládání nových, nestrukturovaných dat. Datoví detektivové ušetří čas při práci s novými informacemi, protože již nemusí vyvíjet složité procesy ETL před načtením dat do uložiště.
Zapomněl jsem na něco? Chcete se na něco zeptat? Napište mi.
Emil
Metadata management: Proč je katalog dat nutností, ne luxusem | Mňamka #551
“Metadata jsou data o datech.“ - tohle, když od nás slyšeli profesoři na VŠE (Vysoké škole ekonomické), rovnou nás poslali ze zkoušky domů s tím, že se za nedlouho opět uvidíme. 😀Ona je to sice pravda, ale nejde ani tak úplně o jednu pevně stanovenou “definici” jako spíš o tu samotnou podstatu. Díky metadatům organizace chápe svá data, své systémy i pracovní postupy, protože metadata popisují, vysvětlují a usnadňují vyhledání, použití a správu jakéhokoliv datového zdroje.
7 nejběžnějších promptů datového analytika a inženýra | Mňamka #550
Datoví analytici a inženýři tráví spoustu času rutinními úkoly – od čištění dat až po ladění kódu. Umělá inteligence dnes dokáže část téhle práce výrazně urychlit. Klíčem je dobře napsaný prompt – zadání, kterým AI přesně řeknete, co má udělat. Podívejme se na 7 promptů, které se v praxi hodí nejčastěji.
BI + generativní AI = Analytika na steroidech | Mňamka #549
Jak GPT a spol. mění roli analytiků? Konverzace s daty, automatické vizualizace i predikce. Ještě nedávno jsme o umělé inteligenci mluvili spíš jako o budoucnosti. Dnes je generativní AI všude, od psaní textů přes tvorbu obrázků až po generování kódu. A během posledních měsíců začala výrazně měnit i oblast business intelligence. Firmy po celém světě zjišťují, že generativní modely dokážou zjednodušit práci s daty a zároveň ji zpřístupnit lidem, kteří nejsou datoví analytici.



