MS Fabric: Pojďte si s námi vytvořit první pipeline - 2.část | Mňamka #541

První část článku můžete najít na tomto odkaze.

5) NOTEBOOK

Čištění dat

Notebooky v Microsoft Fabric jsou univerzální nástroj, který umožňuje využívat různé jazyky a technologie pro efektivní zpracování dat. V našem případě jsou notebooky ideální volbou pro čištění dat. Pomocí SQL definujeme podmínky, jak chceme výstupy z dataflow očistit. Například odstraníme duplicitní řádky, ošetříme chybějící hodnoty či neplatné záznamy. Také můžeme upravit datové typy sloupců a aplikovat další transformační operace, které zajistí, že data budou v požadovaném formátu. Poté vyčitštěný výstup uložíme do lakehousu pro další operace. 

Nastavení kontrol

Nastavení data quality checks (kontroly kvality dat) je klíčovou součástí zpracování dat a zajišťuje, že data splňují požadované standardy. V Microsoft Fabric můžeme tyto kontroly nastavit pomocí notebooku a kombinace PySpark / Pythonu a SQL. Pokud data neprojdou definovanými kontrolami kvality, proces zpracování dat bude přerušen a upozorní nás na chybu.

Stejně jako u dataflows, musíme mít notebook již vytvořený v našem workspacu a pro vložení do pipeline postačí pouze vytvořit nootebook a v nastavení vybrat ten správný.

6) NOTIFIKACE

V rámci MS Fabric máme možnost do pipeline přidat například emailové notifikace na support ke každému objektu v pipeline. A to v případě, že dojde k selhání (failure) či úspěšnému (success) dokončení procesu. Tyto notifikace se do pipeline přidávají pomocí objektu Web na záložce Actions, kde si nastavíte vše potřebné a propojíte s daným objektem. 

 7) NASTAVENÍ FLOW MEZI OBJEKTY V PIPELINE

Máme vytvořeny všechny objekty v pipeline, které potřebujeme. Nyní nám zbývá nastavit sekvenci kroků a propojit je pomocí šipek, které definují tok procesu. Tyto šipky určí, jak budou jednotlivé kroky pipeline navzájem propojeny a jaký bude následný postup v případě úspěchu nebo selhání.

Flow v pipeline musíme nastavit podle logických pravidel, která určíme na základě potřeb daného zpracování dat. Tato pravidla definují,  jakým způsobem bude řízen tok dat mezi jednotlivými kroky. V Microsoft Fabric máme několik možností, jak nastavit tato pravidla:


  • On Skip → Tato možnost se používá, když je krok nebo job přeskočen. Například pokud je podmínka pro spuštění kroku nesplněná nebo krok není proveden kvůli specifickým pravidlům. Propojení "On Skip" určuje, co se stane, pokud tento krok není proveden.

  • On Success → Tento stav znamená, že propojení mezi objekty bude aktivováno pouze v případě, že předchozí krok nebo job proběhne úspěšně. Pokud krok proběhne bez problémů a splní všechny požadavky, následující krok se provede. Například Copy data job proběhne úspěšně a proces může pokračovat na transformaci dat. 

  • On Fail → Tento stav znamená, že propojení bude aktivováno, pokud předchozí krok selže. Například pokud data neprojdou úspěšně nastavenými quality checks, pošle se automaticky emailová notifikace na support. 

  • On Completion → Tento stav znamená, že propojení mezi objekty bude aktivováno po dokončení předchozího kroku nebo jobu, bez ohledu na to, zda krok proběhl úspěšně nebo selhal. 

Objekty mezi sebou propojíte tak, že myší najedete na objekt, který chcete propojit, a z nabídky ikon přetáhnete jednu ikonu na jiný objekt.

 8) NASTAVENÍ ČASOVÉHO PLÁNU (SCHEDULE)

Pipeline máme hotovou a zbývá nám nastavit, jak často by měla běžet. To nastavíme v našem  workspace → … → Settings → Schedule

9) TEST PIPELINE

V posledním kroku otestujeme pomocí Run, zda máme flow správně nastaveno a zda nám úspěšně proběhly všechny kroky pipeline. 

Závěr

O tomto tématu by se samozřejmě dalo rozepsat na několik stránek. Teď už minimálně znáte principy, jak funguje nastavení pipeline. Pokud máte možnost, vyzkoušejte si to a postupně objevujte možnosti Fabricu. Vzhledem k širokému spektru nástrojů, které poskytuje, je možné vybudovat robustní datovou infrastrukturu, která bude nejen dobře fungovat, ale i růst a přizpůsobovat se jakýmkoli změnám v datovém prostředí.

Lucka