Ze života datového detektiva III.: Analytik, matematik a vývojář | Mňamka #255

Ono by se mohlo zdát, že analytik/matematik/vývojář je spíše hustý matfyzák než datový detektiv, ale opak je pravdou.

Nejedná se sice o detektiva typu Hercules Poirot, který si svolá všechny zúčastněné a naservíruje jim celý příběh jako na stříbrném podnose (tohle dělá jeho kámoš - detektiv: Designér, architekt a konzultant), ale spíše o takového Sherlocka Holmese, který se zavře do laboratoře, aby si ověřil svou teorii, a pak už v podstatě vyřešený případ předá policii, která jej přetlumočí veřejnosti a sklidí ovace.

Analytik je schován trochu v ústraní. Nevěnuje se vytváření krásných dashboardů, ani jejich prezentaci klientovi. Častěji se snaží v datech najít dosud neznámé souvislosti, vytváří hypotézy, vymýšlí, jak je otestovat, a hledá způsoby, jak vytěžit z dat co nejvíce informací. Jeho velkým kámošem je matematika, statistika a různé knihovny v Pythonu a v R, bez kterých by jeho život byl jen nekončící utrpení. Pokud na něco zajímavého přijde, pak to mívá pro zákazníka velký užitek.

Většinou se zabývá ambicioznějšími a komplexními data science projekty. Umí vzít zákazníkův problém do světa statistiky, tam ho vyřešit, a zase vrátit zpátky. Zná různé typy problémů a k nim širokou paletu nástrojů. Detektiv musí umět vybrat ten nejvhodnější a použít ho tak, aby klient dostal to, co chce, a zároveň mít na paměti, že klienta statistika a učení strojů vůbec nezajímá, a že je pro něj důležitý opravdu jen výsledek. A hlavně - nesnaží se použít nejnovější super cool tooly jen proto, že jsou cool, ale jde tou cestou, která má pro klienta největší přínos, i za cenu toho, že není dvakrát sexy. 

Jak konkrétně vypadá detektivova práce?

V první fázi analytik uvažuje nad tím, jestli má opravdu smysl na projektu pracovat, jaký je jeho účel, jaký bude jeho přínos a jestli neexistují jiné cesty, jak požadovaného výsledku dosáhnout s menším úsilím a menšími náklady (Je potřeba machine learning nebo jen obyčejná analýza?).

V dalším kroku se dívá, jestli je vůbec možné zadání provést, zdali máme dostatek kvalitních dat, a když nemáme, tak třeba napíše extraktor, který získá data z nového/lepšího zdroje. Hledá skulinky a slabá místa, snaží se předem odhadnout, kde číhá nějaké nepěkné překvapení.

A když nenajde nic, co by projekt mohlo zhatit, pustí se do práce. Pomocí strojového učení postaví a naimplementuje model, který bude předpovídat, kolik zákazníků dané firmy odejde, a kteří to budou (tzv. churn model). Udělá analýzu bydliště zákazníků a lokality firemních poboček, aby pomohl optimalizovat jejich rozložení. Pomocí segmentace zjistí, že zákazníky lze na základě demografických dat rozdělit do skupin, což pomůže přesnějšímu zacílení reklamy. Zanalyzuje vlivy počasí/denní doby/lokality na chování zákazníka. Dokáže vymyslet model, který převádí text do klíčových slov, které dále zkoumá… Je toho nepřeberné množství a každý případ je jiný, proto se nikdy nenudí.

A jaké jsou požadované vlastnosti datového analytika? Vraťme se zpátky k Sherlocku Holmesovi - analytik musí být precizní, dalo by se říct až puntičkář. Nesmí se bát v datech šťourat a musí mít odvahu vydávat se na cesty, které možná nikam nevedou. Nehledá slepě odpovědi na všechny otázky světa, ale vymýšlí, jak se správně zeptat, a které otázky jsou ty důležité. Každé podezření si musí potvrdit nebo vyvrátit pomocí nezlomného důkazu. Musí umět přemýšlet v širším kontextu a pracovat tak, aby mu jeho Watson rozuměl. Kódy si píše přehledně a s komentáři. Když píše extraktor/vytváří model, ví, že to je nástroj, pomocí kterého může  v budoucnosti vyřešit další případ, a proto ho napíše tak, aby šel znova co nejsnáze použít. A taky hraje na housle. Nebo třeba kytaru. To sice není podmínka, ale v Bizztreat je to velké plus!

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, ráda to s Vámi proberu :-)

Barbora Kacerovská
datový detektiv
LinkedIn

Power BI Bookmarks III. – možnosti a limitace využití | Mňamka #409

Power BI Bookmarks III. – možnosti a limitace využití | Mňamka #409

Kdy záložky používat a kdy raději zvolit jiné možnosti vizualizace? Máme tady poslední díl naší krátké minisérie „Power BI Bookmarks“ od Terky. V předchozích částech jsme si názorně ukázali, že záložky jsou skvělým nástrojem, když na report potřebujete vtěsnat více vizuálů a zároveň zachovat jeho přehlednost. I to má ale svoje limity. Dnes si proto posvítíme na jeden alternativní nástroj – parametry polí. Využití parametrů je totiž v mnoha případech jednodušší, rychlejší, a hlavně méně náročné na paměť vašeho systému. Pojďme se na to podívat!

Jak Excel zruinuje váš byznys! | Mňamka #398

Jak Excel zruinuje váš byznys! | Mňamka #398

Excel může být dobrým pomocníkem pro rychlé analýzy, pro řízení středních a velkých firem se už však dávno nehodí. Pokud jste v něm někdy zkoušeli otevřít opravdu velký soubor se spoustou záznamů, asi moc dobře víte, o čem mluvíme. Není to ale zdaleka jen o promrhaném času, ve velké firmě vás totiž takové „excelování“ může stát i pěknou fůru peněz. Jak velkou? To už se dozvíte v dnešní mňamce, ve které pro vás Patrik sepsal největší bolístky řešení dat v Excelu!

Power BI Bookmarks II. – tvorba filtrovacího panelu | Mňamka #385

Power BI Bookmarks II. – tvorba filtrovacího panelu | Mňamka #385

Jak si v Power BI vytvořit záložky? Máme tady pokračování naší krátké minisérie o záložkách od Terky. V minulém díle jsme si udělali generální úklid v sekci Selection a dnes už se tak konečně můžeme pustit do samotné tvorby záložek. Vše si přitom demonstrujeme pěkně krok po kroku na jednoduchém příkladu tvorby filtrovacího panelu, který se na stránce zobrazí při stisku ikony filtru. Další praktické příklady si pak ukážeme v závěrečném díle našeho průvodce po záložkách, kde se zároveň podíváme i na jejich limity a omezení. Tak jdeme na to!