Ze života datového detektiva III.: Analytik, matematik a vývojář | Mňamka #255

Ono by se mohlo zdát, že analytik/matematik/vývojář je spíše hustý matfyzák než datový detektiv, ale opak je pravdou.

Nejedná se sice o detektiva typu Hercules Poirot, který si svolá všechny zúčastněné a naservíruje jim celý příběh jako na stříbrném podnose (tohle dělá jeho kámoš - detektiv: Designér, architekt a konzultant), ale spíše o takového Sherlocka Holmese, který se zavře do laboratoře, aby si ověřil svou teorii, a pak už v podstatě vyřešený případ předá policii, která jej přetlumočí veřejnosti a sklidí ovace.

Analytik je schován trochu v ústraní. Nevěnuje se vytváření krásných dashboardů, ani jejich prezentaci klientovi. Častěji se snaží v datech najít dosud neznámé souvislosti, vytváří hypotézy, vymýšlí, jak je otestovat, a hledá způsoby, jak vytěžit z dat co nejvíce informací. Jeho velkým kámošem je matematika, statistika a různé knihovny v Pythonu a v R, bez kterých by jeho život byl jen nekončící utrpení. Pokud na něco zajímavého přijde, pak to mívá pro zákazníka velký užitek.

Většinou se zabývá ambicioznějšími a komplexními data science projekty. Umí vzít zákazníkův problém do světa statistiky, tam ho vyřešit, a zase vrátit zpátky. Zná různé typy problémů a k nim širokou paletu nástrojů. Detektiv musí umět vybrat ten nejvhodnější a použít ho tak, aby klient dostal to, co chce, a zároveň mít na paměti, že klienta statistika a učení strojů vůbec nezajímá, a že je pro něj důležitý opravdu jen výsledek. A hlavně - nesnaží se použít nejnovější super cool tooly jen proto, že jsou cool, ale jde tou cestou, která má pro klienta největší přínos, i za cenu toho, že není dvakrát sexy. 

Jak konkrétně vypadá detektivova práce?

V první fázi analytik uvažuje nad tím, jestli má opravdu smysl na projektu pracovat, jaký je jeho účel, jaký bude jeho přínos a jestli neexistují jiné cesty, jak požadovaného výsledku dosáhnout s menším úsilím a menšími náklady (Je potřeba machine learning nebo jen obyčejná analýza?).

V dalším kroku se dívá, jestli je vůbec možné zadání provést, zdali máme dostatek kvalitních dat, a když nemáme, tak třeba napíše extraktor, který získá data z nového/lepšího zdroje. Hledá skulinky a slabá místa, snaží se předem odhadnout, kde číhá nějaké nepěkné překvapení.

A když nenajde nic, co by projekt mohlo zhatit, pustí se do práce. Pomocí strojového učení postaví a naimplementuje model, který bude předpovídat, kolik zákazníků dané firmy odejde, a kteří to budou (tzv. churn model). Udělá analýzu bydliště zákazníků a lokality firemních poboček, aby pomohl optimalizovat jejich rozložení. Pomocí segmentace zjistí, že zákazníky lze na základě demografických dat rozdělit do skupin, což pomůže přesnějšímu zacílení reklamy. Zanalyzuje vlivy počasí/denní doby/lokality na chování zákazníka. Dokáže vymyslet model, který převádí text do klíčových slov, které dále zkoumá… Je toho nepřeberné množství a každý případ je jiný, proto se nikdy nenudí.

A jaké jsou požadované vlastnosti datového analytika? Vraťme se zpátky k Sherlocku Holmesovi - analytik musí být precizní, dalo by se říct až puntičkář. Nesmí se bát v datech šťourat a musí mít odvahu vydávat se na cesty, které možná nikam nevedou. Nehledá slepě odpovědi na všechny otázky světa, ale vymýšlí, jak se správně zeptat, a které otázky jsou ty důležité. Každé podezření si musí potvrdit nebo vyvrátit pomocí nezlomného důkazu. Musí umět přemýšlet v širším kontextu a pracovat tak, aby mu jeho Watson rozuměl. Kódy si píše přehledně a s komentáři. Když píše extraktor/vytváří model, ví, že to je nástroj, pomocí kterého může  v budoucnosti vyřešit další případ, a proto ho napíše tak, aby šel znova co nejsnáze použít. A taky hraje na housle. Nebo třeba kytaru. To sice není podmínka, ale v Bizztreat je to velké plus!

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, ráda to s Vámi proberu :-)

Barbora Kacerovská
datový detektiv
LinkedIn

Informační bezpečnost | 2. díl | Mňamka #325

Informační bezpečnost | 2. díl | Mňamka #325

Máme pro vás pokračování seriálu bezpečnostních mňamek od našeho Štěpána. Tentokrát se s námi podělí o to jak se může nic nečekající uživatel dostat do problémů s malwary jako jsou viry trojští koně atd. Při čtení článku jsme si radši rovnou udělali jeden full scan systému. Chcete vědět na co neklikat?

Kognitivní zkreslení: Kotvy jako referenční body pro naše rozhodování | Mňamka #318

Kognitivní zkreslení: Kotvy jako referenční body pro naše rozhodování | Mňamka #318

Máme tady pro vás další článek ze série našich Psychomňamek od René. Dneska se můžete podívat na zoubek kotvám v kognitivním zkreslení. Používáme je pořád a možná si to ani někdy neuvědomujeme. Když si uvědomíme, kde nás kotvy mohou limitovat, můžeme podstoupit kroky k přesnějším a faktickým rozhodnutí bez předsudků.

Data Maturity, neboli datová maturita | Mňamka #315

Data Maturity, neboli datová maturita | Mňamka #315

Datová maturita je téma, které v Bizztreatu řešíme už nějakou dobu. Vytvořili jsme i vlastní model podle kterého hodnotíme jak na tom firma je v rámci užívání a práce s daty. Máme tady pro vás článek, který vám přiblíží o co jde.