Ze života datového detektiva III.: Analytik, matematik a vývojář | Mňamka #255

Ono by se mohlo zdát, že analytik/matematik/vývojář je spíše hustý matfyzák než datový detektiv, ale opak je pravdou.

Nejedná se sice o detektiva typu Hercules Poirot, který si svolá všechny zúčastněné a naservíruje jim celý příběh jako na stříbrném podnose (tohle dělá jeho kámoš - detektiv: Designér, architekt a konzultant), ale spíše o takového Sherlocka Holmese, který se zavře do laboratoře, aby si ověřil svou teorii, a pak už v podstatě vyřešený případ předá policii, která jej přetlumočí veřejnosti a sklidí ovace.

Analytik je schován trochu v ústraní. Nevěnuje se vytváření krásných dashboardů, ani jejich prezentaci klientovi. Častěji se snaží v datech najít dosud neznámé souvislosti, vytváří hypotézy, vymýšlí, jak je otestovat, a hledá způsoby, jak vytěžit z dat co nejvíce informací. Jeho velkým kámošem je matematika, statistika a různé knihovny v Pythonu a v R, bez kterých by jeho život byl jen nekončící utrpení. Pokud na něco zajímavého přijde, pak to mívá pro zákazníka velký užitek.

Většinou se zabývá ambicioznějšími a komplexními data science projekty. Umí vzít zákazníkův problém do světa statistiky, tam ho vyřešit, a zase vrátit zpátky. Zná různé typy problémů a k nim širokou paletu nástrojů. Detektiv musí umět vybrat ten nejvhodnější a použít ho tak, aby klient dostal to, co chce, a zároveň mít na paměti, že klienta statistika a učení strojů vůbec nezajímá, a že je pro něj důležitý opravdu jen výsledek. A hlavně - nesnaží se použít nejnovější super cool tooly jen proto, že jsou cool, ale jde tou cestou, která má pro klienta největší přínos, i za cenu toho, že není dvakrát sexy. 

Jak konkrétně vypadá detektivova práce?

V první fázi analytik uvažuje nad tím, jestli má opravdu smysl na projektu pracovat, jaký je jeho účel, jaký bude jeho přínos a jestli neexistují jiné cesty, jak požadovaného výsledku dosáhnout s menším úsilím a menšími náklady (Je potřeba machine learning nebo jen obyčejná analýza?).

V dalším kroku se dívá, jestli je vůbec možné zadání provést, zdali máme dostatek kvalitních dat, a když nemáme, tak třeba napíše extraktor, který získá data z nového/lepšího zdroje. Hledá skulinky a slabá místa, snaží se předem odhadnout, kde číhá nějaké nepěkné překvapení.

A když nenajde nic, co by projekt mohlo zhatit, pustí se do práce. Pomocí strojového učení postaví a naimplementuje model, který bude předpovídat, kolik zákazníků dané firmy odejde, a kteří to budou (tzv. churn model). Udělá analýzu bydliště zákazníků a lokality firemních poboček, aby pomohl optimalizovat jejich rozložení. Pomocí segmentace zjistí, že zákazníky lze na základě demografických dat rozdělit do skupin, což pomůže přesnějšímu zacílení reklamy. Zanalyzuje vlivy počasí/denní doby/lokality na chování zákazníka. Dokáže vymyslet model, který převádí text do klíčových slov, které dále zkoumá… Je toho nepřeberné množství a každý případ je jiný, proto se nikdy nenudí.

A jaké jsou požadované vlastnosti datového analytika? Vraťme se zpátky k Sherlocku Holmesovi - analytik musí být precizní, dalo by se říct až puntičkář. Nesmí se bát v datech šťourat a musí mít odvahu vydávat se na cesty, které možná nikam nevedou. Nehledá slepě odpovědi na všechny otázky světa, ale vymýšlí, jak se správně zeptat, a které otázky jsou ty důležité. Každé podezření si musí potvrdit nebo vyvrátit pomocí nezlomného důkazu. Musí umět přemýšlet v širším kontextu a pracovat tak, aby mu jeho Watson rozuměl. Kódy si píše přehledně a s komentáři. Když píše extraktor/vytváří model, ví, že to je nástroj, pomocí kterého může  v budoucnosti vyřešit další případ, a proto ho napíše tak, aby šel znova co nejsnáze použít. A taky hraje na housle. Nebo třeba kytaru. To sice není podmínka, ale v Bizztreat je to velké plus!

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, ráda to s Vámi proberu :-)

Barbora Kacerovská
datový detektiv
LinkedIn

Data Wrangling aneb zkroťte svá data! | Mňamka #260

Data Wrangling aneb zkroťte svá data! | Mňamka #260

Co má společné kovboj a datový detektiv? Jeden krotí dobytek a druhý data! Ne, vážně, říká se tomu data wrangling. Tento datový úkon se skládá ze čtyř kroků, ve kterých se data objevují, transformují, validují a pak publikují. Ať už vás zajímá, jak se vnořit do dat k use case, proč data transformovat a jaké operace do tohoto kroku patří nebo jak data validovat, článek vás rozhodně zaujme. Není čas ztrácet čas, tak šup do článku, ať se dozvíte něco nového a nezapomeňte si dokumentovat vaše kroky!

Osm nejlepších data analytických online kurzů for free | Mňamka #259

Osm nejlepších data analytických online kurzů for free | Mňamka #259

Tento článek je určen hlavně pro lidi, kteří se chtějí v datech posunout trochu dál. Najdete v něm 8 kurzů na různých webech, portfolio začíná u absolutního intra do datové analytiky až po kurzy se zapojením některých knihoven pro Python jako Pandas a NumPy. Každý kurz má popsanou délku, náročnost, potřebné znalosti a také disponuje krátkým popisem. Chtěli jste s daty začít? Právě teď může být ta správná chvíle kdy se k tomu konečně dostanete.

Nástrahy v bludišti data science: jak být dobrým konzultantem, nikoli pouze nerdem | Mňamka #258

Nástrahy v bludišti data science: jak být dobrým konzultantem, nikoli pouze nerdem | Mňamka #258

V dnešním in-house článku se s vámi Marek podělí o trochu data scientist sebereflexe. Jde o vztah mezi manažery a data scientisty. Obě skupiny se navzájem znají a disponují touhou dosáhnout stejných cílů, těmi cíli jsou zodpověděné otázky, které pomohou byznysu a povedou k jeho zlepšení. To bohužel neznamená, že jejich vztah je vždy růžový, ale nezoufejte! Marek vám dá pár tipů k tomu, jak s manažery lépe vyjít. Proč data scientisti mluví divně? Z čeho mají největší radost? A jak to že si často myslí, že cesta je cíl? To a mnohem víc najdete v této mňamce.