Machine learning, modelování, predikce... jsou na ně vaše data připravena? | Mňamka #192

Machine learning, deep learning, umělá inteligence - málokdo přesně ví, co se za těmito pojmy skrývá, ale zhruba každý člověk tuší, že budoucnost se bez nich neobejde. Machine learning neboli strojové učení proniká i do business sféry, kde pomáhá získat podnikům konkurenční výhodu - a kdo by ji nechtěl? Spousta firem je ochotna vynaložit nemalé prostředky na sestavení ML modelu, ale jen zlomek těchto modelů je nakonec úspěšně použit. Proč? Pojďme to vzít od začátku…

Dvě základní otázky

Pokud za námi přijdete s poptávkou na model, zeptáme se vás na dvě základní otázky: 1) jaká máte data a 2) jaký model potřebujete. Obě otázky jsou naprosto klíčové a úzce spolu souvisejí. Zaměřme se na tu první. Odpověď, kterou slýcháme často zní: “Jasně, máme X oddělení, každé sbírá data už řadu let, a když náhodou vypadnou systémy, tak to tam nasypem ručně”. To nám ale mnoho neřekne. 

Data

Pro model (a obecně pro jakoukoliv smysluplnou analýzu) potřebujeme, aby data byla kvalitní a byl jich dostatek. Model se na nich bude totiž trénovat. Sami si můžete představit, co je snazší - učit se z jasně strukturovaných poznámek, nebo z mnoha zdrojů, které jsou mezi sebou špatně provázané, označují totéž různými jmény, velké množství informací v nich úplně chybí a nejste se schopni v nich vyznat? Po očištění a “uklizení” dat se pak může ukázat, že použitelná je jen část. Jak velká ta část musí být, aby se na ni dal postavit model, nám napoví druhá otázka.

Model

Modelů existuje celá řada. Někdo chce předvídat odchod zákazníka, jiný chce rozsegmentovat uživatele podle jejich chování, aby na ně mohl lépe cílit reklamu. Modely, které jsou vázány na nějakou časovou proměnnou, mají obecně daleko striktnější požadavky na data. Například pokud chceme předpovídat sezónní chování, musíme mít dostatek dat za několik sezón dozadu, pravděpodobně nám nebudou stačit poslední dva roky. U segmentace by dva roky mohly stačit bohatě. 

Tady si dovolím udělat malou odbočku. Připomeňme si, co bývá hlavním cílem modelu - navýšit revenue nebo zvýšit efektivitu nějakého procesu. Proto by měl být typ modelu vybrán tak, ať jeho implementace má co největší dopad. Jenže jak víme, že právě např. model segmenující uživatele je to, co firmu posune nejdál? Bez znalosti dat a předchozích analýz nijak. Proto není dobré se bezhlavě vrhat do modelování, pokud svá data neznám. 

Use case

Definování tzv. use case je základní stavební kámen odpovědi na druhou otázku, kterou jsme zmiňovali na začátku - vím, proč model chceme, co od něj očekáváme, co s jeho výsledky budeme dělat a kam nás to může posunout. Tady nesmí být žádná neznámá.

Osobně si myslím, že aby měl model co největší efekt, měl by být spíše třešničkou na dortu než první nástroj, po kterém sáhneme. Možná se najde někdo, kdo slíbí vytvoření modelu, aniž by vaše data viděl, ale jak říká náš Jirka “nevěřte šamanům”. Je spousta bubáků, kteří se během modelování mohou ukázat a zajistí, že se úspěšnost modelu bude rovnat tahání karet z klobouku (v poslední době to může být typicky odlišné chování zákazníků během pandemie). Předchozí analýza (tzv. feasibility study) odhalí největší rizika a ukáže, zda je rozumné se do modelu pouštět, jaké může mít limity, a nebo, že je potřeba prostě počkat a sesbírat více dat.

Myslíte si, že jste ve fázi, kdy má smysl nad modelem uvažovat? Znáte svá data, víte, jak by vám mohl model pomoci? Nebo jste zatím ve fázi, kdy byste rádi koukli na svá data a zjistili, co se s nima dá dělat a jak je na budoucí modelování připravit? Neváhejte se nám ozvat, rádi to s vámi probereme :)

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, ráda to s Vámi proberu :-)

Barbora Kacerovská
datový detektiv
LinkedIn

Microsoft Fabric vs. Power BI: Jaké jsou rozdíly? | Mňamka #496

Microsoft Fabric vs. Power BI: Jaké jsou rozdíly? | Mňamka #496

Výběr správného nástroje pro analýzu dat může být náročný vzhledem k množství dostupných možností. Od společnosti Microsoft se nabízí dvě populární volby, kterými jsou Power BI a Microsoft Fabric. Pojďme se podrobněji podívat na jejich funkčnost, design, bezpečnost, zaměření na jednotlivá odvětví a mnoho dalšího.

Příběh transformace Crocodille ČR s Bizztreatem | Mňamka #495

Příběh transformace Crocodille ČR s Bizztreatem | Mňamka #495

🔊Jsme pyšný, že s vámi můžeme sdílej skutečný příběh, který píšeme už několik let s naším velkým klientem Crocodille ČR. Právě totiž vyšla nová epizoda Data Talku, ve které máme prostor vyprávět tento příběh! 💥 Reference je tou nejlepší zpětnou vazbou na naší práci, a tady ta reference zaznívá přímo od Jiřího Brothánka a dostává reálný hlas. 🥪 Jsme součástí transformace Crocodille ČR od počátečních někdy i bolestivých kroků, přes výzvy až po triumfy! Jiří Vicherek vede rozhovor s Jiřím Brothánkem, Head of IT v Crocodille, a naším team leaderem Tomášem Dědkem. Společně odhalují, jak jsme s Crocodille postupovali na cestě od tradičních business modelů k implementaci moderního BI a nyní i AI! 🕵️ Jsme hrdí, že můžeme být datovými detektivy pro jedny z hlavních hráčů na českém trhu.🎧Nenechte si tu epizodu ujít!

Zpracování dat z LinkedInu prostřednictvím ETL nástroje Bizzflow  | Mňamka #494

Zpracování dat z LinkedInu prostřednictvím ETL nástroje Bizzflow | Mňamka #494

Pro některé je LinkedIn pouze sociální sítí, na které mají svůj profesní profil, jen aby se neřeklo a pro některé může být LinkedIn jakási svatyně personal brandingu a navazování profesních kontaktů. Fakt, že LinkedIn generuje celosvětově až 80% B2B leadů ze všech sociálních sítí jen potvrzuje to, že zvláště pro firmy je LinkedIn skvělým místem, kde prezentovat svoje produkty či služby. V dnešní mňamce bych ráda mluvila o tom, jak jsem postupovala ve své bakalářské práci na téma Zpracování marketingových dat prostřednictvím ETL nástroje Bizzflow a v podstatě tak představit velmi krátký příběh, jak jsem se dostala z nápadu až k hotovému dashboardu.