Když se bere kanón na mouchu | Mňamka #52

Štěstí přeje připraveným

Ještě si živě pamatuju, když všechny moje projekty v Pythonu začínaly následujícími řádkami:

Přišlo mi to neprůstřelný. Nemůže mi přece chybět žádný modul, když je tam mám všechny. Četné nadávky linteru jsem ignoroval s myšlenkou: Já přece vím, co používám. Na první pohled je z importů zřejmé, že se jednalo o aplikaci, která pracovala se souborovým systémem, konkrétně pak s daty ve formátech JSON a CSV. Navíc docela nízkoúrovňově přistupovala k síti, s daty dělala nějakou tu dejta sájenc a byla to… hra?

Moje teorie byla taková, že když během kódění zjistím, že něco potřebuju, už to prostě rovnou budu mít. Štěstí přeje připraveným, ne?

Na zkoušku jsem vytvořil venv a nahrál do něj pomocí pip výše zmíněné balíčky. Prázdný venv má u mě kolem 7 MB, po nainstalování balíčků to bylo 150 MB. Samotný pandas má po instalaci všech závislostí (jako je třeba numpy) 113 MB. Dneska nikoho megabajt sem nebo megabajt tam úplně netrápí; v době, kdy váš repozitář může existovat v nesčetně kopiích napříč datovými centry a CDN po celém světě, a nikdo jeho 113 MB pandasu a jeden prázdný soubor s názvem hello-world.py nezaznamená, se to může zdát jako zbytečná buzerace, ale já když vidím ve skriptu na převedení TSV do CSV na začátku import pandas as pd, většinou se zhluboka nadechnu a začnu dělat problémy.

Orat se dá lecčím

Když zjistíte, že se vaším nosem dá tak trochu orat v zemi, stejně si radši na pole pořídíte třeba rádlo. A stejně je to s pandasem. Ono se to dá použít na otevření CSV. Ale ono to k tomu není primárně určené. pandas je jako švýcarák, a setsakramentsky dobrej švýcarák, ale víno se prostě většinou otevírá líp vývrtkou.

Může to vypadat, že jsem si zasedl na pandas; já opravdu vím, že je to skvělý balík modulů. Ale z mé zkušenosti se občas používá moc. Na srazu dejta sájentistů si musí pandas připadat trochu jako jediná žena na gang bangu.

Každý sklízí, co zasel

V Bizztreat jsem se naučil jedno strašně pěkný pravidlo - používej správný nástroj na požadovanou činnost.

O hodinu později koukám, co se hergot děje, že se mi ten obraz nechce a nechce sestavit. Nahlédnu do Dockerfile a představuji si, že takhle nějak vypadaly myšlenky autora:

  • Tom říkal, ať ty obrazy děláme malý, postavím to na Alpine Linux.
  • Moje appka používá pandas, tak teda pip install pandas.
  • Ahá, ono to na Alpine nejde, tak já tam přidám závislosti pro sestavování C knihoven pro Python.
  • pip install pandas
  • Ty jo, trvá to docela dlouho, ale sestavilo se to.
  • Hotovka libovka.

A na co appka ten pandas potřebuje?

Zjišťuje záhlaví céesvéčka.

Až se ucho utrhlo

Abych nebyl jenom za nerváka, co nadává na pandas, takhle prosím se dá docela snadno otevřít céescvéčko bez něj:

Tom

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, rád to s Vámi proberu :-)

Tomáš Votava
CTOmča - datový detektiv
LinkedIn

Jak datová analytika mění fotbal | Mňamka #397

Jak datová analytika mění fotbal | Mňamka #397

Datová analytika už je všudypřítomná, a to i na moderních fotbalových hřištích. Možná jste si také všimli, že ještě zhruba před 10 lety stříleli hráči napříč všemi ligami na branku z mnohem větší vzdálenosti, než je běžné dnes. Co stálo za touto změnou? No samozřejmě, že data. Fotbalové týmy sbírají obrovské množství dat a díky tomu tak už v dnešní době naprosto přesně vědí, jaká je šance na vstřelení gólu z jakékoliv pozice na hřišti. Přečtěte si článek z Nature o tom, jak data mění svět fotbalu!

Data-driven firmy v roce 2023 | Mňamka #396

Data-driven firmy v roce 2023 | Mňamka #396

Většina firem v letošním roce na cestě stát se data-driven příliš nepokročila. Například podle nedávného průzkumu agentury Forrester pouze 48 % dotázaných firem činilo rozhodnutí na bázi kvantitativní analýzy. Zbytek se tak stále ještě rozhoduje spíše podle intuice. Právě v tomto ohledu by ale v roce 2023 mohly nastat velké změny. Zvláště v časech ekonomické nejistoty je totiž naprosto klíčové činit taková rozhodnutí, která vaši firmu nasměrují na růstovou trajektorii. Podívejte se proto na 5 pragmatických kroků, které můžete učinit i vy!

Před a po – datová edice | Mňamka #395

Před a po – datová edice | Mňamka #395

Většina grafů a dashboardů začíná svůj život v celkem jednoduché a přehledné formě. Všichni se v nich tak snadno orientují a mohou se na jejich základě i rychle rozhodovat. Pak to ale začne – proces postupného nabalování. S každým dalším meetingem přicházejí nové požadavky na to, co všechno je potřeba doplnit a vylepšit. Takhle to pokračuje tak dlouho, až jednoho krásného dne koukáte na report a není vám vůbec jasné, co si z něj máte vlastně odnést. Pokud vám tohle zní povědomě, podívejte se, jak z toho ven!