Myslete na dataře už při tvorbě databáze | Mňamka #243

Pořád dokola potkáváme čtyři zádrhely, které se objevují v databázích u klientů. Velmi často tyhle “patterny” vedou k velkým problémům, frustraci a ve finále prodražují celý projekt. Pojďme si je projít.

1. Ta data jsme smazali

Možná Vám to přijde úsměvný, mně je ale spíš do breku. 

“prosímvás a ty historický data, máte to někde”“nemáme, smazali jsme je” …

Proč? Protože objem. Ano je to tak, ještě dnes se setkáváme s tím, že někdo třeba stará data zagreguje a smaže zdroj. Takže když chcete zpětně něco projít nebo dopočítat, máte smůlu. Dneska, kdy existuje 1000 a jedna služba na zálohování dat, a cloud úložiště stojí jednotky dolarů měsíčně… nedělejte to! 

 

2. K čemu historizovat?

Představte si, že měníte nějakou nabídku, položky v ceníku. Nění špatný si je do databáze uložit k danému dni, nebo držet historii změn. Je totiž možné, že se dostanete do situace, kdy na tyhle položky jsou navázané nějaké další položky a dost se do věcí zamotáte. V lepším případě to nějak rozmotáte, ale historii, pokud prostě k “danému idčku” přepíšete hodnotu, tu už nikdy nedohledáte...  
 

3. Total_price

Konečně. Moje nejoblíbenější eshopařská libůstka.

Dostávám odpověď na otázku “jak spočítám obrat?”. Chytám se za hlavu. Zase. Je to tam. Ten sloupec v databázi, o kterém většinou eshopaři tvrdí, že “je v něm všechno”, ve skutečnosti s ním neuděláte nic. Jmenuje se většinou total_price nebo nějak podobně. A co že je to za sloupec? No v něm je přece všechno! Je tam obrat. Jednoduchý jako facka. 

Jenže ve skutečnosti vůbec. To, že někdo obří “ify-věží” v kódu spočítal správně obrat taky mimo jiné znamená, že vůbec nevíte, jak naložil se slevama, dopravou, vratkama, dph … což je většinou to, co chcete, když analyzujete data. Chcete jednoduše filtrovat, porovnávat, započítat nebo nezapočítat. 

Vývojáři to tak určitě mysleli dobře, chtěli ušetřit práci, ale ve finále je to naopak. Samozřejmě, ruku na srdce, zdokumentovali to? … Když ne, nezbyde Vám nic jinýho, než luštit “ify-věž”. 

 

4. Slevy kam se podíváš

Posledním tipem, jak pomoc analytikům v práci, je správně pracovat se slevama. Prosím, dávejte ceny jako položky na fakturu se záporným znaménkem. Usnadníte nám práci. Dost často si totiž jednu slevu uložíte na fakturu, další na položku, další někam jinam a ve finále máte nějaké ty slevové kódy v jiné tabulce a s těmi se samozřejmě taky počítá… obloukem se tak vracíme k magickému total_price sloupečku… 

Myslete na nás! :)

Máte k článku nějaké otázky nebo připomínky? Klidně mi napište, rád to s Vámi proberu :-)

Jirka Tobolka
datový detektiv
LinkedIn

Jak přistupovat k user managementu v datové analytice? | Mňamka #373

Jak přistupovat k user managementu v datové analytice? | Mňamka #373

Ne každý ve firmě by měl mít přístup úplně ke všem datům. A to ani tam, kde naplno vládne datová demokratizace. Základem dobré bezpečnosti je totiž tzv. princip nejnižších privilegií – nedávejte uživatelům přístup tam, kam ho nepotřebují. Stejně tak je ale potřeba pro klíčové procesy nastavit odpovídající kontrolní mechanismy, které povedou k minimalizaci bezpečnostních rizik. Co dalšího ještě můžete udělat? Verča pro vás popsala 5 důležitých bodů, kterých se společně s našimi klienty při přidělování uživatelských přístupů a práv snažíme držet.

Je to mezera, není to mezera? | Mňamka #370

Je to mezera, není to mezera? | Mňamka #370

O významu čištění dat toho bylo napsáno již poměrně hodně. Zjednodušeně by se to dalo shrnout takto – pokud si neuděláte úklid už na vstupu, budete mít neskutečný bordel i na výstupu. Dnes se proto podíváme, jak ve si Snowflake SQL vyčistit finanční čísla z Google Sheets. Petr vám postupně ukáže, jak by měl vypadat čistící skript pro data různých formátů. A narazil při tom i na jeden opravdu záludný oříšek. Není totiž mezera jako mezera. O tom už ale více v dnešní mňamce!

Period Over Period v Tableau | Mňamka #367

Period Over Period v Tableau | Mňamka #367

Při práci s daty ve vizualizačních nástrojích si velmi často potřebujete porovnat jednotlivá časová období. Zajímají vás např. prodeje tento vs. předchozí rok. V Tableau máte hned několik možností, jak takové period over period srovnání provést. Kterou z nich ale zvolit? Tomáš pro vás sepsal mňamku, ve které vás postupně provede výhodami a nevýhodami standardního řešení v podobě Quick Table Calculation, použití LOOKUP funkce, výpočetně náročnějšího data blendingu a variabilního custom filteru s předdefinovaným obdobím.