Datový slovník

Orientovat se v datové terminologii není jen tak. 
A tak jsme si řekli, že připravíme takový data & byznys slovník, který s naší prací souvisí. 

A

B

C

D

E

G

H

I

J

K

L

M

N

O

P

R

S

A

Agilní Implementace BI

Probíhá v krátkých, efektivních sprintech, které přinášejí byznysovou hodnotu a jsou velmi flexibilní. Riziko neúspěchu se díky tomuto přístupu značně snižuje. Obecně agilní přístupy k řízení změn nahrazují formalismus tradičních způsobů řízení intenzivnější komunikací a intenzivním využíváním zpětné vazby napříč celým týmem, včetně zadavatele projektu a koncových uživatelů. Agilní implementace neznamená, že se v dlouhodobém pohledu nemůžeme držet předem definované rooadmapy. 

Alokace

Přidělení omezených zdrojů nějakému projektu, procesu apod. V datové analytice se často používá ve spojení s nákladovou alokací, tj. rozdělení sdílených nákladů (např. nájemného) na jednotlivé týmy, zákazníky, produkty apod. Úzce souvisí s pojmem Atribuce.

Atribuce pomáhá najít odpověď na otázku, jak velkou zásluhu mají např. jednotlivé marketingové kanály na provedené objednávce nebo jiné konverzi. 

Analytika

Sběr, měření, analýza, sledování, vyhodnocování a interpretace dat za účelem podpory rozhodování.

Analýza

Z řeckého slova analysis, které znamená rozbor nebo rozklad. Je to metoda zkoumání pomocí rozkladu složitějších skutečností na jednodušší, základní celky.

Atribut 

Rozlišovací rys - vlastnost, kterou přiřadíme nějakým datům. Jak taky někdo zjednodušeně říká - popisný sloupec v tabulce :-))) 

API

Rozlišovací rys - vlastnost, kterou přiřadíme nějakým datům. Jak taky někdo zjednodušeně říká - popisný sloupec v tabulce :-))) 

Automatizace

Použití takových technologií, které umožňují, aby určité procesy (např. měsíční výsledovka) proběhly bez naší aktivní (ruční) práce.
V datové praxi to znamená, že místo toho, aby někdo každý měsíc opisoval čísla od někud do tabulky/ reportu, děje se to automaticky = technologie si automaticky sama ve stanovený čas stahuje data a posouvá je kam je potřeba.

Automatizace procesů

Umožňuje zjednodušit pracovní postupy eliminací zdlouhavých manuálních činností. Když používáte webové (nebo taky “cloudové”) aplikace, máte možnost aplikace propojovat přes služby, které jsou k tomu přímo určené. Nejznámější jsou IFTTT, Zapier nebo Automate.io které podporují stovky webových aplikací ať už z oblasti CRM, Marketingu, komunikace, HR, BI nebo dalších.

(Datová) architektura

Definuje jednotlivé prvky daného systému, vztahy mezi nimi a vlastnosti obou prvků a vztahů. Architektura systému je metaforou analogickou s architekturou budovy. Funguje jako plán struktury daného systému.

B

Balanced scorecard

Metoda pro strategické hodnocení výkonnosti firmy. Základem jsou čtyři perspektivy -  finanční, zákaznická, interních procesů a učení se a růstu. Mohou však být odlišné v závislosti na konkrétní situaci. Podstatný je princip vyváženosti jednotlivých cílů.

Business Intelligence (BI)

Procesy, technologie a nástroje, které umožňují firmám transformaci dat na informace, které následně slouží pro strategické i operativní firemní rozhodování.

Big data

Extrémně velké datové soubory, které lze analyzovat a odhalit tak různé vzorce, trendy nebo asociace. Prostě všechno, co se nevejde do Excelu :-)))

BigQuery

Plně managovaná služba datového skladu, která umožňuje škálovatelnou analýzu přes petabajty dat. Jedná se o platformu jako službu, která podporuje dotazování pomocí ANSI SQL.

BPM

Business process management

Bucket

Používá se jako živá metafora, tak jako obecně přijímaný technický termín v některých specializovaných oblastech. Nejčastěji se používá pro označení způsobu organizace dat do různých oblastí.

Budget

Rozpočet subjektu - jeho očekávané odhadované finanční toky, zpravidla v nějakém období.

Business

Slovo více významů. Můžeme ho chápat jako skupinu lidí založenou za účelem dosažení společných cílů. Ať už finančních nebo jiných.

Business performance management

Přístup, jehož cílem je strategicky zvýšit kvalitu rozhodovacích procesů díky vytvoření jednotného, integrovaného manažerského prostředí podporující zvýšení výkonnosti na všech úrovních firmy. Základem je vytvoření rámce, v němž bude možné propojit již osvědčené metody, přístupy nebo systémy.

C

Cashflow

Cashflow představuje rozdíl mezi příjmy a výdaji peněžních prostředků za určité období.

CSV (Comma-separated values)

Jednoduchý textový souborový formát určený pro výměnu tabulkových dat.

CRM (Customer relationship management)

Řízení vztahů se zákazníky - přístup, který se vyznačuje aktivní tvorbou a udržováním dlouhodobě prospěšných vztahů se zákazníky.

Čištění dat

Proces identifikace neúplných, nesprávných, nepřesných nebo irelevantních dat a jejich následnou nápravu nebo smazání.

D

Dashboard - dashboardy

Report, který efektivně a přehledně na jedné stránce prezentuje klíčové ukazatele relevantní pro konkrétní cíl.

Data

V IT jsou to údaje zaznamenané v digitální podobě určené k počítačovému zpracování.

Data blending

Proces, při kterém jsou data z více zdrojů sloučena do jednoho. Týká se nejen slučování různých formátů souborů nebo různorodých zdrojů dat, ale také různých druhů dat.

Data driven firma

Firma, která využívá přístup “založený na datech”. Její strategická, taktická a operativní rozhodnutí vychází z analýzy a interpretace dat.

Data enrichment

Obohacování dat - propojení dat, se kterými pracujeme, s dalšími externími zdroji.

Data governance

Koncept, který společnosti využívají ke správě, využívání a ochraně svých dat. 

Data lake

Úložiště, ve kterém je uloženo obrovské množství nezpracovaných dat v nativním formátu, dokud je nepotřebujete. K ukládání dat využívá plochou architekturu.

Data lineage

Datová linie sleduje datový tok od samotného zdroje až ke koncovému uživateli. Popisuje původ, pohyb, vlastnosti a kvalitu určité datové sady.

Data mining

Vytěžování dat - analytická metoda založená na získávání netriviálních na první pohled skrytých souvislostí, vztahů a informací z dostupných dat.

Data profiling

Profilování dat je proces kontroly zdrojových dat, porozumění jejich struktuře, obsahu a vzájemným vztahům. Cílem je identifikace dalšího potenciálu datové sady.

Data science

Sjednocuje statistiku, analýzu dat, machine learning a další související metody.  Vytváří prediktivní modely, hledá neviditelné vzorce a odvozuje z dat další smysluplné informace.

Data warehouse

Centrální úložiště dat z různých zdrojů. Data jsou organizována v tabulkách.

Databáze

Systém pro ukládání dat a jejich následné zpracování.

Data-driven

Přístup založený na datech - strategická rozhodnutí vychází z analýzy a interpretace dat.

Datová analýza

Široká oblast aktivit a technik zpracování a využívání dat s cílem pochopení minulosti, měření přítomnosti a odhadování budoucnosti z dat. (plus podpora rozhodování)

Datová kvalita

Subjektivní pojem, závisí na požadavcích uživatelů, způsobu použití dat atd. Cílem všeobecně je zajistit uživatelům data v takové kvalitě, aby s nimi bylo možné smysluplně pracovat.

Datové typy

Jsou určeny druhem dat tzn. oborem hodnot proměnných a konstant v programovacích jazycích a zároveň typickými výpočetními operacemi, které lze s daty provádět.

Datový model

Abstrakce (model) struktury vybraného datasetu. Popisuje jednotlivé datové entity (tabulky), jejich atributy (sloupečky) a vztahy mezi nimi.

Datový repozitář

Datové úložiště verzovacího systému, ze kterého je možné vytvářet další úložiště, tzn. klonovat jeho obsah.

Datové tržiště (datamart)

Součást (podmnožina) datového skladu, která obsahuje data připravená pro specifický účel, např. data pro určité oddělení a/nebo pro specifický způsob konzumace (vizualizace, trénování ML modelů, integrace do specifických aplikací apod.).

Datový zdroj

Zdroj strukturovaných i nestrukturovaných dat. Může to být cokoliv od SQL databáze až po telefonní seznam v excelu nebo nahrávky jednotlivých hovorů z call centra.

Demokratizace dat

Přístup organizace k využívání dat, usilující o to, aby data byla v rámci organizace co nejvíce přístupná všem, kdo je potřebují, a to tak, aby každý v organizaci měl k aktuální data,  v potřebné míře detailu, správná a aktuální.

Dočasné úložiště dat

Slouží k dočasnému uložení extrahovaných dat z datového zdroje s cílem zajistit jejich přípravu a potřebnou kvalitu před vstupem do datového skladu.

DQA

Data quality assurance - řízení datové kvality.

Drill down (Drilling)

Technika, umožňující rozpadnout vybranou metriku podle definovaných dimenzí.

DBT (Data Built Tool)

Nástroj, který se v ELT stará o to “T”. Základem je projekt, který se konfiguruje sadou YAML souborů a SQL souborů s makry.

E

Embedovaná analytika

Dashboardy se zobrazují přímo v systému, kde se uživatel pohybuje v průběhu dne - např. intranet, point of sale system, CRM system apod.

Enterprise data warehouse (podnikový datový sklad)

Databáze nebo kolekce databází, která centralizuje podnikové informace z více zdrojů a aplikací a zpřístupňuje je pro analytiku a použití v celé organizaci.

Enterprise information system (podnikový informační systém)

 Jakýkoliv druh informačního systému, který integrací zlepšuje funkce podnikových procesů jako plánování, zásoby, nákup, prodej, marketing, finance nebo HR. Je schopen fungovat ve všech částech a na všech úrovních v podniku.

ERP - Enterprise resource planning

ERP se obvykle označuje jako kategorie softwaru pro správu podniků - obvykle sada integrovaných aplikací - kterou může organizace použít ke shromažďování, ukládání, správě a interpretaci transakčních dat z mnoha obchodních aktivit. Typicky pokrývá agendy finančního účetnictví, pokladen, fakturace, nákupu, skladové evidence, plánování a řízení výroby, logistiky a mnoho dalších.

ETL (extract, transform, load)

Proces, při kterém získáváme data z mnoha zdrojů, transformujeme je, vyčistíme a nahrajeme je třeba do datového skladu. Zde slouží jako podklad pro následnou analýzu.

ELT (extract, load, transform)

Alternativa k ETL. Na rozdíl od ETL se v modelech ELT data netransformují při vstupu do datového skladu, ale ukládají se v původní nezpracované struktuře a formátu, přičemž k jejich tranformaci dochází v reálném čase až v okamžiku, kdy jsou data konzumována (např. formou vizualitace). To umožňuje často rychlejší přístup a nižší celkové provozní náklady na jejich zpracování.

Extrakce dat

Proces získávání dat z primárních systémů za účelem dalšího zpracování.

G

GoodData

Platforma na zpracování dat a distribuční vizualizační nástroj. 

Granularita

Úroveň detailu daného datového souboru. Vysoká granularita znamená vysokou úroveň detailu a naopak. Např. soubor s daty o prodejích, pokud je složen z jednotlivých položek objednávek, má vyšší granularitu, než stejný soubor, složený pouze z celkových informací o daných objednávkách.

GiT

Git je nástroj pro správu zdrojového kódu. Jeho silné stránky jsou verzování, možnost kolaborace (takhle se to asi česky nedá říct, takže "spolupráce" :smile:) více lidí a v analytice má neodmyslitelné místo hlavně kvůli verzování a sdílení (změní se struktura na vstupu, změní se SQL a já chci mít možnost podívat se zpětně, jak ten kód byl). Někdo zanese změnu, přestane to fungovat a já chci vědět, kdo tu změnu kdy udělal a jak ten kód vypadal před změnou.

H

Historizace dat 

Data jsou v datovém skladu obvykle udržována v historické podobě, nejen pouze v aktuálním stavu. Kvůli možnosti provádění analýz zaměřených na vývoj v čase.

CH

Churn (model)

Matematický model předpovědi pravděpodobnosti odlivu konkrétních zákazníků. Model pracuje s důvody odchodu, které jsou ovlivnitelné - např. přechod ke konkurenci.

I

Inovace

Rozlišujeme mnoho druhů inovací, všeobecně je inovace určitým zdokonalením. Stojí za ní komplexní proces od prvního nápadu přes vývoj až po realizaci.

Integrace dat

Shromažďování dat z různých zdrojů a jejich následné poskytnutí dál k dispozici uživatelům v jednotné a konzistentní struktuře a formátu.

J

Join tabulek (spojování tabulek)

Informace bývají rozděleny do velkého množství tabulek, které jsou vzájemně propojeny přes klíče. Join tabulek nám je umožňuje různými způsoby spojovat.

K

Keboola

Data operations company.

Keboola Connection

Cloudová platforma na zpracování dat, díky které se všechna firemní i externí data z různých datových zdrojů dokážou organizovat na jednom místě.

Key performance indicator (KPI)

Klíčový ukazatel výkonnosti. Používá se pro měření úspěšnosti nějaké aktivity organizace.

Klastr (cluster)

Skupina záznamů v rámci datasetu, které mají podobné charakteristiky a zároveň se signifikantně odlišují od jiného klastru.

Konektory

Např. extraktor nebo writer - funkční aplikace/skript, který stahují data z externích systémů, případně zapisují data tamtéž.

Komponenta

Technická součást většího celku.

Konsolidace

Sjednocení dat z hlediska struktury, formátu a významu z různých zdrojů na jedno místo.

Konverze

Konverze znamená změnu. Například proces, kdy návštěvník webu provede námi požadovanou akci - objedná zboží apod.

Konverzní poměr

Metrika, která v procentech vyjadřuje, kolik zákazníků z celkového počtu provedlo námi požadovanou akci.

Korelace

Lineární závislost mezi dvěma veličinami. Tato statistická závislost však nemusí znamenat kauzalitu.

Kvalita dat

Soubor charakteristik, kterými popisujeme požadované vlastnosti dat - např. spolehlivost, integrita, bezchybnost, důběrohydnost, dostupnost apod.

L

Location Intelligence

Zabývá se vizualizací různých datových vrstev přímo na mapových podkladech. Proto je ideální ve chvíli, kdy např. hledáme místo pro novou pobočku.

M

Machine learning (strojové učení)

Zabývá se tvorbou algoritmů, které se jsou schopny předpovídat určité tendence a přizpůsobit se změnám okolního prostředí. Neustále tak zlepšují svou přesnost na základě předchozích vstupů.

Mapovací tabulka

Pomocná tabulka v databázi, převádějící hodnoty sady atributů na jinou. Např. mapování struktury účetního deníku do struktury manažerského výkazu.

Master data management

Zajišťuje datovou kvalitu, unikátnost a aktuálnost záznamů v nejdůležitějších tabulkách tzv. kmenových dat, jako jsou číselníky zákazníků, produktů, členů týmu apod., a to včetně integrity vzájemných vazeb a vazeb na transakční data. Někdy se také hovoří o zajištění tzv. Golden Record, místa „jedné pravdy“.

Matching dat

Identifikování, porovnávání a slučování záznamů, které odpovídají stejným entitám z jedné nebo několika databází.

Metadata

Data, která poskytují informace o datech jiných.

Metodika

Souhrn doporučených praktik a postupů, pokrývajících celý životní cyklus vytvářené aplikace nebo datového řešení.

Metrika

Indikátor, nebo ukazatel, operující s jednoduchými číselnými fakty. Např. metrika Tržby může být definována jako součet součinů množství a jednotkové ceny bez DPH všech položek vydaných faktur.

Migrace

Proces přesunu.

Migrace dat

Proces přesunu dat z jednoho umístění do druhého, z jednoho formátu do jiného nebo z jedné aplikace do druhé.

Monitoring dat

Proces proaktivní kontroly, hodnocení dat a jejich kvality tak, aby bylo zajištěno, že jsou vhodné pro daný účel.

Mockup

Jednoduchý vizuální návrh budoucí obrazovky nebo stránky informačního systému. Mockup může být např. rukou na flipchart nakreslený návrh rozložení budoucího dashboardu apod.

Motivace

Hybná síla.

Multiprojektová architektura

Rozčlenění velkého projektu do menších logických celků.

mysql

Open source databáze, která je schopna ukládat velké množství různorodých dat a poté je na dotaz vrátit zpět.

N

 Návratnost (ROI, Return on investment)

Zabývá se vizualizací různých datových vrstev přímo na mapových podkladech. Proto je ideální ve chvíli, kdy např. hledáme místo pro novou pobočku.

O

OLAP kostka (krychle, datová kostka)

Multidimenzionální pole hodnot („n-D“). Termín se obvykle používá v kontextech, kde jsou tato pole velká v řádech Giga bytů nebo Tera bytů. Jednotlivé datové dimenze, představují dimenze “kostky” a hodnoty jsou předpočtené hodnoty jednotlivých metrik. Koncept se používal v 90. letech minulého století, kdy analytické databáze neměly dostatečný výkon, takže hodnoty metrik se “předpočítaly” do kostky pro jednotlivé kombinace datových dimenzí.

OLAP systém (online analytical processing)

Technologie uložení dat v databázi, která umožňuje uspořádat velké objemy dat tak, aby byla data přístupná a srozumitelná uživatelům zabývajícím se BI.

Operational data store

Centrální databáze, která poskytuje snapshoty nejnovějších dat z více transakčních systémů. Umožňuje kombinovat data v původním formátu z různých zdrojů do jednoho cíle tak, aby byla k dispozici pro obchodní reporty.

Orchestrace dat

Proces, který řídí zpracování dat - software bere data z více zdrojů, kombinuje je a následně zpřístupňuje nástrojům pro další konzumaci.

P

Párování

Proces přiřazování (někdy také označován jako “atribuce”) záznamů jednoho datasetu na druhý. Např. přiřazování bankovních transakcí konkrétním položkám pohledávek nebo závazků.

Parsování

Syntaktická analýza nějakého textu. Podle předem definovaných pravidel probíhá rozbor textového řetězce nebo souboru cílem určit strukturu jednotlivých prvků a hodnot, které jsou v řetězci nebo souboru kódované. Např. váš internetový prohlížeč provádí parsování řetězce, který zadáte do adresního řádku s cíle určit protokol, server a konkrétní stránku, kterou chcete zobrazit, případně, zda má zahájit vyhledávání.

Plánování

Smysl plánování spočívá ve stanovení cílů a vymezení postupů, jak těchto cílů dosáhnout.

Predikce

Předpověď, prognóza, tvrzení o tom, co se stane/nestane v budoucnu. Používá se pro odhady podložené určitou vědeckou hypotézou nebo teorií.

Prediktivní analýza

Využívá historická data a prediktivní modely k předpovědi určitého jevu.

Preskriptivní analýza

Využívá různé nástroje, např. machine learning, simulace nebo neuronové sítě, za účelem komplexní analýzy události. V případě, kdy prediktivní analýza odhaluje, co a kdy se stane, preskriptivní analýza určuje, i proč se to stane, tím napomáhá např. při identifikaci budoucích rizik a příležitostí apod.

Primární klíč

Pole nebo kombinace atributů datové entity, který jednoznačně identifikuje každý její výsky (každý záznam v databázové tabulce). Ten je díky tomu jednoduše k nalezení. Také umožňuje vzájemně propojit dvě tabulky a vytvořit mezi nimi relaci.

Propenzitní model

Metoda prediktivní analytiky, týká se statistické analýzy klientů nebo třeba zaměstnanců… používá se např. k identifikaci osob, které s největší pravděpodobností zareagují na nabídku apod.

Případová studie (case study)

Ukazuje na konkrétním příkladu klienta průběh celého projektu. Od začátku do konce. Skvělý způsob, jak ukázat novým klientům, co umíte.

R

Real-time analytics

Proces přípravy a měření dat v reálném čase, jakmile vstoupí do databáze. Uživatelé získají přehled nebo mohou vyvodit závěry okamžitě nebo velmi rychle po tom, kdy data vstoupí do jejich systému. Analýza v reálném čase umožňuje podnikům reagovat bez prodlení.

Relational database management system (RDBMS)

Systém správy databáze založený na relačním modelu dat. Na tomto modelu je založena většina dnes používaných databází.

Refaktor

Proces provádění změn v softwarovém systému tak, že nemají vliv na vnější chování kódu, ale vylepšují jeho vnitřní strukturu s minimálním rizikem vnášení chyb. Při refaktorování se provádí malé změny, ale celkový efekt je velký, a to v podobě čistšího, průhlednějšího a čitelnějšího kódu, kód se také lépe udržuje a rozšiřuje. Zlepšuje se také celková kvalita kódu a architektura, snižuje se počet chyb a tím i zvyšuje rychlost vývoje programu. 

Referenční integrita

Pomáhá udržovat vztahy v relačně propojených databázových tabulkách. Cizí klíč v jedné tabulce musí odkazovat na existující primární klíč ve druhé tabulce, popř. musí obsahovat hodnotu NULL.

Replikace dat

Umožňuje uchovávat aktuální data ve více oddělených úložištích.

Report

Vizualizace dat, která srozumitelně a přehledně prezentuje klíčové hodnoty, trendy apod.

Reporting

Proces vytváření, údržby a aktualizace reportů.

Reporting datové kvality

Dokumentace trendů, identifikace problémů a příležitostí v kvalitě dat.

Reportování

Viz. reporting.

Repozitář

Takové datové úložiště verzovacího systému, ze kterého je možné vytvářet další úložiště, tzn. jeho obsah klonovat. Tím se liší od pracovní kopie,  která duplikaci neumožňuje.

Rest API

REST je architektura API, která nám umožňuje přistupovat k datům a provádět nad nimi CRUD operace. REST je bezstavový, čímž jednak značně zjednodušuje komunikaci s API a umožňuje paralelní zpracování.

Rozpočet

Odhadované finanční toky, zpravidla v nějakém období.

S

SaaS

Software as a service - umožňuje uživatelům připojit se ke cloudovým aplikacím a používat je přes internet.

Sběr dat

Systematický přístup ke shromažďování a měření informací z různých zdrojů tak, abychom získali přesný obraz o dané oblasti zájmu.

Scraping

Automatizované získávání dat přímo z webových stránek a jejich následné ukládání do námi zvolené struktury. Výstupem pak může být třeba CSV (JSON, atd), které je pro vás připraveno k dalšímu použití.

Segmentace RFM

Způsob zákaznické segmentace založené na předchozím nákupním chování. Potřebujeme k tomu tři zákaznické metriky: Recency, Frequency a Monetray.

Sekundární klíč

Není jedinečný - např. jméno vs. primární klíč jednoznačně identifikuje záznam (např. rodné číšlo).

Self-service BI

Efektivní systém BI nástrojů, jehož hlavní myšlenkou je maximální soběstačnost koncového uživatele a jeho nezávislost na specialistech datové analýzy apod. 

Schéma

 Jednoduchý, v hlavních rysech znázorněný plán, osnova apod.

SLA

Service level agreement - dohoda o úrovni poskytovaných služeb dohodnutá mezi uživatelem a poskytovatelem služby.

Slice and dice

Rozdělení velkého množství dat na menší části a následná analýza z různých pohledů