K čemu nám v businessu pomůže tzv. web scraping? | Mňamka #7

Na webu dnes najdete všechno, co vás kdy zajímalo. Ve stále rostoucí digitální ekonomice a potřeby rychleji reagovat, je pro vás web největším zdrojem informací a způsobem, jak vaše data krásně obohatit. Informace z webu vám umožní například pružněji reagovat na ceny, porovnávat různé nabídky, nebo dělat efektivnější a rychlejší rozhodnutí. To zní hezky, že? Ale jak se k těm informacím dostat? Tak ano, můžete si najmout brigádníka, který vám bude každý den manuálně vypisovat do excelu ceny z webových stránek e-shopu konkurence. Ale co když to jde i jinak? 

 

Odpověď jménem Web scraping. 

 

Co to vlastně je? Jde o automatizované získávání dat přímo z webových stránek a jejich následné ukládání do námi zvolené struktury. Výstupem pak může být třeba CSV (JSON, atd), které je pro vás připraveno k dalšímu použití.  Celý proces si můžete zautomatizovat a nadefinovat tak, abyste nejen ušetřili čas, ale hlavně byli schopni rychle reagovat na změnu na trhu. 

Pár příkladů, co můžete sledovat:

 
  • Ceny naše i konkurence, jak se vyvíjí, zda-li partneři dodržují dohodnutou minimální prodejní cenu - můžete tak dynamicky přenastavit své ceny. 
  • Produkty naše i konkurence, jak se jim daří, jaké jsou na ně vázané akce, včetně listingu nových výrobků. 
  • Různé nabídky na webu, sbírat je a porovnávat, můžete tak vytvořit agregátor nabídek z různých portálů, zpracovat je a vybírat ty nejlepší. 
  • Dopad reálných eventů na online media, o čem se píše. 
  • Reklamy naše i konkurence, ladit tak marketing a cenovou politiku.
  • Výskyt klíčových slov (třeba na Google) v čase.
  • Zmínky o naši společnosti, produktu na webu.
  • Chování uživatelů sociálních sítí (co sledují, co lajkují, atd.)
  • Informace o produktech (text, obrázky, atd.) pro analýzu trhu nebo machine learning. 
 

Teď si možná kladete otázku - “A nekrademe ty data náhodou?” -  Ne. Stahují se pouze veřejně dostupná data a prakticky se automaticky stahuje to, co byste si zvládli opsat ručně, třeba na papír. 

Ještě nescrapujete a říkáte si, že byste měli? Napište, zařídíme!

Web scraping díky Apify:

 

Apify je startup zabývající se platformou, která umožňuje extrakci dat z webu a automatizaci procesů na webu. Místo denního manuálního vypisování cen z konkurenčního e-shopu si nastavíte “robota” od Apify, který konkurenci automaticky projde a data vám stáhne. A proč tu mluvíme o Apify? A proč si takového “robota” nevytvořit sami? Jednoduchý script si může napsat každý, ale při složitějších úkonech začne narážet na problémy. V Apify ty “problémy” už vyřešili za uživatele. Navíc do laptopu se vám podaří stráhnout tak 1000 produktů, ale 10 milionů už bude oříšek. Apify v současné době scrapuje něco přes miliardu stránek měsíčně. Je to silný nástroj, za kterým stojí super parta lidí a se kterou rádi spolupracujeme.
 

Na závěr možná malé upozornění a tip:-)

Všechno zní až příliš krásně, že? Jak už to tak bývá, ne vše je vždy růžové a platí to i pro web scraping - konkrétně automatické pravidelné stahování. Dnešní stránky jsou často tzv. dynamické (tedy není vždy lehké takové řešení postavit) a navíc jejich obsah se často mění (pokud tomu tak je, vždy myslete na to, že budete potřebovat někoho, kdo se o celé to řešení bude muset starat).

 A pokud vás to přeci jen zajímá, třebas už jako začínajícího datového analytika - mrkněte na našeho CTOmči video: Úvod do Scrapingu.

Zajímá vás to? Dejte nám vědět.

Eva Hankusová

detektiv nových příležitostí

LinkedIn

Datový detektiv? Blázníš?

Datový detektiv? Blázníš?

V každé nové společnosti se moje manželka obává neškodné konverzační otázky: “A copak dělá váš manžel?” Vždycky jí to zaskočí, takže tazatel snadno nabude pocitu, že je “ducha mdlého” a já, že jsem nějakej podvodník. “Co jim mám říct?” “Řekni, že jsem datový detektiv!” Vždycky se pak zatváří, že jsem se asi zcvoknul.

Proč nechodíme na hackathony (ale občas je spolupořádáme)

Proč nechodíme na hackathony (ale občas je spolupořádáme)

Hackathony jsou super akce. Z principu. V jeden čas a na jednom místě se potkají lidi, co mají zájem o nějaké IT téma - třeba "o data” - a nejen klábosí a poslouchají chytré přednášky jako na jiných typech eventů, ale hlavně společně intenzivně pracují, vymýšlejí, sdílejí zkušenosti, vzájemně se od sebe učí, “networkují".

Z Taiwanu pro bizztreat

Z Taiwanu pro bizztreat

#CzechGeekOntheWay o tom, jaké to je digitálně nomádit pro bizztreat. "Mám týden do odletu na Taiwan, kde chci najít práci jako vývojář a usadit se. Ještě stihnout zapít odjezd se všemi kamarády, narvat do kufru co nejvíc plechovek plzně a zajet do Prahy na kafe s Janou Žižkovou..."