Marketingová agentura » Marketingový slovník » Co je to crawler?

Co je to crawler?

Crawler je typ internetového robota, jehož hlavním cílem je indexování nebo získávání informací z webových stránek. Největší popularitu má bezesporu Googlebot – vyhledávací robot vytvořený firmou Google. Díky němu máme možnost pohodlně prohledávat internet při hledání potřebných informací. Crawler, často nazývaný pavoukem (ang. spider), využívá efektivního pohybu po síti k indexaci webových stránek.

Obsah

Jak funguje crawler?
Googlebot
Využití crawlerů v SEO

Jak funguje crawler?

V praxi je crawler počítačová aplikace, jejímž hlavním úkolem je automaticky navštěvovat webové stránky a stahovat významné informace z pohledu programu. Crawler také vyhledává odkazy na stránce, aby opakovaně prováděl ty samé nebo podobné akce. Díky práci internetových pavouků, známých také jako crawlery, jsme schopni efektivně vyhledávat informace, které nás zajímají.

Dnes není proces crawlování tak jednoduchý, jak tomu bylo před několika lety. To je způsobeno tím, že roste množství stránek využívajících JavaScript a jeho frameworky. Crawlování stránek je možné, protože moderní pavouci používají prohlížeče v režimu headless k renderování obsahu.

Googlebot

Společnost Google má roboty, které slouží k prohledávání internetu za účelem aktualizace svého indexu. Googlebot využívá mapy stránek a databáze, které byly vytvořeny během předchozího indexování, aby přesně určil další kroky. Pokud robot narazí na nové odkazy na webových stránkách, budou přidány na seznam stránek, které budou navštíveny během dalšího kroku. Googlebot sleduje všechny změny odkazů, aby umožnil aktualizaci indexu.

Využití crawlerů v SEO

Crawlery jsou běžně používány v procesu optimalizace webových stránek pro vyhledávače. Jedním z takových programů je Screaming Frog, který má rozhraní schopné přesně určit, jaká data by měla být získána během crawlování. V analytické zprávě obdržíme informace jako:

stránky s nízkým obsahem, tedy thin content,
chybějící alternativní texty pro obrázky,
duplicitní nadpisy H1 a titulky stránek,
odpovědní kódy serveru pro URL adresy, což zahrnuje hledání poškozených odkazů,
strukturu webu.

Na trhu jsou k dispozici jak komerční, tak open source řešení softwaru.

Screaming Frog,
SEMrush,
Ahrefs,
Sitebulb,
OpenSearchServer,
Apache Nutch™,
Scrapy.

V mnoha situacích se objevuje potřeba vytvoření vlastního crawleru, který bude splňovat specifické požadavky. Řešením tohoto problému mohou být rozšířené knihovny související s různými programovacími jazyky. Mezi populární nástroje s otevřeným zdrojovým kódem patří Puppeteer (pro jazyk JavaScript) a BeautifulSoup a Scrapy (pro jazyk Python).

Další:

Kdo je to bloger?

Bloger - tímto termínem se označuje osoba, která vede blog a zabývá se publikováním obsahu na internetu, stejně jako udržováním

Čtěte celý článek...

Co je to crawler?

Crawler je typ internetového robota, jehož hlavním cílem je indexování nebo získávání informací z webových stránek. Největší popularitu má bezesporu

Čtěte celý článek...

Co je to cloaking?

Cloaking (angličtina pro zamaskování) je technika používaná některými webovými stránkami v rámci „Black Hat SEO“. Spočívá v předkládání vyhledávačům jiného

Čtěte celý článek...

Co jsou faktory hodnocení?

Faktory hodnocení (anglicky ranking factors) jsou faktory, které mají přímý vliv na pozici a viditelnost webové stránky a profilů Google

Čtěte celý článek...

ROI co to je a jak to vypočítat?

(ang. return on investment, návratnost investice) Je to ukazatel sloužící k hodnocení efektivity investic. Umožňuje nám posoudit účinnost investic, efektivitu

Čtěte celý článek...

Co je to e-commerce?

E-commerce (e-handel, elektronický obchod) - je činnost spočívající v prodeji a nákupu zboží nebo služeb prostřednictvím internetu. Zákazník objednává zboží

Čtěte celý článek...

Co je to SEM?

SMO (Social Media Optimization) - jsou to činnosti, které se provádějí na dané webové stránce i mimo ni, aby ji

Čtěte celý článek...

Algoritmus Google - co to je?

ObsahAlgoritmus Google - definice podle M16.plAlgoritmus Google je hloupýJak podvést algoritmus Google? Algoritmus Google - definice podle M16.pl Algoritmus Google

Čtěte celý článek...