Als je hebt gewerkt aan de technische optimalisatie van een website dan ben je vast en zeker bekend met de termen crawl budget. Ben je niet bekend met deze term? Maak je geen zorgen. De meeste bedrijven focussen zich puur op het optimaliseren van de content en het verkrijgen van meer autoriteit. Het optimaliseren van de techniek is een ondergewaardeerd onderdeel van het zoekmachine optimalisatieproces. In dit artikel zullen we niet alleen uitleggen wat de termen ‘crawl budget’ inhouden, maar geven we ook een toelichting op de antwoorden van Google in het blogartikel op het officiële Google Webmasters blog van 16 januari 2017 op de veel gestelde vragen omtrent dit onderwerp.

In onze gids ‘hoger scoren in Google’ beschrijven we uitgebreid de onderwerpen crawlen en indexeren in hoofdstuk 1: hoe werken zoekmachines? Om een lang verhaal kort te maken, de zoekmachines speuren het internet af naar websites en pagina’s. Dit wordt ook wel crawlen genoemd. Het zoeken naar pagina’s en websites wordt gedaan door crawlers/spiders.

Crawlers beschikken over een crawl rate limiet

De crawlers lopen niet de hele website af, maar slechts een deel van een website. In andere woorden, er zit een limiet aan het aantal pagina’s dat de spider afloopt. Met crawl budget bedoelen we het aantal pagina’s dat de crawler van een zoekmachine afloopt. Als voorbeeld: de spider van Google, de officiële term is Googlebot, loopt een X aantal pagina’s af van de het totaal aantal pagina’s van een website. Het aantal pagina’s dat Googlebot crawlt, wordt ook wel ‘crawl budget’ genoemd. Het aantal pagina’s dat een crawler afloopt, is afhankelijk van de grootte en de linkpopulariteit van een website.

Stel je hebt een webshop en je verkoopt 5.000+ producten. Dan wil je dat de crawlers van de zoekmachines de belangrijkste pagina’s van de website regelmatig aflopen. Een van de redenen is dat je wil dat de zoekmachines belangrijke aanpassingen snel oppikken, zodat je hogere posities in Google kan scoren.

Google geeft hierover de volgende toelichting:

Met het oog op een optimale user experience voor de bezoeker loopt Googlebot slechts een deel van de website af. De crawl rate kan kleiner en groter worden, dit is afhankelijk van de technische ‘gezondheid’ van de website en het limiet dat wordt ingesteld in Google Search Console. Als een website positief reageert op de crawlverzoeken van Googlebot kan het zijn dat er meer pagina’s worden gecrawlt.

Welke factoren hebben een impact op het crawl budget?

Gary Illyes GoogleUiteindelijk wil je dat de crawlers van zoekmachines alleen relevante pagina’s crawlen en vervolgens indexeren. Idealiter zijn dit pagina’s met unieke content. Deze pagina’s bieden een waarde aan de bezoeker. Gary Illyes, Webmaster Trends Analyst bij Google, zegt hier het volgende over: “Website met veel URL’s van lage kwaliteit kunnen een negatieve impact hebben op de crawler en indexatie van een website.

De URL’s van lage kwaliteit zijn volgens Google onder te verdelen in de volgende factoren:

  • Filterpagina’s en sessie parameters
  • Onpage duplicate content
  • Pagina’s met 40X fouten (denk aan 404 pagina’s)
  • Gehackte pagina’s
  • Pagina’s die oneindig doorgaan en proxies
  • Spammerige content + content van lage kwaliteit voor de bezoeker

Nu zijn bovenstaande punten niet per sé nieuw voor online marketeers. Zo schreef Reinier Bus halverwege 2016 dit artikel met 10 technische takeaways wat ook op Marketingfacts.nl is gepubliceerd. Wel is het voor het eerst dat Google officieel aangeeft, dat deze factoren impact hebben op het crawl budget.

5 antwoorden van Google op veelgestelde vragen

In het artikel op het Googleblog tref je ook antwoorden op de meest gestelde vragen omtrent dit onderwerp. Voor het gemak hebben we de vragen en antwoord vertaald in begrijpelijke taal:

 

“Heeft de laadtijd effect op mijn crawlbudget?”

Een snellere laadtijd heeft een positieve impact op de user experience en verhoogt tevens de crawl rate. Een snelle website is voor Googlebot een signaal van optimale servers, omdat een crawler meer content over hetzelfde aantal connecties kan binnenhalen. Aan de andere kant, een groot aantal 5xx fouten zorgt voor connection timeouts en dit is een signaal dat de crawler niet veel pagina’s kan aflopen. In andere woorden, de crawl rate wordt kleiner. In Google Search Console kan je de status van de crawl errors in de gaten houden.

“Is crawl rate een ranking factor om hogere posities te scoren in Google?”

Een verhoogde crawl rate leidt niet noodzakelijk tot betere posities in de zoekmachine. Google gebruikt 200+ signalen voor de beoordeling van een website. Ondanks dat de crawlers pagina’s moeten crawlen om ze vervolgens te indexeren, is crawling geen ranking factor.

“Tellen alternatieve URL’s en embedded content mee in het crawl budget”

Alternatieve URL’s zoals AMP en embedded content zoals CSS en Javascript kunnen noodzakelijk zijn om te crawlen en tellen mee in het crawl budget. Redirect chains (lees: meerdere 301/302’s achter elkaar) kunnen een negatieve impact hebben op het crawlen van pagina’s.

“Is het mogelijk om Googlebot te controleren met de ‘crawl delay’ regel?”

De non-standard ‘crawl delay’ robots.txt regel wordt niet verwerkt door Googlebot.

“Heeft de nofollow tag impact op het crawl budget”

Iedere URL die gecrawld wordt heeft een impact op het crawl budget. Zo ook als je een nofollow regel toepast op een pagina toepast maar dat er wel vanaf elders naar deze pagina wordt gelinkt. In andere woorden, als een link op een andere pagina niet gebruikmaakt van een nofollow regel.

 

Zoals eerder beschreven, zijn dit niet per sé nieuwe punten. Ervaren online marketeers maken al gebruik van bovenstaande informatie om de ervaring van de bezoeker en het crawl budget te optimaliseren. Gezien de vele vragen omtrent dit onderwerp is het wel goed om te zien dat Google openheid van zaken geeft. Vraag is natuurlijk wel of deze informatie vervolgens 100% transparant is.

Recentelijk hebben we een gids voor beginners: ‘Hoger scoren in Google’ ontwikkeld. In deze gids lees je meer over de technische optimalisatie van een website. Mocht je vragen of een goede aanvulling op het artikel hebben? Laat het weten in een reactie.