Iedere website eigenaar stoeit zo nu en dan wel eens met het robots.txt bestand. Het robots.txt bestand is naast de xml sitemap een essentieel onderdeel van de website. De xml sitemap geldt als een inhoudsopgave voor crawlers, in één overzicht treft de crawler alle pagina’s die er op website aanwezig zijn. Een robot.txt bestand vertelt aan de crawler tot welke pagina’s het toegang heeft. De crawler krijgt als het ware toestemming voor het wel of niet indexeren van pagina’s. Op deze manier beheer je dus zelf welke pagina’s geïndexeerd worden.
Voor de functies en de werking van het robots.txt bestand in de praktijk wordt beschreven, is het belangrijk om bekend te zijn met de volgende termen:
Crawler: kan je zien als een ‘spin’ die pagina’s binnen een website crawlt en indexeert
Indexeren: het registreren van pagina’s voor de database van de zoekmachines (Google, Bing, Yahoo etc.)
De functies van een robots.txt bestand?
Een robots.txt bestand kan meerdere functies hebben. Afhankelijk van de regels in het robots.txt bestand kan de toegang tot specifieke pagina’s worden geweigerd. Naast specifieke pagina’s geldt dit ook voor crawlers. Als blijkt dat een crawler zorgt voor vertraging van de laadtijd dan is het mogelijk om de toegang van deze crawler tot de website uit te sluiten.
Hieronder vind je een overzicht van een aantal functies van het robots.txt bestand.
1. Blokkeert alle crawlers de toegang naar een specifieke folder
User-agent: *
Disallow: /specifieke-folder/
2. Blokkeert een specifieke crawler, in dit geval de Google bot, de toegang naar een specifieke folder
User-agent: Googlebot
Disallow: /specifieke-folder/
3. Blokkeert een specifieke crawler, in dit geval de Google bot, de toegang tot een specifieke webpagina
User-agent: Googlebot
Disallow: /folder/specifieke-pagina.html
User-agent: Naam van de specifieke crawler (bijvoorbeeld de crawler van Google)
Disallow: Dit voorkomt toegang van de crawler tot een specifieke pagina/folder
Waar plaats je een robots.txt bestand?
Een robots.txt bestand plaats je in de root directory van de website. Mocht je dit niet zelf kunnen, dan kan een webmaster of developer dit oppakken.
Bekend met deze 3 veelvoorkomende fouten?
In robot.txt bestanden komen regelmatig fouten voor die impact hebben op de indexatie van de website. De meeste problemen komen voor in de sorteerfunctie, filters en de indexatie zoekopdrachten van de interne zoekmachine op de website.
Sorteerfunctie
De sorteerfunctie maakt het makkelijker voor een bezoeker om een selectie van producten of diensten naar wens te sorteren. Bij de meeste webshops ziet de sorteerfunctie er als volgt uit:
Vanwege de sorteerfunctie kan het voorkomen dat er duplicate of slechte content wordt gecreëerd. Zo kan het zijn dat er meerdere urls ontstaan, terwijl deze urls allemaal om één product of één categorie gaan. Dit komt omdat er bijvoorbeeld “dir=asc” of “order=price” wordt toegevoegd aan de URL. Deze urls moeten niet in de zoekresultaten tevoorschijn komen.
Oplossing: voorkom toegang van de crawler tot de sorteerfuncties. Voeg de volgende regels toe aan het robots.txt bestand:
Disallow: /*dir=
Disallow: /*order=
Filters
De filterfunctie biedt een verbeterde usability experience voor bezoekers. Klanten kunnen met behulp van de filters nog specifieker het aanbod filteren en zullen hierdoor sneller tot een aankoop overstappen. Bij filters kan je denken aan de mogelijkheid om te filteren op kleur, lengte, maat, leverancier, merk, etc.
Nadeel van een filter is dat het ook voor duplicate content kan zorgen. Alle unieke pagina’s die deze filters creëren, kan je ook blokkeren voor de crawlers.
Oplossing: voeg de volgende regel toe aan het Robots.txt bestand:
Disallow: /processor=
Disallow: /merk=
Zoekopdrachten van interne zoekmachine
Veel websites, en met name webshops, maken gebruiken van een interne zoekmachine. Met deze zoekmachine is het voor bezoekers makkelijker om te navigeren naar hetgeen zij op zoek is. Een veelvoorkomend probleem is dat deze zoekopdrachten niet worden uitgesloten van indexatie en dat deze zoekopdrachten worden geïndexeerd door de zoekmachines. Resultaat: het aantal pagina’s wat Google crawlt wordt steeds groter en dit gaat ten kosten van de relevantie en het crawl budget. Je wil liever niet dat deze pagina’s geïndexeerd worden.
Stel je zoekt in de zoekmachine van een webshop naar ‘product A’ en je krijgt de volgende url:
http://www.webshop.nl/catalogsearch/result/?q=product+A
Oplossing: voeg de volgende regel toe aan het robots.txt bestand:
Disallow: /catalogsearch/
Let op: robots.txt verwijdert geen pagina’s die reeds geïndexeerd zijn
Het is belangrijk om te weten, dat een robots.txt bestand een pagina niet verwijdert die reeds geïndexeerd is. Het voorkomt alleen dat een pagina wordt geïndexeerd door de crawlers. Staat een pagina al een tijd online voordat het robot.txt bestand is toegevoegd, dan staat deze versie nog altijd in de database van de zoekmachine.