Bots, crawlers en spiders. Hoe beperk je overlast?

Helaas wil het nog wel eens gebeuren dat bots van een zoekmachine een website wel erg enthousiast bezoeken. Soms lopen de verzoeken daarbij zo hoog op dat een website en dus ook een hostingpartij er last van krijgt. Dit zien we nog wel eens gebeuren bij grotere websites en webshops, websites met veel pagina’s en/of drukbezochte websites.


Ook kan een website te maken krijgen met zogenaamde “bad bots”. Deze bots zijn vaak ontwikkeld door mensen die minder goede intenties hebben. Zo bestaan er bots die versienummers van veelgebruikte pakketten zoals WordPress, Magento, Prestashop, phpBB, vBulletin of phpMyAdmin uitlezen. Wanneer kwetsbare versies gevonden worden dan kan dit leiden tot aanvallen op de desbetreffende website of er wordt geprobeerd ze onderuit te halen. Of ze zijn op zoek naar e-mailadressen op een website zodat er vervolgens spam naar toe gestuurd kan worden.

De meeste goedwillende zoekmachines bepalen zelf de frequentie van het bezoeken/indexeren van een website. Mocht er onverhoopt toch een probleem optreden dan is het mogelijk om dit op verschillende manieren op te lossen. Onderstaand leggen wij kort uit welke invloed een site-eigenaar of webbouwer kan uitoefenen op het gedrag van bots.

robots.txt

Niet elke zoekmachine heeft een controlepaneel. Om de indexatie van een website toch enigszins te kunnen sturen is het “The Robots Exclusion Protocol”, oftwel “robots.txt” uitgevonden. Het bestand “robots.txt” is een tekstbestand op een website die instructies voor zoekmachines kan bevatten. Dit bestand staat in de webroot van een website en bevat doorgaans instructies die aangeven welke bestanden en mappen door zoekmachines geïndexeerd mogen worden. Of juist niet, want pagina’s uitsluiten is ook een optie. Omdat het een de-facto standaard betreft kan de interpretatie verschillen. Zo maken Bing en Majestic-12, in tegenstelling tot Google, gebruik van de “Crawl-delay” opdracht. Met behulp van deze opdracht in de robots.txt kan men dus vanuit de website de indexatie beïnvloeden.

De opdracht kent de volgende mogelijkheden:

Geen waarde opgegevenNormaal
1Langzaam
5Heel langzaam
10Extreem langzaam

 

Individuele bots in robots.txt beïnvloeden:

User-Agent: MJ12bot
Crawl-Delay: <waarde>

User-agent: msnbot
Crawl-delay: <waarde>

Het bovenstaande plaats je dus in een tekstbestand op de website. Het kan voor komen dat er al een bestand met regels aanwezig is. In dat geval kan je “crawl-delay” toevoegen aan de bestaande uitzonderingen.

Een vertraging opgeven voor alle bots/crawlers in robots.txt:

User-agent: *
Crawl-delay: <waarde>

Googlebot

Meestal is het niet wenselijk om de bot van Google te blokkeren, het is tenslotte wel één van de meest gebruikte zoekmachines. Google respecteert regels uit robots.txt, maar doet verder niets met de “Crawl-Delay” optie.

Het aanpassen van de frequentie kan in dit geval via de Google Search Console. Wanneer u nog niet bekend bent met de werking of het nut van de Google Search Console, dan is dit een goed startpunt: Google Webmasters.

Wanneer een site (“property”) eenmaal is aangemaakt, dan is het mogelijk om via de “Site-instellingen” de crawlsnelheid aan te passen. Het is op voorhand natuurlijk niet te voorspellen wat de ideale waarden voor een website zijn. Wellicht dat een SEO-specialist hier uitkomst kan bieden.

Crawlrate Google Bots

WordPress

Er zijn verschillende plugins voor WordPress beschikbaar die bots blokkeren. Gedrag van zoekmachines wordt hier echter niet mee aangepast. Soms bieden de plug-ins wel uitkomst als een site onder vuur ligt van een ongewenste bot. Voorbeelden van plug-ins zijn “Blackhole for Bad Bots” en “StopBadBots“.

HPW servers

Op onze HPW servers blokkeren wij standaard al een groot gedeelte van de bad bots en hier hoeft u dus niets voor te doen!

Plesk servers

Op onze plesk servers kunt u bots blokkeren via een .htaccess bestand. Dit stukje script staat op GitHub: Bad Bot Blocker.

Bronnen

http://www.majestic12.co.uk/projects/dsearch/mj12bot.php
https://blogs.bing.com/webmaster/2009/08/10/crawl-delay-and-the-bing-crawler-msnbot/
http://www.robotstxt.org/