Gestion des bots

Sur le web se balladent des « bots » : il s’agit de programmes informatiques qui vont parcourir vos sites web afin de récupérer le contenu des pages. C’est par exemple le cas de “Googlebot” qui parcoure les sites pour référencer les pages sur le moteur de recherche Google.

En théorie, les bots doivent respecter les éventuelles instructions données dans un fichier robots.txt qui peut être mis à la racine de votre site web. On peut ainsi indiquer que des pages ne doivent pas être parcourues, interdire certains bots ou même réduire la vitesse d’exploration.

En théorie encore, les bots doivent annoncer qui ils sont dans l’entête HTTP User-Agent, c’est là que l’on retrouve : GoogleBot, BingBot, DuckDuckBot etc.

Il existe plusieurs types de bots :

  • Les bots de grosses structures (Google, Bing, DuckDuckGo, etc. ) qui s’annoncent dans le User-Agent et respectent le robots.txt
  • Les bots de petites structures qui s’annoncent dans le User-Agent mais ne respectent pas vraiment le robots.txt
  • Les bots « à l’arrache » qui ne respectent pas le robots.txt et qui parfois ne s’annoncent même pas dans User-Agent en faisant croire que c’est un navigateur web

Nous vous conseillons de positionner un fichier robots.txt à la racine de chacun de vos sites et d’indiquer les arborescences qui ne doivent pas être parcourues, les bots indésirables, et de réduire la vitesse d’exploration. Voici un exemple de robots.txt l

User-agent: *
Disallow: /api/

User-agent: BadBot
Disallow: /

User-agent: *
Crawl-delay: 10

Plus de détails sur https://robots-txt.com/.

Notez également que nous maintenant une liste de robots que nous jugeons nuisibles et qui seront automatiquement rejetés par une erreur 403 sur votre serveur :

BadBot
thesis-research-bot
Bytespider
SeekportBot
PetalBot
DotBot
SEOkicks
serpstatbot
MJ12bot
SemrushBot

Vous pouvez nous donner une liste complémentaire de robots à bannir selon leur User-Agent : ouvrez-nous un ticket.

Comment savoir si des bots parcourent mon site

Vous pouvez le voir dans vos logs et à l’aides outils de statistiques de vos visiteurs.

Comment savoir si un bot est légitime ou non ?

Vous pouvez vérifier son User-Agent via https://radar.cloudflare.com/traffic/verified-bots

Comment bannir un bot ?

On peut bannir un bot en fonction de son User-Agent.

Si il s’agit d’un bot d’une grosse structure, il respectera le robots.txt et vous pouvez l’interdire par ce moyen.

Vous pouvez aussi écrire des règles dans un fichier .htaccess déposé à la racine de votre site du type :

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} "FooBot" [NC]
RewriteRule ^ - [F,L]

Enfin, vous pouvez nous demander de le faire directement dans la configuration d’Apache : ouvrez-nous un ticket.

Voici une liste de bots que vous pourriez-vous vouloir bannir pour diverses raisons :

  • Amazonbot
  • GPTBot
  • ClaudeBot
  • AhrefsBot
  • YandexBot
  • facebookexternalhit

Est-ce qu’un bot peut provoquer un pic de charge sur mon serveur ?

Un bot accède au contenu d’une page de façon similaire à un navigateur : cela consomme donc des ressources sur votre serveur, d’autant plus si la page n’est pas mise en cache.

Il est donc important de mettre un robots.txt, de bannir un maximum de bots ET d’éviter d’avoir de nombreuses pages accessibles avec des URLs différentes, c’est par exemple le cas des formulaires de recherche avec des recherches suggérées, ou des recherches à facettes, ce qui donnent une infinité de pages (souvent pas mises en cache) à visiter pour les bots.