Outil

Validateur robots.txt

Validateur robots.txt

Validez vos fichiers robots.txt avant le deploiement. Detecte les erreurs de syntaxe, les conflits entre directives Allow/Disallow, et annote les groupes avec les noms de bots connus — y compris les robots d'IA.

Fonctionnalites

  • Validation syntaxique selon RFC 9309 (standard d'exclusion des robots)
  • Detection des conflits semantiques avec resolution par correspondance la plus longue
  • Annotations des bots connus (moteurs de recherche, robots IA, bots sociaux)
  • Validation du format des URLs Sitemap
  • Avertissements sur les divergences entre moteurs (Google, Bing, Yandex)
  • Entierement cote client — aucune donnee ne quitte votre navigateur

Ce qui est verifie

  • Erreurs de syntaxe : directives invalides, User-agent manquant, lignes malformees
  • Conflits semantiques : regles Allow et Disallow en chevauchement dans un meme groupe, avec indication de la regle prioritaire
  • Avertissements : directive Sitemap absente, blocages Disallow: / non qualifies, directives non standard
  • Couverture des bots : quels robots connus (Googlebot, GPTBot, ClaudeBot, Bingbot) sont explicitement adresses
  • URLs Sitemap : verification du format URL absolu et du protocole HTTPS

Divergences entre moteurs

Les moteurs de recherche interpretent robots.txt differemment. Cet outil valide selon RFC 9309 comme base et signale les divergences connues :

  • Crawl-delay est respecte par Bing et Yandex mais ignore par Google
  • Precedence Allow/Disallow : Google utilise la correspondance la plus longue, pas la premiere correspondance
  • Les directives non standard (Host, Clean-param) sont reconnues mais signalees comme avertissements

Contexte europeen

Le fichier robots.txt joue un role essentiel dans la conformite RGPD et le droit au dereferencement. En bloquant l'indexation de certains chemins, les editeurs europeens peuvent limiter l'exposition de donnees personnelles dans les resultats de recherche. La couverture des robots IA est particulierement pertinente dans le contexte du AI Act europeen et des debats sur le scraping de donnees d'entrainement.