Validateur robots.txt
Validateur robots.txt
Validez vos fichiers robots.txt avant le deploiement. Detecte les erreurs de syntaxe, les conflits entre directives Allow/Disallow, et annote les groupes avec les noms de bots connus — y compris les robots d'IA.
Fonctionnalites
- Validation syntaxique selon RFC 9309 (standard d'exclusion des robots)
- Detection des conflits semantiques avec resolution par correspondance la plus longue
- Annotations des bots connus (moteurs de recherche, robots IA, bots sociaux)
- Validation du format des URLs Sitemap
- Avertissements sur les divergences entre moteurs (Google, Bing, Yandex)
- Entierement cote client — aucune donnee ne quitte votre navigateur
Ce qui est verifie
- Erreurs de syntaxe : directives invalides, User-agent manquant, lignes malformees
- Conflits semantiques : regles Allow et Disallow en chevauchement dans un meme groupe, avec indication de la regle prioritaire
- Avertissements : directive Sitemap absente, blocages
Disallow: /non qualifies, directives non standard - Couverture des bots : quels robots connus (Googlebot, GPTBot, ClaudeBot, Bingbot) sont explicitement adresses
- URLs Sitemap : verification du format URL absolu et du protocole HTTPS
Divergences entre moteurs
Les moteurs de recherche interpretent robots.txt differemment. Cet outil valide selon RFC 9309 comme base et signale les divergences connues :
- Crawl-delay est respecte par Bing et Yandex mais ignore par Google
- Precedence Allow/Disallow : Google utilise la correspondance la plus longue, pas la premiere correspondance
- Les directives non standard (Host, Clean-param) sont reconnues mais signalees comme avertissements
Contexte europeen
Le fichier robots.txt joue un role essentiel dans la conformite RGPD et le droit au dereferencement. En bloquant l'indexation de certains chemins, les editeurs europeens peuvent limiter l'exposition de donnees personnelles dans les resultats de recherche. La couverture des robots IA est particulierement pertinente dans le contexte du AI Act europeen et des debats sur le scraping de donnees d'entrainement.