Validateur robots.txt

Validez vos fichiers robots.txt avant le deploiement. Detecte les erreurs de syntaxe, les conflits entre directives Allow/Disallow, et annote les groupes avec les noms de bots connus — y compris les robots d'IA.

Fonctionnalites

Validation syntaxique selon RFC 9309 (standard d'exclusion des robots)
Detection des conflits semantiques avec resolution par correspondance la plus longue
Annotations des bots connus (moteurs de recherche, robots IA, bots sociaux)
Validation du format des URLs Sitemap
Avertissements sur les divergences entre moteurs (Google, Bing, Yandex)
Entierement cote client — aucune donnee ne quitte votre navigateur

Ce qui est verifie

Erreurs de syntaxe : directives invalides, User-agent manquant, lignes malformees
Conflits semantiques : regles Allow et Disallow en chevauchement dans un meme groupe, avec indication de la regle prioritaire
Avertissements : directive Sitemap absente, blocages Disallow: / non qualifies, directives non standard
Couverture des bots : quels robots connus (Googlebot, GPTBot, ClaudeBot, Bingbot) sont explicitement adresses
URLs Sitemap : verification du format URL absolu et du protocole HTTPS

Divergences entre moteurs

Les moteurs de recherche interpretent robots.txt differemment. Cet outil valide selon RFC 9309 comme base et signale les divergences connues :

Crawl-delay est respecte par Bing et Yandex mais ignore par Google
Precedence Allow/Disallow : Google utilise la correspondance la plus longue, pas la premiere correspondance
Les directives non standard (Host, Clean-param) sont reconnues mais signalees comme avertissements

Contexte europeen

Le fichier robots.txt joue un role essentiel dans la conformite RGPD et le droit au dereferencement. En bloquant l'indexation de certains chemins, les editeurs europeens peuvent limiter l'exposition de donnees personnelles dans les resultats de recherche. La couverture des robots IA est particulierement pertinente dans le contexte du AI Act europeen et des debats sur le scraping de donnees d'entrainement.