sitemap.xml, robots.txt, llms.txt — qui sert à quoi en 2026 ?
Les trois fichiers à la racine de votre domaine ont des rôles distincts. Confusion fréquente et bonne pratique.
Vous avez robots.txt, sitemap.xml et désormais llms.txt. Trois fichiers, trois publics, trois rôles distincts.
robots.txt — qui peut crawler quoi
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://votre-site.fr/sitemap.xml
Rôle : règles d’accès pour les bots. Pas un secret de sécurité (tout le monde peut le lire).
Bonne pratique 2026 : autoriser explicitement les bots IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, anthropic-ai).
sitemap.xml — l’inventaire de vos URLs
<url>
<loc>https://votre-site.fr/page</loc>
<lastmod>2026-04-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
Rôle : aider les moteurs à trouver et à comprendre la fraîcheur de vos pages. Limite 50 000 URLs ou 50 MB par fichier — au-delà, sitemap index.
Bonne pratique : généré automatiquement, soumis dans Search Console + Bing Webmaster.
llms.txt — le pitch pour les LLM
# Votre marque
> Une phrase qui résume tout
## Services
- ...
Rôle : résumé markdown digeste pour les LLM. Pas pour Google. Pour ChatGPT/Claude/Perplexity.
Limite : 800-1500 mots max. Au-delà, le LLM coupe.
Ce qu’on déploie en 2026
Les trois. Aucun n’est optionnel pour un site sérieux.
Erreur fréquente
Mettre Disallow: / dans robots.txt en pré-prod et oublier de l’enlever en prod. Symptôme : trafic qui chute brutalement à zéro.