En résumé
Syntaxe, erreurs fréquentes, crawl budget : tout ce qu'il faut savoir sur le fichier robots.txt pour piloter l'indexation de votre site.
Robots.txt : le fichier que Google lit en premier
Avant de crawler une seule page de votre site, Googlebot vérifie un fichier texte de quelques lignes : robots.txt. Ce fichier, placé à la racine de votre domaine (https://votresite.fr/robots.txt), indique aux moteurs de recherche quelles URLs ils peuvent explorer — et lesquelles sont interdites. En 2026, avec des sites qui dépassent facilement 10 000 pages, maîtriser ce fichier est devenu un levier SEO technique concret pour orienter le crawl budget.
La syntaxe complète du robots.txt
Le robots.txt repose sur 4 directives principales. User-agent désigne le robot ciblé (* = tous les robots, Googlebot = Google uniquement, Bingbot = Bing). Disallow bloque un chemin : Disallow: /admin/ empêche l'exploration de tout le dossier /admin/. Allow autorise un sous-chemin dans un dossier bloqué : Allow: /admin/public/. Et Sitemap indique l'emplacement de votre sitemap XML : Sitemap: https://votresite.fr/sitemap.xml.
- User-agent: * → s'applique à tous les crawlers (Google, Bing, Yandex, etc.)
- Disallow: /panier/ → bloque les pages panier (inutiles à indexer)
- Disallow: /recherche?q= → bloque les résultats de recherche interne
- Allow: /api/public/ → autorise un sous-dossier dans un /api/ bloqué
- Sitemap: https://votresite.fr/sitemap.xml → référence le sitemap pour accélérer la découverte
- Crawl-delay: 10 → demande un délai de 10 secondes entre chaque requête (respecté par Bing, ignoré par Google)
Les 5 erreurs qui plombent votre SEO
Erreur n°1 : bloquer les fichiers CSS et JavaScript. En 2026, Google fait du rendu JavaScript. Si vous bloquez /static/ ou /_next/, Googlebot ne peut pas afficher vos pages correctement — et votre contenu peut être vu comme vide. Erreur n°2 : Disallow: / en production. Ça bloque TOUT le site. Classique après un passage en production où on oublie de retirer la directive de staging. Erreur n°3 : bloquer le sitemap.xml lui-même. Si votre robots.txt contient Disallow: /sitemap.xml, Google ne peut même pas lire la liste de vos pages.
Erreur n°4 : confondre robots.txt et noindex. Le robots.txt empêche le crawl, pas l'indexation. Si une page bloquée par robots.txt reçoit des backlinks, Google peut l'indexer quand même — sans contenu. Vous obtiendrez une page fantôme dans les résultats. Pour désindexer une page, utilisez la balise <meta name="robots" content="noindex">. Erreur n°5 : ne jamais mettre à jour son robots.txt. Votre site évolue, de nouvelles sections apparaissent — le fichier doit suivre.
Crawl budget : pourquoi ça compte
Google alloue un budget de crawl à chaque site : un nombre de pages qu'il visite par session. Pour un site de 500 pages, ce n'est pas un problème. Pour un e-commerce avec 50 000 fiches produit, 12 000 pages de filtres et 8 000 pages de pagination — c'est critique. Si Googlebot passe 60% de son temps à crawler des pages de filtres sans valeur, vos nouvelles fiches produit mettent des semaines à être découvertes.
- Bloquez les pages de filtres combinés : Disallow: /*?filtre= ou Disallow: /*?tri=
- Bloquez la pagination profonde : Disallow: /*?page= au-delà de la page 5
- Bloquez les résultats de recherche interne : Disallow: /search?q=
- Bloquez les pages de tags et archives dupliquées
- Gardez vos pages stratégiques (catégories, produits phares) entièrement accessibles
Exemples concrets par CMS
Pour WordPress : bloquez /wp-admin/ mais autorisez /wp-admin/admin-ajax.php (nécessaire pour les formulaires). Bloquez /wp-includes/ et les paramètres ?replytocom=. Pour Next.js : bloquez /_next/data/ si vous ne voulez pas que les JSON de données soient crawlés, mais ne bloquez jamais /_next/static/ (contient le JS nécessaire au rendu). Pour Shopify : Shopify génère un robots.txt par défaut que vous pouvez personnaliser depuis le fichier robots.txt.liquid dans votre thème. Bloquez /collections/*+* (les filtres combinés) et /search?q=.
Tester votre robots.txt avec Google Search Console
Google Search Console propose un outil de test directement dans la section "Paramètres" > "Exploration". Collez n'importe quelle URL de votre site et vérifiez si elle est autorisée ou bloquée. Astuce : après chaque modification, utilisez l'outil d'inspection d'URL pour forcer un recrawl. Si vous avez un accompagnement SEO, votre consultant devrait auditer ce fichier chaque trimestre. Un robots.txt mal configuré peut annuler des mois de travail d'optimisation.
Votre robots.txt est-il bien configuré ?
Audit SEO technique gratuit : on vérifie votre robots.txt, sitemap, vitesse de crawl et erreurs d'indexation en 48h.