Robots.txt : Guide Complet pour Contrôler Google

En résumé

Syntaxe, erreurs fréquentes, crawl budget : tout ce qu'il faut savoir sur le fichier robots.txt pour piloter l'indexation de votre site.

Robots.txt : le fichier que Google lit en premier

Avant de crawler une seule page de votre site, Googlebot vérifie un fichier texte de quelques lignes : robots.txt. Ce fichier, placé à la racine de votre domaine (https://votresite.fr/robots.txt), indique aux moteurs de recherche quelles URLs ils peuvent explorer — et lesquelles sont interdites. En 2026, avec des sites qui dépassent facilement 10 000 pages, maîtriser ce fichier est devenu un levier SEO technique concret pour orienter le crawl budget.

27%

des sites ont une erreur dans leur robots.txt (Ahrefs 2025)

10 000+

pages/jour : crawl budget moyen d'un site corporate

0,5s

temps de lecture du robots.txt par Googlebot

La syntaxe complète du robots.txt

Le robots.txt repose sur 4 directives principales. User-agent désigne le robot ciblé (* = tous les robots, Googlebot = Google uniquement, Bingbot = Bing). Disallow bloque un chemin : Disallow: /admin/ empêche l'exploration de tout le dossier /admin/. Allow autorise un sous-chemin dans un dossier bloqué : Allow: /admin/public/. Et Sitemap indique l'emplacement de votre sitemap XML : Sitemap: https://votresite.fr/sitemap.xml.

User-agent: * → s'applique à tous les crawlers (Google, Bing, Yandex, etc.)
Disallow: /panier/ → bloque les pages panier (inutiles à indexer)
Disallow: /recherche?q= → bloque les résultats de recherche interne
Allow: /api/public/ → autorise un sous-dossier dans un /api/ bloqué
Sitemap: https://votresite.fr/sitemap.xml → référence le sitemap pour accélérer la découverte
Crawl-delay: 10 → demande un délai de 10 secondes entre chaque requête (respecté par Bing, ignoré par Google)

Les 5 erreurs qui plombent votre SEO

Erreur n°1 : bloquer les fichiers CSS et JavaScript. En 2026, Google fait du rendu JavaScript. Si vous bloquez /static/ ou /_next/, Googlebot ne peut pas afficher vos pages correctement — et votre contenu peut être vu comme vide. Erreur n°2 : Disallow: / en production. Ça bloque TOUT le site. Classique après un passage en production où on oublie de retirer la directive de staging. Erreur n°3 : bloquer le sitemap.xml lui-même. Si votre robots.txt contient Disallow: /sitemap.xml, Google ne peut même pas lire la liste de vos pages.

Erreur n°4 : confondre robots.txt et noindex. Le robots.txt empêche le crawl, pas l'indexation. Si une page bloquée par robots.txt reçoit des backlinks, Google peut l'indexer quand même — sans contenu. Vous obtiendrez une page fantôme dans les résultats. Pour désindexer une page, utilisez la balise <meta name="robots" content="noindex">. Erreur n°5 : ne jamais mettre à jour son robots.txt. Votre site évolue, de nouvelles sections apparaissent — le fichier doit suivre.

Crawl budget : pourquoi ça compte

Google alloue un budget de crawl à chaque site : un nombre de pages qu'il visite par session. Pour un site de 500 pages, ce n'est pas un problème. Pour un e-commerce avec 50 000 fiches produit, 12 000 pages de filtres et 8 000 pages de pagination — c'est critique. Si Googlebot passe 60% de son temps à crawler des pages de filtres sans valeur, vos nouvelles fiches produit mettent des semaines à être découvertes.

Bloquez les pages de filtres combinés : Disallow: /*?filtre= ou Disallow: /*?tri=
Bloquez la pagination profonde : Disallow: /*?page= au-delà de la page 5
Bloquez les résultats de recherche interne : Disallow: /search?q=
Bloquez les pages de tags et archives dupliquées
Gardez vos pages stratégiques (catégories, produits phares) entièrement accessibles

Exemples concrets par CMS

Pour WordPress : bloquez /wp-admin/ mais autorisez /wp-admin/admin-ajax.php (nécessaire pour les formulaires). Bloquez /wp-includes/ et les paramètres ?replytocom=. Pour Next.js : bloquez /_next/data/ si vous ne voulez pas que les JSON de données soient crawlés, mais ne bloquez jamais /_next/static/ (contient le JS nécessaire au rendu). Pour Shopify : Shopify génère un robots.txt par défaut que vous pouvez personnaliser depuis le fichier robots.txt.liquid dans votre thème. Bloquez /collections/*+* (les filtres combinés) et /search?q=.

Tester votre robots.txt avec Google Search Console

Google Search Console propose un outil de test directement dans la section "Paramètres" > "Exploration". Collez n'importe quelle URL de votre site et vérifiez si elle est autorisée ou bloquée. Astuce : après chaque modification, utilisez l'outil d'inspection d'URL pour forcer un recrawl. Si vous avez un accompagnement SEO, votre consultant devrait auditer ce fichier chaque trimestre. Un robots.txt mal configuré peut annuler des mois de travail d'optimisation.

Votre robots.txt est-il bien configuré ?

Audit SEO technique gratuit : on vérifie votre robots.txt, sitemap, vitesse de crawl et erreurs d'indexation en 48h.

En résumé

Syntaxe, erreurs fréquentes, crawl budget : tout ce qu'il faut savoir sur le fichier robots.txt pour piloter l'indexation de votre site.

Robots.txt : le fichier que Google lit en premier

27%

des sites ont une erreur dans leur robots.txt (Ahrefs 2025)

10 000+

pages/jour : crawl budget moyen d'un site corporate

0,5s

temps de lecture du robots.txt par Googlebot

La syntaxe complète du robots.txt

User-agent: * → s'applique à tous les crawlers (Google, Bing, Yandex, etc.)
Disallow: /panier/ → bloque les pages panier (inutiles à indexer)
Disallow: /recherche?q= → bloque les résultats de recherche interne
Allow: /api/public/ → autorise un sous-dossier dans un /api/ bloqué
Sitemap: https://votresite.fr/sitemap.xml → référence le sitemap pour accélérer la découverte
Crawl-delay: 10 → demande un délai de 10 secondes entre chaque requête (respecté par Bing, ignoré par Google)

Les 5 erreurs qui plombent votre SEO

Crawl budget : pourquoi ça compte

Bloquez les pages de filtres combinés : Disallow: /*?filtre= ou Disallow: /*?tri=
Bloquez la pagination profonde : Disallow: /*?page= au-delà de la page 5
Bloquez les résultats de recherche interne : Disallow: /search?q=
Bloquez les pages de tags et archives dupliquées
Gardez vos pages stratégiques (catégories, produits phares) entièrement accessibles

Exemples concrets par CMS

Tester votre robots.txt avec Google Search Console

Votre robots.txt est-il bien configuré ?

Audit SEO technique gratuit : on vérifie votre robots.txt, sitemap, vitesse de crawl et erreurs d'indexation en 48h.

Robots.txt : Guide Complet pour Contrôler Google

Robots.txt : le fichier que Google lit en premier

La syntaxe complète du robots.txt

Les 5 erreurs qui plombent votre SEO

Crawl budget : pourquoi ça compte

Exemples concrets par CMS

Tester votre robots.txt avec Google Search Console

Votre robots.txt est-il bien configuré ?

Articles similaires

Tester la Vitesse de Son Site Web : 10 Outils Gratuits

Sitemap XML : Créer et Optimiser pour Google

Prêt à booster votre acquisition ?

Robots.txt : Guide Complet pour Contrôler Google

Robots.txt : le fichier que Google lit en premier

La syntaxe complète du robots.txt

Les 5 erreurs qui plombent votre SEO

Crawl budget : pourquoi ça compte

Exemples concrets par CMS

Tester votre robots.txt avec Google Search Console

Votre robots.txt est-il bien configuré ?

Articles similaires

Tester la Vitesse de Son Site Web : 10 Outils Gratuits

Sitemap XML : Créer et Optimiser pour Google

Prêt à booster votre acquisition ?