En résumé
Tout sur le sitemap XML : structure, génération, soumission à Google Search Console, erreurs courantes et bonnes pratiques pour l'indexation.
Un sitemap XML, c'est une carte routière pour les robots d'indexation. Rien de plus, rien de moins. Ça ne garantit PAS l'indexation — Google l'a rappelé 50 fois. Mais ça aide Googlebot à découvrir vos pages, surtout si votre maillage interne laisse à désirer ou si votre site a des milliers de pages. En gros : un petit site de 20 pages bien lié ? Le sitemap est un bonus. Un e-commerce de 50 000 produits ? C'est critique.
Anatomie d'un sitemap XML
Un sitemap est un fichier XML qui liste vos URLs avec des métadonnées optionnelles. La structure minimale : une balise
: L'URL complète de la page, avec le protocole (https://). Obligatoire. Doit être la version canonique. : Date ISO 8601 (2026-03-21). Utile si elle reflète un vrai changement de contenu. Google l'utilise pour prioriser le crawl. : daily, weekly, monthly... Ignoré par Google. Vous pouvez le mettre mais ça ne sert à rien. : De 0.0 à 1.0. Ignoré par Google aussi. Certains CMS le mettent à 1.0 partout, ce qui est exactement pareil que de ne rien mettre.
Sitemap index : gérer les gros sites
Un sitemap XML est limité à 50 000 URLs et 50 Mo non compressé. Au-delà, vous devez utiliser un sitemap index : un fichier XML qui référence plusieurs sous-sitemaps. Exemple : sitemap-index.xml pointe vers sitemap-products-1.xml (URLs 1-50000), sitemap-products-2.xml (URLs 50001-100000), sitemap-blog.xml, sitemap-categories.xml. C'est aussi une bonne pratique pour segmenter par type de contenu, même en dessous de 50 000 URLs — ça facilite le debug dans Google Search Console. Chez nos clients e-commerce, on segmente toujours : products, categories, blog, pages.
Génération par CMS : WordPress, Shopify, Next.js
- WordPress + Yoast SEO : sitemap activé par défaut dans SEO > Général > Fonctionnalités. Accessible à /sitemap_index.xml. Filtrage par type de contenu possible.
- WordPress + RankMath : sitemap dans RankMath > Plan du site. Plus de contrôle sur les images/vidéos incluses. Exclure des posts/catégories individuellement.
- Shopify : sitemap auto-généré à /sitemap.xml. Inclut produits, collections, pages, blogs. Non personnalisable sans app tierce — c'est une limite de Shopify.
- Next.js (App Router) : fichier app/sitemap.ts qui exporte une fonction generateSitemaps(). Approche 100% dynamique — on scanne le filesystem ou la base pour générer les URLs. C'est ce qu'on utilise chez Digiflow.
- Sites statiques/custom : utilisez un générateur comme sitemap-generator-cli ou screaming-frog pour crawler votre site et produire le XML.
Soumettre et surveiller dans Search Console
Allez dans Google Search Console > Sitemaps > Entrez l'URL de votre sitemap > Envoyer. Google va le télécharger et vous montrer le nombre d'URLs découvertes vs indexées. Si vous voyez un gros écart (ex: 5000 URLs soumises, 800 indexées), c'est un signal de problème de qualité. Vérifiez le rapport Couverture/Indexation : pages exclues, erreurs soft 404, redirections. Autre point souvent oublié : référencez votre sitemap dans votre robots.txt avec la directive "Sitemap: https://votresite.com/sitemap.xml". C'est un standard que tous les moteurs respectent.
Un piège classique : inclure dans le sitemap des URLs qui retournent un 301, un 404, ou qui ont une balise noindex. Google va crawler ces URLs, constater le problème, et ça envoie un signal de mauvaise qualité. Le sitemap ne doit contenir QUE des URLs 200 indexables. Point final. Notre équipe en SEO technique vérifie cette cohérence lors de chaque audit.
Sitemap vs robots.txt : deux outils complémentaires
Le robots.txt dit aux robots ce qu'ils ne doivent PAS crawler. Le sitemap dit aux robots ce qu'ils DOIVENT crawler. Les deux ne se substituent pas. Si une URL est bloquée dans robots.txt mais présente dans le sitemap, Google ne la crawlera pas (le robots.txt prime). Si une URL est dans le sitemap mais en noindex, Google la crawlera mais ne l'indexera pas. Utilisez le robots.txt pour bloquer les pages admin, les filtres à facettes, les paramètres de tri. Utilisez le sitemap pour pousser vos pages importantes. En combinant ces deux leviers avec une stratégie d'optimisation SEO globale, vous contrôlez précisément comment Google crawle et indexe votre site.
Votre sitemap est-il optimisé ?
Audit technique SEO complet : sitemap, robots.txt, indexation, erreurs de crawl. On identifie les pages qui passent entre les mailles du filet.