Robots.txt
Le fichier robots.txt est un fichier texte placé à la racine d’un site web qui donne des instructions aux robots d’exploration des moteurs de recherche. Il indique quelles parties du site peuvent être explorées (crawlées) et lesquelles doivent être ignorées. C’est un élément fondamental du SEO technique, basé sur le Robots Exclusion Protocol.
Pourquoi c’est important pour le SEO
Le robots.txt joue un rôle crucial dans la gestion du budget de crawl, c’est-à-dire le nombre de pages que Googlebot explore sur votre site dans un laps de temps donné. Un robots.txt bien configuré permet de :
- Protéger les ressources privées : empêcher l’indexation de zones d’administration, pages de connexion, etc.
- Optimiser le crawl : orienter les robots vers les pages les plus importantes en bloquant les pages sans valeur SEO.
- Éviter le contenu dupliqué : bloquer l’exploration de pages filtrées ou triées qui créent des doublons.
- Préserver les ressources serveur : limiter la charge liée au crawl sur les sections non prioritaires.
Attention : le robots.txt bloque l’exploration mais pas nécessairement l’indexation. Si d’autres sites font des liens vers une page bloquée par le robots.txt, Google peut quand même l’indexer (sans en afficher le contenu). Pour empêcher l’indexation, utilisez plutôt une balise meta noindex.
Comment configurer son robots.txt
Le fichier robots.txt utilise une syntaxe simple. Voici les directives principales :
- User-agent : spécifie le robot concerné (* pour tous les robots).
- Disallow : interdit l’exploration d’un chemin donné.
- Allow : autorise l’exploration d’un sous-chemin dans une section bloquée.
- Sitemap : indique l’emplacement du sitemap XML.
Bonnes pratiques essentielles :
- Ne bloquez jamais les fichiers CSS et JavaScript nécessaires au rendu de vos pages.
- Vérifiez votre robots.txt avec l’outil de test de Google Search Console.
- Assurez la cohérence avec vos balises canonical et vos directives noindex.
- Déclarez votre sitemap dans le robots.txt.
Pour approfondir la gestion technique de votre site, consultez notre guide sur le fonctionnement de l’indexation Google.