Avoir des pages bloquées dans le robots.txt qui sont indexées par Google a-t-il un impact sur le référencement du reste du site ? John Mueller a récemment clarifié ce point sur LinkedIn.
Avoir des pages bloquées dans le robots.txt qui sont indexées par Google a-t-il un impact sur le référencement du reste du site ? John Mueller a récemment clarifié ce point sur LinkedIn.
Le rapport « Indexation des pages » de l’outil gratuit Search Console de Google propose une section « Améliorer l’apparence des pages » dans laquelle il peut lister des pages « Indexées malgré le blocage par le fichier robots.txt« .
Un référenceur a récemment interpellé John Mueller sur le sujet pour mieux comprendre le fonctionnement de ce rapport et surtout s’assurer que cela n’impactait pas son site. Voici sa question :
« Nous sommes confrontés à un problème où des robots génèrent des backlinks vers des URL de paramètres de requête (?q=[query]) qui n’existent pas. Ces pages sont indexées par Google et le message suivant apparaît dans GSC : Indexed, though blocked by robots.txt (indexées, mais bloquées par le fichier robots.txt).
Les pages sont bloquées dans le fichier robots.txt et ont également une balise « noindex ». Comment est-il possible que ces pages soient encore indexées ?
Ma théorie est que Google n’est pas en mesure de voir la balise Noindex parce que la page est interdite dans le fichier robots.txt, mais qu’elle est toujours indexée en raison du lien retour.
Mais voici la grande question : pourquoi Google indexerait-il des pages dont il ne peut même pas voir le contenu ? Quel en est l’intérêt ? »
Alors, faut-il se soucier de ce problème lorsque les pages sont bloquées par le fichier robots.txt de façon justifiée mais indexées par Google du fait d’une action incontrôlable par l’éditeur ou le référenceur ?
La réponse de John Mueller est claire : si les pages qui remontent dans ce rapport sont légitimes à rester bloquées par le fichier robots.txt, alors vous ne devez pas prêter attention à ce rapport. L’important est bien que ces dernières soient bloquées par le robots.txt et, idéalement, disposent d’une balise meta robots noindex.
« Oui, vous avez raison : si nous ne pouvons pas explorer la page, nous ne pouvons pas voir le noindex. Cela dit, si nous ne pouvons pas explorer les pages, c’est qu’il n’y a pas grand-chose à indexer. Ainsi, même si vous pouvez voir certaines de ces pages avec une requête site:- ciblée, l’utilisateur moyen ne les verra pas, donc je ne m’en préoccuperais pas. Noindex est également correct (sans robots.txt disallow), cela signifie simplement que les URLs finiront par être explorées (et se retrouveront dans le rapport de la Search Console pour avoir été explorées/non indexées – aucun de ces statuts ne cause de problèmes au reste du site). L’important est de ne pas les rendre crawlables + indexables. »
Il peut sembler contre-intuitif que Google indexe des pages alors qu’elles sont spécifiquement bloquées par un fichier robots.txt, cependant, comme l’explique John Mueller, si Googlebot découvre une URL via un lien interne ou externe, même si cette page est bloquée dans le fichier robots.txt, Google peut toujours l’indexer sous certaines conditions.
Pourquoi ? Tout simplement parce que Googlebot ne peut pas voir le contenu de la page bloquée. Il ne peut donc pas identifier des balises comme noindex si elles sont présentes sur la page.
Le fichier robots.txt empêche le crawl, mais il n’interdit pas la découverte et l’indexation de l’URL, même si Google n’a aucune idée de ce qui se trouve dedans.
Pour rappel, le fichier robots.txt est un fichier texte placé à la racine du site Web et sert à indiquer aux moteurs de recherche quelles pages ou sections ne doivent pas être explorées (pour optimiser le budget de crawl notamment). Cependant, il ne bloque pas l’indexation des URLs qui pourraient être découvertes autrement, par exemple via des liens provenant d’autres sites.
Il est donc important de comprendre que bloquer des pages via le robots.txt ne garantit pas leur exclusion des résultats de recherche.
Pour être certain que la page n’apparaisse pas dans les résultats de recherche, il faut utiliser la balise meta robots noindex, dans le head des pages concernées en veillant à ce que la page ne soit pas bloquée par robots.txt (ce qui empêcherait Google de prendre en compte la balise noindex).
<meta name="robots" content="noindex">
Selon John Mueller de Google, le fait que des pages soient indiquées comme indexées, alors que bloquées par le robots.txt, n’affecte pas négativement les performances SEO du reste du site.
Il ne s’agit ainsi pas d’une alerte qui nécessite forcément un correctif, il faut simplement s’assurer qu’aucunes pages importantes de votre site ne disposent de ce type de message d’erreur associé.
Avant de se quitter…
Si cet article sur l’alerte Search Console sur les pages bloquées par le robots.txt mais indexées vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?
Fondateur de LEPTIDIGITAL et consultant SEO senior (à mes heures perdues), je suis un grand passionné de marketing digital et de SEO. Avant d’être indépendant à 100 %, j’ai travaillé en tant qu’SEO manager et responsable e-commerce pour différentes sociétés (Altice Media, Infopro Digital, Voyage Privé, Groupe ERAM). (Sur le plan perso, je suis un grand curieux hyperactif aussi passionné par l’IA, la photographie et les voyages !). PS : Si vous souhaitez me contactez, privilégiez LinkedIn ou Instagram. Pour me contacter : [email protected]