Pages indexées alors que bloquées par le robots.txt : est-ce vraiment grave ? (SEO)

Avoir des pages bloquées dans le robots.txt qui sont indexées par Google a-t-il un impact sur le référencement du reste du site ? John Mueller a récemment clarifié ce point sur LinkedIn.

Actualités Digitales

par Vincent Brossas

11 septembre 2024

Avez-vous déjà observé que certaines pages, pourtant bloquées par le fichier robots.txt, étaient indexées par Google dans ses résultats de recherche ? John Mueller a récemment clarifié la position de Google vis-à-vis des pages indexées malgré le blocage par le robots.txt et leur impact sur le référencement d’un site. Voici ce qu’il faut retenir.

John Mueller - Google — John Mueller – Google

Pages indexées par Google malgré leur blocage par le robots.txt : un faux problème ?

Le rapport « Indexation des pages » de l’outil gratuit Search Console de Google propose une section « Améliorer l’apparence des pages » dans laquelle il peut lister des pages « Indexées malgré le blocage par le fichier robots.txt« .

Aperçu du rapport Search Console "Indexée malgré le blocage par le fichier robots.txt" — Aperçu du rapport Search Console « Indexée malgré le blocage par le fichier robots.txt »

Un référenceur a récemment interpellé John Mueller sur le sujet pour mieux comprendre le fonctionnement de ce rapport et surtout s’assurer que cela n’impactait pas son site. Voici sa question :

« Nous sommes confrontés à un problème où des robots génèrent des backlinks vers des URL de paramètres de requête (?q=[query]) qui n’existent pas. Ces pages sont indexées par Google et le message suivant apparaît dans GSC : Indexed, though blocked by robots.txt (indexées, mais bloquées par le fichier robots.txt).

Les pages sont bloquées dans le fichier robots.txt et ont également une balise « noindex ». Comment est-il possible que ces pages soient encore indexées ?

Ma théorie est que Google n’est pas en mesure de voir la balise Noindex parce que la page est interdite dans le fichier robots.txt, mais qu’elle est toujours indexée en raison du lien retour.

Mais voici la grande question : pourquoi Google indexerait-il des pages dont il ne peut même pas voir le contenu ? Quel en est l’intérêt ? »

Alors, faut-il se soucier de ce problème lorsque les pages sont bloquées par le fichier robots.txt de façon justifiée mais indexées par Google du fait d’une action incontrôlable par l’éditeur ou le référenceur ?

La réponse de John Mueller est claire : si les pages qui remontent dans ce rapport sont légitimes à rester bloquées par le fichier robots.txt, alors vous ne devez pas prêter attention à ce rapport. L’important est bien que ces dernières soient bloquées par le robots.txt et, idéalement, disposent d’une balise meta robots noindex.

« Oui, vous avez raison : si nous ne pouvons pas explorer la page, nous ne pouvons pas voir le noindex. Cela dit, si nous ne pouvons pas explorer les pages, c’est qu’il n’y a pas grand-chose à indexer. Ainsi, même si vous pouvez voir certaines de ces pages avec une requête site:- ciblée, l’utilisateur moyen ne les verra pas, donc je ne m’en préoccuperais pas. Noindex est également correct (sans robots.txt disallow), cela signifie simplement que les URLs finiront par être explorées (et se retrouveront dans le rapport de la Search Console pour avoir été explorées/non indexées – aucun de ces statuts ne cause de problèmes au reste du site). L’important est de ne pas les rendre crawlables + indexables. »

Pourquoi Google indexe-t-il des pages bloquées par le robots.txt ?

Il peut sembler contre-intuitif que Google indexe des pages alors qu’elles sont spécifiquement bloquées par un fichier robots.txt, cependant, comme l’explique John Mueller, si Googlebot découvre une URL via un lien interne ou externe, même si cette page est bloquée dans le fichier robots.txt, Google peut toujours l’indexer sous certaines conditions.

Pourquoi ? Tout simplement parce que Googlebot ne peut pas voir le contenu de la page bloquée. Il ne peut donc pas identifier des balises comme noindex si elles sont présentes sur la page.

Le fichier robots.txt empêche le crawl, mais il n’interdit pas la découverte et l’indexation de l’URL, même si Google n’a aucune idée de ce qui se trouve dedans.

La balise noindex, plus efficace que le blocage par robots.txt pour gérer l’indexation

Pour rappel, le fichier robots.txt est un fichier texte placé à la racine du site Web et sert à indiquer aux moteurs de recherche quelles pages ou sections ne doivent pas être explorées (pour optimiser le budget de crawl notamment). Cependant, il ne bloque pas l’indexation des URLs qui pourraient être découvertes autrement, par exemple via des liens provenant d’autres sites.

Il est donc important de comprendre que bloquer des pages via le robots.txt ne garantit pas leur exclusion des résultats de recherche.

Pour être certain que la page n’apparaisse pas dans les résultats de recherche, il faut utiliser la balise meta robots noindex, dans le head des pages concernées en veillant à ce que la page ne soit pas bloquée par robots.txt (ce qui empêcherait Google de prendre en compte la balise noindex).

<meta name="robots" content="noindex">

Quel est l’impact pour le reste du site si de nombreuses pages sont indexées alors que bloquées par le robots.txt ?

Selon John Mueller de Google, le fait que des pages soient indiquées comme indexées, alors que bloquées par le robots.txt, n’affecte pas négativement les performances SEO du reste du site.

Il ne s’agit ainsi pas d’une alerte qui nécessite forcément un correctif, il faut simplement s’assurer qu’aucunes pages importantes de votre site ne disposent de ce type de message d’erreur associé.

Avant de se quitter…

Si cet article sur l’alerte Search Console sur les pages bloquées par le robots.txt mais indexées vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.

Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).

Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?

Un avis ? post

Vincent Brossas

Fondateur de LEPTIDIGITAL et SUPASST, je suis également consultant spécialisé en acquisition de leads B2B (SaaS). Passionné par le marketing digital, l’intelligence artificielle et le SEO. Avant de devenir indépendant, j’ai occupé des postes clés en tant que SEO Manager et responsable e-commerce pour plusieurs grandes entreprises (Altice Media, Infopro Digital, Voyage Privé et le Groupe ERAM). Sur le plan perso, je suis un curieux insatiable, également passionné par la photographie, le badminton et les voyages. Pour toute demande de partenariat, privilégiez LinkedIn ou email ([email protected]).

www.leptidigital.fr

Search Console