Le crawl de Google n’est pas la notion la plus simple à comprendre en SEO, cette infographie présente de manière illustrée comment le Google Bot crawl et indexe les sites internet. Les 7 raisons fréquentes de la non-indexation d’un site et quelques conseils pour favoriser l’indexation vous sont aussi proposés en fin d’article.
Accès rapide (Sommaire) :
Le crawl et l’indexation de site internet expliqué en une infographie
L’indexation et le crawl d’un site internet sont des éléments déterminants dans le classement d’un site internet dans les résultats naturels de Google, cette infographie de QuickSprout présente de manière simple le fonctionnement du crawl de Google et le processus qui conduit à l’indexation des sites internet dans l’index de Google.
Les 7 principaux facteurs qui peuvent bloquer l’indexation d’un site par Google sont aussi présentés ainsi que quelques conseils pour mieux indexer votre site internet dans Google.
L’indexation et le crawl en 6 chiffres clés :
- L’index de Google est 2 fois plus important que celui de Bing et Yahoo réunis !
- Seulement 10% du web est indexé par les moteurs de recherche comme Google !
- Bing dispose d’un index de 14 million de pages web dans lequel son moteur de recherche va piocher les résultats à proposer lorsque des recherches sont effectuées.
- 450 millions de pages web ne sont pas indexés dans Google, c’est ce que l’on appelle le « web invisible ».
- Le web invisible représente 90% du World Wide Web !
- Google a besoin d’1 million de serveurs pour sans cesse crawler le web !
Indexation et crawl de site internet par Google : comment ça marche ?
Les moteurs de recherche comme Google utilisent des robots, plus communément appelés « spiders« , qui parcourent le web à la recherche de nouvelles pages à indexer.
Les spiders parcourent le web comme les humains et suivent les liens présents sur les sites internet pour découvrir toujours plus de nouvelles pages à intégrer à leurs index respectifs.
Le fait de parcourir le web est plus techniquement appelé « crawler ». Si Google crawl votre site internet, cela signifie donc qu’il le visite et le parcoure avec ses spiders (robots).
A quelle fréquence Google va-t’il crawler votre site ?
La fréquence du crawl de Google dépend de la fréquence à laquelle vous ajoutez ou modifiez du contenu sur votre site internet.
Google peut crawler votre site tous les jours comme tous les 6 mois en fonction de ces paramètres.
Plus vous ajouterez du contenu frais à votre site internet, plus Google estimera bon de le crawler régulièrement pour découvrir de nouvelles pages à indexer.
7 raisons fréquentes pour lesquelles votre site ne peut pas être crawlé par Google
1- Votre site internet ne dispose pas d’un fichier robots.txt ou ce dernier est mal configuré.
2- Votre fichier .htaccess est mal configuré et ne permet pas aux robots de Google de crawler votre site.
3- Les balises Meta de votre site ne sont pas correctement codées.
4- Une mauvaise configuration dans webmaster tools des critères d’URL à exclure de l’index de Google a été faite.
5- Un pagerank trop faible (même si la barre de pagerank verte est morte, Google dispose toujours en interne de son propre PageRank qu’il met à jour quotidiennement).
6- Des problèmes de DNS ou de serveur peuvent empêcher les robots de crawler votre site internet.
7- Votre nom de domaine a été blacklisté pour des raisons de spam par Google.
Comment aider Google à crawler votre site internet ?
- Corrigez toutes les erreurs de Crawl identifiées dans le rapport dédié de Webmaster Tools : elles sont classées par ordre d’importance, il faut donc corriger en priorité celle qui s’affichent en premier.
- Améliorez votre maillage interne : un bon maillage interne permet à Google de mieux parcourir votre site et donc de mieux l’indexer.
- Attention à l’ajax : si vos disposez de fonctionnalités en Ajax sur votre site internet, suivez les conseils de Google pour un crawl optimal.
- Ajoutez un fichier robots.txt à votre site internet et veillez à ce qu’il soit bien configuré.
- Ajoutez un sitemap à votre site internet.
- Privilégiez la construction de votre site en Javascript, CSS et HTML5 et ne bloquez pas à Google l’accès à ces ressources sous peine de pénalités !
- Ne cachez pas de contenu à Google pour favoriser son indexation et votre positionnement en SEO !
- Améliorez la vitesse de chargement de votre site internet : les robots de Google disposent d’un temps limité pour crawler un site et en indexer les nouvelles pages, plus votre site sera rapide, plus le volume de nouvelles pages crawlées et indexées sera important.
Source infographie : QuickSprout
Fondateur de LEPTIDIGITAL et consultant SEO senior (à mes heures perdues), je suis un grand passionné de marketing digital et de SEO. Avant d’être indépendant à 100 %, j’ai travaillé en tant qu’SEO manager et responsable e-commerce pour différentes sociétés (Altice Media, Infopro Digital, Voyage Privé, Groupe ERAM). (Sur le plan perso, je suis un grand curieux hyperactif aussi passionné par l’IA, la photographie et les voyages !). PS : Si vous souhaitez me contactez, privilégiez LinkedIn ou Instagram. Pour me contacter : [email protected]