Le leak du fonctionnement de l’algorithme de Google gérant l’affichage des résultats de recherche organiques nous a dévoilé quelques informations méconnues : voici un résumer en 14 points clés.
Le leak du fonctionnement de l’algorithme de Google gérant l’affichage des résultats de recherche organiques nous a dévoilé quelques informations méconnues : voici un résumer en 14 points clés.
Accès rapide (Sommaire) :
Les documents fuités révèlent que Google utilise plus de 14 000 attributs dans son algorithme de classement.
Ces attributs sont organisés en 2 596 modules différents.
Par exemple, des signaux de qualité des pages générées par les utilisateurs (UGC) ou des signaux expérimentaux spécifiques pour les évaluations de produits sont mentionnés.
Ces modules couvrent divers aspects allant des documents web aux infrastructures de crawl, en passant par des systèmes internes comme les calendriers et les API de gestion de personnes.
Malgré les déclarations publiques des porte-parole de Google niant l’utilisation de la métrique d’autorité de domaine, les documents internes indiquent la présence d’un attribut nommé “siteAuthority”.
Cet attribut, intégré dans le système de classement Q* (qui rappelle le projet secret d’AGI d’OpenAI), est utilisé pour évaluer l’autorité d’un site à un niveau global. Cela contredit les déclarations publiques de Google, qui affirmaient ne pas utiliser une telle mesure.
Google a toujours affirmé ne pas utiliser les clics comme signal direct pour le classement des pages.
Cependant, la fuite confirme l’existence de systèmes comme NavBoost et Glue qui utilisent des données de clics pour ajuster les résultats de recherche.
Ces systèmes prennent en compte des métriques telles que les « bons clics », les « clics longs » et les « impressions », normalisant ces données pour éviter toute manipulation excessive.
Les documents suggèrent que Google utilise les données collectées via le navigateur Chrome pour améliorer ses résultats de recherche, ce qui confirmerait une nouvelle fois les croyances de nombreux SEO.
Par exemple, les métriques de clics sur Chrome sont utilisées pour déterminer les URLs les plus importantes d’un site, influençant ainsi les sitelinks et autres fonctionnalités de recherche.
Google a toujours nié l’existence d’une sandbox affectant les nouveaux sites.
Cependant, un attribut nommé « hostAge » dans les documents fuités confirme que Google utilise un mécanisme de sandbox pour traiter les sites récents et potentiellement spammy, contredisant directement les affirmations publiques des porte-parole de Google.
Les documents indiquent que Google utilise des whitelists pour certains secteurs comme le voyage, la santé (Covid) et la politique.
Par exemple, des sites de haute qualité dans le secteur du voyage bénéficient d’un traitement préférentiel, garantissant des résultats fiables pour des requêtes potentiellement controversées ou critiques.
Les évaluations de qualité humaines via la plateforme EWOK et les search quality raters sont bien utilisées dans les systèmes de recherche de Google.
Bien que leur influence exacte ne soit pas entièrement claire, ces évaluations jouent un rôle crucial dans la détermination de la pertinence des documents.
Les documents révèlent que Google mesure le succès des sessions de recherche en se basant sur des indicateurs comme les clics longs (lorsqu’un utilisateur reste longtemps sur une page après avoir cliqué sur un résultat de recherche) et les clics courts (lorsqu’un utilisateur revient rapidement à la page de résultats après avoir cliqué sur un lien).
C’est aussi ce l’on appelait le pogosticking.
Ces mesures sont utilisées pour ajuster le classement des pages en fonction de la satisfaction perçue des utilisateurs.
NavBoost segmente les données de clics par pays, état ou province, ainsi que par type d’appareil (mobile ou desktop).
Cette segmentation permet à Google d’adapter les résultats de recherche en fonction des comportements et des préférences des utilisateurs dans différentes régions géographiques, améliorant ainsi la pertinence locale des résultats.
Les fuites indiquent que les évaluations de qualité des sites, comme celles utilisées dans l’algorithme Panda, sont influencées par les données de NavBoost.
Ces évaluations prennent en compte des facteurs comme la fréquence et la qualité des clics sur un site, et peuvent entraîner des promotions ou des dégradations dans les classements.
De plus, une nouvelle mesure nommée BabyPanda est mentionnée, ajoutant une couche supplémentaire de filtrage et d’évaluation des sites web.
La fuite révèle que Google utilise les données de clics collectées via Chrome pour déterminer les URLs les plus importantes d’un site web, influençant ainsi la création des sitelinks (liens supplémentaires sous le résultat principal dans les SERPs).
Cette approche permet à Google de mettre en avant les pages les plus pertinentes et les plus visitées pour les utilisateurs.
Pour combattre le spam, Google utilise des techniques de normalisation des clics afin de s’assurer qu’aucun signal unique ne domine les autres.
Cela inclut des mesures pour détecter et ignorer les clics frauduleux ou non naturels, améliorant ainsi la fiabilité des signaux utilisés pour le classement des pages.
Les fuites indiquent que Google utilise l’historique de navigation et les données de cookies des utilisateurs connectés pour affiner les résultats de recherche.
Ces données permettent à Google de personnaliser les SERPs en fonction des comportements et des préférences des utilisateurs individuels, offrant une expérience de recherche plus pertinente et personnalisée.
Les évaluations des utilisateurs via la plateforme EWOK sont intégrées dans les systèmes de recherche de Google pour déterminer la pertinence des documents.
Ces scores de pertinence, basés sur des évaluations humaines, jouent un rôle crucial dans la formation et l’ajustement des algorithmes de recherche, garantissant que les résultats de recherche reflètent les attentes et les jugements des utilisateurs.
Cette fuite massive offre un aperçu rare et détaillé du fonctionnement interne de l’algorithme de Google.
Bien qu’il faudrait surement des jours, voire des semaines, pour pouvoir analyser dans le détail cette fuite de données massive, les experts Rand Fishkin et Mike King ont déjà effectué un travail intéressant d’analyse et de synthèse qui nous apporte déjà des informations et confirmations qui vont à l’encontre de bon nombre d’informations partagées par Google et ses représentants officiels.
En prenant en compte tous ces points, il est désormais évident que Google utilise une combinaison complexe de signaux, allant des clics des utilisateurs aux évaluations humaines, en passant par les données de navigation collectées via Chrome pour déterminer les résultats qui s’affichent organiquement sur son moteur de recherche.
Si cette fuite de données ne va pas révolutionner la manière de travailler des référenceurs en soit, elle aura le mérite de permettre de confirmer certaines rumeurs et croyances qui divisaient parfois la communauté SEO…
Avant de se quitter…
Si cet article sur le leak de Google sur le fonctionnement de son algorithme vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?
Fondateur de LEPTIDIGITAL et consultant SEO senior (à mes heures perdues), je suis un grand passionné de marketing digital et de SEO. Avant d’être indépendant à 100 %, j’ai travaillé en tant qu’SEO manager et responsable e-commerce pour différentes sociétés (Altice Media, Infopro Digital, Voyage Privé, Groupe ERAM). (Sur le plan perso, je suis un grand curieux hyperactif aussi passionné par l’IA, la photographie et les voyages !). PS : Si vous souhaitez me contactez, privilégiez LinkedIn ou Instagram. Pour me contacter : [email protected]