Le fichier Robots.txt, c’est quoi ?
À ne pas confondre avec le fichier .htaccess qui est un fichier de configuration serveur, le fichier Robots.txt sert à contrôler l’accès des robots à l’intégralité, ou à des sections bien spécifiques de votre site internet.
L’intérêt de cet outil étant de bloquer l’indexation des pages n’ayant que très peu de contenu, une quantité importante de duplicate content (contenu dupliqué) ou encore des pages de tri changeant l’URL mais réaménageant seulement le contenu déjà présent sur la page.
Ce fichier vous permettra aussi de spécifier l’adresse où se trouve votre fichier sitemap.xml.
Trois commandes pour votre fichier Robots.txt :
- La commande « Useragent: » : elle définit quel Robot sera concerné par les commandes situés dessous. Si vous souhaitez que les commandes soient valables pour l’intégralité des robots, votre Robots.txt devra commencer par « Useragent : * ».
- La commande « Disallow: » : cette commande permet de restreindre l’accès à une partie de votre site internet.
o Exemple : Disallow : /recherche/ ?s=*
- Cette commande n’autorisera pas le crawl et l’indexation des pages de recherche par exemple.
- La commande « Allow : » : cette commande est à utiliser lorsque vous souhaitez autoriser un certain type de page dans un ensemble que vous avez bloqué.
o Ex : Allow: /recherche/ ?s=samsung
- Seulement la page de recherche avec le mot clé « Samsung » sera autorisée.
Où placer le Robots.txt sur votre site ?
Le fichier doit être impérativement placé à la racine de votre site internet :
Exemple : www.monsite.com/robots.txt
Si ce dernier était placé dans un répertoire, les moteurs de recherche n’y auraient pas accès et ne pourraient donc pas en suivre toutes les directives.
Sous quel encodage doit être enregistré votre Robots.txt ?
Votre fichier Robots.txt doit impérativement être enregistré sous l’encodage « UTF 8 » pour que Google et les autres moteurs de recherche comme Bing, Yahoo, Yandex and co puissent correctement le traiter. Les autres encodages comme ANSI, Unicode, Unicode big endian ne sont donc pas conformes.
Sous quel format votre robots.txt doit-il être enregistré ?
Comme son nom l’indique, votre fichier doit être enregistré au format .txt (format texte). Pour se faire, vous pouvez utiliser l’application « Bloc-notes » si vous êtes sous Windows notamment.
Quel nom donner à votre robots.txt ?
Là encore il n’y a pas de choix possible, votre fichier doit être enregistré sous le nom « robots » en n’oubliant pas le « s » à la fin qui est très important. Si votre document avait un nom différent de « robots », il ne pourrait pas être traité par les moteurs de recherche, il serait donc inutile.
Un point très important à vérifier lors de l’enregistrement de votre fichier est que le nom de ce dernier soit uniquement en minuscules. Si votre fichier s’appelait par exemple « Robots.txt » ou « ROBOTS.txt », il ne serait pas valide et donc inutilisable par les moteurs de recherche et autres Robots parcourant votre site.
Vous avez des questions sur l’utilisation ou la configuration de votre Robots.txt pour optimiser les performances SEO de votre site ? N’hésitez pas à en faire part dans les commentaires ci-dessous.
Quel est la taille maximale à ne pas dépasser pour votre Robots.txt ?
GoogleBot, le robot de Google suit les règles des 500 premiers Kilo bytes de votre fichier, ce qui correspond à environ 62 Ko. Si votre fichier dépasse ce poids, il se pourrait que les dernières commandes ne soient pas prises en comptes par tous les robots crawler de site web.
Pour tester votre robots.txt, rendez-vous sur Google Webmaster Tools :
Découvrez l’outil de test de robots.txt dans votre interface Webmaster Tools : https://www.google.com/webmasters/tools/robots-testing-tool?hl=fr
En savoir plus sur le Robots.txt : https://support.google.com/webmasters/answer/6062608?hl=fr