
1. ChatGPT et Perplexity crawlent le web et « volent » les contenus des éditeurs sans respecter le fichier robots.txt
Les éditeurs de contenus ont longtemps compté sur le fichier robots.txt pour empêcher les robots d’exploration de ChatGPT d’accéder à leurs sites.
Cependant, plusieurs rapports montrent que les plateformes d’IA ne respectent pas systématiquement ces restrictions.
Résultat : les contenus continuent d’être indexés et utilisés sans consentement explicite.
Selon des observations, une solution efficace pour stopper cet accès non désiré est de bloquer les IP des plateformes IA via un CDN ou un serveur de cache comme Cloudflare.
Certains éditeurs ayant appliqué cette méthode ont constaté une nette baisse de la consommation de données, réduisant ainsi les coûts d’hébergement web associés.
À lire aussi : LLMS.txt : Un nouveau fichier pour contrôler l’accès des IA aux contenus web
2. Une hausse du trafic… mais à quel prix ?
Si certains éditeurs dénoncent cette exploitation de leurs contenus, d’autres observent une augmentation notable du trafic référent en provenance des IA.
Parmi les exemples marquants :
- The Atlantic a vu son trafic depuis ChatGPT bondir de 80 % entre décembre et janvier.
- Blavity bénéficie d’un apport croissant de visiteurs via Perplexity.
- Selon Similarweb, ChatGPT a généré 3,5 millions de visites vers 14 grands éditeurs en janvier 2025.
Cependant, ces volumes restent faibles comparés aux autres sources de trafic.
Pour la plupart des médias, le trafic issu de l’IA ne dépasse pas encore 0,1 % de leurs visites totales, c’est donc très faible vis-à-vis de toute la valeur qu’ils leurs transmettent, gratuitement pour la plupart.
3. Les éditeurs impuissants face à l’exploration des IA ?
Malgré leurs tentatives de blocage, certains médias continuent de voir leur contenu apparaître dans les réponses des IA :
- Le New York Times, qui a intenté une action en justice contre OpenAI et Microsoft, a reçu 240 600 visites depuis ChatGPT en janvier 2025, malgré des restrictions claires dans son robots.txt.
- Des sites comme Forbes et CNN figurent parmi les plus référencés par ChatGPT et Perplexity, bien qu’ils n’aient pas signé d’accords avec ces plateformes.
4. Quelle stratégie adopter pour les éditeurs ?
Face à cette situation, plusieurs options s’offrent aux éditeurs :
- Bloquer les IP des IA via un CDN (ex. Cloudflare) pour empêcher l’exploration.
- Surveiller le trafic IA pour mesurer son impact sur leur audience.
- Exiger des accords de licence pour encadrer l’usage de leurs contenus.
- Renforcer la protection des contenus (paywalls, restrictions d’accès aux robots non identifiés).
🚨 La question clé : les éditeurs doivent-ils accepter un échange de visibilité contre l’usage illégal de leurs contenus, ou doivent-ils renforcer la protection de leurs données à tout prix ?
Avec l’essor des IA génératives, la bataille pour le contrôle des contenus en ligne ne fait que commencer.
Affaire à suivre…

Fondateur de LEPTIDIGITAL et consultant spécialisé en acquisition de leads B2B (SaaS) et SEO. Passionné par le marketing digital, l’intelligence artificielle et le référencement naturel, il possède une solide expérience dans ces domaines. Au fil de sa carrière, il a occupé des postes clés en tant que SEO Manager et responsable e-commerce pour plusieurs grandes entreprises, dont Altice Media, Infopro Digital, Voyage Privé et le Groupe ERAM. Sur le plan personnel, c’est un curieux insatiable, également passionné par la photographie, le badminton et les voyages. Pour toute demande de partenariat, privilégiez une prise de contact via LinkedIn ou par email à [email protected].
intéressant mais n’oubliez pas que cloudflare a aussi des défauts avec un taux de rebond qui augmente fortement. j’ai l’exemple d’un site sur lequel on a installé cloudflare pour empécher les bots de scroller le contenu, sur lequel on a perdu près de 30% des Visiteurs uniques juste après la mise en place (sans changement sur le ranking). Et au retrait, le traffic est revenu 15 jours après