NEWS #Digitale : envie de recevoir nos meilleurs articles ?  Inscription → 

GPTbot : Comment Empêcher le Robot d’OpenAI (ChatGPT) d’Accéder à Votre Site Internet ?

Vous souhaitez empêcher OpenAI de pouvoir lire et d’utiliser vos contenus pour l’entrainement de son modèle de langage ? Vous souhaitez bloquer le robot explorateur d’OpenAI GPTbot pour qu’il ne puisse accéder à aucunes de vos pages web et aucuns de vos articles publiés en ligne ? Voici comment vous pouvez très simplement bloquer le robot d’exploration GPTbot qui va alimenter les prochaines modèles GPT en nouvelles données d’entrainement.
GPTbot OpenAI

Qu’est-ce que GPTbot ?

Dévoilé par OpenAI en août 2023, GPTBot est un robot d’exploration du web (webcrawler) dont l’objectif principal est d’acquérir des données accessibles au public sur l’ensemble d’Internet pour améliorer les capacités des futurs modèles d’IA GPT.

En récupérant et agrégeant des données provenant de sources de données beaucoup plus étendues que celles ayant été utilisées pour son entrainement initial, GPTBot va permettre aux systèmes d’IA de générer des réponses qui seront plus précises et détaillées.

Ces nouvelles sources de données pourront également aider les modèles GPT à fournir des réponses plus pertinentes sur des secteurs d’activité pour lesquelles les données d’entrainement étaient jusqu’à lors trop réduites.

Comment fonctionne GPTbot ? À quels contenus aura-t-il accès ?

GPTBot va parcourir les sites web de liens en liens pour accéder et récupérer le contenu accessible au public des sources qui l’intéressent.

Toutefois, il est important de préciser que GPTBot a été conçu pour ne pas récupérer les contenus accessibles uniquement à des utilisateurs abonnés ou connectés. Tous les sites internet qui utilisent un paywall seront ainsi automatiquement protégés du robot d’exploration d’OpenAI sans qu’ils n’aient à réaliser la moindre action.

s’immisce pas dans les contenus privés ou à accès restreint. Adhérant à des lignes directrices éthiques, le robot respecte les limites de l’accessibilité du contenu.

Pourquoi bloquer le robot d’exploration d’OpenAI ?

Voici quelques raisons qui pourraient pousser certains éditeurs de sites à vouloir bloquer le web crawler d’OpenAI :

  1. Propriété intellectuelle et droits d’auteur : certains sites web pourraient ne pas vouloir que leur contenu soit utilisé pour entraîner un modèle commercial sans compensation ou autorisation.
  2. Confidentialité : les sites qui hébergent des données sensibles ou privées pourraient craindre que ces données soient aspirées, même si le robot d’exploration est censé exclure ces types de contenus.
  3. Intégrité du contenu : les éditeurs pourraient craindre que le contenu soit mal interprété ou mal utilisé, conduisant à de la désinformation ou des utilisations contraires à leur éthique.
  4. Philosophie open web : les propriétaires de sites sensibles à l’open source pourraient estimer que les données collectées pour des gains commerciaux ne correspondent pas à leur idéologie d’un web libre et ouvert.
  5. Préoccupations sur les monopoles : certains éditeurs peuvent avoir des inquiétudes quant à la concentration du pouvoir et de l’influence entre les mains de quelques grandes entreprises technologiques et peuvent ne pas vouloir contribuer à leur croissance.

Comment empêcher GPTbot d’accéder à votre site et d’utiliser vos contenus sans votre consentement ?

Pour empêcher GPTbot d’accéder et d’utiliser les contenus de votre site, il vous suffit d’ajouter quelques lignes de code dans le fichier texte robots.txt disponible à la racine de votre site web :

User-agent: GPTBot
Disallow: /

Cette directive indique concrètement au robot d’exploration qu’il n’est pas autorisé à parcourir l’intégralité des pages de votre site web.

Si vous désirez restreindre le web crawler d’une ou de plusieurs parties spécifiques de votre site web, il faudra alors adapter cette règle pour ouvrir les répertoires spécifiques et fermer l’accès au reste.

Voici un exemple pour bloquer un répertoire et autoriser un autre :

User-agent: GPTBot
Allow: /actualites/
Disallow: /dossiers/

Dans l’exemple ci-dessus, le dossier /actualites/ sera ouvert à l’exploration alors que le second dossier, /dossiers/, sera lui bloqué.

Voici un exemple de configuration robots.txt qui bloque l’accès de GPTbot à l’intégralité du site Mediapart :

Exemple du robots.txt de Mediapart qui bloque l'accès à OpenAI (GPTbot)
Exemple du robots.txt de Mediapart qui bloque l’accès à OpenAI (GPTbot)

Pourquoi bloquer GPTbot ne sera pas suffisant pour réellement protéger vos contenus de l’IA ?

Bien que le fait de bloquer le robot d’exploration d’OpenAI soit une première étape qui semble intéressante dans la protection de l’utilisation de votre contenu sans votre consentement par l’un des plus importants Large Language Model au monde, les projets SGE (Search Generative Experience) et Bard de Google, qui auront un impact beaucoup plus direct sur les éditeurs de contenus, ne permettent actuellement pas de bloquer la possibilité pour Google de réutiliser vos contenus sans votre consentement.

Il en va de même pour les nombreux autres projets LLM qui ne permettent également actuellement pas d’exclure votre site des données d’entrainement (et il en existe bien plus d’une dizaine).

D’autre part, le fait de bloquer dans votre robots.txt le robot GPTbot ne vous protègera pas non plus totalement d’OpenAI et ChatGPT. Pourquoi ? Tout simplement car cela n’empêchera pas des utilisateurs d’utiliser vos contenus pour nourrir l’IA manuellement pour ensuite obtenir une réponse spécifique grâce à vos contenus.

Ainsi, vous protéger de GPTbot d’OpenAI ne vous protège pour le moment qu’en partie de la réutilisation des données de votre site sans votre consentement par un système d’intelligence artificielle

Reste à savoir si Google et les autres LLM permettront également cette option d’exclusion de certains éditeurs dans les futures versions de leurs services…

Avant de se quitter…

Si cet article sur le blocage du robot d’exploration GPTbot dans le robots.txt vous a plu, n’hésitez pas à le partager sur les réseaux sociaux et à vous abonner à notre newsletter digitale pour recevoir nos prochains articles.

Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).

Nous sommes aussi actifs sur LinkedIn, Twitter, Facebook et YouTube. On s’y retrouve ?

Pour toute question associée à cet article, n’hésitez pas à utiliser la section « commentaires » pour nous faire part de votre remarque, nous vous répondrons dans les meilleurs délais (avec plaisir). 

5/5 - (4 votes)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *