Common Corpus : au croisement de la technologie et de l’éthique : découverte d’une initiative française qui repousse les limites de l’IA en respectant les droits d’auteur et en promouvant l’innovation éthique.
Common Corpus : au croisement de la technologie et de l’éthique : découverte d’une initiative française qui repousse les limites de l’IA en respectant les droits d’auteur et en promouvant l’innovation éthique.
Imaginez un monde où la technologie et l’éthique se rencontrent pour ouvrir de nouvelles voies d’innovation.
C’est exactement ce que la startup française Pleias, menée par Pierre-Carl Langlais et son équipe, vient de réaliser.
Common Corpus n’est pas seulement une base de données ; c’est une déclaration, un défi lancé face aux affirmations des géants de la tech affirmant que c’était impossible (OpenAI, pour ne pas les citer).
Avec ses 500 milliards de mots, ce corpus ouvert et libre de droits défie les normes et repousse les limites de ce que nous pensions possible dans le domaine de l’IA.
Mais comment cette avancée peut-elle remodeler le paysage de l’intelligence artificielle ? Et quel impact pourrait-elle avoir sur l’avenir de l’innovation éthique en Europe et au-delà ?
Découvrons ensemble l’initiative audacieuse de la startup française Pleias.
Common Corpus représente un exploit notable avec ses 500 milliards de mots, équivalent au corpus sur lequel GPT-3 d’OpenAI a été entraîné.
Cette initiative prouve qu’il est possible d’entraîner des LLMs sur des corpus ouverts, y compris des œuvres journalistiques et littéraires, contredisant ainsi les dires de certaines grandes entreprises technologiques.
La certification par l’organisation américaine Fairly Trained d’un modèle de langage « éthiquement entraîné » marque une première dans le domaine, soulignant que la technologie similaire à ChatGPT peut être développée de manière responsable.
Ce projet se distingue non seulement par sa taille mais aussi par son engagement envers l’inclusivité multilingue, offrant les plus grandes collections ouvertes en français, allemand, espagnol, néerlandais et italien.
Le Common Corpus est le fruit d’une collaboration internationale, coordonnée par Pleias et impliquant des acteurs clés dans la formation des LLMs, l’éthique de l’IA et le patrimoine culturel.
Cette initiative a reçu le soutien de grandes organisations engagées en faveur d’une approche de science ouverte dans l’IA, démontrant un engagement collectif vers des standards éthiques plus élevés et une accessibilité accrue des LLMs.
Pleias ne se limite pas à la création de Common Corpus.
La startup développe également des capacités uniques en matière de données synthétiques multilingues, grâce à des approches novatrices de reformulation, de raffinement et de redocumentarisation du contenu original.
Pleias élabore des pipelines innovants pour l’extraction de corpus, permettant l’intégration de ressources ouvertes jusqu’alors négligées.
L’intégration et le soutien de données sémantiques viennent compléter cet arsenal, bâtissant une collection étendue de web sémantique pour la préformation et l’alignement avec une large diversité de standards.
Cette avancée pose des questions cruciales sur le rôle de l’innovation et de l’éthique dans le développement futur de l’IA.
La France et l’Europe se positionnent-elles en leaders dans la course à une IA plus responsable et accessible ?
Le succès de Pleias et de Common Corpus suggère un avenir prometteur, où l’innovation et l’éthique vont de pair, remettant en question le monopole des géants technologiques et ouvrant la voie à une nouvelle ère de modèles de langage développés de manière ouverte et responsable.
La réalisation de Pleias démontre non seulement la viabilité d’une approche éthique de l’IA mais inspire également un mouvement vers la démocratisation de l’innovation dans le domaine des LLMs.
Avec des implications profondes pour la diversité, l’équité et l’accessibilité dans la formation et le déploiement des modèles, cette initiative française ouvre de nouvelles perspectives pour le futur de l’intelligence artificielle, en Europe et au-delà.
Avant de se quitter…
Si cet article sur Pleias et Common Corpus vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?
Fondateur de LEPTIDIGITAL et consultant SEO senior (à mes heures perdues), je suis un grand passionné de marketing digital et de SEO. Avant d’être indépendant à 100 %, j’ai travaillé en tant qu’SEO manager et responsable e-commerce pour différentes sociétés (Altice Media, Infopro Digital, Voyage Privé, Groupe ERAM). (Sur le plan perso, je suis un grand curieux hyperactif aussi passionné par l’IA, la photographie et les voyages !). PS : Si vous souhaitez me contactez, privilégiez LinkedIn ou Instagram. Pour me contacter : [email protected]