Accès rapide (Sommaire) :
DALL-E 2 : qu’est-ce que c’est ?
DALL-E 2 est une nouvelle intelligence artificielle développée par OpenAI, une entreprise de recherche en intelligence artificielle fondée par des anciens de Google Brain, SpaceX et Tesla. Elle a été créée dans le but de générer des images à partir de descriptions écrites par des humains.
En janvier 2021, OpenAI a présenté DALL-E. Un an plus tard, en 2022, le tout dernier système DALL-E 2 a été dévoilé et génère désormais des images encore plus réalistes et précises, avec une résolution quatre fois supérieure à celles générées par DALL-E 1.
Quel est l’objectif d’OpenAI avec DALL-E ?
Bien qu’OpenAI soit désormais une entreprise à but lucratif, la société a partagé sur son site web l’objectif du projet :
« Nous espérons que DALL-E 2 permettra aux gens de s’exprimer de manière créative. DALL-E 2 nous aide également à comprendre comment les systèmes d’IA avancés voient et comprennent notre monde, ce qui est essentiel pour notre mission de création d’IA au service de l’humanité. »
Comment fonctionne l’IA DALL-E ?
DALL-E 2 a appris la relation entre les images et le texte utilisé pour les décrire. L’IA utilise un processus appelé « diffusion », qui part d’un motif de points aléatoires et modifie progressivement ce motif vers une image lorsqu’il reconnaît des aspects spécifiques de cette image.
Plus concrètement, voici son système de fonctionnement :
- Entraînement : DALL-E est entraîné sur un vaste jeu de données comprenant des paires d’images et de descriptions textuelles correspondantes. Le modèle apprend ainsi à associer des motifs visuels à des descriptions linguistiques.
- Encodage du texte : Lorsqu’une description textuelle est fournie en entrée, DALL-E convertit d’abord cette description en une représentation vectorielle en utilisant son composant de traitement du langage.
- Génération d’images : DALL-E génère ensuite une image à partir de la représentation vectorielle de la description textuelle. Contrairement aux réseaux génératifs classiques qui génèrent des images pixel par pixel, DALL-E génère des images à partir de motifs plus grands appelés « patches ».
- Diffusion stochastique : C’est ici que la diffusion entre en jeu. DALL-E utilise un processus de diffusion stochastique pour générer l’image finale. Le processus commence avec un motif initial aléatoire et le modifie progressivement à l’aide de plusieurs étapes de diffusion. Chaque étape ajuste les valeurs du motif pour qu’elles se rapprochent davantage de l’image finale tout en conservant la cohérence globale.
- Génération incrémentielle : La diffusion permet à DALL-E de générer des images de manière itérative et progressive. À chaque étape de diffusion, le modèle peut affiner les détails de l’image en fonction des informations contenues dans le motif actuel et la description textuelle.
- Raffinement et ajustement : Après plusieurs étapes de diffusion, l’image générée devient de plus en plus proche de l’image correspondante à la description. DALL-E ajuste les motifs pour capturer les caractéristiques spécifiques mentionnées dans la description, tout en maintenant une cohérence globale.
De quoi DALL-E 2 est-elle réellement capable ?
DALL-E 2 peut créer des images et des œuvres d’art originales et réalistes à partir d’une description textuelle. Elle peut combiner des concepts, des attributs et des styles.
DALL-E 2 est capable de générer des images de tout type :
- Des images qui ressemblent à des peintures
- Des images avec des personnes qui n’existent pas
- Des images de faux paysages
- Des images qui reprennent le style BD
- De faux logos
- Des représentations 3D d’éléments fictifs
- …
Au-delà de la génération d’images, DALL-E est également en mesure :
- D’apporter des modifications réalistes à des images existantes à partir d’une légende en langage naturel
- D’ajouter ou supprimer des éléments d’une image tout en tenant compte des ombres, des reflets et des textures
- De générer des variantes d’une image source en s’inspirant de l’originale
DALL-E 1 vs DALL-E 2 : quelles différences concrètes ?
Une étude a été menée par OpenAI pour évaluer les performances de DALL-E 2 vis-à-vis de son ancienne version DALL-E 1.
Au global, DALL-E 2 est préféré à DALL-E 1 pour la correspondance des images générées avec les demandes initiales.
Le photoréalisme est aussi considéré comme meilleur par les évaluateurs invités à comparer 1 000 générations d’images de chaque modèle.
Au niveau des performances, les images générées par DALL-E 2 proposent une résolution 4 fois supérieure à celles générées par DALL-E 1.
Comment voir des exemples d’images générées par l’IA DALL-E ?
Le mieux pour voir des exemples de visuels générés par l’IA grâce à DALL-E est de suivre leur compte Instagram @openaidalle sur lequel ils partagent leurs plus belles générations :
Comment tester DALL-E 2 ? Quel sera le prix ?
Pour tester DALL-E 2, il n’y a désormais plus de waiting list. L’IA est dorénavant accessible à tous, il suffit de créer un compte sur le site pour pouvoir la tester gratuitement.
Pour sa version bêta, chaque utilisateur qui crée un compte reçoit un pack de 50 crédits gratuits à utiliser pendant le premier mois d’utilisation.
Le compte gratuit offre ensuite 15 crédits par mois.
Chaque crédit permettra de générer 4 variantes d’images issues d’un même prompt ou 3 variantes d’images dans le cas d’une demande de modification ou de création de variation.
Durant cette phase de bêta, un système de crédits à acheter sera proposé. Les utilisateurs invités pourront ainsi commander 115 crédits supplémentaires pour 15$. 115 crédits permettront de générer au total 460 images avec l’IA (115 générations ou variations).
Les images générées par DALL-E sont-elles libres de droits ?
Si DALL-E ne peut pas être comparé aux sites d’images libres de droits, les utilisateurs de l’intelligence artificielle disposeront de tous les droits d’utilisation sur les images qu’ils généreront. Il leur sera ainsi possible d’utiliser les images à des fins commerciales (newsletters, illustration d’articles, montages graphiques, montages vidéo, couvertures de livres, storyboards, films…) ou de les vendre directement.
Quelles sont les limites de DALL-E ?
DALL-E a été entraîné à générer des images à partir de textes ou d’images, mais elle a des limites : elle ne peut générer des images que de ce qu’elle a déjà vues et elle ne peut pas interpréter le sens et le contexte des mots.
Pour des raisons évidentes, OpenAI a également limité la capacité de DALL-E 2 à générer des images violentes, haineuses ou pour adultes. En supprimant le contenu le plus explicite des données d’entraînement, OpenAI a minimisé l’exposition de DALL-E 2 à ces concepts. L’entreprise a par ailleurs utilisé des techniques avancées pour empêcher la génération photoréaliste de visages d’individus réels, y compris ceux de personnalités publiques.
La politique de contenu d’OpenAI ne permet par ailleurs pas aux utilisateurs de générer des contenus violents, pour adultes ou politiques, entre autres catégories. OpenAi se réserve le droit de bloquer la génération d’images si les filtres en place identifient des invites de texte et des téléchargements d’images susceptibles de violer leurs politiques. Des systèmes de surveillance automatisés et humains ont également été prévus pour éviter les abus.
Les questions fréquentes sur DALL-E (et DALL-E 2)
J’ai entendu parler de la diffusion stochastique, qu’est-ce ?
La diffusion stochastique est un processus itératif par lequel DALL-E 2 génère des images. Elle commence avec un motif de points aléatoires et les ajuste progressivement en fonction de l’image cible tout en conservant la cohérence globale.
Quelles sont les différences entre DALL-E 2 et d’autres modèles de génération d’images ?
DALL-E 2 se distingue par sa capacité à créer des images basées sur des descriptions textuelles complexes, en utilisant la diffusion stochastique. Contrairement à d’autres modèles, il peut générer une variété de styles artistiques et de concepts visuels spécifiques.
Quels sont les avantages et les inconvénients de l’approche de diffusion stochastique par rapport à d’autres méthodes de génération d’images ?
Avantages | Inconvénients |
---|---|
Précision et Cohérence | Complexité |
Contrôle du Processus | Besoin en Calcul |
Génération Incrémentielle | Risque de Divergence |
Dépendance au Texte |
Quelles sont les limites actuelles de DALL-E 2 en termes de génération d’images ?
Même si DALL-E 2 est un outil assez impressionnant, il peut encore rencontrer des difficultés à capturer des détails très spécifiques dans certaines images complexes.
Il peut aussi parfois générer des images qui semblent plausibles, mais ne sont pas réalistes, il faut faire attention.
Comment OpenAI aborde-t-il les préoccupations liées à l’utilisation abusive de DALL-E 2 ?
OpenAI est conscient des préoccupations liées à la désinformation visuelle et à l’utilisation abusive de DALL-E 2. L’entreprise cherche à mettre en place des mécanismes de régulation et à encourager des pratiques responsables dans l’utilisation de la technologie.
Les recherches sont en cours.
PS : si vous souhaitez aller plus loin que la génération d’images via l’IA, vous pouvez également consulter les logiciels de création de vidéos par l’IA sur notre article dédié.
Avant de se quitter…
Si cet article sur DALL-E 2 vous a plu, n’hésitez pas à le partager sur les réseaux sociaux et à vous abonner à notre newsletter digitale pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, Twitter, Facebook et YouTube. On s’y retrouve ?
Pour toute question associée à cet article, n’hésitez pas à utiliser la section « commentaires » pour nous faire part de votre remarque, nous vous répondrons dans les meilleurs délais (avec plaisir).
Fondateur de LEPTIDIGITAL et consultant SEO senior, je suis un grand passionné de marketing digital et de SEO. Avant d’être indépendant à 100 %, j’ai travaillé en tant qu’SEO manager et responsable e-commerce pour différentes sociétés (Altice Media, Infopro Digital, Voyage Privé, Groupe ERAM). (Sur le plan perso, je suis un grand curieux aussi passionné par l’IA, la photographie et les voyages !). PS : Si vous souhaitez me contactez, privilégiez LinkedIn ou l’email. Pour me contacter : [email protected]
J’ai testé DALL-E 2 aujourd’hui et je dois dire que je suis bluffé ! J’en ai fait un article sur mon blog en montrant les rendus. C’est pas tip top mais pas mal quand même !
Petit EDIT, j’ai fait le test sur mon blog de comparer les 2 IA concurrentes, Dall-E 2 et Midjourney. Je ne sais pas lequel je préfère mais il y a quelques petites différences tout de même !
très décevant!