NEWS #Digitale : envie de recevoir nos meilleurs articles ?  Inscription → 

DALL-E 2 : De Quoi est Vraiment Capable l’IA qui Génère des Images ?

DALL-E est une intelligence artificielle développée par OpenAI qui est capable de générer des images automatiquement à partir de textes. Elle a été entraînée sur 12 milliards d’images et a appris à les associer à des mots-clés. La technologie derrière Dall-E est assez impressionnante, mais il y a encore quelques inconvénients à prendre en compte, bien que bon nombre d’entre eux aient été améliorés avec l’arrivée de DALL-E 2. Voici un aperçu de ce que cette IA de nouvelle génération est capable.
DALL-E 2 IA génération images

DALL-E 2 : qu’est-ce que c’est ?

DALL-E 2 est une nouvelle intelligence artificielle développée par OpenAI, une entreprise de recherche en intelligence artificielle fondée par des anciens de Google Brain, SpaceX et Tesla. Elle a été créée dans le but de générer des images à partir de descriptions écrites par des humains.

En janvier 2021, OpenAI a présenté DALL-E. Un an plus tard, en 2022, le tout dernier système DALL-E 2 a été dévoilé et génère désormais des images encore plus réalistes et précises, avec une résolution quatre fois supérieure à celles générées par DALL-E 1.

Quel est l’objectif d’OpenAI avec DALL-E ?

Bien qu’OpenAI soit désormais une entreprise à but lucratif, la société a partagé sur son site web l’objectif du projet :

« Nous espérons que DALL-E 2 permettra aux gens de s’exprimer de manière créative. DALL-E 2 nous aide également à comprendre comment les systèmes d’IA avancés voient et comprennent notre monde, ce qui est essentiel pour notre mission de création d’IA au service de l’humanité. »

Comment fonctionne l’IA DALL-E ?

DALL-E 2 a appris la relation entre les images et le texte utilisé pour les décrire. L’IA utilise un processus appelé « diffusion », qui part d’un motif de points aléatoires et modifie progressivement ce motif vers une image lorsqu’il reconnaît des aspects spécifiques de cette image.

Plus concrètement, voici son système de fonctionnement :

  1. Entraînement : DALL-E est entraîné sur un vaste jeu de données comprenant des paires d’images et de descriptions textuelles correspondantes. Le modèle apprend ainsi à associer des motifs visuels à des descriptions linguistiques.
  2. Encodage du texte : Lorsqu’une description textuelle est fournie en entrée, DALL-E convertit d’abord cette description en une représentation vectorielle en utilisant son composant de traitement du langage.
  3. Génération d’images : DALL-E génère ensuite une image à partir de la représentation vectorielle de la description textuelle. Contrairement aux réseaux génératifs classiques qui génèrent des images pixel par pixel, DALL-E génère des images à partir de motifs plus grands appelés « patches ».
  4. Diffusion stochastique : C’est ici que la diffusion entre en jeu. DALL-E utilise un processus de diffusion stochastique pour générer l’image finale. Le processus commence avec un motif initial aléatoire et le modifie progressivement à l’aide de plusieurs étapes de diffusion. Chaque étape ajuste les valeurs du motif pour qu’elles se rapprochent davantage de l’image finale tout en conservant la cohérence globale.
  5. Génération incrémentielle : La diffusion permet à DALL-E de générer des images de manière itérative et progressive. À chaque étape de diffusion, le modèle peut affiner les détails de l’image en fonction des informations contenues dans le motif actuel et la description textuelle.
  6. Raffinement et ajustement : Après plusieurs étapes de diffusion, l’image générée devient de plus en plus proche de l’image correspondante à la description. DALL-E ajuste les motifs pour capturer les caractéristiques spécifiques mentionnées dans la description, tout en maintenant une cohérence globale.

De quoi DALL-E 2 est-elle réellement capable ?

DALL-E 2 peut créer des images et des œuvres d’art originales et réalistes à partir d’une description textuelle. Elle peut combiner des concepts, des attributs et des styles.

DALL-E 2 est capable de générer des images de tout type :

  • Des images qui ressemblent à des peintures
  • Des images avec des personnes qui n’existent pas
  • Des images de faux paysages
  • Des images qui reprennent le style BD
  • De faux logos
  • Des représentations 3D d’éléments fictifs
autres fonctionnalités DALL-E
Aperçu de la fonctionnalité d’édition d’images de DALL-E 2

Au-delà de la génération d’images, DALL-E est également en mesure :

  • D’apporter des modifications réalistes à des images existantes à partir d’une légende en langage naturel
  • D’ajouter ou supprimer des éléments d’une image tout en tenant compte des ombres, des reflets et des textures
  • De générer des variantes d’une image source en s’inspirant de l’originale

DALL-E 1 vs DALL-E 2 : quelles différences concrètes ?

dall-e-1 vs dall-e-2
Comparaison de DALL-E 1 et DALL-E 2 avec un même texte descriptif à l’entrée

Une étude a été menée par OpenAI pour évaluer les performances de DALL-E 2 vis-à-vis de son ancienne version DALL-E 1.

Au global, DALL-E 2 est préféré à DALL-E 1 pour la correspondance des images générées avec les demandes initiales.

Le photoréalisme est aussi considéré comme meilleur par les évaluateurs invités à comparer 1 000 générations d’images de chaque modèle.

Au niveau des performances, les images générées par DALL-E 2 proposent une résolution 4 fois supérieure à celles générées par DALL-E 1.

Comment voir des exemples d’images générées par l’IA DALL-E ?

Le mieux pour voir des exemples de visuels générés par l’IA grâce à DALL-E est de suivre leur compte Instagram @openaidalle sur lequel ils partagent leurs plus belles générations :

instagram ia DALL-E
Aperçu du compte Instagram de DALL-E

Comment tester DALL-E 2 ? Quel sera le prix ?

Pour tester DALL-E 2, il n’y a désormais plus de waiting list. L’IA est dorénavant accessible à tous, il suffit de créer un compte sur le site pour pouvoir la tester gratuitement.

Pour sa version bêta, chaque utilisateur qui crée un compte reçoit un pack de 50 crédits gratuits à utiliser pendant le premier mois d’utilisation.

Le compte gratuit offre ensuite 15 crédits par mois.

Chaque crédit permettra de générer 4 variantes d’images issues d’un même prompt ou 3 variantes d’images dans le cas d’une demande de modification ou de création de variation.

Durant cette phase de bêta, un système de crédits à acheter sera proposé. Les utilisateurs invités pourront ainsi commander 115 crédits supplémentaires pour 15$. 115 crédits permettront de générer au total 460 images avec l’IA (115 générations ou variations).

Les images générées par DALL-E sont-elles libres de droits ?

Si DALL-E ne peut pas être comparé aux sites d’images libres de droits, les utilisateurs de l’intelligence artificielle disposeront de tous les droits d’utilisation sur les images qu’ils généreront. Il leur sera ainsi possible d’utiliser les images à des fins commerciales (newsletters, illustration d’articles, montages graphiques, montages vidéo, couvertures de livres, storyboards, films…) ou de les vendre directement.

Quelles sont les limites de DALL-E ?

DALL-E a été entraîné à générer des images à partir de textes ou d’images, mais elle a des limites : elle ne peut générer des images que de ce qu’elle a déjà vues et elle ne peut pas interpréter le sens et le contexte des mots.

Pour des raisons évidentes, OpenAI a également limité la capacité de DALL-E 2 à générer des images violentes, haineuses ou pour adultes. En supprimant le contenu le plus explicite des données d’entraînement, OpenAI a minimisé l’exposition de DALL-E 2 à ces concepts. L’entreprise a par ailleurs utilisé des techniques avancées pour empêcher la génération photoréaliste de visages d’individus réels, y compris ceux de personnalités publiques.

La politique de contenu d’OpenAI ne permet par ailleurs pas aux utilisateurs de générer des contenus violents, pour adultes ou politiques, entre autres catégories. OpenAi se réserve le droit de bloquer la génération d’images si les filtres en place identifient des invites de texte et des téléchargements d’images susceptibles de violer leurs politiques. Des systèmes de surveillance automatisés et humains ont également été prévus pour éviter les abus.

Les questions fréquentes sur DALL-E (et DALL-E 2)

J’ai entendu parler de la diffusion stochastique, qu’est-ce ?

La diffusion stochastique est un processus itératif par lequel DALL-E 2 génère des images. Elle commence avec un motif de points aléatoires et les ajuste progressivement en fonction de l’image cible tout en conservant la cohérence globale.

Quelles sont les différences entre DALL-E 2 et d’autres modèles de génération d’images ?

DALL-E 2 se distingue par sa capacité à créer des images basées sur des descriptions textuelles complexes, en utilisant la diffusion stochastique. Contrairement à d’autres modèles, il peut générer une variété de styles artistiques et de concepts visuels spécifiques.

Quels sont les avantages et les inconvénients de l’approche de diffusion stochastique par rapport à d’autres méthodes de génération d’images ?

AvantagesInconvénients
Précision et CohérenceComplexité
Contrôle du ProcessusBesoin en Calcul
Génération IncrémentielleRisque de Divergence
Dépendance au Texte

Quelles sont les limites actuelles de DALL-E 2 en termes de génération d’images ?

Même si DALL-E 2 est un outil assez impressionnant, il peut encore rencontrer des difficultés à capturer des détails très spécifiques dans certaines images complexes.

Il peut aussi parfois générer des images qui semblent plausibles, mais ne sont pas réalistes, il faut faire attention.

Comment OpenAI aborde-t-il les préoccupations liées à l’utilisation abusive de DALL-E 2 ?

OpenAI est conscient des préoccupations liées à la désinformation visuelle et à l’utilisation abusive de DALL-E 2. L’entreprise cherche à mettre en place des mécanismes de régulation et à encourager des pratiques responsables dans l’utilisation de la technologie.

Les recherches sont en cours.

PS : si vous souhaitez aller plus loin que la génération d’images via l’IA, vous pouvez également consulter les logiciels de création de vidéos par l’IA sur notre article dédié.

Avant de se quitter…

Si cet article sur DALL-E 2 vous a plu, n’hésitez pas à le partager sur les réseaux sociaux et à vous abonner à notre newsletter digitale pour recevoir nos prochains articles.

Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).

Nous sommes aussi actifs sur LinkedIn, Twitter, Facebook et YouTube. On s’y retrouve ?

Pour toute question associée à cet article, n’hésitez pas à utiliser la section « commentaires » pour nous faire part de votre remarque, nous vous répondrons dans les meilleurs délais (avec plaisir).

4.5/5 - (16 votes)

3 Replies to “DALL-E 2 : De Quoi est Vraiment Capable l’IA qui Génère des Images ?”

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *