Alibaba Dévoile I2VGen-XL : Une IA Qui Transforme des Images en Vidéos !

15 décembre 2023

L’évolution de la synthèse vidéo a franchi un cap notable avec l’émergence des modèles capables de transformer des images en vidéos. Toutefois, ce domaine fait face à des défis majeurs tels que l’exactitude sémantique, la netteté et la continuité spatio-temporelle. Ces difficultés découlent principalement du manque de données textuelles-vidéos bien alignées et de la structure complexe des vidéos, rendant difficile pour les modèles d’assurer à la fois une excellence sémantique et qualitative. Dans ce contexte, le groupe Alibaba a présenté une approche novatrice avec son modèle baptisé I2VGen-XL.

Alibaba - Modèle IA image - vidéo — Alibaba – Modèle IA image – vidéo

Le fonctionnement d’I2VGen-XL

I2VGen-XL est un modèle en deux étapes. La première, la base, assure une cohérence sémantique et conserve le contenu des images d’entrée grâce à deux encodeurs hiérarchiques. La deuxième étape, le raffinement, améliore les détails de la vidéo, incorpore un texte bref supplémentaire et augmente la résolution à 1280×720.

Alibaba just released I2VGen-XL, new image to video model 🔥 pic.twitter.com/DZQOQrTTgW
— AK (@_akhaliq) December 14, 2023

Amélioration de la performance par découplage

La force de I2VGen-XL réside dans son approche en cascade qui sépare les facteurs de l’exactitude sémantique et de la qualité. Cette méthode permet d’aligner les données d’entrée en utilisant des images statiques comme guide essentiel.

Pour améliorer la génération des vidéos par l’IA d’Alibaba, environ 35 millions de paires texte-vidéo à prise unique et 6 milliards de paires texte-image ont été collectées. Cette richesse de données contribue à l’amélioration simultanée de la précision sémantique, de la continuité des détails et de la clarté des vidéos générées.

Disponibilité et impact futur

Le code source et les modèles de I2VGen-XL sont dès à présent mis à disposition publiquement sur Github.

Ce développement marque une avancée significative dans la synthèse vidéo, promettant des applications innovantes dans divers domaines tels que le marketing, l’éducation et le divertissement.

Avant de se quitter…

Si cet article sur le nouveau modèle de génération de vidéos à partir d’images d’Alibaba vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.

Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).

Nous sommes aussi actifs sur LinkedIn, X, Facebook et YouTube. On s’y retrouve ?

Pour toute question associée à cet article, n’hésitez pas à utiliser la section « commentaires » pour nous faire part de votre remarque, nous vous répondrons dans les meilleurs délais (avec plaisir).

Un avis ? post

Benjamin Beinard

Principalement passionné par les nouvelles technologies, l’IA, la cybersécurité, je suis un professionnel de nature discrète qui n’aime pas trop les réseaux sociaux (je n’ai pas de comptes publics). Rédacteur indépendant pour LEPTIDIGITAL, j’interviens en priorité sur des sujets d’actualité mais aussi sur des articles de fond. Pour me contacter : [email protected]

www.leptidigital.fr/