Le fonctionnement d’I2VGen-XL
I2VGen-XL est un modèle en deux étapes. La première, la base, assure une cohérence sémantique et conserve le contenu des images d’entrée grâce à deux encodeurs hiérarchiques. La deuxième étape, le raffinement, améliore les détails de la vidéo, incorpore un texte bref supplémentaire et augmente la résolution à 1280×720.
Amélioration de la performance par découplage
La force de I2VGen-XL réside dans son approche en cascade qui sépare les facteurs de l’exactitude sémantique et de la qualité. Cette méthode permet d’aligner les données d’entrée en utilisant des images statiques comme guide essentiel.
Pour améliorer la génération des vidéos par l’IA d’Alibaba, environ 35 millions de paires texte-vidéo à prise unique et 6 milliards de paires texte-image ont été collectées. Cette richesse de données contribue à l’amélioration simultanée de la précision sémantique, de la continuité des détails et de la clarté des vidéos générées.
Disponibilité et impact futur
Le code source et les modèles de I2VGen-XL sont dès à présent mis à disposition publiquement sur Github.
Ce développement marque une avancée significative dans la synthèse vidéo, promettant des applications innovantes dans divers domaines tels que le marketing, l’éducation et le divertissement.
Avant de se quitter…
Si cet article sur le nouveau modèle de génération de vidéos à partir d’images d’Alibaba vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, X, Facebook et YouTube. On s’y retrouve ?
Pour toute question associée à cet article, n’hésitez pas à utiliser la section « commentaires » pour nous faire part de votre remarque, nous vous répondrons dans les meilleurs délais (avec plaisir).
Principalement passionné par les nouvelles technologies, l’IA, la cybersécurité, je suis un professionnel de nature discrète qui n’aime pas trop les réseaux sociaux (je n’ai pas de comptes publics). Rédacteur indépendant pour LEPTIDIGITAL, j’interviens en priorité sur des sujets d’actualité mais aussi sur des articles de fond. Pour me contacter : [email protected]