Révolution de la traduction en temps réel: Meta dévoile Seamless Streaming pour 2024
L’année 2024 pourrait marquer un changement significatif dans le secteur professionnel, en éliminant efficacement les obstacles linguistiques.
Les progrès récents en matière de traduction automatique de la parole ont considérablement élargi la couverture linguistique et amélioré les capacités multimodales, ouvrant la voie à une multitude de fonctionnalités.
Cependant, les systèmes de traduction automatique de la parole à grande échelle actuels présentent encore des lacunes, notamment en matière de fluidité de communication, comparativement aux interactions humaines.
Dans ce contexte, Meta a introduit une série de modèles capables de traductions expressives et multilingues en temps réel.
La version améliorée du modèle SeamlessM4T, SeamlessM4T v2, intègre le cadre UnitY2 mis à jour et a été formée sur davantage de données dans des langues moins courantes.
SeamlessM4T v2 sert de base aux deux nouveaux modèles, SeamlessExpressive et SeamlessStreaming.
- SeamlessExpressive se concentre sur la préservation du style vocal et de la prosodie, abordant des aspects tels que le rythme de la parole et les pauses.
- SeamlessStreaming, quant à lui, utilise le mécanisme Efficient Monotonic Multihead Attention (EMMA) pour générer des traductions cibles à faible latence, sans attendre les énoncés sources complets, permettant ainsi des traductions simultanées parole-texte dans plusieurs langues.
Pour évaluer ces modèles, Meta a combiné de nouvelles versions et des modifications de métriques automatiques existantes, tout en adaptant des protocoles d’évaluation humaine pour mesurer la préservation du sens, la naturalité et l’expressivité.
Dans un souci de responsabilité, Meta a mis en place le premier effort de « red-teaming » pour la traduction machine multimodale, un système de détection et d’atténuation de la toxicité ajoutée, une évaluation systématique des biais de genre, et un mécanisme de watermarking sonore localisé et inaudible pour limiter les impacts des deepfakes.
Meta Seamless représente une avancée majeure, offrant un aperçu crucial des fondations techniques nécessaires pour transformer le concept de traducteur universel de la parole, autrefois un rêve de science-fiction, en une technologie concrète et utilisable.
Les contributions de cette recherche, incluant les modèles, le code et un détecteur de tatouage sonore, sont publiées et accessibles via ce lien.
Avant de se quitter…
Si cet article sur Meta Seamless Streaming vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.
Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).
Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?
Principalement passionné par les nouvelles technologies, l’IA, la cybersécurité, je suis un professionnel de nature discrète qui n’aime pas trop les réseaux sociaux (je n’ai pas de comptes publics). Rédacteur indépendant pour LEPTIDIGITAL, j’interviens en priorité sur des sujets d’actualité mais aussi sur des articles de fond. Pour me contacter : [email protected]