NEWS #Digitale : envie de recevoir nos meilleurs articles ?  Inscription → 

Hibiki de Kyutai : une avancée majeure dans la traduction vocale en temps réel

La traduction en temps réel de la parole vient de franchir un cap impressionnant avec Hibiki, un nouveau modèle développé par Kyutai. Fonctionnant directement sur l’appareil, Hibiki assure une traduction fluide, fidèle et naturelle, tout en conservant la voix et l’intonation du locuteur. Une avancée significative par rapport aux modèles existants.
Kyutai
Kyutai

Hibiki, un modèle conçu pour la traduction vocale instantanée

Contrairement aux traductions classiques qui attendent la fin d’une phrase pour générer une version traduite, Hibiki adopte une approche en continu.

Il capte juste assez de contexte pour produire une traduction immédiate, segment par segment.

Le résultat ?

Une traduction fluide et naturelle, qui suit le rythme du locuteur, accompagnée d’une transcription en texte synchronisée.

Le modèle fonctionne aujourd’hui pour la traduction du français vers l’anglais, avec une ambition d’élargissement à d’autres langues à l’avenir.

Une architecture optimisée pour l’efficacité et la fidélité

Hibiki repose sur un modèle « decoder-only », qui génère la traduction tout en traitant l’entrée audio en temps réel.

Il exploite une architecture multi-flux inspirée de Moshi, un autre modèle de Kyutai, lui permettant de gérer trois flux simultanés :

  • L’audio d’entrée (voix de l’utilisateur)
  • L’audio traduit (avec préservation de la voix et du ton)
  • Le texte transcrit, aligné avec la traduction audio

Avec 2 milliards de paramètres, Hibiki fonctionne sur des serveurs puissants, tandis que Hibiki-M, sa version mobile optimisée à 1 milliard de paramètres, est conçue pour une exécution directement sur smartphone.

Un entraînement basé sur des données synthétiques alignées

Un défi majeur en traduction vocale est le manque de données alignées, c’est-à-dire des enregistrements où la traduction suit exactement la voix d’origine.

Pour y remédier, Kyutai utilise des données synthétiques générées à partir d’un alignement supervisé entre le texte source et cible.

L’alignement est assuré grâce à MADLAD, un système de traduction automatique, qui introduit des silences ou ajuste la voix synthétique pour garantir une parfaite correspondance entre l’original et la traduction.

Des performances supérieures aux modèles existants

Hibiki a été évalué subjectivement et objectivement face à Seamless (un modèle concurrent) et des interprètes humains. Les résultats montrent un écart significatif en faveur d’Hibiki sur trois critères :

ModèleQualitéFidélité vocaleNaturel
Interprètes humains4.184.12
Seamless2.222.862.18
Hibiki3.783.433.73

Hibiki se rapproche nettement du rendu des interprètes humains, surpassant Seamless en qualité de traduction, préservation de la voix et naturel.

Sur des critères objectifs comme la précision de la traduction (BLEU score) et la fidélité vocale, Hibiki affiche également des résultats solides :

ModèleBLEUASR-BLEUFidélité vocaleLatence
Seamless25.423.90.434.2s
Hibiki-M28.226.00.394.9s
Hibiki27.225.90.525.6s

Hibiki offre donc une meilleure précision de traduction et un rendu vocal plus fidèle, avec une latence légèrement accrue.

Une technologie open-source et évolutive

Kyutai mise sur l’open science en partageant le code et les poids du modèle, permettant aux chercheurs et développeurs d’explorer et d’améliorer Hibiki.

L’inférence est compatible avec PyTorch (CUDA), Rust (CUDA) et MLX (iOS/OSX), assurant une large adoption sur différentes plateformes.

L’ambition future ?

Étendre Hibiki à d’autres langues et en faire une référence incontournable pour la traduction vocale en temps réel.

Une révolution en marche dans le domaine de l’IA linguistique.

Liens utiles :

Un avis ? post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *