Hibiki de Kyutai : une avancée majeure dans la traduction vocale en temps réel

13 février 2025 0

La traduction en temps réel de la parole vient de franchir un cap impressionnant avec Hibiki, un nouveau modèle développé par Kyutai. Fonctionnant directement sur l’appareil, Hibiki assure une traduction fluide, fidèle et naturelle, tout en conservant la voix et l’intonation du locuteur. Une avancée significative par rapport aux modèles existants.

Accès rapide (Sommaire) :

Hibiki, un modèle conçu pour la traduction vocale instantanée

Contrairement aux traductions classiques qui attendent la fin d’une phrase pour générer une version traduite, Hibiki adopte une approche en continu.

Il capte juste assez de contexte pour produire une traduction immédiate, segment par segment.

Le résultat ?

Une traduction fluide et naturelle, qui suit le rythme du locuteur, accompagnée d’une transcription en texte synchronisée.

Meet Hibiki, our simultaneous speech-to-speech translation model, currently supporting 🇫🇷➡️🇬🇧.
Hibiki produces spoken and text translations of the input speech in real-time, while preserving the speaker’s voice and optimally adapting its pace based on the semantic content of the… pic.twitter.com/JOmCcC5vji
— kyutai (@kyutai_labs) February 6, 2025

Le modèle fonctionne aujourd’hui pour la traduction du français vers l’anglais, avec une ambition d’élargissement à d’autres langues à l’avenir.

Even @kavinsky 🎧🪩 can't break Hibiki! Just like Moshi, Hibiki is robust to extreme background conditions 💥🔊. pic.twitter.com/gGnhkc7w4U
— kyutai (@kyutai_labs) February 11, 2025

Une architecture optimisée pour l’efficacité et la fidélité

Hibiki repose sur un modèle « decoder-only », qui génère la traduction tout en traitant l’entrée audio en temps réel.

Il exploite une architecture multi-flux inspirée de Moshi, un autre modèle de Kyutai, lui permettant de gérer trois flux simultanés :

L’audio d’entrée (voix de l’utilisateur)
L’audio traduit (avec préservation de la voix et du ton)
Le texte transcrit, aligné avec la traduction audio

Avec 2 milliards de paramètres, Hibiki fonctionne sur des serveurs puissants, tandis que Hibiki-M, sa version mobile optimisée à 1 milliard de paramètres, est conçue pour une exécution directement sur smartphone.

Un entraînement basé sur des données synthétiques alignées

Un défi majeur en traduction vocale est le manque de données alignées, c’est-à-dire des enregistrements où la traduction suit exactement la voix d’origine.

Pour y remédier, Kyutai utilise des données synthétiques générées à partir d’un alignement supervisé entre le texte source et cible.

L’alignement est assuré grâce à MADLAD, un système de traduction automatique, qui introduit des silences ou ajuste la voix synthétique pour garantir une parfaite correspondance entre l’original et la traduction.

Des performances supérieures aux modèles existants

Hibiki a été évalué subjectivement et objectivement face à Seamless (un modèle concurrent) et des interprètes humains. Les résultats montrent un écart significatif en faveur d’Hibiki sur trois critères :

Modèle	Qualité	Fidélité vocale	Naturel
Interprètes humains	4.18	–	4.12
Seamless	2.22	2.86	2.18
Hibiki	3.78	3.43	3.73

Hibiki se rapproche nettement du rendu des interprètes humains, surpassant Seamless en qualité de traduction, préservation de la voix et naturel.

Sur des critères objectifs comme la précision de la traduction (BLEU score) et la fidélité vocale, Hibiki affiche également des résultats solides :

Modèle	BLEU	ASR-BLEU	Fidélité vocale	Latence
Seamless	25.4	23.9	0.43	4.2s
Hibiki-M	28.2	26.0	0.39	4.9s
Hibiki	27.2	25.9	0.52	5.6s

Hibiki offre donc une meilleure précision de traduction et un rendu vocal plus fidèle, avec une latence légèrement accrue.

Une technologie open-source et évolutive

Kyutai mise sur l’open science en partageant le code et les poids du modèle, permettant aux chercheurs et développeurs d’explorer et d’améliorer Hibiki.

L’inférence est compatible avec PyTorch (CUDA), Rust (CUDA) et MLX (iOS/OSX), assurant une large adoption sur différentes plateformes.

L’ambition future ?

Étendre Hibiki à d’autres langues et en faire une référence incontournable pour la traduction vocale en temps réel.

Une révolution en marche dans le domaine de l’IA linguistique.

Liens utiles :

Un avis ? post

Vincent Brossas

Fondateur de LEPTIDIGITAL et SUPASST, je suis également consultant spécialisé en acquisition de leads B2B (SaaS). Passionné par le marketing digital, l’intelligence artificielle et le SEO. Avant de devenir indépendant, j’ai occupé des postes clés en tant que SEO Manager et responsable e-commerce pour plusieurs grandes entreprises (Altice Media, Infopro Digital, Voyage Privé et le Groupe ERAM). Sur le plan perso, je suis un curieux insatiable, également passionné par la photographie, le badminton et les voyages. Pour toute demande de partenariat, privilégiez LinkedIn ou email ([email protected]).

www.leptidigital.fr