
Accès rapide (Sommaire) :
Hibiki, un modèle conçu pour la traduction vocale instantanée
Contrairement aux traductions classiques qui attendent la fin d’une phrase pour générer une version traduite, Hibiki adopte une approche en continu.
Il capte juste assez de contexte pour produire une traduction immédiate, segment par segment.
Le résultat ?
Une traduction fluide et naturelle, qui suit le rythme du locuteur, accompagnée d’une transcription en texte synchronisée.
Meet Hibiki, our simultaneous speech-to-speech translation model, currently supporting 🇫🇷➡️🇬🇧.
— kyutai (@kyutai_labs) February 6, 2025
Hibiki produces spoken and text translations of the input speech in real-time, while preserving the speaker’s voice and optimally adapting its pace based on the semantic content of the… pic.twitter.com/JOmCcC5vji
Le modèle fonctionne aujourd’hui pour la traduction du français vers l’anglais, avec une ambition d’élargissement à d’autres langues à l’avenir.
Even @kavinsky 🎧🪩 can't break Hibiki! Just like Moshi, Hibiki is robust to extreme background conditions 💥🔊. pic.twitter.com/gGnhkc7w4U
— kyutai (@kyutai_labs) February 11, 2025
Une architecture optimisée pour l’efficacité et la fidélité
Hibiki repose sur un modèle « decoder-only », qui génère la traduction tout en traitant l’entrée audio en temps réel.
Il exploite une architecture multi-flux inspirée de Moshi, un autre modèle de Kyutai, lui permettant de gérer trois flux simultanés :
- L’audio d’entrée (voix de l’utilisateur)
- L’audio traduit (avec préservation de la voix et du ton)
- Le texte transcrit, aligné avec la traduction audio
Avec 2 milliards de paramètres, Hibiki fonctionne sur des serveurs puissants, tandis que Hibiki-M, sa version mobile optimisée à 1 milliard de paramètres, est conçue pour une exécution directement sur smartphone.
Un entraînement basé sur des données synthétiques alignées
Un défi majeur en traduction vocale est le manque de données alignées, c’est-à-dire des enregistrements où la traduction suit exactement la voix d’origine.
Pour y remédier, Kyutai utilise des données synthétiques générées à partir d’un alignement supervisé entre le texte source et cible.
L’alignement est assuré grâce à MADLAD, un système de traduction automatique, qui introduit des silences ou ajuste la voix synthétique pour garantir une parfaite correspondance entre l’original et la traduction.
Des performances supérieures aux modèles existants
Hibiki a été évalué subjectivement et objectivement face à Seamless (un modèle concurrent) et des interprètes humains. Les résultats montrent un écart significatif en faveur d’Hibiki sur trois critères :
Modèle | Qualité | Fidélité vocale | Naturel |
---|---|---|---|
Interprètes humains | 4.18 | – | 4.12 |
Seamless | 2.22 | 2.86 | 2.18 |
Hibiki | 3.78 | 3.43 | 3.73 |
Hibiki se rapproche nettement du rendu des interprètes humains, surpassant Seamless en qualité de traduction, préservation de la voix et naturel.
Sur des critères objectifs comme la précision de la traduction (BLEU score) et la fidélité vocale, Hibiki affiche également des résultats solides :
Modèle | BLEU | ASR-BLEU | Fidélité vocale | Latence |
---|---|---|---|---|
Seamless | 25.4 | 23.9 | 0.43 | 4.2s |
Hibiki-M | 28.2 | 26.0 | 0.39 | 4.9s |
Hibiki | 27.2 | 25.9 | 0.52 | 5.6s |
Hibiki offre donc une meilleure précision de traduction et un rendu vocal plus fidèle, avec une latence légèrement accrue.
Une technologie open-source et évolutive
Kyutai mise sur l’open science en partageant le code et les poids du modèle, permettant aux chercheurs et développeurs d’explorer et d’améliorer Hibiki.
L’inférence est compatible avec PyTorch (CUDA), Rust (CUDA) et MLX (iOS/OSX), assurant une large adoption sur différentes plateformes.
L’ambition future ?
Étendre Hibiki à d’autres langues et en faire une référence incontournable pour la traduction vocale en temps réel.
Une révolution en marche dans le domaine de l’IA linguistique.
Liens utiles :

Fondateur de LEPTIDIGITAL et consultant spécialisé en acquisition de leads B2B (SaaS) et SEO. Passionné par le marketing digital, l’intelligence artificielle et le référencement naturel, il possède une solide expérience dans ces domaines. Au fil de sa carrière, il a occupé des postes clés en tant que SEO Manager et responsable e-commerce pour plusieurs grandes entreprises, dont Altice Media, Infopro Digital, Voyage Privé et le Groupe ERAM. Sur le plan personnel, c’est un curieux insatiable, également passionné par la photographie, le badminton et les voyages. Pour toute demande de partenariat, privilégiez une prise de contact via LinkedIn ou par email à [email protected].