
Accès rapide (Sommaire) :
Ce qu’il faut retenir de l’annonce de Thinking Machines
Mira Murati a brisé son silence. Sa startup, fondée après son départ retentissant d’OpenAI en septembre 2024, dévoile sa toute première technologie publique. Voici les points clés à connaître :
- Une nouvelle catégorie de modèles : les « interaction models », conçus pour collaborer avec l’humain en continu plutôt que de fonctionner en tour de parole comme ChatGPT ou Claude.
- Le modèle phare : TML-Interaction-Small, un mixture-of-experts de 276 milliards de paramètres dont seulement 12 milliards sont actifs à la fois.
- Une architecture « full-duplex » : la conversation est découpée en micro-tours de 200 millisecondes, ce qui permet au modèle de réagir pendant qu’il parle, comme un vrai interlocuteur.
- Une latence de 0,40 seconde sur le benchmark FD-bench, contre 0,57s pour Gemini-3.1-flash-live et 1,18s pour GPT-realtime-2.0 (minimal).
- Un système à deux cerveaux : un modèle « interaction » rapide pour le dialogue, couplé à un modèle « background » asynchrone pour le raisonnement profond, la recherche web et les outils.
- Une recherche preview limitée dans les prochains mois, avec une ouverture plus large prévue d’ici fin 2026.
Today we're excited to share a research preview of our work on Interaction Models. A new generation of AI that can collaborate with you the way humans naturally collaborate — by continuously taking in audio, video and text, and thinking, responding and acting in real time. pic.twitter.com
— Thinking Machines (@thinkymachines) May 11, 2026
Pourquoi parle-t-on d’une rupture technique majeure ?
Pour bien comprendre l’intérêt, il faut revenir un instant sur le fonctionnement actuel des assistants vocaux.
Aujourd’hui, ChatGPT, Gemini ou Claude vivent la réalité en un seul fil séquentiel : ils écoutent, puis ils réfléchissent, puis ils répondent. Vous parlez, ils attendent, ils traitent, ils répondent. Pendant que vous parlez, l’IA est essentiellement… inactive.
Résultat ? Cette latence de 1 à 2 secondes qui crée ces conversations bancales auxquelles on s’est habitués. Pas d’interruption possible. Pas de « mmh-mmh », pas d’acquiescement, pas de réaction visuelle pendant qu’on parle. Comme le souligne Thinking Machines, les utilisateurs se sont littéralement contorsionnés à l’interface en formulant leurs questions comme des e-mails.
L’architecture multi-flux à micro-tours, le vrai changement de paradigme
L’approche de Thinking Machines casse cette logique séquentielle. Le modèle traite désormais des micro-tours de 200 millisecondes en parallèle, ce qui lui permet de :
- Réagir à un geste, une hésitation ou un changement de ton en cours de phrase.
- Être interrompu sans perdre le fil et reprendre la conversation naturellement.
- Émettre des signaux conversationnels (backchanneling) comme un humain le ferait.
- Surveiller un flux vidéo en continu et alerter dès qu’un événement se produit.
L’innovation technique : « encoder-free early fusion »
Autre élément clé : Thinking Machines abandonne les lourds encodeurs externes habituellement utilisés pour traiter l’audio et la vidéo.
Les signaux bruts sont injectés directement dans le transformer via une couche d’embedding légère.
Tout est traité dans le même réseau neuronal, ce qui explique l’avantage en latence.
C’est une approche proche de Chameleon de Meta, mais poussée jusqu’à l’interaction temps réel.
Les performances annoncées face à OpenAI et Google
Thinking Machines avance des chiffres frappants sur FD-bench v1.5, le benchmark spécialisé dans la qualité d’interaction.
Voici le comparatif communiqué par la startup :
| Modèle | Latence (turn-taking) | Score FD-bench v1.5 |
|---|---|---|
| TML-Interaction-Small | 0,40 s | 77,8 |
| Gemini-3.1-flash-live (minimal) | 0,57 s | — |
| GPT-realtime-2.0 (minimal) | 1,18 s | 46,8 |
À noter : la startup teste également des compétences plus pointues sur des benchmarks visuels comme RepCount-A (comptage de répétitions physiques dans une vidéo) ou ProactiveVideoQA (réponses générées au moment exact où l’élément visuel apparaît).
Deux benchmarks internes maison, TimeSpeak et CueSpeak, évaluent la capacité du modèle à parler au bon moment, par exemple lors d’un changement de langue ou d’un rappel programmé toutes les X secondes.
Petit bémol toutefois : ces résultats sont communiqués par Thinking Machines elle-même. Comme le rappelle plusieurs analystes du secteur, ils restent à vérifier indépendamment dans des conditions réelles de charge. La research preview servira justement à cela.
Le couple « interaction model + background model » : la vraie idée maline
Faire parler une IA vite ET intelligemment, c’est historiquement un compromis impossible. Plus on raisonne profondément, plus on est lent. Thinking Machines résout cela en séparant les responsabilités entre deux modèles qui dialoguent ensemble.
- Le modèle d’interaction : reste en permanence en lien avec l’utilisateur, gère le dialogue, la présence, les réponses immédiates et la gestion fine du temps.
- Le modèle « background » : tourne en arrière-plan de façon asynchrone, prend en charge le raisonnement profond, les recherches web, les appels d’outils et les tâches agentiques.
Quand le background a une réponse complexe prête, il la transmet au modèle d’interaction qui l’intègre naturellement dans la conversation en cours.
Une architecture à deux cerveaux, qui rappelle un peu notre propre fonctionnement : on peut tenir une conversation tout en réfléchissant en parallèle à autre chose.
Des cas d’usage concrets pour les pros ?
Au-delà de la prouesse technique, ce sont les usages qui intéressent les professionnels. Voici les domaines où cette technologie pourrait réellement changer la donne.
Service client et centres d’appels
C’est probablement le marché le plus évident. Aujourd’hui, le délai de 1 à 2 secondes typique des API vocales rend les conversations IA reconnaissables au premier échange. Avec une latence inférieure à 400 ms, on franchit le seuil de la perception humaine : un client peut couper la parole, hésiter, reprendre, exactement comme avec un téléconseiller. Pour les e-commerçants et les SaaS B2C, cela change la viabilité économique des agents vocaux IA (à condition que les coûts API soit accessibles, bien entendu…).
Création de contenu et démos produit
Pour les responsables marketing et les créateurs, une IA capable de commenter une démo en live, de réagir à ce qu’elle voit à l’écran et de dialoguer avec des spectateurs simultanément ouvre des formats nouveaux : webinaires augmentés, démos personnalisées à grande échelle, support produit interactif.
Formation, e-learning et coaching en ligne
Imaginez un tuteur IA qui suit votre écran, vous voit galérer sur un exercice et intervient au bon moment, sans attendre que vous posiez la question. Pour les plateformes de formation ou de coaching, c’est une expérience pédagogique nouvelle. Le modèle ayant un « sens du temps », il peut aussi rappeler des étapes à intervalles programmés sans timestamp explicite.
Visioconférence et collaboration assistée
Un assistant IA capable d’observer un écran partagé, d’écouter une réunion et de contribuer en temps réel (résumé en direct, suggestion d’action, vérification d’un chiffre via le modèle background) ouvre la voie à des outils de collaboration radicalement nouveaux.
Un signal fort, mais quelques nuances à garder en tête
Cette annonce est importante à plus d’un titre. D’abord, parce qu’elle confirme que la course à l’IA ne se joue plus uniquement sur la taille des modèles ou la longueur du contexte. Elle se joue désormais aussi sur l’expérience d’interaction : la façon dont l’humain et la machine collaborent au quotidien. Anthropic mise sur la sécurité et le contexte long, Google sur l’intégration multimodale, OpenAI sur la distribution, et Thinking Machines positionne donc sa différenciation sur le « comment on parle à l’IA ».
Ensuite, c’est une démonstration de force pour Mira Murati. Beaucoup attendaient sa startup au tournant après une levée de fonds historique à 12 milliards de dollars sans produit visible. Cette première sortie technique, avec des benchmarks à l’appui et article très documenté, signale un cap clair : ne pas faire le même produit que les autres, mais réinventer la couche d’interaction.
Cela dit, plusieurs points méritent de garder la tête froide :
- Aucun accès public à date : seuls quelques partenaires triés sur le volet pourront tester durant la research preview. Le grand déploiement reste annoncé pour « plus tard en 2026 », sans calendrier précis.
- Benchmarks maison : les chiffres impressionnants viennent de Thinking Machines et n’ont pas encore été reproduits par des tiers indépendants. Les comparaisons avec GPT-realtime et Gemini-flash-live sont à confirmer en charge réelle.
- Pas de tarif : la viabilité économique d’un modèle de 276B paramètres servi en quasi temps réel reste à démontrer. Le coût d’inférence sera déterminant pour l’adoption par les entreprises.
- L’écosystème compte : la force d’OpenAI et Google, ce sont aussi leurs SDK, leur documentation, leurs intégrations partout. Thinking Machines part de zéro sur ce volet.

Principalement passionné par les nouvelles technologies, l’IA, la cybersécurité, je suis un professionnel de nature discrète qui n’aime pas trop les réseaux sociaux (je n’ai pas de comptes publics). Rédacteur indépendant pour LEPTIDIGITAL, j’interviens en priorité sur des sujets d’actualité mais aussi sur des articles de fond. Pour me contacter : [email protected]