
Un modèle d’IA multimodal pensé pour l’action
La grande innovation de Magma réside dans sa capacité à traiter et interpréter simultanément du texte, des images et des vidéos tout en prenant des décisions et en exécutant des actions.
Cette approche lui permet d’interagir efficacement avec des environnements numériques complexes, sans nécessiter de modèles distincts pour la perception et le contrôle.
Concrètement, Magma peut :
- Naviguer dans des interfaces utilisateur sans entraînement spécifique, en identifiant et en cliquant sur des éléments interactifs comme des boutons ou des menus.
- Effectuer des tâches complexes sur le web ou sur mobile, grâce à son apprentissage basé sur des interactions UI réelles.
- Comprendre des vidéos et prédire des actions futures, ce qui le distingue des modèles traditionnels de vision-langage.
Vers des agents IA capable de planifier et exécuter des actions en autonomie
Contrairement aux systèmes d’IA classiques qui se contentent de générer des réponses, Magma adopte une approche agentique : il est capable d’élaborer des plans et de les exécuter pour atteindre un objectif défini par l’utilisateur.
Par exemple, si un utilisateur demande à Magma d’activer le mode avion sur un smartphone, le modèle déterminera les étapes nécessaires, naviguera dans l’interface et activera l’option sans assistance humaine.
Cette capacité le positionne comme une alternative avancée aux assistants traditionnels, ouvrant la voie à des applications concrètes en automatisation de tâches, support client et gestion des interfaces numériques.
Une technologie basée sur l’intelligence spatiale
Pour améliorer son efficacité, Magma intègre deux techniques innovantes :
- Set-of-Mark (SoM) : une approche permettant d’identifier et d’analyser les éléments interactifs dans une interface, comme les boutons cliquables.
- Trace-of-Mark (ToM) : une méthode pour comprendre et prédire les séquences d’actions dans un environnement numérique.
Grâce à ces techniques, Magma surpasse les modèles actuels en navigation UI et en compréhension multimodale, même sans entraînement spécifique sur certaines interfaces.
Une avancée majeure pour l’automatisation et l’interaction homme-machine ?
Avec Magma, Microsoft va pouvoir créer des assistants numériques intelligents capables d’interagir naturellement avec les interfaces et d’exécuter des tâches de manière autonome.
Ce modèle pourrait transformer plusieurs domaines, notamment :
- L’automatisation des processus métier, en facilitant la navigation et l’exécution de tâches sur des interfaces logicielles.
- L’expérience utilisateur, en permettant des interactions plus intuitives et efficaces avec des outils numériques.
- Le support client et l’assistance numérique, en automatisant des actions sans nécessiter d’intervention humaine.
En combinant vision, langage et action, Magma ouvre la voie à une nouvelle génération d’IA véritablement interactive, capable de comprendre et d’agir au lieu de simplement répondre.

Principalement passionné par les nouvelles technologies, l’IA, la cybersécurité, je suis un professionnel de nature discrète qui n’aime pas trop les réseaux sociaux (je n’ai pas de comptes publics). Rédacteur indépendant pour LEPTIDIGITAL, j’interviens en priorité sur des sujets d’actualité mais aussi sur des articles de fond. Pour me contacter : [email protected]