微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

xxn 阅读：14928 2025-02-26 10:03:27 评论：0

感谢IT之家网友 zhao_31 的线索分享！

IT之家 2 月 26 日消息，北京时间今晨，微软在官方网站上开源了其多模态 AI Agent 基础模型——Magma。与传统的智能体不同，Magma 具备跨越数字与物理环境的多模态处理能力，能够自动解析图像、视频、文本等多种数据形式。此外，Magma 还内置了心理预测功能，提升了对未来视频帧中的时空动态的理解能力，可以准确推测视频中的人物或物体的意图及未来行为。

用户能够利用 Magma 来自动提交电商订单和查询天气；同时也可以自动操控实体机器人，或者在真实下象棋的过程中获得支持。

根据官方的描述，Magma 能帮助 AI 驱动的助手或机器人理解周围环境并做出适当的反应。例如，它可以辅助家用机器人学习如何组织之前从未接触的物品，并帮助虚拟助手生成对不熟悉任务的逐步用户界面导航建议。

Magma 是一种能够在数字和物理环境中适应新任务的 VLA（IT之家注：视觉语言动作）基础模型之一，它能够高效地从大量公开的视觉和语言数据中学习相关知识，进而融合语言、空间和时间智能，以应对复杂的数字和物理环境中的任务。

IT之家附上开源链接：https://microsoft.github.io/Magma/

广告说明：文中包含的外部链接（如超链接、二维码、口令等形式）旨在提供更多信息，帮助节省选择时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。