微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
IT之家 2 月 26 日消息,北京时间今晨,微软在官方网站上开源了其多模态 AI Agent 基础模型——Magma。与传统的智能体不同,Magma 具备跨越数字与物理环境的多模态处理能力,能够自动解析图像、视频、文本等多种数据形式。此外,Magma 还内置了心理预测功能,提升了对未来视频帧中的时空动态的理解能力,可以准确推测视频中的人物或物体的意图及未来行为。
用户能够利用 Magma 来自动提交电商订单和查询天气;同时也可以自动操控实体机器人,或者在真实下象棋的过程中获得支持。
根据官方的描述,Magma 能帮助 AI 驱动的助手或机器人理解周围环境并做出适当的反应。例如,它可以辅助家用机器人学习如何组织之前从未接触的物品,并帮助虚拟助手生成对不熟悉任务的逐步用户界面导航建议。
Magma 是一种能够在数字和物理环境中适应新任务的 VLA(IT之家注:视觉语言动作)基础模型之一,它能够高效地从大量公开的视觉和语言数据中学习相关知识,进而融合语言、空间和时间智能,以应对复杂的数字和物理环境中的任务。
IT之家附上开源链接:https://microsoft.github.io/Magma/
广告说明:文中包含的外部链接(如超链接、二维码、口令等形式)旨在提供更多信息,帮助节省选择时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。