智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

xxn 阅读:21624 2024-12-27 10:02:59 评论:0

据IT之家12月27日报道,智谱技术团队在其公众号上于12月26日分享了一篇文章,介绍了开源的GLM-PC基座模型CogAgent-9B-20241220。该模型是基于GLM-4V-9B进行训练,专为智能体(Agent)任务而设计。

IT之家特别提醒:这个模型只需屏幕截图作为输入(不需要HTML等文本形式的表征),能够根据用户设定的各种任务,结合历史操作,预测下一个图形用户界面(GUI)操作。

由于屏幕截图和GUI操作的广泛适用性,CogAgent可以在各类基于GUI的交互场景中得到应用,例如计算机、智能手机和车载设备等。

与2023年12月发布的第一版CogAgent模型相比,CogAgent-9B-20241220在GUI感知、推理准确性、动作空间的完备性、任务适用性以及泛化能力等方面都得到了显著提升,并且支持中英文双语的屏幕截图与语言交互。

CogAgent的输入主要包含三部分:用户的自然语言指令、已执行的动作历史记录以及GUI截图,完全不需要任何文本形式的布局信息或附加元素标签。

其输出包括以下四个方面:

  • 思维过程(Status & Plan):CogAgent会明确输出对GUI截图的理解以及下一步操作的思维过程,包括状态(Status)和计划(Plan)两部分,输出内容可通过参数进行调整。

  • 下一步操作的自然语言描述(Action):自然语言格式的操作描述将被加入历史操作记录,以帮助模型理解已执行的动作步骤。

  • 下一步操作的结构化描述(Grounded Operation):CogAgent通过类似函数调用的方式,有条理地描述下一步的操作及其参数,方便前端应用进行解析和执行。其动作空间包括GUI操作(如左键点击、文本输入等基本动作)和模拟人类行为(如应用启动、调用语言模型等高级动作)。

  • 下一步动作的敏感性评估:动作被划分为“一般操作”和“敏感操作”两种,其中敏感操作可能导致不可逆的后果,例如在“发送邮件”任务中点击“发送”按钮。

CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn及OSWorld等数据集上经过测试,并与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等多个模型进行了比较。

测试结果表明,CogAgent在多个数据集上取得了优异的成绩,展现了其在GUI Agent领域的强大能力。

广告声明:文中包含的外部链接(如超链接、二维码、口令等)旨在传递更多信息和节省信息筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容