智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

xxn 阅读：21624 2024-12-27 10:02:59 评论：0

据IT之家12月27日报道，智谱技术团队在其公众号上于12月26日分享了一篇文章，介绍了开源的GLM-PC基座模型CogAgent-9B-20241220。该模型是基于GLM-4V-9B进行训练，专为智能体(Agent)任务而设计。

IT之家特别提醒：这个模型只需屏幕截图作为输入（不需要HTML等文本形式的表征），能够根据用户设定的各种任务，结合历史操作，预测下一个图形用户界面（GUI）操作。

由于屏幕截图和GUI操作的广泛适用性，CogAgent可以在各类基于GUI的交互场景中得到应用，例如计算机、智能手机和车载设备等。

与2023年12月发布的第一版CogAgent模型相比，CogAgent-9B-20241220在GUI感知、推理准确性、动作空间的完备性、任务适用性以及泛化能力等方面都得到了显著提升，并且支持中英文双语的屏幕截图与语言交互。

CogAgent的输入主要包含三部分：用户的自然语言指令、已执行的动作历史记录以及GUI截图，完全不需要任何文本形式的布局信息或附加元素标签。

其输出包括以下四个方面：

思维过程（Status & Plan）：CogAgent会明确输出对GUI截图的理解以及下一步操作的思维过程，包括状态（Status）和计划（Plan）两部分，输出内容可通过参数进行调整。
下一步操作的自然语言描述（Action）：自然语言格式的操作描述将被加入历史操作记录，以帮助模型理解已执行的动作步骤。
下一步操作的结构化描述（Grounded Operation）：CogAgent通过类似函数调用的方式，有条理地描述下一步的操作及其参数，方便前端应用进行解析和执行。其动作空间包括GUI操作（如左键点击、文本输入等基本动作）和模拟人类行为（如应用启动、调用语言模型等高级动作）。
下一步动作的敏感性评估：动作被划分为“一般操作”和“敏感操作”两种，其中敏感操作可能导致不可逆的后果，例如在“发送邮件”任务中点击“发送”按钮。

CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn及OSWorld等数据集上经过测试，并与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等多个模型进行了比较。

测试结果表明，CogAgent在多个数据集上取得了优异的成绩，展现了其在GUI Agent领域的强大能力。

广告声明：文中包含的外部链接（如超链接、二维码、口令等）旨在传递更多信息和节省信息筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。