Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

xxn 阅读:33187 2024-11-23 14:04:40 评论:0

Claude 控制电脑,可以达到何种程度?

新加坡国立大学团队在 20 多个不同场景下进行了全面测试,其中最引人注目的是:AI 可以自动玩手游中的日常任务!

研究采用了米哈游的《崩坏:星穹铁道》进行测试,只需告诉它“帮我完成今天的模拟宇宙”,Claude 就会立即打开游戏菜单,找到星穹里的“黄金花萼”,并自动设置 6 次挑战次数:

甚至可以启动自动战斗,等待战斗结束后自动退出,这个操作组合简直像行云流水般流畅……

这不仅仅是传统游戏外挂那种机械操作,Claude 还能智能理解游戏规则和目标,根据不同任务进行调整。

人类只能在一旁默默注视了。

除了更多测试场景之外,研究论文还介绍了一个即用即开的自动 GUI 框架

有网友看到视频后评论道:我可以让 Claude 帮我完成每日任务,这样上学时就不用担心了。

还能自动完成多项办公任务

Claude Computer Use 的潜力远未被充分发掘 ——

该团队还测试了许多日常办公场景下其性能:

1.网页搜索

它可以在亚马逊和苹果官网上成功执行下单购物任务,从选择颜色配置到填写地址都轻松应对。

2.工作流程

模型成功地在 Apple Music 中添加歌曲、编辑 Excel 数据,并在应用商店安装应用等任务中自动操作。

尽管界面设计和页面跳转逻辑更加复杂,但它可以智能地理解任务的最终目标,真是一款成熟的 AI(欣慰)!

3.. 办公生产力软件

此外,它还能在 Outook 中转发邮件、调整 Word 布局、设置 PowerPoint 背景和插入三角形等,大大提升工作效率(AI 无用论 -1)。

4.还能玩其他游戏

除了《崩坏:星穹铁道》,该模型还能自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等。

Claude Computer Use API + 自动化 GUI 框架

你可能好奇,强大的 Claude Computer Use 是如何实现自动完成任务的?

接下来我们来看一下背后的框架设计 ——

具体来说,该团队基于 Claude Computer Use 的 API 所设计了一个自动化 GUI 框架,主要分为以下 6 个部分:

1.系统提示

Claude Computer Use 的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写块来调用这些函数,例如计算机交互、Bash Shell 命令和文件编辑工具。

2.状态观察

Claude Computer Use 通过实时截图观察环境,不依赖元数据或 HTML。每个时间步骤后,模型都会保留历史截图,以帮助生成下一步行动。

3.推理范式

Claude Computer Use 采用一种推理-行动范式,通过观察环境来决定下一步行动。这种方法使模型能够在高度动态的 GUI 环境中生成更可靠的行动。

4.工具使用

Claude Computer Use 提供三种工具:计算机工具、文本编辑器工具和 Bash 工具,这些工具能够帮助模型与计算机交互,执行各种任务。

5.GUI 动作空间

GUI 动作空间内置了所有鼠标和键盘动作,如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合这些动作。

6.历史视觉上下文维护

模型每个时间步骤都会保留历史截图,以帮助生成下一步行动。具体公式如下:

性能测试

为了更全面测试 Claude Computer Use 和 GUI 框架联合后的性能表现,团队进行了详细的测试实验,包括

1.数据收集:实验设计包括在 Windows 和 macOS 上通过 ComputerUse Out-of-the-Box 平台进行评估。评估任务覆盖了广泛的应用领域,包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择:选择了 20 个任务,涵盖 12 个软件或网站,分为网页搜索、工作流程、办公生产力和视频游戏等三个领域。具体任务详见下表:

3.参数配置:系统分辨率设置为 Windows 的(1366,768)和 macOS 的(1344,756)。在过程中进行人类评审和评估,用于监控和审核流程,确保任务成功完成。

尽管在之前的实例中 Claude Computer Use 表现出色,但当网页或软件页面过于复杂时,模型也出现了一些失误案例:

1.精细网页操作失败:在 Fox Sports 订阅任务中失败,主要原因是模型未能准确定位到“Account”选项卡。

2.办公软件失败:在 Word 中更新简历模板和在 PPT 中插入编号符号两项任务中失败,原因在于模型未能准确选择和定位到文本字段。

总的来说,Claude Computer Use 已经相当优秀,尤其是这个功能刚刚发布不久,前景可期!

团队还公开了所有测试用例的具体信息,感兴趣的朋友可以点击 GitHub 项目链接查看更多消息。

Claude,今后我的 PPT 和 Steam 就靠你啦(非常)

参考资料:

  • https://arxiv.org/pdf/2411.10323

  • https://github.com/showlab/computer_use_ootb

本文来自微信公众号:量子位(ID:QbitAI),作者:奇月,原标题《Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控:GUI 智能体的黎明》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容