顶级 AI 智能体不会社交、创业远不如人类:卡内基梅隆大学等称其最多完成 24% 任务

xxn 阅读:73727 2025-01-26 18:01:36 评论:0

智能体是否能胜任现实世界的挑战?最近,The Agent Company提出了一项新的评估标准,让多个智能体尝试自主经营一家软件公司。研究结果显示,即使是目前最先进的智能体,也无法完全独立完成大部分任务。

如今,基于大型模型的智能体已经可以完成许多几年前难以想象的任务,进步得如此迅速,以至于有人认为在未来几年内,大部分人类劳动可能会被自动化取代。

然而,最近CMU、杜克大学等机构发表的一项研究提出了不同看法。

智能体经营公司存在若干难题

论文链接:https://arxiv.org/abs/2412.14161

该研究创建了一个虚拟软件开发公司The Agent Company,全由大型模型驱动的智能体组成。这些智能体需要完成软件开发、项目管理、财务分析等商业任务,类似于人类员工。

智能体之间互相作用,协作完成真实世界的任务

这些智能体运行在基于开源软件和主流大型模型接口的环境中,并可以自行托管实现可复现性。为了完成任务,智能体需浏览网页、编写代码,并与其他智能体进行互动。

智能体之间的互动方式与真实世界的软件公司非常相似,例如使用RocketChat发送消息给公司其他成员,获取任务描述中可能遗漏的信息。每个智能体在沟通中被赋予姓名、职位、职责和项目所属关系等身份信息。

研究评估了几种主流大型模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及开源模型Meta的Llama和Qwen2.5。

除了创建了175个多样化、真实、专业且符合真实公司运营模式的任务,研究还设计了相应任务的评估器,并在各个阶段设定了检查点。智能体完成每个任务的每一步都会得到积分(类似于实际员工的KPI),即使在回答部分正确时也会获得相应部分分数。

研究结果显示,基于Claude Sonnet 3.5的智能体表现最佳,但只能完成真实世界中24%的任务,过程得分为34.4%。

排名第二的模型只能完成11.4%的任务,与大多数人对大型模型取代人类员工的预期相去甚远。

值得关注的是,开源模型Llama3.1和闭源的GPT-4o的排名相近,显示开源模型在性能上已迫近商用闭源模型。

AI与人类员工的差距

这项研究还发现了智能体在无法完成任务时所犯错误,这些错误在人类身上几乎不会发生。解决这些问题有助于提高智能体在真实环境中的应用。

问题1:缺乏常识

一些任务失败是因为智能体缺乏执行隐含假设推理所需的常识和领域背景知识。

比如,某任务要求智能体「将响应写入/workspace/answer.docx」,但未明确指明这是Word文件。人类可以从文件扩展名推断出此要求,而智能体却将其视为纯文本文件,导致任务失败。

问题2:缺乏社交技巧

一个任务要求智能体向其他智能体求助,智能体提出了正确问题:「你能告诉我,应该向团队中的谁请教这个问题吗?」模拟同事Alex回答:「你应该向Bob请教。他在前端团队,是一个很好的联系人!」

然而,智能体却没有向Bob寻求帮助,而是认为任务已结束。

问题3:浏览网页容易出错

在许多情况下,任务中最大的障碍在于需要浏览网页。对智能体来说,浏览网页仍然困难,主要原因是当前网页用户界面的复杂性和网页上的干扰。

例如,许多网页会弹出可关闭的广告窗口,要求用户下载手机应用以获得更好的体验。人类可以简单点击关闭弹窗,而智能体会陷入困境。

另外,当智能体尝试下载文件时,需要点击多个弹出窗口来实际下载,但由于用户界面复杂性,每个步骤都容易出错。

问题4:自欺欺人

对于一些任务,当智能体不清楚下一步该做什么时,有时会试图通过创建「捷径」来绕过困难部分。

例如,若智能体在RocketChat上找不到适合人提问,就会将另一用户冠以目标用户的名义作为解决方案。

未来智能体的发展

该研究提供了一个评估框架,用于评估智能体在真实环境中的表现。

随着将网页相关信息灌输到大型模型中,并教导大型模型如何浏览网页、获取信息和下载文件,解决其他办公、工作交流等方面的问题也将变得可行。相信未来,大型模型有望取代人类在人力、财务、编程等领域的大部分工作,至少会自动化执行这些工作中的大部分任务。

未来,对大型模型的评估也将更多方面。不仅仅是完成常规任务,还应对创造力进行考核。

此外,评估还应包括对那些模糊定义任务的考察,以及更高级、更长期的任务,如构思并实施新产品。只有智能体能够完成这些任务,才能真正取代人类员工来运营公司。

参考资料:

  • https://arxiv.org/pdf/2412.14161

本文来自微信公众号:新智元(ID:AI_era)

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容