AI 玩《超级马力欧兄弟》:Claude 3.7 操作最溜,推理模型表现不佳
IT之家报道,加利福尼亚大学圣地亚哥分校的Hao人工智能实验室(Hao AI Lab)进行了一项独特研究,将人工智能(AI)应用于经典游戏《超级马力欧兄弟》中,评估其性能。研究结果显示,在参与测试的AI模型中,Anthropic公司的Claude 3.7表现最出色,紧随其后的是Claude 3.5。相较而言,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o表现不佳。
需要澄清的是,该研究中使用的并非1985年最初发布的《超级马力欧兄弟》版本。游戏在一个模拟器中运行,通过名为GamingAgent的框架与AI对接,使AI能够操控马力欧。GamingAgent是Hao人工智能实验室自主开发的,向AI提供基本指令,例如“如果周围有障碍物或敌人,向左移动或跳跃避开”,同时提供游戏截图。随后,AI生成Python代码来控制马力欧。
实验室表示,这一游戏环境迫使每个AI模型“学习”规划复杂操作并制定游戏策略。有趣的是,研究显示,像OpenAI的o1这样的推理模型(通过逐步思考问题找到解决方案)表现不如“非推理”模型,尽管它们通常在多数基准测试中表现更优。研究人员指出,推理模型在实时游戏中表现不佳的一个主要原因是需要数秒钟才能做出行动决策。而在《超级马力欧兄弟》中,时机至关重要,一秒钟的差异可能导致安全跳过或跌落丧生。
多年来,游戏一直是评估AI性能的一个重要工具。然而,一些专家对将AI在游戏中的表现与技术进步直接联系起来的做法提出质疑。相对于现实世界,游戏常常是抽象和相对简单的,能够为AI训练提供理论上无限的数据。
值得注意的是,最近一些引人注目的游戏基准测试结果引发了OpenAI研究科学家、创始成员安德烈・卡帕西(Andrej Karpathy)所称的“评估危机”。他在X平台上的发文中写道:“我目前真的不知道该关注哪些AI指标。”他总结说:“我的反应是,我目前真的不知道这些模型有多出色。”
尽管如此,至少观看AI玩《超级马力欧兄弟》也是一种有趣的体验。
广告声明:文中包含的跳转链接等仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。