斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

xxn 阅读:26726 2025-01-31 18:01:01 评论:0

最新的研究显示,尽管 o1-preview 在数字和代码方面表现出色,但只要对数学竞赛题稍作调整,模型的准确度就会下降30%。

普特南数学竞赛一直以来都备受关注,由 William Lowell Putnam 家族发起,赛事历经66年,成为全球大学生间一场高水平竞赛。

美国数学会主办的赛事吸引了众多世界一流学府的学子参与,赛事的权威性和挑战性广受认可。

然而,近期一项斯坦福大学的研究却让人大跌眼镜:仅仅对题目中的变量和常量稍作修改,大型模型 o1-preview 的准确率竟会急剧下降30%!

相关链接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

这就像一位武林高手,面对熟悉的招式游刃有余,但一旦对手变招,立刻手忙脚乱。这让人不禁好奇,这些让顶尖推理模型难倒的变体题到底蕴含着什么奥秘?

北美最困难数学竞赛题目改版,AI犯迷糊

OpenAI的o1-preview模型以其强大的推理能力闻名各方。

在编程领域,o1-preview在Codeforces编程竞赛中表现出色,在93%的对手中排名靠前,写代码快速且准确。

在数学领域,o1-preview在2024年美国数学邀请赛上表现出色,准确率达83%,相当于全美排名前500的参赛选手。

在医学诊断方面,哈佛医学院和斯坦福大学的团队对o1-preview进行全面评估,在生成诊断意见、诊断临床推理和管理推理等任务上,o1-preview甚至超越了人类医生。然而,面对普特南数学竞赛题的变体,o1-preview却似乎迷失了方向。

在原始题目上,o1-preview的准确率达到41.95%,但一旦题目中的变量和常量被修改,准确率急剧下降约30%。

这种明显的差异背后有着深层原因。普特南竞赛题以其极高的难度和独特的出题方式著称,尽管原始题目和变体题目看似微小差异,但这些改变往往牵涉到数学概念深层次运用和逻辑结构的微妙变化。

o1-preview在训练过程中可能更多地专注于常见的数学题型、编程模式和医学案例的学习和优化,对于这种设计精良、极具挑战的变体题目,缺乏足够的经验,难以迅速抓住问题的关键,从而导致准确率急剧下降。

Putnam-AXIOM基准,AI数学能力的"试金石"

为了更准确评估AI大型模型的数学能力,研究团队精心打造了Putnam-AXIOM Original基准,包含了来自历届普特南数学竞赛的236个数学问题,涵盖了代数、几何、数论等各个领域,是对人类智慧极限的挑战。

这一基准的价值不仅在于收录原始题目,更在于其巧妙的修改机制,可以针对问题中的关键要素进行修改,生成无数全新且难度相当的问题。

例如,调整几何问题中的边长或更改函数题中的参数范围,即使微小调整也能彻底改变问题的解法路径。

这些新生成的问题都没有出现在互联网上,因此不可能出现在任何模型的训练数据集中,杜绝了AI依靠死记硬背答案的可能性,真正检验了AI数学推理能力。

研究人员在这一新设计的基准上对各种模型进行了广泛测试,包括OpenAI的o1-preview、GPT-4和GPT-4o,Anthropic的Claude-3.5 Sonnet、Llama、Qwen等开源模型,以及以数学能力著称的Gemma、Mistral、DeepSeek、Numina等开源模型。

首先,将236道原始题目输入给各个模型,在记录解题时间、推理步骤和最终答案的基础上,计算准确率。然后,将经过程序化修改的变体题目测试这些模型,同样记录解题过程中的数据。

在原始题目上,o1-preview模型以41.95%的准确率居首,但一旦转向变体题,准确率急剧下降至约11.95%,下降30个百分点。

其他模型的准确率也出现明显下降,但值得注意的是,Gemma和Mistral系列模型中的某些型号在变体题上准确率反而提升。

这些数据揭示了一个深刻问题。一方面,当前的AI模型,即使是顶尖的,面对数学问题的灵活变化仍显得适应性不足。它们可能过于依赖于大量数据训练出来的固定模式,一旦问题超出了常规范围,就会出现明显的下滑。

另一方面,普特南竞赛题的变体设计精准地触及了AI的软肋,为AI模型的未来训练和提升指明了新的方向。

参考资料:

  • https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

原文来源:新智元(ID:AI_era) 原文标题:《斯坦福揭秘 o1-preview 软肋!数学竞赛题稍作修改,准确率骤降 30%》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容