o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰
IT之家 12 月 21 日消息,“12 Days of OpenAI”活动已经圆满结束,OpenAI 最新推出的 o3 系列大模型正式亮相,官方表示在某些特定场景中,其推理能力与通用人工智能(AGI)相差无几。
命名缘由
为何最新的 AI 模型跳过 o2,直接称为 o3?OpenAI CEO 山姆·阿尔特曼(Sam Altman)在今天早上的直播中指出,这是为了避免与英国运营商 O2 的商标冲突。
测试邀请
o3 是继 o1 推理模型之后的新一代,提供完整版和精简版(o3-mini),后者特别针对特定任务进行了优化。
OpenAI 目前尚未全面开放 o3 和 o3-mini 两个模型,从即日起邀请安全研究人员注册测试 o3-mini 的预览版,后续将推出 o3 的预览版。
现在,有兴趣的用户可以申请测试:https://openai.com/index/early-access-for-safety-testing/。
阿尔特曼并未透露 o3 模型的具体开放时间,只分享了 o3-mini 的预计发布为 2025 年 1 月底,o3 的发布将随后跟进。
推理能力
OpenAI 的 o3 模型与主流 AI 模型的显著不同之处在于其能够执行事实核查,从而有效避免一些常见的模型陷阱,但此过程可能导致响应延迟,通常为几秒至几分钟,取决于推理的复杂性。
o3 系列模型的另一大特色是采用“私人思维链”(private chain of thought)进行分析,它允许模型在生成响应之前暂停,考虑相关提示并解释其推理过程,最终得到最精确的答案。
o3 的新功能之一是可调整推理时间,设有低、中、高三个计算水平,计算水平越高,o3 在执行任务时的效率越优越。
性能与 AGI 目标
AGI,即人工通用智能,是指 AI 可如人类般完成任何任务。OpenAI 官方定义 AGI 为“在最具经济效益的领域超越人类的高度自治系统”。
OpenAI 正全力朝向 AGI 的发展目标,不仅巩固了其在 AI 领域的领导地位,这在投资领域同样具有深远意义。
根据 OpenAI 与其密切合作伙伴微软的协议条款,一旦 OpenAI 实现 AGI,便不再需要向微软提供其最尖端的技术(即完全符合 AGI 定义的技术)。
而 o3 的推出标志着 OpenAI 朝这一目标迈出了重要一步,在 ARC-AGI 基准测试中,o3 在高计算模式下取得了 87.5% 的分数,低计算模式下得分为 75.7%,性能是 o1 的三倍。
ARC-AGI 联合创始人 François Chollet 指出,高计算设置虽非常昂贵,每个任务的开销可能达到数千美元。
IT之家引用相关媒体报道,o3 在其他基准测试中的表现同样出色:
在 SWE-Bench Verified 编程任务基准测试中,o3 比 o1 高出了 22.8 个百分点;
在 Codeforces 编程技能测试中,o3 赢得了 2727 的评分;
在 2024 年美国数学邀请赛中,o3 的得分为 96.7%;
在 GPQA Diamond 研究生水平生物、物理和化学测试中,o3 得分为 87.7%;
在 EpochAI 的 Frontier Math 基准测试中,o3 成功解决了 25.2% 的问题(其他模型最高不超过 2%),创造了新纪录。
这些结果由 OpenAI 进行的内部评估所得,外部用户和机构的基准测试结果尚需进一步确认。
安全性考量
o3 的发布象征着 OpenAI 在通用人工智能领域的重大进展。尽管 o3 的能力令人印象深刻,但其潜在风险同样不可忽视。OpenAI 承诺在模型安全性方面持续努力,并与其他组织携手构建更为完善的基准测试体系。
广告声明:文中的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,节省信息寻找时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。