OpenAI 最新论文：o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就

xxn 阅读：16156 2025-02-12 20:00:34 评论：0

在2月12日晚，OpenAI因受到中国人工智能公司影响，揭示了其O系列强化学习的重要信息。

在今天（2月12日），OpenAI发布了研究论文《Competitive Programming with Large Reasoning Models》，其中详细介绍了OpenAI的三个推理模型：o1、o1-ioi和o3在国际信息学奥林匹克（IOI）以及全球著名的在线编程竞赛CodeForces中的表现。

论文指出，o3在 IOI 2024 中以严格遵循规则的方式获得了395.64分，并取得了金牌，同时在CodeForces上的成绩与顶尖人类选手相提并论。

此外，研究还指出来自中国的DeepSeek-R1和Kimi k1.5通过独立的研究表明，采用思维链学习（COT）方法能显著提升模型在数学解题和编程挑战中的整体性能。R1和k1.5是DeepSeek和Kimi在1月20日共同推出的创新型推理模型。

该论文对通过强化学习（RL）训练的大型语言模型在复杂编程和推理任务的表现进行了分析，比较了通用推理模型和针对特定领域进行优化的系统在竞技编程中的效果。研究成果表明，加强强化学习训练的计算和测试过程能够显著提高模型性能，使其接近世界顶级人类选手。这些模型将在科学、编程和数学等领域的人工智能应用中开启新的可能性。

广告声明：本文中的外部链接（包括但不限于超链接、二维码、口令等形式），旨在提供更多信息，节省用户筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。