DeepSeek 独立发现 o1 核心思路:OpenAI 首席研究官亲自证实,阿尔特曼被迫发声

xxn 阅读:57657 2025-01-29 14:01:34 评论:0

DeepSeek R1 的问世震撼了整个硅谷,伴随着这一波 AI 相关的恐慌情绪还在持续。OpenAI 的首席研究官阿尔特曼不得不发文指出 DeepSeek 的技术成就,并预告将加速发布新模型。同时,研究者们也开始对 DeepSeek 的技术进行深度分析。

DeepSeek 造成的涟漪使得全球为之震动。在短短几天内,从 R1 的复现热潮,到在美国 App Store 的榜单上登顶,再到科技股的集体下跌,东方这个神秘力量的影响力显露无遗。

自今年1月以来,R1 在 Hugging Face 的点赞数急剧增加。

阿尔特曼也打破沉默,公开承认 DeepSeek 的强大实力,并透露将有更多模型发布的信息:

DeepSeek R1 是一款令人印象深刻的模型,尤其是其在此价格范围内所展现的能力。

显然,我们会推出更先进的模型。新的竞争者的出现令我们激动!我们将加快新版本的发布,同时仍将重点放在 OpenAI 的研究路线图上。我们相信,现在比以往任何时候都更需要更多的计算能力来实现我们的目标。

未来世界将需要大量的 AI,并会对新一代模型感到惊叹。期待着为大家带来 AGI 和更加前沿的科技。

与此同时,OpenAI 的首席研究官 Mark Chen 也承认 DeepSeek 确实独立开发了一些 o1 的核心理念。

但对于外界的种种分析,他显然持保留态度。

Mark Chen 表示,现代 AI 系统依赖于「预训练」和「推理」两个主要方向,提供了更灵活的优化空间。

在降低成本的同时提升模型的性能,未来 OpenAI 可在这两个方面不断创新发展。

此外,随着蒸馏技术的不断进步,他们更是发现成本控制与性能提升不再相互制约。

换句话说,OpenAI 可以以更低的成本提供服务,而这并不意味着要牺牲模型的性能。

OpenAI 的研究科学家、德扑之父 Noam Brown 同样表示,「算法突破与 Scaling 实际上是互为补充,而非相互竞争。前者使得性能与计算量之间的关系发生变化,后者则是在这一关系上进一步推进」。

作为一种应对策略,OpenAI 今天特别发布了一个针对美国政府的聊天模型 ChatGPT Gov。

中国 AI 中兴威震硅谷

这场始于一篇22页的学术论文的革命,让一个约200人的团队通过一个模型颠覆华尔街,彻底改变了硅谷对 AI 的认知。

恐怕连 DeepSeek 自身都未能预见,这一突破将改写整个 AI 竞争格局。

论文地址:https://arxiv.org/ pdf/2501.12948

DeepSeek R1 论文刚发布时,并没有引起太多警觉。然而随着研究者们对论文内容的逐渐理解,一个惊人的事实浮现:

R1 竟以低于科技巨头的成本,达到了与顶级 AI 模型相抗衡的水平。

更令人瞩目的是,这项突破并非依赖于高昂的算力堆砌,而是通过巧妙的工程设计获得的。

在许多专家认为中国 AI 在竞争中拼不过时,R1 的面世就像是平地惊雷。

纽约时报作家 Kevin Roose 就对此表达了看法 —— R1 的表现似乎在动摇美国科技行业的三个核心假设。

普通算力,也能打破游戏规则

首先,第一个假设就是,要构建顶尖的 AI 模型,需要在强大的芯片和数据中心上投入巨额资金。

这一点早已成为业内广泛认可的模型 Scaling Law 必备要素。

各大硅谷巨头如微软、Meta、谷歌以及 xAI 等累计投入数十亿美元,专门用于开发和搭建下一代 AI 的基础设施。

在他们眼中,这些投资仍然远远不够。

上周,美国正式宣布了「星际之门」项目,计划在四年内投资5000亿美元建立20座超级计算中心。

而 DeepSeek 似乎仅花费这个总金额中微不足道的一部分便构建了 R1。

尽管 R1 的确切训练成本未知,业内推测 V3 的训练费用为550万美元,预计R1的成本会高于这一估算。

即便 R1 的训练费用是 DeepSeek 声称的十倍,考虑到其他开支,比如工程师的薪资或基础研究费用,这个数字依然低于美国人工智能公司在其最强大模型开发上所花费的数额数量级。

大即是好的观念已被颠覆!

其次,DeepSeek 在成本上的突破挑战了近年来 AI 竞赛中「越大越好」的常规思维。

R1 实际上证明,通过精细化训练,相对较小的模型同样可以与大型模型媲美,甚至超越其性能。

反过来说,这意味着,AI 公司也许能以更低于以往的投资实现出众的功能。

在研究论文中,探讨了一些关于 R1 如何构建的前沿细节,其中包括「模型蒸馏」方面的创新技术。

由此可见,将大型 AI 模型压缩为更小的模型,不仅可以降低运行费用,且不会造成明显的性能损失。

此外,论文还表明,仅需在基础模型上应用 RL 算法,就能将普通 AI 语言模型转化为更高级的推理模型。

中国 AI 不再落后之说将作古

第三,DeepSeek 的成功挑战了许多专家关于中国在 AI 竞争中处于落后地位的看法。

事实显示,美国的技术优势,并不像人们想象得那样牢不可破。

多年来,许多 AI 专家认为美国在技术上至少领先全球数年,而中国企业要迅速赶上美国的发展则极为困难。

截至目前,已有超过500个 DeepSeek 衍生模型在 HF 上发布

然而,DeepSeek 的成果表明,中国具备与 OpenAI 及其他美国人工智能公司相MATCH的先进能力。

这场 AI 的震荡,带来的不仅是技术的突破,更是对全球 AI 竞争格局的深刻变革。

真正感受到压力的,是 OpenAI

在整个市场因 AI 训练成本大幅降低而感到恐慌之际,一些行业内的资深人士却展望着更加美好的未来。

硅谷的诸多业内人士认为,对 DeepSeek 最新模型的市场反应显得过于极端。

他们认为,这种通过显著降低 AI 成本带来的积极结果能促进 AI 的更广泛应用及价值实现,从而不断促进市场对英伟达芯片的需求。

近期,前英特尔 CEO Pat Gelsinger 的实际行为为此作出了回答,上周一他买入了英伟达的股票。

他在 LinkedIn 上发文称:「市场反应是错误的,降低 AI 成本能扩展市场规模。DeepSeek 是一项杰出的工程成就,将引领 AI 进入更广泛的商业应用阶段。」

英伟达也在周一发表声明,认为 DeepSeek 的创新将推动公司的发展。

DeepSeek 是一项卓越的 AI 技术进展,也是「测试时 Scaling」的完美示范。这种推理运算需要大量英伟达 GPU 和高性能网络基础设施的支持。

业内专家 TechInsights 的 G Dan Hutcheson 的分析同样值得深思。

他认为,DeepSeek 的技术突破对英伟达影响有限,真正需要担忧的实际上是 OpenAI 这类提供相似服务的公司。

而网友们分享在 Mark Chen 推文下的真实体验,正好印证了这一观点。

图解 DeepSeek-R1

对于机器学习研发界来说,DeepSeek-R1 是一个至关重要的里程碑:

  • 它是一个开放权重的模型,并提供多个经过知识蒸馏的轻量级版本

  • 它不仅分享了训练方法,还深入分析了如何复制类似 OpenAI o1 的推理模型的实现过程

在最近一篇博客中,AI 初创公司 Chere 的机器学习研究员 Jay Alammar 通过图解的方式分析了如何构建具有推理能力的大语言模型。

模型训练第一步的详情来自早期的 DeepSeek-V3 论文。

R1 采用该论文中的基础模型,并同样经过监督微调(SFT)以及偏好微调步骤,但执行方法存在变化。

1. 长链推理的监督微调数据

该过程包含60万个长推理链示例。

然而,获取如此规模并且仍为人工标注的数据,既困难又昂贵,因此创作这些数据的过程成了第二个重点。

2. 一个用于推理任务的临时高质量大语言模型(但在非推理任务上的表现较差)

这些数据来源于R1之前的一个推理相关模型。

其灵感源自名为 R1-Zero 的模型,重要性在于它仅依赖少量标注数据,通过大规模强迫学习展现推理问题的优异能力。

该专注推理的模型随后被用于训练一个更全面的模型,使其在其他非推理任务中满足用户对大语言模型的预期。

3. 通过大规模强化学习构建推理模型

3.1 面向推理的强化学习(R1-Zero)

在这一阶段,RL 被应用于生成临时推理模型,该模型随后用于产生监督微调的推理示例。

使得这一切得以实现的关键在于先前创建的 DeepSeek-R1-Zero 模型的实验。

R1-Zero 的不同之处在于,它在无需标注监督微调训练集的情况下,依然能在推理任务上表现优异,乃至与 o1 比肩。

它的训练过程直接从预先训练的基础模型,通过 RL过程进行(不需监督微调步骤)。

数据一直以来是提升机器学习模型性能的关键要素,那么该模型如何打破这一规律?涉及两个关键因素:

(1)现代基础模型达到了质量和能力的新境界(该基础模型建立在 14.8 万亿高质量 tokens 上)。

(2)与普通的聊天或者写作任务不同,推理问题能够通过自动化方式完成验证和标注。

我们通过一个案例来说明。以下是 RL 训练步骤中的一个常见提示词:

编写 Python 代码,接受一个数字列表,返回排序后的列表,并在开头添加数字 42。

当模型处理该问题并生成答案时,有众多手段能够实现自动验证:

  • 用代码检查工具验证生成内容是否合法的 Python 代码

  • 直接运行 Python 代码检查其执行效果

  • 利用其他现代编程语言模型生成单元测试来验证代码行为(它们不必具备推理能力)

  • 进一步测量代码执行时间,并指导训练过程优先选择性能表现更好的方案,而非仅仅是正确答案的程序

通过这种方法,我们能够在训练过程提供类似的问题,并获得多种可能解法。

通过这些自动化检查(无需人为干预),我们发现:

  • 第一条完成结果并非代码;

  • 第二条是合规的 Python 代码,但未能解决问题;

  • 第三条提供了一个可能的解决方案,但未通过单元测试;

  • 最终,第第四条才是正确的解法。

这些信息可以切实用于改善模型的表现。当然,这种提升是通过大量示例(在迷你批次中)和反复训练来实现的。

这些奖励信号与模型更新恰恰是模型在RL训练过程中不断提升任务执行效率的途径,正如论文图2所示。

伴随着这种改善,模型生成响应的长度会有所变化——模型会生成更多的思考 token 来处理问题。

这个过程的确极具实用性,但 R1-Zero 理所当然地面临其他影响其应用性的问题。

虽然 DeepSeek-R1-Zero 展现出卓越的推理能力,并自发形成高效的推理模式,但它依然面临可读性及语言混合等方面的明显不足。

R1 的目标则是成为一个更实用的模型。因此它并非完全依靠 RL 过程,而是在先前提到的两个方面加以结合:

(1)构建中间推理模型以生成 SFT 数据点

(2)训练 R1 模型,以提高推理和非推理任务的处理能力(采用不同类型的验证器)

3.2 使用中间推理模型创建 SFT 推理数据

为确保中间推理模型的实用性,需要对其进行监督式微调(SFT)训练,训练数据包括数千个推理示例(部分来源于 R1-Zero 的生成与筛选)。论文中将这些称之为「冷启动数据」。

与 DeepSeek-R1-Zero 不同,DeepSeek-R1 为避免基础模型在 RL 训练初期出现不稳定的冷启动现象,采用了一些长思维链(CoT)数据对模型进行微调,作为最初的 RL 代理。在数据采集过程中,使用了多种方法:使用长思维链作为示例来进行少样本提示学习,或直接通过语句引导模型生成富有反思和验证的详尽答案,经过优质格式采集 DeepSeek-R1-Zero 的输出,并通过人工标注进行优化。

可是,既然已有数据,为什么还需要借助 RL 过程呢?

这主要受数据规模的限制。现有数据集可能仅有5000个示例,然而训练 R1 则需要 60万个示例。

因此,中间模型的作用是填补这一数量的缺口,使生成如此大规模的高质量数据成为可能。

SFT训练示例

3.3 通用 RL 训练阶段

这使得 R1 在推理任务上表现超凡,非推理任务的结果同样出色。

这一过程与之前提到的 RL 方法类似,但由于其延伸至非推理领域,针对这类应用的提示词,采用了有效性和安全性奖励模型(与 Llama 类似)。

4. 架构

与 GPT-2 和 GPT-3 的初始模型相似,DeepSeek-R1 是由多个 Transformer decoder 块构成的。

其总共包含61个 decoder 块,前面三个是全连接层(dense layer),其余则为专家混合(Mixture-of-Experts,简称 MoE)层。

关于模型的维度和其他超参数的配置如下:

参考资料:

  • https://www.ft.com/content/ee83c24c-9099-42a4-85c9-165e7af35105

  • https://www.nytimes.com/2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL

  • https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

广告说明:文中含有的对外链接(包括不限于超链接、二维码、口令等形式)用于传达更多信息,便于用户获取,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容