训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型
按照最新报道,斯坦福大学和华盛顿大学的研究人员仅以不到 50 美元的云计算费用成功训练出了一个具备“推理”能力的人工智能模型(等同于约 364 元人民币)。
这一模型名为 s1,在数学和编程能力测试中展现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等一流推理模型相当的水平。目前,s1 模型以及相关训练数据和代码已经在 GitHub 上开源。
在创建这一人工智能模型时,s1 团队采用了“蒸馏”技术,该技术的核心在于通过训练模型来学习另一个人工智能模型的答案,从而提升“推理”能力。据透露,s1 模型是从谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏而来的。不久之前,加州大学伯克利分校的研究人员也利用相同方法,以约 450 美元的成本成功打造了一个人工智能推理模型。
类似于 s1 模型的问世引发了人工智能模型商品化的讨论 —— 如果可以用相对低廉的成本复制价值数百万美元的模型,那么大型科技公司的“护城河”又在哪里呢?
正如预料的那样,一些大型人工智能实验室对此表示不满,比如 OpenAI 曾指责 DeepSeek 不当获取其 API 数据以用于模型蒸馏。
s1 的研究人员致力于寻找实现强大推理性能和“测试时扩展”(即允许人工智能模型在回答问题前进行更多思考)的简便方法,这正是 OpenAI 的 o1 取得的一些突破。
s1 的研究论文指出,通过一种名为监督微调(SFT)的方法,可以用较小的数据集蒸馏推理模型。在 SFT 中,人工智能模型接受明确指示,在数据集上模仿特定行为。相比 DeepSeek 用于训练其 R1 模型的大规模强化学习方法,SFT 更具成本效益。
谷歌通过其 Google AI Studio 平台免费提供对 Gemini 2.0 Flash Thinking Experimental 模型的访问权限,但使用仍受限制。然而,相关条款禁止对模型进行逆向工程,以研发与谷歌自身人工智能产品竞争的服务。
s1 基于阿里巴巴旗下中国人工智能实验室 Qwen 提供的一款小型、现成的免费人工智能模型。为了打造 s1,研究人员构建了一个包含 1000 个精心设计问题及答案的数据集,以及谷歌 Gemini 2.0 Flash Thinking Experimental 模型背后的思考过程。
研究人员表示,在训练 s1 时(耗时不到 30 分钟,使用 16 个 Nvidia H100 GPU),这一模型在多项人工智能基准测试中表现出色。涉及该项目的斯坦福大学研究员 Niklas Muennighoff 告诉 TechCrunch,目前租用计算资源的成本约为 20 美元。
研究人员采用了一个智慧方法来让 s1 检查自身工作并延长“思考”时间:让其“等待”。研究结果表明,在 s1 的推理过程中加入“等待”环节,有助于模型得出稍微更准确的答案。
广告声明:本文包含对外跳转链接,仅供参考,节省阅读时间。如需了解更多信息,请点击这里。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。