阿里云确认：李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练

xxn 阅读：95188 2025-02-07 00:01:46 评论：0

IT之家 2 月 6 日报道，今日，由李飞飞领导的研究团队以不到 50 美元的云计算成本成功训练了名为 s1 的人工智能推理模型。该模型在数学和编码能力测试中的表现类似于 OpenAI 的 o1 和 DeepSeek 的 R1 等先进推理模型。

然而，该 s1 模型迅速被指责为“并非从头开始训练”，其基础模型为“阿里通义千问（Qwen）模型”。对此，新浪科技向阿里云询问情况，阿里云方面对此证实了。

阿里云表示：“他们在使用阿里通义千问 Qwen2.5-32B-Instruct 开源模型为基础，利用 16 块 H100 GPU 进行监督微调，时间为 26 分钟，开发出新的 s1-32B 模型，这一模型在数学和编程能力方面与 OpenAI 的 o1 和 DeepSeek 的 R1 等顶尖推理模型相匹配，且在竞赛数学问题上的表现超越 o1-preview 达 27%。”

根据IT之家之前的报道，s1 团队透露他们运用了“蒸馏”技术来研发该人工智能模型，该技术旨在通过训练来借鉴其他人工智能模型的答案，从而获取其“推理”能力。

s1 的研究论文显示，采用名为监督微调（SFT）的方法可以通过相对较小的数据集来蒸馏出推理模型。在 SFT 中，人工智能模型被指示在数据集中模仿特定行为。SFT 与 DeepSeek 用于训练其 R1 模型所采用的大规模强化学习方法相比，显得更具成本效益。

s1 模型基于阿里巴巴旗下的中国人工智能实验室 Qwen 提供的一个小型、现成且免费的人工智能模型。为完成 s1 的训练，研究者们构建了一个仅包含 1000 个精心挑选的问题的数据集，以及各个问题的答案，还有谷歌 Gemini 2.0 Flash Thinking Experimental 提供的每个答案背后的“推理”过程。

广告声明：文中包含的对外链接（如超链接、二维码、口令等形式）用于提供额外信息，帮助用户节省筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。