阿里云确认:李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练
IT之家 2 月 6 日报道,今日,由李飞飞领导的研究团队以不到 50 美元的云计算成本成功训练了名为 s1 的人工智能推理模型。该模型在数学和编码能力测试中的表现类似于 OpenAI 的 o1 和 DeepSeek 的 R1 等先进推理模型。
然而,该 s1 模型迅速被指责为“并非从头开始训练”,其基础模型为“阿里通义千问(Qwen)模型”。对此,新浪科技向阿里云询问情况,阿里云方面对此证实了。
阿里云表示:“他们在使用阿里通义千问 Qwen2.5-32B-Instruct 开源模型为基础,利用 16 块 H100 GPU 进行监督微调,时间为 26 分钟,开发出新的 s1-32B 模型,这一模型在数学和编程能力方面与 OpenAI 的 o1 和 DeepSeek 的 R1 等顶尖推理模型相匹配,且在竞赛数学问题上的表现超越 o1-preview 达 27%。”
根据IT之家之前的报道,s1 团队透露他们运用了“蒸馏”技术来研发该人工智能模型,该技术旨在通过训练来借鉴其他人工智能模型的答案,从而获取其“推理”能力。
s1 的研究论文显示,采用名为监督微调(SFT)的方法可以通过相对较小的数据集来蒸馏出推理模型。在 SFT 中,人工智能模型被指示在数据集中模仿特定行为。SFT 与 DeepSeek 用于训练其 R1 模型所采用的大规模强化学习方法相比,显得更具成本效益。
s1 模型基于阿里巴巴旗下的中国人工智能实验室 Qwen 提供的一个小型、现成且免费的人工智能模型。为完成 s1 的训练,研究者们构建了一个仅包含 1000 个精心挑选的问题的数据集,以及各个问题的答案,还有谷歌 Gemini 2.0 Flash Thinking Experimental 提供的每个答案背后的“推理”过程。
广告声明:文中包含的对外链接(如超链接、二维码、口令等形式)用于提供额外信息,帮助用户节省筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。