月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向

xxn 阅读:30016 2025-02-15 18:02:24 评论:0

2 月 15 日下午消息,据媒体报道,月球背面内部已经将“持续获得 SOTA 结果”确定为当前最重要的工作目标。2025 年,月球背面围绕模型能力的关键方向除了继续强化多模态部分外,还将加强长文本推理能力。

报道分析指出,DeepSeek 的火爆使得外界开始重新审视月球背面的技术模式和用户增长模式。月球背面采取闭源策略,坚持预训练(需要大量硬件和算力资源),不将蒸馏技术作为关键因素,在C端市场通过大规模投入实现用户吸引;而 DeepSeek 则采取开源策略,虽然也采用预训练,但将蒸馏技术作为降低成本的关键手段,在C端市场没有进行大规模投入。

目前,DeepSeek 采用了与月球背面不同的发展路径,并取得了更加出色的效果。业内人士认为,若月球背面希望保持其生态位,可能需要做出一些改变或尝试,比如开源,或者调整用户吸引策略等。然而,目前尚不清楚月球背面是否会“借鉴” DeepSeek 的做法,公司对于接下来是否会开源也未对媒体提出的询问做出回应。

关于月球背面是否会因为 DeepSeek 而调整其工作重心的问题,新浪科技向月球背面进行了询问,截至发稿时,公司尚未做出回应。不过有消息称,“强化学习(RL)很可能会成为未来的一个重点方向”。

作为目前最受关注的热门技术话题,DeepSeek 最新推出的基于大规模强化学习技术的 DeepSeek-R1-Zero,在模型能力方面可媲美 OpenAI o1。新浪科技获悉,去年 11 月,月球背面宣布推出了新一代数学推理模型 k0-math,而 Kimi 探索版通过强化学习技术在意图增强、信源分析和链式思考三大推理能力上取得了突破。当时,月球背面 Kimi 创始人杨植麟高度评价了强化学习所带来的模型能力提升。

近日,OpenAI 发布了关于推理模型在竞技编程中应用的研究论文《Competitive Programming with Large Reasoning Models》,论文特别提到,“中国的 DeepSeek-R1 和 Kimi k1.5 通过独立研究显示,利用思维链学习(COT)方法,可以显著提高模型在数学解题与编程挑战中的综合表现。而 k1.5 则是 DeepSeek 和 Kimi 于 1 月 20 日同时发布的新推理模型。”

广告声明:本文包含外部链接,仅供参考,点击链接可获得更多信息。请谨慎查阅。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容