月之暗面因 DeepSeek 调整工作重心？内部人士：强化学习或许会是个方向

xxn 阅读：30016 2025-02-15 18:02:24 评论：0

2 月 15 日下午消息，据媒体报道，月球背面内部已经将“持续获得 SOTA 结果”确定为当前最重要的工作目标。2025 年，月球背面围绕模型能力的关键方向除了继续强化多模态部分外，还将加强长文本推理能力。

报道分析指出，DeepSeek 的火爆使得外界开始重新审视月球背面的技术模式和用户增长模式。月球背面采取闭源策略，坚持预训练（需要大量硬件和算力资源），不将蒸馏技术作为关键因素，在C端市场通过大规模投入实现用户吸引；而 DeepSeek 则采取开源策略，虽然也采用预训练，但将蒸馏技术作为降低成本的关键手段，在C端市场没有进行大规模投入。

目前，DeepSeek 采用了与月球背面不同的发展路径，并取得了更加出色的效果。业内人士认为，若月球背面希望保持其生态位，可能需要做出一些改变或尝试，比如开源，或者调整用户吸引策略等。然而，目前尚不清楚月球背面是否会“借鉴” DeepSeek 的做法，公司对于接下来是否会开源也未对媒体提出的询问做出回应。

关于月球背面是否会因为 DeepSeek 而调整其工作重心的问题，新浪科技向月球背面进行了询问，截至发稿时，公司尚未做出回应。不过有消息称，“强化学习（RL）很可能会成为未来的一个重点方向”。

作为目前最受关注的热门技术话题，DeepSeek 最新推出的基于大规模强化学习技术的 DeepSeek-R1-Zero，在模型能力方面可媲美 OpenAI o1。新浪科技获悉，去年 11 月，月球背面宣布推出了新一代数学推理模型 k0-math，而 Kimi 探索版通过强化学习技术在意图增强、信源分析和链式思考三大推理能力上取得了突破。当时，月球背面 Kimi 创始人杨植麟高度评价了强化学习所带来的模型能力提升。

近日，OpenAI 发布了关于推理模型在竞技编程中应用的研究论文《Competitive Programming with Large Reasoning Models》，论文特别提到，“中国的 DeepSeek-R1 和 Kimi k1.5 通过独立研究显示，利用思维链学习（COT）方法，可以显著提高模型在数学解题与编程挑战中的综合表现。而 k1.5 则是 DeepSeek 和 Kimi 于 1 月 20 日同时发布的新推理模型。”

广告声明：本文包含外部链接，仅供参考，点击链接可获得更多信息。请谨慎查阅。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。