对话中国工程院院士郑纬民：DeepSeek，究竟厉害在哪里

xxn 阅读：49916 2025-01-27 14:01:44 评论：0

1 月 27 日，DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。同时，苹果中国区应用商店免费榜显示，DeepSeek 成为中国区第一。

DeepSeek 究竟非凡之处何在？

今天，中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技交流中，指出了 DeepSeek 其成功出圈的关键所在。

目前，业界对于 DeepSeek 的欣赏与赞誉，主要聚焦在三个方面。

第一，在技术层面，DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型，分别实现了可与 OpenAI 4o 和 o1 模型媲美的能力。
第二，DeepSeek 研发的这两款模型成本更低，仅为 OpenAI 4o 和 o1 模型的十分之一左右。
第三，DeepSeek 公开了这两大模型的技术，使更多的 AI 团队可以基于最先进且成本最低的模型开发更多 AI 原生应用。

那么，DeepSeek 是如何成功降低模型成本的？

郑纬民指出，“DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构，为其模型训练成本降低发挥了关键作用。”他指出，“MLA 主要通过改造注意力算子压缩了 KV Cache 大小，实现了在同样容量下可以存储更多的 KV Cache，该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合，实现了一个非常大的稀疏 MoE 层，这成为 DeepSeek 训练成本低的最关键原因。”

就技术层面而言，KV Cache 是一种优化技术，常被用于存储人工智能模型运行时产生的 token 的键值对（即 key- value 数值），以提高计算效率。具体而言，在模型运算过程中，KV cache 会在模型运算过程中充当一个内存库的角色，以存储模型之前处理过的 token 键值，通过模型运算计算出注意力分数，有效控制被存储 token 的输入输出，通过“以存换算”避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算，提升了算力使用效率。

此外，据郑纬民透露，DeepSeek还应对了“非常大同时非常稀疏的 MoE 模型”使用的性能挑战，而这也成了“DeepSeek 训练成本低的最关键原因”。

目前，通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段，而且一个大模型的专家模型数量越多，模型就越稀疏，效率也越高，但专家模型变多可能导致最终生成的结果不太准确。

据郑纬民介绍，“DeepSeek 比较厉害的是训练 MoE 的能力，成为公开 MoE 模型训练中第一个能训练成功这么大的 MoE 的企业。”新浪科技了解到，为保证大规模 MoE 专家模型的均衡运行，DeepSeek 使用了先进的、不需辅助损失函数的、专家加载均衡技术，保证每个 token 下，少量专家网络参数被真正激活的情况下，不同的专家网络能够以更均衡的频率被激活，防止专家网络激活集中。

此外，DeepSeek 充分利用专家网络稀疏激活的设计，限制了每个 token 被发送往 GPU 集群节点（node）的数量，使得 GPU 之间通信开销稳定在较低水平。

原标题：《对话中国工程院院士：DeepSeek，究竟厉害在哪里？》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。