对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里

xxn 阅读:49916 2025-01-27 14:01:44 评论:0

1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同时,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。

DeepSeek 究竟非凡之处何在?

今天,中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技交流中,指出了 DeepSeek 其成功出圈的关键所在。

目前,业界对于 DeepSeek 的欣赏与赞誉,主要聚焦在三个方面。

  • 第一,在技术层面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型,分别实现了可与 OpenAI 4o 和 o1 模型媲美的能力。

  • 第二,DeepSeek 研发的这两款模型成本更低,仅为 OpenAI 4o 和 o1 模型的十分之一左右。

  • 第三,DeepSeek 公开了这两大模型的技术,使更多的 AI 团队可以基于最先进且成本最低的模型开发更多 AI 原生应用。

那么,DeepSeek 是如何成功降低模型成本的?

郑纬民指出,“DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构,为其模型训练成本降低发挥了关键作用。”他指出,“MLA 主要通过改造注意力算子压缩了 KV Cache 大小,实现了在同样容量下可以存储更多的 KV Cache,该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合,实现了一个非常大的稀疏 MoE 层,这成为 DeepSeek 训练成本低的最关键原因。”

就技术层面而言,KV Cache 是一种优化技术,常被用于存储人工智能模型运行时产生的 token 的键值对(即 key- value 数值),以提高计算效率。具体而言,在模型运算过程中,KV cache 会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的 token 键值,通过模型运算计算出注意力分数,有效控制被存储 token 的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还应对了“非常大同时非常稀疏的 MoE 模型”使用的性能挑战,而这也成了“DeepSeek 训练成本低的最关键原因”。

目前,通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段,而且一个大模型的专家模型数量越多,模型就越稀疏,效率也越高,但专家模型变多可能导致最终生成的结果不太准确。

据郑纬民介绍,“DeepSeek 比较厉害的是训练 MoE 的能力,成为公开 MoE 模型训练中第一个能训练成功这么大的 MoE 的企业。”新浪科技了解到,为保证大规模 MoE 专家模型的均衡运行,DeepSeek 使用了先进的、不需辅助损失函数的、专家加载均衡技术,保证每个 token 下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活集中。

此外,DeepSeek 充分利用专家网络稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点(node)的数量,使得 GPU 之间通信开销稳定在较低水平。

原标题:《对话中国工程院院士:DeepSeek,究竟厉害在哪里?》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容