DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

xxn 阅读:19039 2025-02-18 18:02:52 评论:0

IT之家于2月18日报道,DeepSeek今天宣布推出 NSA(Native Sparse Attention),这是一种为硬件优化并且能够原生训练的稀疏注意力机制,旨在实现超快速的长上下文训练和推理。

NSA 的核心优势包括:

  • 动态分层稀疏策略

  • 粗粒度的token压缩

  • 细粒度的token选择

DeepSeek官方指出,这项机制能够有效优化现代硬件设计,在加速推理的同时降低预训练开支,并且不会影响性能。在多个通用基准、长上下文任务和基于指令的推理测试中,其性能与全注意力模型相媲美,甚至更为出色。

IT之家附上论文链接:

https://arxiv.org/abs/2502.11089

广告免责声明:文中包含的外部链接(如超链接、二维码、口令等形式)用于提供更多信息,以节省用户筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容