DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
xxn
阅读:19039
2025-02-18 18:02:52
评论:0
IT之家于2月18日报道,DeepSeek今天宣布推出 NSA(Native Sparse Attention),这是一种为硬件优化并且能够原生训练的稀疏注意力机制,旨在实现超快速的长上下文训练和推理。
NSA 的核心优势包括:
动态分层稀疏策略
粗粒度的token压缩
细粒度的token选择
DeepSeek官方指出,这项机制能够有效优化现代硬件设计,在加速推理的同时降低预训练开支,并且不会影响性能。在多个通用基准、长上下文任务和基于指令的推理测试中,其性能与全注意力模型相媲美,甚至更为出色。
IT之家附上论文链接:
https://arxiv.org/abs/2502.11089
广告免责声明:文中包含的外部链接(如超链接、二维码、口令等形式)用于提供更多信息,以节省用户筛选时间,结果仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。