DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

xxn 阅读：19039 2025-02-18 18:02:52 评论：0

IT之家于2月18日报道，DeepSeek今天宣布推出 NSA（Native Sparse Attention），这是一种为硬件优化并且能够原生训练的稀疏注意力机制，旨在实现超快速的长上下文训练和推理。

NSA 的核心优势包括：

DeepSeek官方指出，这项机制能够有效优化现代硬件设计，在加速推理的同时降低预训练开支，并且不会影响性能。在多个通用基准、长上下文任务和基于指令的推理测试中，其性能与全注意力模型相媲美，甚至更为出色。

IT之家附上论文链接：

广告免责声明：文中包含的外部链接（如超链接、二维码、口令等形式）用于提供更多信息，以节省用户筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。