What is DeepSeek 稀疏注意力(DSA)?
DeepSeek-V3.2 引入并在 V4 中延续的学习型稀疏注意力机制,将每个查询 token 路由到键 token 的子集而非全部,显著降低长上下文推理的计算成本。
Definition
DeepSeek 稀疏注意力(DSA)是一种学习型注意力稀疏化机制,通过让每个查询 token 仅关注键 token 的学习子集而非完整序列,降低标准 transformer 注意力的二次方计算成本。选择本身是学习的——模型在训练期间决定哪些键对每个查询相关,产生稀疏但任务感知的注意力模式。
DSA 在 2025 年底随 DeepSeek-V3.2 引入,并作为 DeepSeek V4(2026 年 4 月)的核心架构特性延续。这是 DeepSeek V4 能够实际支持 100 万 token 上下文窗口的关键原因——朴素密集注意力在该上下文长度下,无论计算还是 KV 缓存内存都将代价过高。使用 DSA,长上下文推理成本随序列长度增长的速度远低于二次方。
Why It Matters
稀疏注意力是使长上下文模型经济的基本架构杠杆。如果推理成本太高而无法实际使用,支持 1M token 的模型就毫无 用处。DSA 使长上下文推理足够可处理,使生产部署可以例行使用——全代码库代码审查、长文档分析、多文档综合。随着长上下文用例扩散,学习型稀疏注意力机制可能成为标准而非例外。
Key Takeaways
- DSA 是学习型稀疏注意力机制——模型决定关注哪些键
- 相比密集注意力,显著降低长上下文推理成本
- 在 DeepSeek-V3.2 中引入,在 DeepSeek V4 中延续(1M 上下文支持)
- 与启发式稀疏注意力(如滑动窗口)不同——任务感知而非位置感知
- 随着 1M+ 上下文窗口成为主流,该架构模式可能扩散
How Ertas Helps
DeepSeek V4——V4 Pro 和 V4 Flash 变体——使用 DSA,并在 Ertas Studio 的微调管道中受支持。微调 DSA 模型保留稀疏注意力行为,但训练时和推理时的计算由活跃注意力模式主导,因此相对密集注意力的成本节省也带入微调工作流。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.