What is DeepSeek 稀疏注意力（DSA）?

DeepSeek-V3.2 引入并在 V4 中延续的学习型稀疏注意力机制，将每个查询 token 路由到键 token 的子集而非全部，显著降低长上下文推理的计算成本。

Definition

DeepSeek 稀疏注意力（DSA）是一种学习型注意力稀疏化机制，通过让每个查询 token 仅关注键 token 的学习子集而非完整序列，降低标准 transformer 注意力的二次方计算成本。选择本身是学习的——模型在训练期间决定哪些键对每个查询相关，产生稀疏但任务感知的注意力模式。

DSA 在 2025 年底随 DeepSeek-V3.2 引入，并作为 DeepSeek V4（2026 年 4 月）的核心架构特性延续。这是 DeepSeek V4 能够实际支持 100 万 token 上下文窗口的关键原因——朴素密集注意力在该上下文长度下，无论计算还是 KV 缓存内存都将代价过高。使用 DSA，长上下文推理成本随序列长度增长的速度远低于二次方。

Why It Matters

稀疏注意力是使长上下文模型经济的基本架构杠杆。如果推理成本太高而无法实际使用，支持 1M token 的模型就毫无用处。DSA 使长上下文推理足够可处理，使生产部署可以例行使用——全代码库代码审查、长文档分析、多文档综合。随着长上下文用例扩散，学习型稀疏注意力机制可能成为标准而非例外。

Key Takeaways

DSA 是学习型稀疏注意力机制——模型决定关注哪些键
相比密集注意力，显著降低长上下文推理成本
在 DeepSeek-V3.2 中引入，在 DeepSeek V4 中延续（1M 上下文支持）
与启发式稀疏注意力（如滑动窗口）不同——任务感知而非位置感知
随着 1M+ 上下文窗口成为主流，该架构模式可能扩散

How Ertas Helps

DeepSeek V4——V4 Pro 和 V4 Flash 变体——使用 DSA，并在 Ertas Studio 的微调管道中受支持。微调 DSA 模型保留稀疏注意力行为，但训练时和推理时的计算由活跃注意力模式主导，因此相对密集注意力的成本节省也带入微调工作流。

Related Resources

Attention

Context Window

Effective Context Length

KV Cache

Transformer

llama.cpp

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →