What is DeepSeek Sparse Attention（DSA，DeepSeek 稀疏注意力）?

DeepSeek-V3.2 引入並於 V4 延續的可學習稀疏注意力機制，每個查詢 token 僅指向部分鍵 token，而非對所有 token 計算注意力，大幅降低長脈絡推論的運算成本。

Definition

DeepSeek Sparse Attention（DSA）是一種可學習的注意力稀疏化機制，藉由讓每個查詢 token 僅關注一部分學習到的鍵 token，而非整個序列，來降低標準 Transformer 注意力的二次方運算成本。選擇本身即是學習而來——模型在訓練期間決定哪些鍵對於每個查詢具有相關性，產生稀疏但任務感知的注意力模式。

DSA 隨 DeepSeek-V3.2 於 2025 年末首次推出，並在 DeepSeek V4（2026 年 4 月）中作為核心架構特徵延續使用。它是 DeepSeek V4 能在實務上支援 100 萬 token 脈絡視窗的關鍵原因之一——若採用樸素注意力，該脈絡長度在運算與 KV-cache 記憶體上都將令人卻步。在 DSA 之下，長脈絡推論成本相對於序列長度的成長明顯低於二次方，同時仍維持可用的檢索品質。

Why It Matters

稀疏注意力是讓長脈絡模型在經濟上可行的根本性架構槓桿。即使支援 1M token 的模型，若推論成本太高無法實際使用該脈絡，仍是英雄無用武之地。DSA 讓長脈絡推論的成本可承受到能在量產環境中常規使用——全程式碼庫審查、長文件分析、多文件綜合等。隨著長脈絡使用情境持續擴張，可學習的稀疏注意力機制可能會成為標配而非例外。