What is DeepSeek Sparse Attention(DSA,DeepSeek 稀疏注意力)?

    DeepSeek-V3.2 引入並於 V4 延續的可學習稀疏注意力機制,每個查詢 token 僅指向部分鍵 token,而非對所有 token 計算注意力,大幅降低長脈絡推論的運算成本。

    Definition

    DeepSeek Sparse Attention(DSA)是一種可學習的注意力稀疏化機制,藉由讓每個查詢 token 僅關注一部分學習到的鍵 token,而非整個序列,來降低標準 Transformer 注意力的二次方運算成本。選擇本身即是學習而來——模型在訓練期間決定哪些鍵對於每個查詢具有相關性,產生稀疏但任務感知的注意力模式。

    DSA 隨 DeepSeek-V3.2 於 2025 年末首次推出,並在 DeepSeek V4(2026 年 4 月)中作為核心架構特徵延續使用。它是 DeepSeek V4 能在實務上支援 100 萬 token 脈絡視窗的關鍵原因之一——若採用樸素注意力,該脈絡長度在運算與 KV-cache 記憶體上都將令人卻步。在 DSA 之下,長脈絡推論成本相對於序列長度的成長明顯低於二次方,同時仍維持可用的檢索品質。

    Why It Matters

    稀疏注意力是讓長脈絡模型在經濟上可行的根本性架構槓桿。即使支援 1M token 的模型,若推論成本太高無法實際使用該脈絡,仍是英雄無用武之地。DSA 讓長脈絡推論的成本可承受到能在量產環境中常規使用——全程式碼庫審查、長文件分析、多文件綜合等。隨著長脈絡使用情境持續擴張,可學習的稀疏注意力機制可能會成為標配而非例外。

    Key Takeaways

    • DSA 是可學習的稀疏注意力機制——由模型決定要關注哪些鍵
    • 相較於密集注意力,可大幅降低長脈絡推論成本
    • 由 DeepSeek-V3.2 引入,並於 DeepSeek V4(支援 1M 脈絡)延續使用
    • 與啟發式稀疏注意力(如滑動視窗)不同——是任務感知而非位置感知
    • 隨著 1M+ 脈絡視窗成為主流,此架構模式很可能進一步普及

    How Ertas Helps

    DeepSeek V4——包含 V4 Pro 與 V4 Flash 兩個變體——皆採用 DSA,並獲 Ertas Studio 微調管線支援。微調 DSA 模型時會保留稀疏注意力的行為,而訓練期與推論期的運算量主要由有效的注意力模式決定,因此相較於密集注意力的成本節省也會延伸到微調工作流程中。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.