Fine-Tune DeepSeek V3.2 with Ertas

    DeepSeek 於 2025 年末發布的版本,引入 DeepSeek 稀疏注意力(DSA)——一種可學習的稀疏注意力機制,能實現高效的長上下文推論,並搭配統一思考模式切換。DeepSeek V4 的直接前身。MIT 風格授權。

    671B-A37BDeepSeek

    Overview

    DeepSeek V3.2 於 2025 年末發布,是 DeepSeek V4 的架構前身,引入了兩項成為 DeepSeek 血統核心的創新:DeepSeek 稀疏注意力(DSA)以及將推理能力整合進標準對話檢查點的統一思考模式。模型使用與 DeepSeek V3 相同的 671B-A37B 專家混合架構,但透過 DSA 大幅改善長上下文表現,並透過統一思考模式達成維運簡化。

    DSA 是一種可學習的稀疏注意力機制,能將每個查詢 token 路由至一部分鍵 token,而非對所有鍵 token 進行注意力計算。這大幅降低長上下文推論的計算成本,也是後續使 DeepSeek V4 實現 1M token 上下文視窗的架構突破。雖然 V3.2 本身未達到 V4 的 1M 上下文,但 V3.2 中的 DSA 在等效上下文長度下,產生比密集注意力模型可衡量更佳的長上下文擷取品質。

    V3.2 中的統一思考模式取代了先前的獨立部署模式(V3 對話 + R1 推理),改為單一檢查點透過執行階段控制參數在模式間切換。同一份 V3.2 權重同時服務快速直接回應與延伸推理查詢——這個模式現已成為 2026 年世代旗艦模型的標準。V3.2 以 DeepSeek 授權發布,這是一個 MIT 風格的商業寬鬆授權。

    DeepSeek V3.2 在 2026 年 4 月被 V4 取代為 DeepSeek 旗艦,但在團隊希望獲得維運簡潔性與架構創新、卻不想承擔 V4 Pro 多 GPU 占用的生產環境中,V3.2 仍廣泛部署。DeepSeek-V3.2-Exp 變體在測試 DSA 架構的研究與生產部署中持續被引用。

    Key Features

    DeepSeek 稀疏注意力(DSA)是 V3.2 的決定性架構創新。透過學習每個查詢相關的鍵 token,DSA 將長上下文注意力計算大幅降至密集注意力的二次方成本以下,同時維持可用的擷取品質。這是 V4 在其上建構以支援 1M 上下文的架構基礎。

    V3.2 中的統一思考模式是現今標準模式的首次重大實作。V3.2 不再維護獨立的 R1(推理)與 V3(對話)部署及跨模型路由,而是在單一檢查點中提供兩種行為。在維運上,這大幅簡化生產代理基礎架構——多數查詢獲得快速直接回應,僅有受益於推理的較困難子集消耗延伸推理運算。

    671B-A37B MoE 架構繼承自 V3,仍是優異的品質對運算權衡。具備 37B 活躍參數,生成速度可媲美 37B 密集模型,同時存取完整 671B 的知識。對於擁有可裝載模型基礎架構的多 GPU 伺服器部署,V3.2 提供強勁的推理與程式碼表現。

    搭配模型維運簡潔性的 MIT 風格 DeepSeek 授權,使 V3.2 成為 2026 年初熱門的生產選擇——適合那些想要 DeepSeek 能力卻不願投入更大 V4 Pro 基礎架構占用的團隊。

    Fine-Tuning with Ertas

    DeepSeek V3.2 處於實際微調的上限。Ertas Studio 支援多 GPU 伺服器配置(8x A100 80GB 或 8x H100 80GB)的 QLoRA 微調,在典型序列長度下總計約需 380-450GB VRAM。

    對於沒有 8 GPU 伺服器存取的多數團隊而言,建議的模式是使用 V3.2 作為教師進行合成資料生成,然後在該資料上微調 DeepSeek-R1 蒸餾變體之一(Qwen 7B-32B 或 Llama 70B 蒸餾版)。這能以單 GPU 部署成本產出領域專業化模型,同時透過蒸餾繼承 V3.2 的推理與程式碼模式。

    直接微調 V3.2 時,Ertas Studio 會自動處理 DSA 架構的訓練時考量——包括專家路由穩定性以及低秩適配期間稀疏注意力模式的保留。訓練後,Ertas Studio 匯出為 GGUF 格式。V3.2 的 Q4_K_M 量化約 360GB,需要多 GPU 伺服器部署。

    Use Cases

    DeepSeek V3.2 在受益於 V4 品質能力但無 V4 Pro 基礎架構(8 GPU 伺服器)的工作負載上表現出色。執行於 4-6 GPU 配置的生產部署常選擇 V3.2 而非 V4 Pro,以獲得較低的硬體占用,特別是當 1M 上下文不是硬性要求時。

    統一思考模式使 V3.2 非常適合自適應代理部署——對例行工單的快速直接回應、對複雜查詢升級至推理模式。此模式相較於統一執行純推理模式推論,能帶來大幅成本節省,同時在真正受益於延伸思考的查詢上維持品質。

    對於在生產中執行 DeepSeek-R1 蒸餾變體的團隊,V3.2 也是持續蒸餾循環的強勁教師模型——隨著領域演進產生新的合成訓練資料,並用該資料更新較小的部署模型。

    Hardware Requirements

    DeepSeek V3.2 在 Q4_K_M 下約需 360GB 記憶體,可裝入 8x A100 80GB 或 8x H100 80GB 伺服器,或具備 512GB+ RAM 的 CPU 推論主機。載入後,37B 的活躍參數量決定 token 生成吞吐量。

    對於較小部署,Q3_K_M 量化(約 270GB)以適度品質換取較少記憶體,可在 4x H100 80GB 伺服器上運作並保留餘裕。低於 Q3 不建議用於生產部署——長上下文擷取的品質下降會變得明顯,特別是在 V3.2 競爭優勢來源的 DSA 相依基準上。

    Ertas Studio 中微調:V3.2 QLoRA 需要約 380-450GB 總 VRAM(多 GPU 伺服器)。對多數團隊而言,透過教師生成的合成資料蒸餾至較小基礎(R1-Distill-Qwen-32B、R1-Distill-Llama-70B)是更實際的路徑。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.