Fine-Tune DeepSeek V3.2 with Ertas

DeepSeek 於 2025 年末發布的版本，引入 DeepSeek 稀疏注意力（DSA）——一種可學習的稀疏注意力機制，能實現高效的長上下文推論，並搭配統一思考模式切換。DeepSeek V4 的直接前身。MIT 風格授權。

671B-A37BDeepSeek

Overview

DeepSeek V3.2 於 2025 年末發布，是 DeepSeek V4 的架構前身，引入了兩項成為 DeepSeek 血統核心的創新：DeepSeek 稀疏注意力（DSA）以及將推理能力整合進標準對話檢查點的統一思考模式。模型使用與 DeepSeek V3 相同的 671B-A37B 專家混合架構，但透過 DSA 大幅改善長上下文表現，並透過統一思考模式達成維運簡化。

DSA 是一種可學習的稀疏注意力機制，能將每個查詢 token 路由至一部分鍵 token，而非對所有鍵 token 進行注意力計算。這大幅降低長上下文推論的計算成本，也是後續使 DeepSeek V4 實現 1M token 上下文視窗的架構突破。雖然 V3.2 本身未達到 V4 的 1M 上下文，但 V3.2 中的 DSA 在等效上下文長度下，產生比密集注意力模型可衡量更佳的長上下文擷取品質。

V3.2 中的統一思考模式取代了先前的獨立部署模式（V3 對話 + R1 推理），改為單一檢查點透過執行階段控制參數在模式間切換。同一份 V3.2 權重同時服務快速直接回應與延伸推理查詢——這個模式現已成為 2026 年世代旗艦模型的標準。V3.2 以 DeepSeek 授權發布，這是一個 MIT 風格的商業寬鬆授權。

DeepSeek V3.2 在 2026 年 4 月被 V4 取代為 DeepSeek 旗艦，但在團隊希望獲得維運簡潔性與架構創新、卻不想承擔 V4 Pro 多 GPU 占用的生產環境中，V3.2 仍廣泛部署。DeepSeek-V3.2-Exp 變體在測試 DSA 架構的研究與生產部署中持續被引用。

Key Features

DeepSeek 稀疏注意力（DSA）是 V3.2 的決定性架構創新。透過學習每個查詢相關的鍵 token，DSA 將長上下文注意力計算大幅降至密集注意力的二次方成本以下，同時維持可用的擷取品質。這是 V4 在其上建構以支援 1M 上下文的架構基礎。

V3.2 中的統一思考模式是現今標準模式的首次重大實作。V3.2 不再維護獨立的 R1（推理）與 V3（對話）部署及跨模型路由，而是在單一檢查點中提供兩種行為。在維運上，這大幅簡化生產代理基礎架構——多數查詢獲得快速直接回應，僅有受益於推理的較困難子集消耗延伸推理運算。

671B-A37B MoE 架構繼承自 V3，仍是優異的品質對運算權衡。具備 37B 活躍參數，生成速度可媲美 37B 密集模型，同時存取完整 671B 的知識。對於擁有可裝載模型基礎架構的多 GPU 伺服器部署，V3.2 提供強勁的推理與程式碼表現。

搭配模型維運簡潔性的 MIT 風格 DeepSeek 授權，使 V3.2 成為 2026 年初熱門的生產選擇——適合那些想要 DeepSeek 能力卻不願投入更大 V4 Pro 基礎架構占用的團隊。

Fine-Tuning with Ertas

DeepSeek V3.2 處於實際微調的上限。Ertas Studio 支援多 GPU 伺服器配置（8x A100 80GB 或 8x H100 80GB）的 QLoRA 微調，在典型序列長度下總計約需 380-450GB VRAM。

對於沒有 8 GPU 伺服器存取的多數團隊而言，建議的模式是使用 V3.2 作為教師進行合成資料生成，然後在該資料上微調 DeepSeek-R1 蒸餾變體之一（Qwen 7B-32B 或 Llama 70B 蒸餾版）。這能以單 GPU 部署成本產出領域專業化模型，同時透過蒸餾繼承 V3.2 的推理與程式碼模式。

直接微調 V3.2 時，Ertas Studio 會自動處理 DSA 架構的訓練時考量——包括專家路由穩定性以及低秩適配期間稀疏注意力模式的保留。訓練後，Ertas Studio 匯出為 GGUF 格式。V3.2 的 Q4_K_M 量化約 360GB，需要多 GPU 伺服器部署。

Use Cases

DeepSeek V3.2 在受益於 V4 品質能力但無 V4 Pro 基礎架構（8 GPU 伺服器）的工作負載上表現出色。執行於 4-6 GPU 配置的生產部署常選擇 V3.2 而非 V4 Pro，以獲得較低的硬體占用，特別是當 1M 上下文不是硬性要求時。

統一思考模式使 V3.2 非常適合自適應代理部署——對例行工單的快速直接回應、對複雜查詢升級至推理模式。此模式相較於統一執行純推理模式推論，能帶來大幅成本節省，同時在真正受益於延伸思考的查詢上維持品質。

對於在生產中執行 DeepSeek-R1 蒸餾變體的團隊，V3.2 也是持續蒸餾循環的強勁教師模型——隨著領域演進產生新的合成訓練資料，並用該資料更新較小的部署模型。

Hardware Requirements

DeepSeek V3.2 在 Q4_K_M 下約需 360GB 記憶體，可裝入 8x A100 80GB 或 8x H100 80GB 伺服器，或具備 512GB+ RAM 的 CPU 推論主機。載入後，37B 的活躍參數量決定 token 生成吞吐量。

對於較小部署，Q3_K_M 量化（約 270GB）以適度品質換取較少記憶體，可在 4x H100 80GB 伺服器上運作並保留餘裕。低於 Q3 不建議用於生產部署——長上下文擷取的品質下降會變得明顯，特別是在 V3.2 競爭優勢來源的 DSA 相依基準上。

Ertas Studio 中微調：V3.2 QLoRA 需要約 380-450GB 總 VRAM（多 GPU 伺服器）。對多數團隊而言，透過教師生成的合成資料蒸餾至較小基礎（R1-Distill-Qwen-32B、R1-Distill-Llama-70B）是更實際的路徑。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →