Fine-Tune DeepSeek V4 with Ertas

DeepSeek 於 2026 年 4 月發布的旗艦——一個 1.6 兆參數的專家混合模型，活躍參數 49B，具備 100 萬 token 上下文，目前在開源權重綜合智慧基準上領先，並據報導正在縮短與前沿閉源模型的差距。

284B-A13B (Flash)1.6T-A49B (Pro)DeepSeek

Overview

DeepSeek V4 於 2026 年 4 月 24 日發布，是發布時可用的最大、最具能力的開源權重模型。旗艦 V4 Pro 變體採用 1.6 兆參數的專家混合架構，每個 token 約有 49B 參數活躍，搭配 100 萬 token 的上下文視窗。較小的 V4 Flash 變體與其同時推出，總參數 284B、活躍參數 13B，同樣具備 1M 上下文，鎖定 Pro 模型記憶體佔用過大不切實際的部署情境。

V4 的發布延續了讓 DeepSeek 上一世代成為開源 AI 定義性時刻的架構創新。V4 建立於 V3.2 引入的 DeepSeek 稀疏注意力（DSA）機制之上，精煉了 MoE 專家路由拓撲，並應用了大幅擴展的強化學習後訓練管線。累積效應是一個在發布時於 BenchLM 綜合智慧指數（87 分）上領先所有開源權重模型的模型，並顯著縮短了與 GPT-5.5 與 Claude Opus 4.7 等前沿專有系統的差距。

與 DeepSeek-R1 不同，V4 不是專用的純推理模型。相反地，V4 採用類似 Qwen 3+ 的思考模式切換：同一份檢查點透過推論時的控制旗標，同時提供直接回應（聊天）與延伸推理（推理）兩種模式。這種統一相比於維護獨立的 R1 風格推理模型與 V3 風格指令微調模型，降低了生產部署的營運複雜度。

V4 以 DeepSeek 授權發布——一種寬鬆的 MIT 風格商業授權。模型權重可在 Hugging Face 上以 `deepseek-ai/DeepSeek-V4-Pro` 與 `deepseek-ai/DeepSeek-V4-Flash` 取得，並有對應的 `-Base` 變體可供進一步微調。授權條款允許廣泛的商業使用，包括模型服務、衍生訓練與專有整合。

Key Features

100 萬 token 的上下文視窗是任何開源權重模型公開部署中最大的之一。結合 DSA 稀疏注意力機制，V4 在長上下文檢索與推理任務上的可用表現，遠勝於僅靠 RoPE 延伸的單純模型。雖然有效上下文（模型保有 >90% 檢索準確度的範圍）小於宣傳的 1M，但模型確實可用於完整程式碼庫分析、長文件問答，以及在以往任何開源權重發布都無法處理的規模上進行多文件綜整。

DeepSeek 稀疏注意力透過將每個查詢 token 路由到一個學習得到的鍵 token 子集（而非關注全部）來降低長上下文注意力的二次方運算成本。這帶來雙重好處：在同等硬體上支援比密集注意力更長的上下文，同時相對於同等模型規模的密集注意力基準，在較短序列上也能降低推論成本。

統一思考模式具有重要的營運意義。生產部署可透過快速非思考推論直接派發大多數查詢，然後透過傳遞單一控制參數將困難查詢升級至推理模式——無需切換模型權重或跨獨立端點路由。這種模式相比於上一代 R1 與 V3 是兩個不同部署的情況，大幅簡化了代理系統的營運拓撲。

V4 也延續了 DeepSeek 在程式編寫（SWE-Bench Verified 約 73%）、推理（AIME 2025 高 70% 區間）與數學基準上的強勢表現，同時改進多語言能力與工具使用保真度。對於需要在函式呼叫格式上具有高可靠性的工具使用代理，這個模型是最強的開源權重選擇之一。

Fine-Tuning with Ertas

DeepSeek V4 的規模使大多數團隊難以進行完整微調，但 Ertas Studio 支援在多 GPU 伺服器配置上對 V4 Flash（284B/13B 變體）進行 QLoRA 微調（8x A100 80GB 或同等規格）。V4 Flash 在 4-bit 基礎量化加上注意力與 MoE 專家投影上的 LoRA 適配器，於典型序列長度下需要約 280-340GB 的總 VRAM，分散於 GPU 集合並使用張量平行。

對於希望取得 DeepSeek V4 能力但不想要多 GPU 佔用的大多數團隊，Ertas Studio 推薦的方法是微調 DeepSeek-R1 蒸餾變體之一（Qwen 7B、14B、32B 或 Llama 70B 蒸餾版），並使用 V4 Pro 作為合成資料生成的教師模型。這種方法以 7B-70B 範圍密集模型的部署成本，提供 V4 推理風格——可在單張 GPU 上處理且服務成本低得多。

微調後，Ertas Studio 匯出為 GGUF 格式。V4 Flash 量化為 Q4_K_M 約 145GB，需要多 GPU 伺服器或大記憶體 CPU 推論主機（256GB+ RAM）。蒸餾微調後的模型以對應基礎參數量的標準大小匯出，可乾淨地部署於 Ollama、llama.cpp 或 vLLM。對於在生產環境中將 V4 Pro 作為教師、較小的蒸餾學生作為服務模型的團隊，Ertas Studio 支援完整管線，包括合成資料生成、蒸餾訓練與最終量化。

Use Cases

V4 Pro 的 100 萬 token 上下文視窗解鎖了過去在開源權重基礎設施上不可行的使用情境：可同時考慮所有原始檔的完整程式碼庫程式碼審查、可將整份合約或申報書放入單一提示的長文件法律或財務分析，以及需要對數十個來源共同推理的多文件綜整任務（如文獻回顧或競爭情報）。

V4 Flash 是通用生產服務的更實務選擇。具備 13B 活躍參數，它以具競爭力的每秒 token 速率服務，同時在標準基準上提供接近 V4 Pro 的品質。1M 上下文得以保留，使 Flash 成為含有非常大檢索結果集的 RAG 系統的理想選擇。

統一思考模式使 V4 非常適合需要自適應推理深度的代理系統。客戶支援代理可主要在快速直接回應模式下執行，僅針對真正複雜的問題單升級到推理模式。編程代理可在簡單補全時使用直接模式、在架構決策或除錯時使用推理模式。這種模式相比於均勻地以純推理模式執行推論，大幅降低推論成本。

Hardware Requirements

V4 Pro 在 Q4_K_M 量化下約需 820GB 總記憶體，實務上意味著 8x H100 80GB 或 8x A100 80GB 伺服器，或是配備 1TB+ RAM 的 CPU 推論主機。49B 的活躍參數量決定了生成吞吐量，因此一旦載入後，模型以與 49B 密集模型相當的速度服務。這是大型伺服器領域，不是消費級或單一工作站的部署。

V4 Flash 在 Q4_K_M 下約 145GB。可舒適地裝在 4x A100 80GB 或 2x H100 上，或是配備 256GB+ RAM 的 CPU 主機。13B 的活躍參數意味著推論速度與 13B 密集模型相當——非常適合具備合理單請求延遲的高吞吐量 API 服務。對於想要 DeepSeek V4 品質但不想要 V4 Pro 硬體佔用的團隊，Flash 是實務上的推薦。

在 Ertas Studio 中進行微調：V4 Flash QLoRA 約需 280-340GB 總 VRAM（多 GPU 伺服器）。V4 Pro QLoRA 對大多數團隊不切實際——推薦方法是蒸餾到較小的基礎模型上。在 Ertas Studio 中對 Qwen 32B 或 Llama 70B 進行 R1 風格的蒸餾微調，使用 QLoRA 時這些基礎模型需要標準的 20-48GB VRAM。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →