Fine-Tune DeepSeek V4 with Ertas
DeepSeek 於 2026 年 4 月發布的旗艦——一個 1.6 兆參數的專家混合模型,活躍參數 49B,具備 100 萬 token 上下文,目前在開源權重綜合智慧基準上領先,並據報導正在縮短與前沿閉源模型的差距。
Overview
DeepSeek V4 於 2026 年 4 月 24 日發布,是發布時可用的最大 、最具能力的開源權重模型。旗艦 V4 Pro 變體採用 1.6 兆參數的專家混合架構,每個 token 約有 49B 參數活躍,搭配 100 萬 token 的上下文視窗。較小的 V4 Flash 變體與其同時推出,總參數 284B、活躍參數 13B,同樣具備 1M 上下文,鎖定 Pro 模型記憶體佔用過大不切實際的部署情境。
V4 的發布延續了讓 DeepSeek 上一世代成為開源 AI 定義性時刻的架構創新。V4 建立於 V3.2 引入的 DeepSeek 稀疏注意力(DSA)機制之上,精煉了 MoE 專家路由拓撲,並應用了大幅擴展的強化學習後訓練管線。累積效應是一個在發布時於 BenchLM 綜合智慧指數(87 分)上領先所有開源權重模型的模型,並顯著縮短了與 GPT-5.5 與 Claude Opus 4.7 等前沿專有系統的差距。
與 DeepSeek-R1 不同,V4 不是專用的純推理模型。相反地,V4 採用類似 Qwen 3+ 的思考模式切換:同一份檢查點透過推論時的控制旗標,同時提供直接回應(聊天)與延伸推理(推理)兩種模式。這種統一相比於維護獨立的 R1 風格推理模型與 V3 風格指令微調模型,降低了生產部署的營運複雜度。
V4 以 DeepSeek 授權發布——一種寬鬆的 MIT 風格商業授權。模型權重可在 Hugging Face 上以 `deepseek-ai/DeepSeek-V4-Pro` 與 `deepseek-ai/DeepSeek-V4-Flash` 取得,並有對應的 `-Base` 變體可供進一步微調。授權條款允許廣泛的商業使用,包括模型服務、衍生訓練與專有整合。
Key Features
100 萬 token 的上下文視窗是任何開源權重模型公開部署中最大的之一。結合 DSA 稀疏注意力機制,V4 在長上下文檢索與推理任務 上的可用表現,遠勝於僅靠 RoPE 延伸的單純模型。雖然有效上下文(模型保有 >90% 檢索準確度的範圍)小於宣傳的 1M,但模型確實可用於完整程式碼庫分析、長文件問答,以及在以往任何開源權重發布都無法處理的規模上進行多文件綜整。
DeepSeek 稀疏注意力透過將每個查詢 token 路由到一個學習得到的鍵 token 子集(而非關注全部)來降低長上下文注意力的二次方運算成本。這帶來雙重好處:在同等硬體上支援比密集注意力更長的上下文,同時相對於同等模型規模的密集注意力基準,在較短序列上也能降低推論成本。
統一思考模式具有重要的營運意義。生產部署可透過快速非思考推論直接派發大多數查詢,然後透過傳遞單一控制參數將困難查詢升級至推理模式——無需切換模型權重或跨獨立端點路由。這種模式相比於上一代 R1 與 V3 是兩個不同部署的情況,大幅簡化了代理系統的營運拓撲。
V4 也延續了 DeepSeek 在程式編寫(SWE-Bench Verified 約 73%)、推理(AIME 2025 高 70% 區間)與數學基準上的強勢表現,同時改進多語言能力與工具使用保真度。對於需要在函式呼叫格式上具有高可靠性的工具使用代理,這個模型是最強的開源權重選擇之一。
Fine-Tuning with Ertas
DeepSeek V4 的規模使大多數團隊難以進行完整微調,但 Ertas Studio 支援在多 GPU 伺服器配置上對 V4 Flash(284B/13B 變體)進行 QLoRA 微調(8x A100 80GB 或同等規格)。V4 Flash 在 4-bit 基礎量化加上注意力與 MoE 專家投影上的 LoRA 適配器,於典型序列長度 下需要約 280-340GB 的總 VRAM,分散於 GPU 集合並使用張量平行。
對於希望取得 DeepSeek V4 能力但不想要多 GPU 佔用的大多數團隊,Ertas Studio 推薦的方法是微調 DeepSeek-R1 蒸餾變體之一(Qwen 7B、14B、32B 或 Llama 70B 蒸餾版),並使用 V4 Pro 作為合成資料生成的教師模型。這種方法以 7B-70B 範圍密集模型的部署成本,提供 V4 推理風格——可在單張 GPU 上處理且服務成本低得多。
微調後,Ertas Studio 匯出為 GGUF 格式。V4 Flash 量化為 Q4_K_M 約 145GB,需要多 GPU 伺服器或大記憶體 CPU 推論主機(256GB+ RAM)。蒸餾微調後的模型以對應基礎參數量的標準大小匯出,可乾淨地部署於 Ollama、llama.cpp 或 vLLM。對於在生產環境中將 V4 Pro 作為教師、較小的蒸餾學生作為服務模型的團隊,Ertas Studio 支援完整管線,包括合成資料生成、蒸餾訓練與最終量化。
Use Cases
V4 Pro 的 100 萬 token 上下文視窗解鎖了過去在開源權重基礎設施上不可行的使用情境:可同時考慮所有原始檔的完整程式碼庫程式碼審查、可將整份合約或申報書放入單一提示的長文件法律或財務分析,以及需要對數十個來源共同推理的多文件綜整任務(如文獻回顧或競爭情報)。
V4 Flash 是通用生產服務的更實務選擇。具備 13B 活躍參數,它以具競爭力的每秒 token 速率服務,同時在標準基準上提供接近 V4 Pro 的品質。1M 上下文得以保留,使 Flash 成為含有非常大檢索結果集的 RAG 系統的理想選擇。
統一思考模式使 V4 非常適合需要自適應推理深度的代理系統。客戶支援代理可主要在快速直接回應模式下執行,僅針對真正複雜的問題單升級到推理模式。編程代理可在簡單補全時使用直接模式、在架構決策或除錯時使用推理模式。這種模式相比於均勻地以純推理模式執行推論,大幅降低推論成本。
Hardware Requirements
V4 Pro 在 Q4_K_M 量化下約需 820GB 總記憶體,實務上意味著 8x H100 80GB 或 8x A100 80GB 伺服器,或是配備 1TB+ RAM 的 CPU 推論主機。49B 的活躍參數量決定了生成吞吐量,因此一旦載入後,模型以與 49B 密集模型相當的速度服務。這是大型伺服器領域,不是消費級或單一工作站的部署。
V4 Flash 在 Q4_K_M 下約 145GB。可舒適地裝在 4x A100 80GB 或 2x H100 上,或是配備 256GB+ RAM 的 CPU 主機。13B 的活躍參數意味著推論速度與 13B 密集模型相當——非常適合具備合理單請求延遲的高吞吐量 API 服務。對於想要 DeepSeek V4 品質但不想要 V4 Pro 硬體佔用的團隊,Flash 是實務上的推薦。
在 Ertas Studio 中進行微調:V4 Flash QLoRA 約需 280-340GB 總 VRAM(多 GPU 伺服器)。V4 Pro QLoRA 對大多數團隊不切實際——推薦方法是蒸餾到較小的基礎模型上。在 Ertas Studio 中對 Qwen 32B 或 Llama 70B 進行 R1 風格的蒸餾微調,使用 QLoRA 時這些基礎模型需要標準的 20-48GB VRAM。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.