Fine-Tune DeepSeek-V3 with Ertas

DeepSeek 的旗艦級 6,710 億參數混合專家模型，每個 token 活躍 37B 參數，以極高的推論效率提供前沿級別的通用效能。

671B (37B active)DeepSeek

Overview

DeepSeek-V3 於 2024 年 12 月發布，是有史以來最令人印象深刻的開放權重模型之一。擁有 6,710 億個總參數，採用混合專家架構，每次前向傳播活躍 370 億個參數，在許多基準測試中提供與 GPT-4o 和 Claude 3.5 Sonnet 相競爭的效能——這對開放權重模型來說是一項了不起的成就。

模型使用多頭潛在注意力（Multi-head Latent Attention，MLA）機制，將鍵值對壓縮到較低維度的潛在空間，大幅減少推論時的 KV 快取記憶體佔用。結合 DeepMix——一種細粒度的專家分割策略，使用 256 個路由專家（每個 token 選擇 8 個）加 1 個共享專家——該架構實現了卓越的品質與運算效率比。

DeepSeek-V3 使用 14.8 兆個 token 進行訓練，採用創新的多階段訓練管線。值得注意的是，整個訓練過程的運算成本僅約 550 萬美元——遠低於同等前沿模型所需的費用——這要歸功於架構效率和訓練最佳化，包括 FP8 混合精度訓練和最佳化的通訊模式。

模型支援 128K token 的上下文視窗，在通用知識、數學、程式碼生成、創意寫作和多語言任務上表現優異。以 MIT 授權發布，可自由用於研究和商業用途。

Key Features

多頭潛在注意力（MLA）是 DeepSeek-V3 最重要的架構創新。標準的多頭注意力在 KV 快取中儲存完整的鍵值張量，隨序列長度和層數線性增長。MLA 將鍵和值投影到壓縮的潛在表示中，與具有等效頭數的標準注意力相比，KV 快取記憶體減少約 93%。這使得在可管理的記憶體需求下處理非常長的序列成為可能。

細粒度專家架構在每個 MoE 層使用 256 個路由專家加 1 個共享專家，每個 token 路由到 8 個專家。這比 Mixtral（8 個專家，路由到 2 個）等模型的粒度細得多，允許更精確的專家特化和訓練期間更平滑的專家利用率。無輔助損失的負載均衡策略確保專家利用率均勻，同時不降低模型品質。

DeepSeek-V3 開創了大規模 FP8 混合精度訓練，在訓練期間對大多數矩陣乘法使用 8 位浮點數，同時對關鍵組件保持全精度。與標準 BF16 訓練相比，這將訓練時間和成本降低了約 40%，為訓練效率設立了新標準。

Fine-Tuning with Ertas

在 Ertas Studio 中微調 DeepSeek-V3 主要透過 QLoRA 完成，因為模型的總參數量為 671B。使用 4 位量化，微調需要約 180-200GB 的總 GPU 記憶體，通常透過 4 張 A100 80GB GPU 實現。Ertas Studio 自動管理分散式訓練設定、專家路由和 MLA 感知的適配器放置。

對於大多數使用者，更實際的方法是使用較小的模型（如 DeepSeek-R1 蒸餾變體或其他 7B-70B 模型）進行微調，並將 DeepSeek-V3 保留為合成資料生成的教師模型。Ertas Studio 支援這種工作流程：使用 V3 生成高品質訓練資料，然後在該資料上微調較小模型以實現高效部署。

當需要直接微調時，Ertas Studio 將 LoRA 適配器應用於共享注意力層和專家前饋層。MLA 架構意味著注意力適配器的佔用空間比標準模型更小，使整體適配器大小保持在可管理範圍內。訓練後，匯出為 GGUF 格式，透過 llama.cpp 或 Ollama 部署，兩者均支援 DeepSeek-V3 的架構。

Use Cases

DeepSeek-V3 是適合最嚴苛應用的前沿級模型。它在複雜推理任務、跨多種程式語言的精密程式碼生成、高級數學問題解決和細膩的創意寫作方面表現出色。需要 GPT-4 級效能同時將資料完全保留在本地的組織會發現 DeepSeek-V3 是一個令人信服的選擇。

該模型作為合成資料生成引擎特別強大。其廣泛的知識和強大的指令跟隨能力使其成為生成高品質訓練資料集的理想選擇，用於微調更小、更高效的模型。這種教師-學生工作流程是 DeepSeek-V3 最常見的生產模式之一。

DeepSeek-V3 還非常適合作為高品質評估和品質保證模型。組織用它來評估較小生產模型的輸出、生成多樣化的測試案例，以及在需要最高準確性的場景下執行自動化內容審查，無論推論成本如何。

Hardware Requirements

DeepSeek-V3 在 Q4_K_M 量化下需要約 370-390GB RAM。通常使用 8 張 A100 80GB GPU、4 張 H100 80GB GPU 或配備 512GB 以上 RAM 的大型 CPU 推論節點來提供服務。儘管記憶體佔用量大，但由於每個 token 僅有 37B 參數處於活躍狀態，生成速度是合理的——在 8 張 A100 配置上預計每秒 20-40 個 token。

在 Q8_0 下，模型需要約 710GB，需要高端多節點部署。完整 FP16 推論需要約 1.34TB，在專用研究叢集之外通常不切實際。對於大多數部署，Q4_K_M 或 Q5_K_M 量化提供了出色的品質與資源權衡。

在 Ertas Studio 中使用 QLoRA 進行微調，需要約 180-200GB GPU 記憶體（4 張 A100 80GB）。雖然這是一個重大的硬體需求，但遠低於完整微調所需的 1TB 以上，使 QLoRA 成為將此模型適應特定領域的唯一實際方法。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →