Fine-Tune DeepSeek-R1 with Ertas

DeepSeek 透過強化學習訓練的專用推理模型，能夠執行延伸思維鏈推理，提供從 1.5B 到 70B 的蒸餾版本以及完整的 671B 混合專家架構。

1.5B7B8B14B32B70B671BDeepSeek

Overview

DeepSeek-R1 於 2025 年 1 月發布，是一款專用推理模型，使用延伸思維鏈（CoT）處理來解決複雜問題。與直接生成答案的標準指令微調模型不同，R1 會產生詳細的內部推理軌跡——逐步思考問題——然後才得出最終答案。這種方法在需要數學推理、邏輯推演、程式碼生成和科學問題解決的任務上產生了顯著改進。

完整的 DeepSeek-R1 模型使用 671B 參數的混合專家架構（與 DeepSeek-V3 相同的基礎），每次前向傳播約有 37B 參數處於活躍狀態。然而，DeepSeek 還發布了一系列蒸餾變體，透過在 R1 的推理軌跡上訓練較小的密集模型（基於 Qwen 和 Llama）而建立。這些蒸餾模型的參數量從 1.5B 到 70B 不等，在大幅降低運算成本的同時保留了完整模型的大部分推理能力。

訓練方法特別創新。DeepSeek-R1 使用大規模強化學習（RL）進行訓練，僅有少量的監督微調，讓模型發展自己的推理策略，而非模仿人工撰寫的思維鏈範例。中間版本 DeepSeek-R1-Zero 使用純 RL 且無 SFT 進行訓練，證明了推理能力可以僅從獎勵信號中湧現。

DeepSeek-R1 在多項基準測試中匹敵或超越 OpenAI 的 o1，包括 AIME 2024（數學競賽）、Codeforces（程式設計競賽）和 GPQA Diamond（研究生等級科學問題）。該模型及其蒸餾變體均以 MIT 授權發布。

Key Features

延伸思維鏈推理是 R1 的核心特色。當遇到複雜問題時，模型會生成可能跨越數百甚至數千個 token 的內部推理軌跡，然後才產生最終答案。這些軌跡包含假設生成、自我修正、驗證步驟和替代方法探索——模擬專家人類處理困難問題的方式。使用者可以即時觀察推理過程，提供模型決策的透明度。

蒸餾模型系列對開源社群極具價值。DeepSeek 將 R1 的推理能力蒸餾到六個較小的模型中：R1-Distill-Qwen-1.5B、R1-Distill-Qwen-7B、R1-Distill-Llama-8B、R1-Distill-Qwen-14B、R1-Distill-Qwen-32B 和 R1-Distill-Llama-70B。其中 32B 蒸餾模型表現尤為突出——它以極小的運算成本達到了與更大模型相媲美的推理效能。

R1 在受益於深思熟慮的任務上也表現出色：複雜的程式碼除錯、多步驟數學證明、科學假設評估和策略規劃。模型知道何時在較難的問題上花更多時間思考，何時對較簡單的查詢快速回應。

Fine-Tuning with Ertas

在 Ertas Studio 中微調 DeepSeek-R1 蒸餾模型是建立特定領域推理模型的有效方法。蒸餾版 7B 和 8B 變體是最受歡迎的起點，使用 QLoRA 需要 8-12GB VRAM，可在標準消費級 GPU 上執行。14B 蒸餾模型需要約 10-14GB VRAM，出色的 32B 蒸餾變體需要 20-28GB VRAM。

為獲得最佳微調效果，請在訓練資料中包含思維鏈推理軌跡。Ertas Studio 支援包含明確思考 token 的資料集，其中每個訓練範例都包含推理過程和最終答案。這教會模型將 R1 風格的推理應用於您的特定領域——例如，逐步醫療診斷推理、法律論證鏈或工程設計原理的訓練。

微調後，Ertas Studio 匯出為 GGUF 格式。R1 蒸餾模型與標準量化格式配合良好。Q4_K_M 量化的 R1-Distill-Qwen-32B 約 19GB，是一個強大的推理模型，可在單張 24GB GPU 或配備 32GB RAM 的 Mac 上執行，以可本地部署的方式提供精密的推理能力。

Use Cases

DeepSeek-R1 在任何準確性和推理深度比回應速度更重要的應用中都表現出色。數學問題解決是其最強項——模型可以處理競賽級數學、符號運算和量化分析，具有高可靠性。它非常適合教育平台、STEM 家教系統和研究輔助工具。

程式碼生成和除錯從 R1 的推理方法中受益匪淺。模型可以分析複雜的程式碼庫、識別微妙的錯誤、推理演算法複雜度，並為具有挑戰性的程式設計問題生成正確的實作。微調後的 R1 變體可作為出色的程式碼審查助手，能夠解釋其對每個識別出的問題的推理。

蒸餾變體適合需要本地部署推理能力的應用：帶有逐步計算驗證的金融分析、帶有明確推理鏈的法律文件審查、帶有透明診斷邏輯的醫療決策支援，以及帶有可驗證推導的工程計算。

Hardware Requirements

蒸餾版 R1 模型的硬體需求與其參數量相當：1.5B 在 Q4_K_M 下約需 1.1GB，7B/8B 模型約需 4.5-5GB，14B 約需 8.5GB，32B 約需 19GB，70B 約需 40GB。但請注意，推理任務生成的 token 量比標準任務多得多（通常多 5-10 倍），因此除了模型載入外還應考慮吞吐量。

完整的 671B MoE 模型在 Q4_K_M 下需要約 370GB，需要大型多 GPU 配置（例如 8 張 A100 80GB）。37B 的活躍參數量意味著載入後的生成速度是合理的，與 37B 密集模型相當，但記憶體佔用量很大。

在 Ertas Studio 中進行微調的建議配置為：7B/8B 蒸餾變體需要 8-12GB VRAM，14B 需要 12-16GB，32B 需要 20-28GB，70B 使用 QLoRA 需要 40-48GB。32B 蒸餾變體在推理任務上提供最佳的品質與資源比。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →