Fine-Tune DeepSeek-R1 with Ertas
DeepSeek 透過強化學習訓練的專用推理模型,能夠執行延伸思維鏈推理,提供從 1.5B 到 70B 的蒸餾版本以及完整的 671B 混合專家架構。
Overview
DeepSeek-R1 於 2025 年 1 月發布,是一款專用推理模型,使用延伸思維鏈(CoT)處理來解決複雜問題。與直接生成答案的標準指令微調模型不同,R1 會產生詳細的內部推理軌跡——逐步思考問題——然後才得出最終答案。這種方法在需要數學推理、邏輯推演、程式碼生成和科學問題解決的任務上產生了顯著改進。
完整的 DeepSeek-R1 模型使用 671B 參數的混合專家架構(與 DeepSeek-V3 相同的基礎),每次前向傳播約有 37B 參數處於活躍狀態。然而,DeepSeek 還發布了一系列蒸餾變體,透過在 R1 的推理軌跡上訓練較小的密集模型(基於 Qwen 和 Llama)而建立。這些蒸餾模型的參數量從 1.5B 到 70B 不等,在大幅降低運算成本的同時保留了完整模型的大部分推理能力。
訓練方法特別創新。DeepSeek-R1 使用大規模強化學習(RL)進行訓練,僅有少量的監督微調,讓模型發展自己的推理策略,而非模仿人工撰寫的思維鏈範例。中間版本 DeepSeek-R1-Zero 使用純 RL 且無 SFT 進行訓練,證明了推理能力可以僅從獎勵信號中湧現。
DeepSeek-R1 在多項基準測試中匹敵或超越 OpenAI 的 o1,包括 AIME 2024(數學競賽)、Codeforces(程式設計競賽)和 GPQA Diamond(研究生等級科學問題)。該模型及其蒸餾變體均以 MIT 授權發布。
Key Features
延伸思維鏈推理是 R1 的核心特色。當遇到複雜問題時,模型會生成可能跨越數百甚至數千個 token 的內部推理軌跡,然後才產生最終答案。這些軌跡包含假設生成、自我修正、驗證步驟和替代方法探索——模擬專家人類處理困難問題的方式。使用者可以即時觀察推理過程,提供模型決策的透明度。
蒸餾模型系列對開源社群極具價值。DeepSeek 將 R1 的推理能力蒸餾到六個較小的模型中:R1-Distill-Qwen-1.5B、R1-Distill-Qwen-7B、R1-Distill-Llama-8B、R1-Distill-Qwen-14B、R1-Distill-Qwen-32B 和 R1-Distill-Llama-70B。其中 32B 蒸餾模型表現尤為突出——它以極小的運算成本達到了與更大模型相媲美的推理效能。
R1 在受益於深思熟慮的任務上也表現出色:複雜的程式碼除錯、多步驟數學證明、科學假設評估和策略規劃。模型知道何時在較難的問題上花更多時間思考,何時對較簡單的查詢快速回應。
Fine-Tuning with Ertas
在 Ertas Studio 中微調 DeepSeek-R1 蒸餾模型是建立特定領域推理模型的有效方法。蒸餾版 7B 和 8B 變體是最受歡迎的起點,使用 QLoRA 需要 8-12GB VRAM,可在標準消費級 GPU 上執行。14B 蒸餾模型需要約 10-14GB VRAM,出色的 32B 蒸餾變體需要 20-28GB VRAM。
為獲得最佳微調效果,請在訓練資料中包含思維鏈推理軌跡。Ertas Studio 支援包含明確思考 token 的資料集,其中每個訓練範例都包含推理過程和最終答案。這教會模型將 R1 風格的推理應用於您的特定領域——例如,逐步醫療診斷推理、法律論證鏈或工程設計原理的訓練。
微調後,Ertas Studio 匯出為 GGUF 格式。R1 蒸餾模型與標準量化格式配合良好。Q4_K_M 量化的 R1-Distill-Qwen-32B 約 19GB,是一個強大的推理模型,可在單張 24GB GPU 或配備 32GB RAM 的 Mac 上執行,以可本地部署的方式提供精密的推理能力。
Use Cases
DeepSeek-R1 在任何準確性和推理深度比回應速度更重要的應用中都表現出色。數學問題解決是其最強項——模型可以處理競賽級數學、符號運算和量化分析,具有高可靠性。它非常適合教育平台、STEM 家教系統和研究輔助工具。
程式碼生成和除錯從 R1 的推理方法中受益匪淺。模型可以分析複雜的程式碼庫、識別微妙的錯誤、推理演算法複雜度,並為具有挑戰性的程式設計問題生成正確的實作。微調後的 R1 變體可作為出色的程式碼審查助手,能夠解釋其對每個識別出的問題的推理。
蒸餾變體適合需要本地部署推理能力的應用:帶有逐步計算驗證的金融分析、帶有明確推理鏈的法律文件審查、帶有透明診斷邏輯的醫療決策支援,以及帶有可驗證推導的工程計算。
Hardware Requirements
蒸餾版 R1 模型的硬體需求與其參數量相當:1.5B 在 Q4_K_M 下約需 1.1GB,7B/8B 模型約需 4.5-5GB,14B 約需 8.5GB,32B 約需 19GB,70B 約需 40GB。但請注意,推理任務生成的 token 量比標準任務多得多(通常多 5-10 倍),因此除了模型載入外還應考慮吞吐量。
完整的 671B MoE 模型在 Q4_K_M 下需要約 370GB,需要大型多 GPU 配置(例如 8 張 A100 80GB)。37B 的活躍參數量意味著載入後的生成速度是合理的,與 37B 密集模型相當,但記憶體佔用量很大。
在 Ertas Studio 中進行微調的建議配置為:7B/8B 蒸餾變體需要 8-12GB VRAM,14B 需要 12-16GB,32B 需要 20-28GB,70B 使用 QLoRA 需要 40-48GB。32B 蒸餾變體在推理任務上提供最佳的品質與資源比。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.