Fine-Tune DeepSeek-R1 with Ertas
DeepSeek 的专用推理模型,通过强化学习训练执行扩展思维链推理,提供从 1.5B 到 70B 的蒸馏版本以及完整的 671B 混合专家架构。
Overview
DeepSeek-R1 于 2025 年 1 月发布,是一款使用扩展思维链(CoT)处理来解决复杂问题的专用推理模型。与直接生成答案的标准指令调优模型不同,R1 在得出最终答案之前会产生详细的内部推理轨迹——逐步思考问题。这种方法在需要数学推理、逻辑推导、代码生成和科学问题求解的任务上带来了显著的改进。
完整的 DeepSeek-R1 模型使用 671B 参数的混合专家架构(与 DeepSeek-V3 相同的基础),每次前向传播约有 37B 参数处于活跃状态。此外,DeepSeek 还发布了一系列蒸馏变体,通过在 R1 的推理轨迹上训练较小的稠密模型(基于 Qwen 和 Llama)而创建。这些蒸馏模型的参数量从 1.5B 到 70B 不等,在计算成本大幅降低的情况下保留了完整模型的大部分推理能力。
训练方法极具创新性。DeepSeek-R1 使用大规模强化学习(RL)训练,仅进行最少的监督微调,使模型能够自行发展推理策略,而非模仿人类编写的思维链示例。中间版本 DeepSeek-R1-Zero 使用纯 RL 且无 SFT 进行训练,证明了推理能力可以仅从奖励信号中涌现。
DeepSeek-R1 在多个基准测试上达到或超越 OpenAI 的 o1,包括 AIME 2024(数学竞赛)、Codeforces(竞技编程)和 GPQA Diamond(研究生级别科学问题)。该模型及其蒸馏变体在 MIT 许可下发布。
Key Features
扩展思维链推理是 R1 的标志性特征。当面对复杂问题时,模型会生成可能长达数百甚至数千个 token 的内部推理轨迹,然后才产生最终答案。这些轨迹包括假设生成、自我纠正、验证步骤和替代方法探索——模拟专家处理困难问题的方式。用户可以实时观察推理过程,使模型的决策过程透明化。
蒸馏模型系列对开源社区极具价值。DeepSeek 将 R1 的推理能力蒸馏到六个较小的模型中:R1-Distill-Qwen-1.5B、R1-Distill-Qwen-7B、R1-Distill-Llama-8B、R1-Distill-Qwen-14B、R1-Distill-Qwen-32B 和 R1-Distill-Llama-70B。其中 32B 蒸馏模型尤为突出——它以极低的计算成本实现了可与更大模型媲美的推理性能。
R1 在受益于深思熟虑的任务上也表现出色:复杂代码调试、多步骤数学证明、科学假设评估和战略规划。模型能够判断何时需要在更难的问题上思考更久,何时可以在简单查询上快速响应。
Fine-Tuning with Ertas
在 Ertas Studio 中微调 DeepSeek-R1 蒸馏模型是创建特定领域推理模型的有效方式。蒸馏版 7B 和 8B 变体是最受欢迎的起点,使用 QLoRA 需要 8-12GB VRAM,可在标准消费级 GPU 上运行。14B 蒸馏模型约需 10-14GB VRAM,出色的 32B 蒸馏变体需要 20-28GB VRAM。
微调 R1 模型时,最佳实践是在训练数据中包含思维链推理轨迹。Ertas Studio 支持带有显式思考标记的数据集,每个训练示例包含推理过程和最终答案。这使模型学会将 R1 风格的推理应用于您的特定领域——例如,逐步医学诊断推理、法律论证链或工程设计原理的训练。
微调完成后,Ertas Studio 导出为 GGUF 格式。R1 蒸馏模型在标准量化格式下表现良好。Q4_K_M 量化的 R1-Distill-Qwen-32B 约 19GB,是一个强大的推理模型,可在单块 24GB GPU 或配备 32GB 内存的 Mac 上运行,提供可本地部署的精密推理能力。
Use Cases
DeepSeek-R1 在准确性和推理深度比响应速度更重要的应用中表现卓越。数学问题求解是其最强项——模型可以处理竞赛级数学、符号计算和定量分析,可靠性很高。它是教育平台、STEM 辅导系统和研究辅助工具的理想选择。
代码生成和调试显著受益于 R1 的推理方法。模型可以分析复杂代码库、识别微妙的错误、推理算法复杂度,并为具有挑战性的编程问题生成正确的实现。微调后的 R1 变体非常适合作为代码审查助手,能够解释每个已识别问题的推理过程。
蒸馏变体适合需要本地推理能力的应用:带有逐步计算验证的财务分析、带有明确推理链的法律文件审查、带有透明诊断逻辑的医疗决策支持,以及带有可验证推导的工程计算。
Hardware Requirements
蒸馏版 R1 模型具有与其参数量相对应的标准硬件需求:1.5B 在 Q4_K_M 下约需 1.1GB,7B/8B 模型约需 4.5-5GB,14B 约需 8.5GB,32B 约需 19GB,70B 约需 40GB。但请注意,推理任务生成的 token 通常比标准任务多得多(通常多 5-10 倍),因此除了模型加载外还应考虑吞吐量。
完整的 671B MoE 模型在 Q4_K_M 下约需 370GB,需要大型多 GPU 配置(例如 8x A100 80GB)。由于活跃参数量为 37B,加载后的生成速度尚可,与 37B 稠密模型相当,但内存占用很大。
在 Ertas Studio 中微调的推荐配置:7B/8B 蒸馏变体需要 8-12GB VRAM,14B 需要 12-16GB,32B 需要 20-28GB,70B 使用 QLoRA 需要 40-48GB。32B 蒸馏变体为推理任务提供了最佳的质量与资源比。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.