Fine-Tune DeepSeek-R1 with Ertas

DeepSeek 的专用推理模型，通过强化学习训练执行扩展思维链推理，提供从 1.5B 到 70B 的蒸馏版本以及完整的 671B 混合专家架构。

1.5B7B8B14B32B70B671BDeepSeek

Overview

DeepSeek-R1 于 2025 年 1 月发布，是一款使用扩展思维链（CoT）处理来解决复杂问题的专用推理模型。与直接生成答案的标准指令调优模型不同，R1 在得出最终答案之前会产生详细的内部推理轨迹——逐步思考问题。这种方法在需要数学推理、逻辑推导、代码生成和科学问题求解的任务上带来了显著的改进。

完整的 DeepSeek-R1 模型使用 671B 参数的混合专家架构（与 DeepSeek-V3 相同的基础），每次前向传播约有 37B 参数处于活跃状态。此外，DeepSeek 还发布了一系列蒸馏变体，通过在 R1 的推理轨迹上训练较小的稠密模型（基于 Qwen 和 Llama）而创建。这些蒸馏模型的参数量从 1.5B 到 70B 不等，在计算成本大幅降低的情况下保留了完整模型的大部分推理能力。

训练方法极具创新性。DeepSeek-R1 使用大规模强化学习（RL）训练，仅进行最少的监督微调，使模型能够自行发展推理策略，而非模仿人类编写的思维链示例。中间版本 DeepSeek-R1-Zero 使用纯 RL 且无 SFT 进行训练，证明了推理能力可以仅从奖励信号中涌现。

DeepSeek-R1 在多个基准测试上达到或超越 OpenAI 的 o1，包括 AIME 2024（数学竞赛）、Codeforces（竞技编程）和 GPQA Diamond（研究生级别科学问题）。该模型及其蒸馏变体在 MIT 许可下发布。

Key Features

扩展思维链推理是 R1 的标志性特征。当面对复杂问题时，模型会生成可能长达数百甚至数千个 token 的内部推理轨迹，然后才产生最终答案。这些轨迹包括假设生成、自我纠正、验证步骤和替代方法探索——模拟专家处理困难问题的方式。用户可以实时观察推理过程，使模型的决策过程透明化。

蒸馏模型系列对开源社区极具价值。DeepSeek 将 R1 的推理能力蒸馏到六个较小的模型中：R1-Distill-Qwen-1.5B、R1-Distill-Qwen-7B、R1-Distill-Llama-8B、R1-Distill-Qwen-14B、R1-Distill-Qwen-32B 和 R1-Distill-Llama-70B。其中 32B 蒸馏模型尤为突出——它以极低的计算成本实现了可与更大模型媲美的推理性能。

R1 在受益于深思熟虑的任务上也表现出色：复杂代码调试、多步骤数学证明、科学假设评估和战略规划。模型能够判断何时需要在更难的问题上思考更久，何时可以在简单查询上快速响应。

Fine-Tuning with Ertas

在 Ertas Studio 中微调 DeepSeek-R1 蒸馏模型是创建特定领域推理模型的有效方式。蒸馏版 7B 和 8B 变体是最受欢迎的起点，使用 QLoRA 需要 8-12GB VRAM，可在标准消费级 GPU 上运行。14B 蒸馏模型约需 10-14GB VRAM，出色的 32B 蒸馏变体需要 20-28GB VRAM。

微调 R1 模型时，最佳实践是在训练数据中包含思维链推理轨迹。Ertas Studio 支持带有显式思考标记的数据集，每个训练示例包含推理过程和最终答案。这使模型学会将 R1 风格的推理应用于您的特定领域——例如，逐步医学诊断推理、法律论证链或工程设计原理的训练。

微调完成后，Ertas Studio 导出为 GGUF 格式。R1 蒸馏模型在标准量化格式下表现良好。Q4_K_M 量化的 R1-Distill-Qwen-32B 约 19GB，是一个强大的推理模型，可在单块 24GB GPU 或配备 32GB 内存的 Mac 上运行，提供可本地部署的精密推理能力。

Use Cases

DeepSeek-R1 在准确性和推理深度比响应速度更重要的应用中表现卓越。数学问题求解是其最强项——模型可以处理竞赛级数学、符号计算和定量分析，可靠性很高。它是教育平台、STEM 辅导系统和研究辅助工具的理想选择。

代码生成和调试显著受益于 R1 的推理方法。模型可以分析复杂代码库、识别微妙的错误、推理算法复杂度，并为具有挑战性的编程问题生成正确的实现。微调后的 R1 变体非常适合作为代码审查助手，能够解释每个已识别问题的推理过程。

蒸馏变体适合需要本地推理能力的应用：带有逐步计算验证的财务分析、带有明确推理链的法律文件审查、带有透明诊断逻辑的医疗决策支持，以及带有可验证推导的工程计算。

Hardware Requirements

蒸馏版 R1 模型具有与其参数量相对应的标准硬件需求：1.5B 在 Q4_K_M 下约需 1.1GB，7B/8B 模型约需 4.5-5GB，14B 约需 8.5GB，32B 约需 19GB，70B 约需 40GB。但请注意，推理任务生成的 token 通常比标准任务多得多（通常多 5-10 倍），因此除了模型加载外还应考虑吞吐量。

完整的 671B MoE 模型在 Q4_K_M 下约需 370GB，需要大型多 GPU 配置（例如 8x A100 80GB）。由于活跃参数量为 37B，加载后的生成速度尚可，与 37B 稠密模型相当，但内存占用很大。

在 Ertas Studio 中微调的推荐配置：7B/8B 蒸馏变体需要 8-12GB VRAM，14B 需要 12-16GB，32B 需要 20-28GB，70B 使用 QLoRA 需要 40-48GB。32B 蒸馏变体为推理任务提供了最佳的质量与资源比。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →