Fine-Tune DeepSeek V4 with Ertas

DeepSeek 2026 年 4 月旗舰版本——一个 1.6 万亿参数的专家混合 (MoE) 模型，活跃参数 49B，上下文长度 100 万 token，目前在综合开源权重智能基准上领先，据报道正在缩小与前沿闭源模型的差距。

284B-A13B (Flash)1.6T-A49B (Pro)DeepSeek

Overview

DeepSeek V4 于 2026 年 4 月 24 日发布，是发布时可用的最大、最强大的开源权重模型。旗舰 V4 Pro 变体使用 1.6 万亿参数的专家混合架构，每个 token 约激活 49B 参数，搭配 100 万 token 的上下文窗口。一个较小的 V4 Flash 变体随之发布，总参数 284B / 活跃参数 13B，同样具有 100 万上下文，针对 Pro 模型内存占用不切实际的部署场景。

V4 发布延续了使 DeepSeek 上一代成为开源 AI 决定性时刻的架构创新。V4 在 V3.2 中引入的 DeepSeek 稀疏注意力 (DSA) 机制基础上构建，精炼了 MoE 专家路由拓扑，并应用了大幅扩展的强化学习后训练管道。累积效应是：在发布时的 BenchLM 综合智能指数（87）上，V4 领先所有开源权重模型，并显著缩小了与 GPT-5.5 和 Claude Opus 4.7 等前沿专有系统的差距。

与 DeepSeek-R1 不同，V4 不是专门的纯推理模型。相反，V4 加入了类似 Qwen 3+ 的思考模式开关：同一个检查点通过推理时的控制标志同时服务于直接响应（聊天）和扩展推理（推理器）模式。与之前需要在 V3 风格的指令微调模型旁边维护单独的 R1 风格推理模型相比，这种统一减少了生产部署的运维复杂性。

V4 以 DeepSeek License 发布——一种宽松的 MIT 风格商业许可证。模型权重在 Hugging Face 上以 `deepseek-ai/DeepSeek-V4-Pro` 和 `deepseek-ai/DeepSeek-V4-Flash` 提供，并配有相应的 `-Base` 变体供进一步微调。许可证条款允许广泛的商业用途，包括模型服务、衍生训练和专有集成。

Key Features

100 万 token 的上下文窗口是任何开源权重模型中公开部署的最大窗口之一。结合 DSA 稀疏注意力机制，V4 在长上下文检索和推理任务上保持的可用性能远好于简单 RoPE 扩展模型。虽然有效上下文（模型保持 >90% 检索准确率的范围）小于宣传的 100 万，但该模型确实可用于全代码库分析、长文档问答和多文档综合，规模超出以往任何开源权重发布所能处理的范围。

DeepSeek 稀疏注意力通过将每个查询 token 路由到学习到的键 token 子集而非关注所有键 token，从而降低了长上下文注意力的二次计算成本。这带来了双重好处：在等效硬件上支持比稠密注意力更长的上下文，同时与相同模型规模的稠密注意力基线相比，降低了较短序列的推理成本。

统一思考模式具有重要的运维意义。生产部署可以通过快速非思考推理直接调度大多数查询，然后通过传递单个控制参数将困难查询升级到推理模式——无需交换模型权重或在单独的端点之间路由。这种模式与上一代相比大幅简化了智能体系统的运维拓扑，上一代的 R1 和 V3 是两个独立的部署。

V4 还在编码（SWE-Bench Verified ~73%）、推理（AIME 2025 在 70% 多）和数学基准上保持 DeepSeek 强劲的表现，同时改进了多语言能力和工具使用保真度。该模型是需要对函数调用模式具有高可靠性的工具使用智能体的最强开源权重选择之一。

Fine-Tuning with Ertas

DeepSeek V4 的规模使大多数团队无法进行全量微调，但 Ertas Studio 支持在多 GPU 服务器设置（8x A100 80GB 或同等配置）上对 V4 Flash（284B/13B 变体）进行 QLoRA 微调。在 4 位基础量化加上注意力和 MoE 专家投影上的 LoRA 适配器情况下，V4 Flash QLoRA 在典型序列长度下约需 280-340GB 总 VRAM，通过张量并行分布在 GPU 集合中。

对于大多数希望获得 DeepSeek V4 能力但不需要多 GPU 占用的团队，Ertas Studio 推荐的方法是使用 V4 Pro 作为教师模型生成合成数据，然后微调一个 DeepSeek-R1 蒸馏变体（Qwen 7B、14B、32B 或 Llama 70B 蒸馏版）。这种方法以 7B-70B 范围稠密模型的部署成本提供 V4 推理风格——可在单块 GPU 上处理，服务成本远低于前者。

微调完成后，Ertas Studio 导出为 GGUF 格式。V4 Flash 量化为 Q4_K_M 约为 145GB，需要多 GPU 服务器或大内存 CPU 推理主机（256GB+ RAM）。蒸馏微调模型按其基础参数数量的标准大小导出，可在 Ollama、llama.cpp 或 vLLM 上干净地部署。对于在生产中运行 V4 Pro 作为教师并使用较小蒸馏学生模型的团队，Ertas Studio 支持完整管道，包括合成数据生成、蒸馏训练和最终量化。

Use Cases

V4 Pro 的 100 万 token 上下文窗口解锁了之前在开源权重基础设施上不可行的用例：模型同时考虑所有源文件的全代码库代码审查、整个合同或文件适合单个提示的长文档法律或财务分析，以及必须共同推理几十个来源的多文档综合任务（如文献综述或竞争情报）。

V4 Flash 是通用生产服务的更实用选择。凭借 13B 活跃参数，它以有竞争力的每秒 token 速率服务，同时在标准基准上提供接近 V4 Pro 的质量。100 万上下文得以保留，使 Flash 成为具有非常大检索结果集的 RAG 系统的理想选择。

统一思考模式使 V4 非常适合需要自适应推理深度的智能体系统。客户支持智能体可以主要在快速直接响应模式下运行，仅对真正复杂的工单升级到推理模式。编码智能体可以使用直接模式进行简单补全，使用推理模式进行架构决策或调试。这种模式与统一运行纯推理模式推理相比大幅降低了推理成本。

Hardware Requirements

V4 Pro 在 Q4_K_M 量化下约需 820GB 总内存，实际上意味着 8x H100 80GB 或 8x A100 80GB 服务器，或具有 1TB+ RAM 的 CPU 推理主机。49B 活跃参数数量决定生成吞吐量，因此一旦加载，模型以与 49B 稠密模型相当的速度服务。这是大型服务器领域，而非消费级或单工作站部署。

V4 Flash 在 Q4_K_M 下约为 145GB。这可以装入 4x A100 80GB 或 2x H100，并有余量，或具有 256GB+ RAM 的 CPU 主机。13B 活跃参数意味着推理速度可与 13B 稠密模型相当——非常适合具有合理每请求延迟的高吞吐量 API 服务。对于希望获得 DeepSeek V4 质量但不需要 V4 Pro 硬件占用的团队，Flash 是实际推荐选择。

在 Ertas Studio 中微调时：V4 Flash QLoRA 约需 280-340GB 总 VRAM（多 GPU 服务器）。V4 Pro QLoRA 对大多数团队不切实际——推荐的方法是蒸馏到较小的基础模型上。在 Ertas Studio 中对 Qwen 32B 或 Llama 70B 进行 R1 风格的蒸馏微调，使用 QLoRA 时这些基础模型的标准 VRAM 为 20-48GB。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →