Fine-Tune DeepSeek V3.2 with Ertas

DeepSeek 2025 年末发布的版本，引入了 DeepSeek Sparse Attention (DSA)——一种学习型稀疏注意力机制，支持高效长上下文推理，并配有统一思考模式开关。DeepSeek V4 的直接前身。MIT 风格许可。

671B-A37BDeepSeek

Overview

DeepSeek V3.2 于 2025 年末发布，是 DeepSeek V4 的架构前身，引入了两项后来成为 DeepSeek 谱系核心的创新：DeepSeek Sparse Attention (DSA) 以及将推理能力整合进标准对话检查点的统一思考模式。该模型使用与 DeepSeek V3 相同的 671B-A37B 专家混合架构，但通过 DSA 大幅提升了长上下文性能，并通过统一思考模式简化了运维。

DSA 是一种学习型稀疏注意力机制，将每个查询 token 路由到键 token 的子集，而非关注全部键。这显著降低了长上下文推理的计算成本，也是支持 DeepSeek V4 1M token 上下文窗口的架构突破。虽然 V3.2 本身的上下文窗口未达 V4 的 1M，但在等同上下文长度下，V3.2 中的 DSA 比稠密注意力模型产生明显更优的长上下文检索质量。

V3.2 中的统一思考模式取代了之前的分离部署模式（V3 对话 + R1 推理），改为单一检查点在两种模式之间切换。同样的 V3.2 权重通过运行时控制参数同时服务于快速直接响应和扩展推理查询——该模式现已成为 2026 年代旗舰模型的标准。V3.2 以 DeepSeek 许可发布，这是一种 MIT 风格的商业宽松许可。

DeepSeek V3.2 在 2026 年 4 月被 V4 取代为 DeepSeek 旗舰，但 V3.2 在生产环境中仍被广泛部署，特别是在团队希望获得运维简洁性和架构创新但不愿承担 V4 Pro 多 GPU 占用的场景下。DeepSeek-V3.2-Exp 变体在测试 DSA 架构的研究和生产部署中仍被引用。

Key Features

DeepSeek Sparse Attention (DSA) 是 V3.2 的标志性架构创新。通过学习每个查询的相关键 token，DSA 将长上下文注意力计算大幅降低到稠密注意力二次成本以下，同时保持可用的检索质量。这是 V4 用以支持 1M 上下文的架构基础。

V3.2 中的统一思考模式是现已成为标准模式的首个重要实现。V3.2 不再维护单独的 R1（推理）和 V3（对话）部署及跨模型路由，而是在单一检查点中提供两种行为。在运维上，这显著简化了生产智能体基础设施——大多数查询获得快速直接响应，只有受益于推理的较难子集消耗扩展推理计算。

671B-A37B MoE 架构继承自 V3，仍是优秀的质量与计算权衡。37B 活跃参数下，生成速度可与 37B 稠密模型相媲美，同时访问完整 671B 的知识。对于具备托管基础设施的多 GPU 服务器部署，V3.2 提供强劲的推理和代码性能。

MIT 风格的 DeepSeek 许可结合模型的运维简洁性使 V3.2 在 2026 年初成为流行的生产选择，适用于希望获得 DeepSeek 能力但不愿投入更大 V4 Pro 基础设施占用的团队。

Fine-Tuning with Ertas

DeepSeek V3.2 处于实用微调的上限。Ertas Studio 在多 GPU 服务器配置（8x A100 80GB 或 8x H100 80GB）上支持 QLoRA 微调，典型序列长度下需要约 380-450GB 总 VRAM。

对大多数没有 8 GPU 服务器访问权限的团队，推荐的模式是使用 V3.2 作为教师进行合成数据生成，然后在该数据上微调某个 DeepSeek-R1 蒸馏变体（Qwen 7B-32B 或 Llama 70B 蒸馏）。这能以单 GPU 部署成本生成领域专用模型，同时通过蒸馏继承 V3.2 的推理和编码模式。

直接微调 V3.2 时，Ertas Studio 自动处理 DSA 架构的训练时考虑——包括低秩适配期间的专家路由稳定性和稀疏注意力模式保留。训练完成后，Ertas Studio 导出为 GGUF 格式。V3.2 的 Q4_K_M 量化约 360GB，需要多 GPU 服务器部署。

Use Cases

DeepSeek V3.2 在以下工作负载中表现出色：受益于 V4 级能力但又无法获得 V4 Pro 基础设施（8 GPU 服务器）的场景。运行在 4-6 GPU 配置上的生产部署经常选择 V3.2 而非 V4 Pro，因为硬件占用更低，尤其当 1M 上下文不是硬性需求时。

统一思考模式使 V3.2 非常适合自适应智能体部署——常规工单使用快速直接响应，复杂查询升级为推理模式。这种模式相比统一运行纯推理模式推理可大幅节省成本，同时在确实受益于扩展思考的查询上保持质量。

对于在生产中运行 DeepSeek-R1 蒸馏变体的团队，V3.2 也是持续蒸馏循环的强教师模型——随着您的领域演进，生成新的合成训练数据并用该数据刷新已部署的较小模型。

Hardware Requirements

DeepSeek V3.2 在 Q4_K_M 下约需 360GB 内存，可装入 8x A100 80GB 或 8x H100 80GB 服务器，或具有 512GB+ RAM 的 CPU 推理主机。一旦加载，37B 的活跃参数数量决定 token 生成吞吐量。

对于较小的部署，Q3_K_M 量化（约 270GB）以适度的质量换取减少的内存，可装入 4x H100 80GB 服务器并留有余量。低于 Q3 不推荐用于生产部署——长上下文检索的质量退化变得显著，特别是在 V3.2 竞争优势源自的依赖 DSA 的基准测试上。

在 Ertas Studio 中微调时：V3.2 QLoRA 需要约 380-450GB 总 VRAM（多 GPU 服务器）。对大多数团队而言，通过教师生成的合成数据将其蒸馏到较小基座（R1-Distill-Qwen-32B、R1-Distill-Llama-70B）是更实用的路径。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →