Fine-Tune DeepSeek V3.2 with Ertas
DeepSeek 2025 年末发布的版本,引入了 DeepSeek Sparse Attention (DSA)——一种学习型稀疏注意力机制,支持高效长上下文推理,并配有统一思考模式开关。DeepSeek V4 的直接前身。MIT 风格许可。
Overview
DeepSeek V3.2 于 2025 年末发布,是 DeepSeek V4 的架构前身,引入了两项后来成为 DeepSeek 谱系核心的创新:DeepSeek Sparse Attention (DSA) 以及将推理能力整合进标准对话检查点的 统一思考模式。该模型使用与 DeepSeek V3 相同的 671B-A37B 专家混合架构,但通过 DSA 大幅提升了长上下文性能,并通过统一思考模式简化了运维。
DSA 是一种学习型稀疏注意力机制,将每个查询 token 路由到键 token 的子集,而非关注全部键。这显著降低了长上下文推理的计算成本,也是支持 DeepSeek V4 1M token 上下文窗口的架构突破。虽然 V3.2 本身的上下文窗口未达 V4 的 1M,但在等同上下文长度下,V3.2 中的 DSA 比稠密注意力模型产生明显更优的长上下文检索质量。
V3.2 中的统一思考模式取代了之前的分离部署模式(V3 对话 + R1 推理),改为单一检查点在两种模式之间切换。同样的 V3.2 权重通过运行时控制参数同时服务于快速直接响应和扩展推理查询——该模式现已成为 2026 年代旗舰模型的标准。V3.2 以 DeepSeek 许可发布,这是一种 MIT 风格的商业宽松许可。
DeepSeek V3.2 在 2026 年 4 月被 V4 取代为 DeepSeek 旗舰,但 V3.2 在生产环境中仍被广泛部署,特别是在团队希望获得运维简洁性和架构创新但不愿承担 V4 Pro 多 GPU 占用的场景下。DeepSeek-V3.2-Exp 变体在测试 DSA 架构的研究和生产部署中仍被引用。
Key Features
DeepSeek Sparse Attention (DSA) 是 V3.2 的标志性架构创新。通过学习每个查询的相关键 token,DSA 将长上下文注意力计算大幅降低到稠密注意力二次成本以下,同时保持可用的检索质量。这是 V4 用以支持 1M 上下文的架构基础。
V3.2 中的统一思考模式是现已成为标准模式的首个重要实现。V3.2 不再维护单独的 R1(推理)和 V3(对话)部署及跨模型路由,而是在单一检查点中提供两种行为。在运维上,这显著简化了生产智能体基础设施——大多数查询获得快速直接响应,只有受益于推理的较难子集消耗扩展推理计算。
671B-A37B MoE 架构继承自 V3,仍是优秀的质量与计算权衡。37B 活跃参数下,生成速度可与 37B 稠密模型相媲美,同时访问完整 671B 的知识。对于具备托管基础设施的多 GPU 服务器部署,V3.2 提供强劲的推理和代码性能。
MIT 风格的 DeepSeek 许可结合模型的运维简洁性使 V3.2 在 2026 年初成为流行的生产选择,适用于希望获得 DeepSeek 能力但不愿投入更大 V4 Pro 基础设施占用的团队。
Fine-Tuning with Ertas
DeepSeek V3.2 处于实用微调的上限。Ertas Studio 在多 GPU 服务器配置(8x A100 80GB 或 8x H100 80GB)上支持 QLoRA 微调,典型序列长度下需要约 380-450GB 总 VRAM。
对大多数没有 8 GPU 服务器访问权限的团队,推荐的模式是使用 V3.2 作为教师进行合成数据生成,然后在该数据上微调某个 DeepSeek-R1 蒸馏变体(Qwen 7B-32B 或 Llama 70B 蒸馏)。这能以单 GPU 部署成本生成领域专用模型,同时通过蒸馏继承 V3.2 的推理和编码模式。
直接微调 V3.2 时,Ertas Studio 自动处理 DSA 架构的训练时考虑——包括低秩适配期间的专家路由稳定性和稀疏注意力模式保留。训练完成后,Ertas Studio 导出为 GGUF 格式。V3.2 的 Q4_K_M 量化约 360GB,需要多 GPU 服务器部署。
Use Cases
DeepSeek V3.2 在以下工作负载中表现出色:受益于 V4 级能力但又无法获得 V4 Pro 基础设施(8 GPU 服务器)的场景。运行在 4-6 GPU 配置上的生产部署经常选择 V3.2 而非 V4 Pro,因为硬件占用更低,尤其当 1M 上下文不是硬性需求时。
统一思考模式使 V3.2 非常适合自适应智能体部署——常规工单使用快速直接响应,复杂查询升级为推理模式。这种模式相比统一运行纯推理模式推理可大幅节省成本,同时在确实受益于扩展思考的查询上保持质量。
对于在生产中运行 DeepSeek-R1 蒸馏变体的团队,V3.2 也是持续蒸馏循环的强教师模型——随着您的领域演进,生成新的合成训练数据并用该数据刷新已部署的较小模型。
Hardware Requirements
DeepSeek V3.2 在 Q4_K_M 下约需 360GB 内存,可装入 8x A100 80GB 或 8x H100 80GB 服务器,或具有 512GB+ RAM 的 CPU 推理主机。一旦加载,37B 的活跃参数数量决定 token 生成吞吐量。
对于较小的部署,Q3_K_M 量化(约 270GB)以适度的质量换取减少的内存,可装入 4x H100 80GB 服务器并留有余量。低于 Q3 不推荐用于生产部署——长上下文检索的质量退化变得显著,特别是在 V3.2 竞争优势源自的依赖 DSA 的基准测试上。
在 Ertas Studio 中微调时:V3.2 QLoRA 需要约 380-450GB 总 VRAM(多 GPU 服务器)。对大多数团队而言,通过教师生成的合成数据将其蒸馏到较小基座 (R1-Distill-Qwen-32B、R1-Distill-Llama-70B)是更实用的路径。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.