Fine-Tune DeepSeek-V3 with Ertas

DeepSeek 的旗舰 6710 亿参数混合专家模型，每个 token 激活 37B 参数，以极高的推理效率提供前沿级通用性能。

671B (37B active)DeepSeek

Overview

DeepSeek-V3 于 2024 年 12 月发布，是有史以来最令人瞩目的开放权重模型之一。总计 6710 亿参数，采用混合专家架构，每次前向传播激活 370 亿参数，在许多基准测试上的表现可与 GPT-4o 和 Claude 3.5 Sonnet 相媲美——对于开放权重模型而言这是一项了不起的成就。

该模型使用多头潜在注意力（MLA）机制，将键值对压缩到低维潜在空间，大幅减少了推理过程中的 KV 缓存内存占用。结合 DeepMix——一种细粒度专家分割策略，使用 256 个路由专家（每个 token 选择 8 个）加 1 个共享专家——该架构实现了卓越的质量与计算效率比。

DeepSeek-V3 在 14.8 万亿个 token 上使用创新的多阶段训练管道进行训练。值得注意的是，整个训练过程的计算成本仅约 550 万美元——是同类前沿模型所需成本的很小一部分——这得益于架构效率和训练优化，包括 FP8 混合精度训练和优化的通信模式。

该模型支持 128K token 的上下文窗口，在通用知识、数学、代码生成、创意写作和多语言任务上表现强劲。它在 MIT 许可下发布，可自由用于研究和商业用途。

Key Features

多头潜在注意力（MLA）是 DeepSeek-V3 最重要的架构创新。标准多头注意力在 KV 缓存中存储完整的键和值张量，随序列长度和层数线性增长。MLA 将键和值投射到压缩的潜在表示中，与具有相同头数的标准注意力相比，KV 缓存内存减少约 93%。这使得在可控的内存需求下处理超长序列成为可能。

细粒度专家架构在每个 MoE 层使用 256 个路由专家加 1 个共享专家，每个 token 路由到 8 个专家。这比 Mixtral（8 个专家，路由到 2 个）精细得多，允许更精确的专家专业化和更平滑的训练期间专家利用率。无辅助损失的负载均衡策略确保专家均匀利用而不降低模型质量。

DeepSeek-V3 率先在大规模训练中采用 FP8 混合精度训练，在训练期间大部分矩阵乘法使用 8 位浮点数，同时关键组件保持全精度。与标准 BF16 训练相比，这将训练时间和成本减少了约 40%，为训练效率树立了新标准。

Fine-Tuning with Ertas

鉴于 DeepSeek-V3 的 671B 总参数量，在 Ertas Studio 中主要通过 QLoRA 进行微调。使用 4 位量化，微调约需 180-200GB 的 GPU 总内存，通常需要 4x A100 80GB GPU。Ertas Studio 自动管理分布式训练设置、专家路由和 MLA 感知的适配器放置。

对于大多数用户，更实际的方法是使用较小的模型（如 DeepSeek-R1 蒸馏变体或其他 7B-70B 模型）进行微调，将 DeepSeek-V3 保留为合成数据生成的教师模型。Ertas Studio 支持这一工作流：使用 V3 生成高质量训练数据，然后在该数据上微调较小模型以高效部署。

需要直接微调时，Ertas Studio 将 LoRA 适配器应用于共享注意力层和专家前馈层。MLA 架构意味着注意力适配器的占用比标准模型更小，使整体适配器大小保持可控。训练完成后，导出为 GGUF 格式通过 llama.cpp 或 Ollama 部署，两者均支持 DeepSeek-V3 的架构。

Use Cases

DeepSeek-V3 是前沿级模型，适合要求最高的应用场景。它擅长复杂推理任务、多编程语言的精密代码生成、高级数学问题求解和细腻的创意写作。需要 GPT-4 级别性能但希望将数据完全保留在本地的组织会发现 DeepSeek-V3 是一个引人注目的选择。

该模型在合成数据生成方面特别强大。其广泛的知识和强大的指令遵循能力使其成为生成高质量训练数据集的理想选择，用于微调更小、更高效的模型。这种教师-学生工作流是 DeepSeek-V3 最常见的生产模式之一。

DeepSeek-V3 还非常适合作为高质量评估和质量保证模型。组织使用它来评估较小生产模型的输出、生成多样化的测试用例，以及在需要最高准确性的场景下执行自动化内容审查，而不考虑推理成本。

Hardware Requirements

DeepSeek-V3 在 Q4_K_M 量化下约需 370-390GB 内存。通常使用 8x A100 80GB GPU、4x H100 80GB GPU 或配备 512GB 以上内存的大型 CPU 推理节点进行服务。尽管内存占用较大，但由于每个 token 仅有 37B 参数活跃，生成速度尚可——在 8x A100 配置上预计每秒 20-40 个 token。

在 Q8_0 量化下，模型约需 710GB，需要高端多节点部署。全精度 FP16 推理约需 1.34TB，在专用研究集群之外通常不可行。对于大多数部署，Q4_K_M 或 Q5_K_M 量化提供了出色的质量与资源权衡。

在 Ertas Studio 中使用 QLoRA 微调约需 180-200GB GPU 内存（4x A100 80GB）。虽然这是一项重大硬件需求，但远低于完整微调所需的 1TB 以上，使 QLoRA 成为将该模型适配到特定领域的唯一实际方法。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →