Fine-Tune Qwen3-Coder with Ertas

阿里巴巴的专用编码模型产品线——包括具有 256K-1M 上下文的 480B-A35B Qwen3-Coder 旗舰，以及 80B-A3B Qwen3-Coder-Next，二者均原生面向 Claude Code、Cline 和 Qwen Code 风格的智能体编码 CLI。Apache 2.0 许可。

30B-A3B80B-A3B (Next)480B-A35BAlibaba

Overview

Qwen3-Coder 是阿里巴巴在 Qwen 3 系列中专门面向编码任务的模型产品线，专门为智能体编码工作负载设计，而非通用聊天或推理。旗舰 Qwen3-Coder-480B-A35B-Instruct 将大型专家混合架构（480B 总参数 / 35B 活跃参数）与 256K 原生上下文窗口（可外推至 1M tokens）相结合，面向全代码库推理和长视野编码任务。较小的变体——Qwen3-Coder-30B-A3B 和 Qwen3-Coder-Next 80B-A3B——将编码导向训练扩展到中端部署规模。

Qwen3-Coder 与那些恰好具备良好编码能力的通用模型的区别在于有针对性的后训练：模型显式地基于智能体编码轨迹训练，包括规划、多文件编辑、测试执行以及基于观察结果的迭代。这正是 Claude Code、Cline、Aider 和 Qwen Code 等工具所依赖的模式，Qwen3-Coder 的训练与部署模式相匹配。因此，Qwen3-Coder 比同等规模的非专业 Qwen 3 变体能产生更可靠的智能体编码行为。

Qwen3-Coder-Next（80B-A3B）的推理经济性尤为值得关注。每 token 仅约 3B 活跃参数，其服务速度可与 3B 稠密模型相媲美，同时提供可与更大模型竞争的编码专项质量。SWE-Bench Verified 约 70.6% 的得分使其跻身最强开源权重编码模型之列——而推理速度使其适用于大模型成本过高的高吞吐量智能体部署。

所有 Qwen3-Coder 变体均以 Apache 2.0 发布，权重在 Hugging Face 上的路径为 `Qwen/Qwen3-Coder-480B-A35B-Instruct`、`Qwen/Qwen3-Coder-30B-A3B-Instruct` 和 `Qwen/Qwen3-Coder-Next`。

Key Features

针对性的智能体编码训练是 Qwen3-Coder 的核心差异化优势。模型基于真实编码工作流的轨迹进行后训练：任务描述、规划步骤、多文件编辑、测试运行和迭代修正。这种模式匹配的训练产生的模型在处理智能体编码部署时比通用模型更可靠，即便通用模型在合成基准测试上得分更高。

480B-A35B 旗舰的 256K-1M 上下文窗口支持小上下文模型无法实现的全代码库推理。通过有效的上下文工程（相关文件放在上下文开头和结尾，中间部分作摘要），模型可以在单次提示中对整个仓库进行整体推理。

80B-A3B 的 Qwen3-Coder-Next 是生产智能体编码的实用甜点变体。3B 的活跃参数数量赋予其适合高吞吐量服务的推理经济性，而 SWE-Bench Verified 约 70.6% 的得分可与更大的通用模型竞争。对于自托管部署而言，当 Claude Code 或 Cursor 后端定价成本过高时，Qwen3-Coder-Next 是众多工作负载中最强的开源权重替代方案。

所有变体通过标准 MCP 和函数调用接口与 Qwen-Agent 及外部编码 CLI（Claude Code、Cline、Qwen Code）原生集成。这意味着相比将智能体能力嫁接到非专业基座上，部署所需的集成胶水代码极少。

Fine-Tuning with Ertas

Qwen3-Coder 变体在 Ertas Studio 的微调管道中得到良好支持。30B-A3B 变体得益于 3B 的活跃参数数量，使用 QLoRA 可在单块 24GB GPU 上微调。80B-A3B 的 Qwen3-Coder-Next 在典型序列长度下可装入 48-80GB GPU。

480B-A35B 旗舰需要多 GPU 服务器微调。对大多数团队而言，推荐的模式是使用 480B 作为教师生成合成编码轨迹数据，然后在该数据加上自有代码库示例上微调 Qwen3-Coder-Next 或 Qwen3-Coder-30B-A3B。这能以单 GPU 部署成本生成针对您团队特定模式的专用模型。

对于微调数据集，Qwen3-Coder 从包含完整智能体编码轨迹的训练数据中获益良多——任务描述、规划、代码编辑、测试输出和迭代。Ertas Studio 原生支持这些多步骤格式，包括来自 CLI 智能体运行的工具使用轨迹。训练完成后，Ertas Studio 导出为 GGUF 格式并完整保留 Qwen3-Coder 对话模板，可通过 Ollama、llama.cpp 或 vLLM 干净部署，并通过自定义模型配置一键集成到 Claude Code、Cline 或 Aider。

Use Cases

Qwen3-Coder 是自托管智能体编码代理的最强开源权重选择。生产部署模式包括企业代码库的 AI 结对编程（数据主权要求排除 Claude Code 或 GitHub Copilot 时）、针对重复变更模式的自主 PR 生成、大规模重构辅助以及全代码库代码审查。

带 256K-1M 上下文的 480B-A35B 在全代码库推理任务中表现出色：大型系统的架构审查、整个代码库的安全审计、依赖升级影响分析和大型重构规划。这些任务受益于模型同时考虑整个代码库，而非检索和摘要。

Qwen3-Coder-Next 是高吞吐量生产部署的实用选择。面向客户的编码工具、内部开发者助手和 CI 集成的代码审查代理都能受益于 3B 级别推理速度结合强大编码质量的组合。对于考虑使用自托管替代 Claude Code 或 Cursor 的团队而言，Qwen3-Coder-Next 是最具吸引力的选项之一。

Hardware Requirements

Qwen3-Coder-30B-A3B 在 Q4_K_M 下约需 17-18GB 内存，可装入 24GB GPU 并为上下文留出余量。推理速度由 3B 的活跃参数数量主导。

80B-A3B 的 Qwen3-Coder-Next 在 Q4_K_M 下约需 45GB，可装入单块 48GB GPU 或在两块 24GB GPU 上拆分。尽管总参数量为 80B，但推理以约 3B 级别速度运行。

480B-A35B 旗舰在 Q4_K_M 下约需 270GB 内存，需要多 GPU 服务器配置（最低 4x A100 80GB）。一旦加载，35B 的活跃参数数量决定 token 生成吞吐量。

在 Ertas Studio 中微调时：30B-A3B 使用 QLoRA 需要 22-28GB VRAM，Qwen3-Coder-Next 需要 50-70GB VRAM，480B-A35B 需要多 GPU 服务器微调（QLoRA 共需 200-280GB VRAM）。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Aider

Continue.dev

Cursor

llama.cpp

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →