Fine-Tune Qwen 3.6 with Ertas

阿里巴巴 2026 年 4 月旗舰版本：包含一个完全稠密的 27B 变体（在编码任务上超越上一代 397B 推理模型），以及一个用于超高效推理的 35B-A3B 专家混合 (MoE) 变体，全部以 Apache 2.0 许可发布。

27B35B-A3BAlibaba

Overview

Qwen 3.6 由阿里巴巴于 2026 年 4 月发布，是 Qwen 3.5 系列的直接继承者，代表了阿里巴巴迄今为止最强大的开源权重发布。该产品线以两个互补的模型为核心：4 月 22 日发布的完全稠密 27B 变体，尽管规模适中，但据报道在多个编码基准测试上的表现优于上一代旗舰 Qwen3.5-397B-A17B；以及 4 月 16 日发布的 35B-A3B 专家混合变体，每个 token 仅激活约 3B 参数，同时可访问 35B 模型的知识。

本次发布延续了 Qwen 模型在同一代产品中结合稠密与稀疏架构的趋势，让开发者能够根据部署约束做出明确的选择。稠密版 27B 定位于高吞吐量批量推理和微调工作负载，因其内存访问模式更可预测；而 35B-A3B MoE 则面向延迟敏感型服务，活跃参数数量直接决定每秒生成 token 的性能。

与之前的 Qwen 3.x 版本一样，Qwen 3.6 内置统一思考模式——同一个模型可以对简单查询直接响应，也可以对复杂问题生成扩展推理轨迹，由思考预算参数控制。这消除了在生产环境中维护单独的推理模型和指令微调模型变体的需求。

Qwen 3.6 继承了 Qwen 广泛的多语言覆盖能力（119+ 种语言），并以 Apache 2.0 许可发布——是开源权重领域最宽松的许可之一。模型在 Hugging Face 上以 `Qwen/Qwen3.6-27B` 和 `Qwen/Qwen3.6-35B-A3B` 模型 ID 提供，量化的 GGUF 构建广泛适用于 Ollama 和 llama.cpp 部署。

Key Features

稠密 27B 模型的编码性能是核心亮点。阿里巴巴的评测显示，它在竞赛编程和代码补全基准测试上超越了 Qwen3.5-397B-A17B（一个规模大得多的推理模式模型），而推理时所需的活跃参数仅为后者的约 1/14。这一改进归功于精细化的后训练数据策划和强调可验证代码执行奖励的更新版强化学习管道。

35B-A3B MoE 变体使用细粒度专家路由和类似于 2025 年末推出的 Qwen3-Next 架构的 top-K 选择策略。每个 token 仅激活约 3B 参数，在标准推理框架上运行速度可与 3B 稠密模型相媲美，同时在大多数评测套件上的质量可与 14B-32B 稠密模型竞争。

统一思考模式仍然是关键特性。开发者可以传递 `thinking_budget` 参数来限制推理 token 的生成数量，设为零可获得快速直接响应，或设为无限以在难题上获得最大推理深度。这种灵活性对于成本敏感的 API 服务特别有价值，因为大多数查询都很简单，但少量长尾查询可从扩展深思中受益。

Qwen 3.6 还原生集成了 Qwen-Agent——阿里巴巴的开源智能体框架，开箱即支持 MCP（模型上下文协议）连接、函数调用、代码解释器工具和多步规划。这使得 Qwen 3.6 成为最具智能体就绪能力的开源权重发布之一，无需第三方脚手架。

Fine-Tuning with Ertas

两种 Qwen 3.6 变体都非常适合在 Ertas Studio 中进行微调。稠密 27B 模型可以在单块 48GB GPU（如 A6000 或 RTX A6000 Ada）上使用 QLoRA 微调，或在 24GB GPU 上通过激进的 4 位量化和梯度检查点进行微调。对于大多数领域适配用例，对 27B 变体进行 QLoRA 微调可生成一个保留几乎所有基础模型能力的微调模型，同时专注于您的领域——避免了全参数训练的内存负担。

相对于其参数数量，35B-A3B MoE 模型微调起来异常高效。由于每次前向传播只有约 3B 参数活跃，QLoRA 微调可以在 24GB GPU 上轻松完成，序列长度可达 8K-16K tokens。Ertas Studio 自动处理 MoE 特定的考虑因素——低秩适配期间的专家路由稳定性、专家间的负载均衡，以及 LoRA 适配器与 MoE 基础权重的正确合并。

微调完成后，Ertas Studio 直接将您的模型导出为 GGUF 格式，完全兼容两种 Qwen 3.6 架构。27B Q4_K_M 量化生成约 16GB 的文件，可通过 Ollama 或 llama.cpp 在 24GB GPU 上部署。35B-A3B Q4_K_M 约为 20GB，但以 3B 级别的推理速度运行——是质量和延迟都很重要的生产部署的出色选择。

Use Cases

稠密 27B 变体是编码密集型工作负载的推荐选择：代码补全、代码审查、智能体编码（与 Qwen-Agent 或 Cline 和 Claude Code 风格 CLI 等第三方脚手架配合使用），以及在需要本地部署的受监管环境中进行代码生成。该模型的编码专项强化学习训练使其在真实软件工程任务上表现尤为强劲，而不仅仅是合成基准。

35B-A3B MoE 变体在 token 吞吐量至关重要的生产 API 服务中表现出色。客户支持聊天机器人、文档分析管道和内容生成系统都能受益于 3B 级别的推理速度，结合远超任何 3B-7B 稠密模型所能提供的质量。思考模式开关支持混合部署模式——对常规查询进行快速直接响应，对需要的复杂 5-10% 查询进行扩展推理。

多语言应用对两种变体都非常合适。119 种语言的训练覆盖使 Qwen 3.6 成为少数几个对越南语、印度尼西亚语、泰语、他加禄语、斯瓦希里语和阿拉伯方言等语言提供生产级质量支持的开源权重模型之一。国际产品团队经常专门为这种广度而选择 Qwen 3.6 而非 Llama 或 Mistral。

Hardware Requirements

稠密 Qwen3.6-27B 在 Q4_K_M 量化下约需 16GB VRAM，可装入单块 RTX 4090、RTX 5090 或任何 24GB+ GPU，并在中等上下文长度下为激活和 KV 缓存留出余量。在 Q8_0 量化下，预计约需 28GB。完整的 BF16 推理约需 54GB VRAM，通常分布在两块 32GB 或更大的 GPU 上。

35B-A3B MoE 模型不论每个 token 激活哪些专家，都会将所有专家加载到内存中。在 Q4_K_M 下，预计约需 20GB 内存；在 Q8_0 下，约需 36GB。尽管相对于 3B 稠密模型而言内存占用较大，但推理速度由活跃参数数量决定，因此在相同硬件上的 token 生成速度约为 3B 级别。24GB GPU 是实际最低配置。

在 Ertas Studio 中微调时：稠密 27B 使用 QLoRA 在典型序列长度（4K tokens）下需要 24-32GB VRAM，对于更长上下文（16K+）需要 40-48GB。35B-A3B MoE 使用 QLoRA 仅需 20-24GB VRAM，这得益于其较低的活跃参数数量，使其尽管总参数量较大但意外地易于使用。两种变体在更长的序列训练中都受益于梯度检查点。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →