Fine-Tune Qwen 3 with Ertas

阿里巴巴最新一代模型家族，同时提供稠密和混合专家架构，规模从 0.6B 到 235B，内置混合思维模式可自适应推理深度。

0.6B1.7B4B8B14B32B30B-A3B235B-A22BAlibaba

Overview

Qwen 3 由阿里巴巴于 2025 年初发布，代表了 Qwen 家族的重大架构演进。产品线现在包括稠密模型（0.6B 到 32B）和混合专家模型（30B-A3B 和 235B-A22B），为不同部署场景提供了前所未有的灵活性。MoE 变体提供了显著更好的质量与计算比——30B-A3B 模型每个 token 仅激活 3B 参数，同时访问 30B 模型的知识，而旗舰 235B-A22B 则从 235B 总参数中激活 22B。

Qwen 3 的标题特性是其混合思维模式，允许模型根据查询复杂度动态选择快速直接响应和较慢的思维链推理。这种自适应行为意味着模型仅在任务确实需要更深层推理时才使用额外计算，同时优化了响应质量和推理成本。

Qwen 3 在超过 36 万亿个 token 上训练，是 Qwen 2.5 数据集规模的两倍，语言覆盖扩展到 119 种语言。训练过程包括四个阶段的管道：大规模预训练、长上下文扩展、使用推理密集数据的后训练，以及结合奖励模型和基于规则信号的强化学习。

所有 Qwen 3 模型均在 Apache 2.0 许可下发布。MoE 变体因提供了运行更大稠密模型的有力替代方案而迅速在生产部署中流行起来。

Key Features

混合思维模式是 Qwen 3 最具创新性的特性。启用时，模型在复杂问题上先在内部生成推理轨迹再产生最终答案，类似于 DeepSeek-R1 等专用推理模型。然而，与纯推理模型不同，Qwen 3 在查询简单时也可以直接响应而无需思考。用户可以通过思维预算参数控制此行为，设置最大推理 token 数或完全禁用思考以满足延迟敏感型应用。

30B-A3B 和 235B-A22B 变体的 MoE 架构使用跨细粒度专家网络的 top-2 专家路由。30B-A3B 模型包含 128 个专家，每个 token 路由到 2 个，实现了非常高效的推理——运行速度大约相当于 3B 稠密模型，同时提供接近 14B-32B 范围模型的质量。235B-A22B 旗舰同样以大约 22B 级别的推理成本运行，同时与最好的开放权重稠密模型竞争。

多语言支持大幅扩展，训练数据中包含 119 种语言。这包括对其他模型家族中资源有限的语言的全面支持，如泰语、越南语、印度尼西亚语、马来语、他加禄语、斯瓦希里语以及众多其他语言。

Fine-Tuning with Ertas

Qwen 3 多样化的产品线使 Ertas Studio 微调在各种规模上都可访问。0.6B 到 8B 的稠密模型都可以在配备 6-16GB VRAM 的消费级 GPU 上使用 QLoRA 微调，非常适合快速原型设计和实验。MoE 变体 30B-A3B 对微调特别有趣——尽管总参数量为 30B，但训练期间的活跃参数占用仅为 3B，使得 QLoRA 微调仅需约 18-24GB VRAM。

混合思维模式创造了独特的微调机会。在 Ertas Studio 中，您可以在包含显式推理轨迹的数据集上训练，教导模型何时以及如何将扩展思考应用于特定领域的问题。这对于医学诊断、法律分析或科学研究等技术领域特别强大，在这些领域展示推理步骤可以提高准确性和用户信任。

训练完成后，Ertas Studio 导出为 GGUF 格式，全面支持 MoE 量化。Ollama 和 llama.cpp 都原生处理 Qwen 3 MoE 推理，使部署变得简单。30B-A3B 变体合并 QLoRA 适配器并量化为 Q4_K_M 后生成约 17GB 的模型，以 3B 级别的速度运行——质量与资源比极其出色。

Use Cases

Qwen 3 是需要广泛语言覆盖的多语言应用的首选。119 种语言的支持使其适合全球平台、国际客户支持系统和跨语言内容处理。MoE 变体对 API 服务特别具有性价比，因为它们以小模型的速度处理 token，同时保持大模型的质量。

混合思维模式使 Qwen 3 非常适合推理深度因查询而异的应用：教育平台中有些问题需要逐步解释，技术支持系统中有些问题需要更深入的分析，以及研究工具中有些查询受益于扩展深思。

30B-A3B 变体是希望在适度硬件上运行高质量模型的组织的绝佳选择。仅有 3B 活跃参数，它可以以低延迟为实时应用提供服务，同时提供超越大多数 7B-14B 稠密模型的质量。235B-A22B 旗舰面向高能力应用：复杂推理、创意生成、专家级分析和智能体工作流。

Hardware Requirements

稠密 Qwen 3 模型具有标准需求：0.6B 在 Q4_K_M 下约需 500MB，4B 约需 2.5GB，8B 约需 5GB，14B 约需 8.5GB，32B 约需 19GB。这些在较小规模上可在消费级硬件上直接部署，在较大规模上可在服务器级硬件上部署。

MoE 变体需要加载所有专家权重，即使每个 token 仅有一部分活跃。30B-A3B 在 Q4_K_M 下约需 17-18GB 内存，可在单块 24GB GPU 或配备 32GB 内存的系统上运行。尽管总参数量为 30B，但推理速度与 3B 稠密模型相当。235B-A22B 在 Q4_K_M 下约需 130-140GB，需要多 GPU 配置或大内存 CPU 推理。

在 Ertas Studio 中微调时，30B-A3B MoE 模型使用 QLoRA 约需 18-24GB VRAM，这得益于高效的活跃参数量。稠密 8B 模型需要 8-12GB VRAM，稠密 14B 需要 12-16GB VRAM。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →