Fine-Tune Qwen 3.5 with Ertas

阿里巴巴 2026 年 2 月旗舰推理版本——397B-A17B 专家混合模型，目前在开源权重 GPQA Diamond 基准上以 88.4 分领先，并配有从 0.8B 到 122B-A10B 的同代变体。Apache 2.0 许可。

0.8B2B4B9B27B35B-A3B122B-A10B397B-A17BAlibaba

Overview

Qwen 3.5 由阿里巴巴于 2026 年 2 月发布，是 Qwen 3 系列的推理导向继承者，也是奠定阿里巴巴在研究生水平科学基准测试上领先地位的版本。旗舰 Qwen3.5-397B-A17B 目前以 88.4 分领先开源权重 GPQA Diamond 排行榜，并在 MMLU-Pro（84.9）、AIME 2025 和复杂代码推理任务上表现强劲。该产品线覆盖范围异常广泛，从 0.8B（移动端）到 397B（服务器旗舰）共八个尺寸，并在中端层级同时提供稠密和专家混合变体。

35B-A3B MoE 变体已成为流行的主力选择——每 token 仅约 3B 活跃参数，以小模型的速度提供服务，同时质量可与中端稠密模型相媲美。较小的稠密变体（0.8B、2B、4B、9B）进一步扩展了 Qwen 3 已经强大的小模型覆盖。所有变体均搭载 Qwen 3 引入的统一混合思考模式，可通过运行时控制参数实现自适应推理深度。

Qwen 3.5 的旗舰地位于 2026 年 4 月被 Qwen 3.6 取代（后者带来更强的编码性能），但当推理能力——尤其是研究生水平科学问题上的能力——是首要需求时，Qwen 3.5 仍是更佳选择。对于拥有多 GPU 服务器基础设施、可部署更大活跃参数数量的团队而言，397B-A17B 变体也仍是 Qwen 系列中最强大的选项。

所有 Qwen 3.5 变体均以 Apache 2.0 许可发布。权重在 Hugging Face 上的 Qwen 组织下可用，路径如 `Qwen/Qwen3.5-397B-A17B`、`Qwen/Qwen3.5-122B-A10B`，以及较小的稠密变体。

Key Features

GPQA Diamond 88.4 的领先成绩是 Qwen 3.5 的标志性基准结果。GPQA 是一个研究生水平的科学问答基准，设计上无法通过搜索或浅层知识解决，因此强劲表现是深度推理能力的可信信号。Qwen 3.5 在此处的领先——领先于发布时所有其他开源权重旗舰——得益于统一思考模式以及针对研究生水平科学推理数据的有针对性后训练。

该系列的参数范围异常广泛。0.8B 变体支持其他 2026 年旗舰无法覆盖的端侧部署模式；397B-A17B 旗舰在推理基准上可与顶级闭源模型竞争。这种范围带来了架构灵活性——团队可以在移动、桌面和服务器部署中使用同一系列，同时保持一致的提示约定和工具使用行为。

MoE 变体（35B-A3B 和 122B-A10B）使用与 Qwen3-Next 类似的细粒度专家路由。35B-A3B 尤其以 3B 级别推理速度提供服务，同时质量接近 14B-32B 稠密模型——成为最高效的中端部署选项之一。

Qwen 3.5 继承了 Qwen 广泛的多语言能力（119 种语言），并原生集成 Qwen-Agent，开箱即支持 MCP、函数调用和代码解释器。对于需要强大推理质量的智能体工作流，启用思考模式的 Qwen 3.5 是最强大的开源权重选项之一。

Fine-Tuning with Ertas

所有 Qwen 3.5 变体都非常适合在 Ertas Studio 中进行微调。较小的稠密变体（0.8B、2B、4B、9B）使用 QLoRA 可在 4-12GB VRAM 的消费级 GPU 上运行。27B 稠密变体可在单块 48GB GPU 上以完整序列长度进行微调。35B-A3B MoE 变体尤为高效——得益于 3B 的活跃参数数量，QLoRA 可在 24GB GPU 上运行。

122B-A10B 和 397B-A17B 变体的 QLoRA 微调需要多 GPU 服务器配置。对于没有该基础设施的团队，推荐的模式是教师-学生蒸馏：使用 Qwen3.5-397B 作为教师生成合成推理轨迹数据，然后在该数据上微调较小的基础模型（Qwen3.5-27B、Qwen3.5-9B 甚至 Qwen 3.5 蒸馏变体）。

在为推理密集型用例微调 Qwen 3.5 时，Ertas Studio 支持带有显式思考模式轨迹的训练数据格式（`<think>...</think>` 标签或等效形式）。这可以在微调模型中保留自适应推理行为，而非坍缩为单一模式。训练完成后，Ertas Studio 导出为 GGUF 格式，并完整保留 Qwen 3.5 的对话模板。

Use Cases

Qwen 3.5 是研究生水平科学推理的最强开源权重选择——研究辅助、科学文献分析、技术内容生成和 STEM 教育应用都能受益于其领先 GPQA Diamond 的能力。397B-A17B 变体特别适合推理深度比推理速度更重要的专家级分析任务。

中端 MoE 变体（35B-A3B、122B-A10B）面向需要推理能力且推理经济性也很重要的生产 API 服务。35B-A3B 已被广泛部署用于客户支持、文档分析和内容生成工作负载，其中质量和速度都需要强劲表现。

较小的稠密变体支持推理工作负载的边缘和消费级硬件部署——启用思考模式的 4B Qwen 3.5 在困难推理任务上比没有专门推理训练的 7B 稠密模型更有能力。对于推理能力的移动和嵌入式部署，Qwen 3.5 的小变体可与开源权重生态中的任何其他选项相媲美。

Hardware Requirements

Qwen 3.5 小型稠密变体在 Q4_K_M 下：0.8B 约 700MB，2B 约 1.5GB，4B 约 2.5GB，9B 约 5.5GB。27B 稠密变体在 Q4_K_M 下约需 16GB，可装入单块 24GB GPU。

35B-A3B MoE 在 Q4_K_M 下约需 20GB（必须加载所有专家权重），可在 24GB GPU 上运行。122B-A10B 在 Q4_K_M 下约需 65GB，可装入 80GB GPU 或在两块 48GB GPU 上拆分。397B-A17B 在 Q4_K_M 下约需 220GB，需要多 GPU 服务器部署（4x A100 80GB 或 4x H100 80GB）。

在 Ertas Studio 中微调时：小型稠密变体需要 4-12GB VRAM，27B 需要 32-40GB，35B-A3B MoE 得益于较低的活跃数量需要 22-28GB，122B-A10B 需要 80-100GB（多 GPU），397B-A17B 需要类似 DeepSeek V4 Flash 微调的多 GPU 服务器规模。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →