Fine-Tune Qwen 3.5 with Ertas

阿里巴巴 2026 年 2 月旗艦推理版本——一個 397B-A17B 專家混合模型，目前在開放權重 GPQA Diamond 基準測試中以 88.4 分領先，並提供從 0.8B 到 122B-A10B 的同系列變體。Apache 2.0 授權。

0.8B2B4B9B27B35B-A3B122B-A10B397B-A17BAlibaba

Overview

Qwen 3.5 由阿里巴巴於 2026 年 2 月發布，是 Qwen 3 家族的推理導向後繼版本，也是奠定阿里巴巴在研究所層級科學基準上領先地位的版本。旗艦 Qwen3.5-397B-A17B 目前以 88.4 分領先開放權重 GPQA Diamond 排行榜，並在 MMLU-Pro（84.9）、AIME 2025 與複雜程式碼推理上有優異表現。產品線範圍特別廣泛，從 0.8B（行動裝置）到 397B（伺服器旗艦）涵蓋八種規格，中階層級同時提供密集與專家混合變體。

35B-A3B MoE 變體尤其成為熱門的主力選擇——每個 token 約 3B 活躍參數，能以小模型速度提供服務，同時提供與中階密集模型相當的品質。較小的密集變體（0.8B、2B、4B、9B）進一步擴展了 Qwen 3 原本就強勢的小型模型覆蓋範圍。所有變體皆內建 Qwen 3 引入的統一混合思考模式，可透過執行階段控制參數實現自適應推理深度。

Qwen 3.5 在 2026 年 4 月被 Qwen 3.6 取代為 Qwen 旗艦（後者提供更強的程式碼能力），但當推理能力——特別是研究所層級科學問題——是主要需求時，Qwen 3.5 仍是更佳選擇。對於擁有多 GPU 伺服器基礎架構、能部署較大活躍參數量的團隊而言，397B-A17B 變體仍是 Qwen 家族中最強的選項。

所有 Qwen 3.5 變體皆以 Apache 2.0 授權發布。權重於 Hugging Face Qwen 組織下提供，路徑如 `Qwen/Qwen3.5-397B-A17B`、`Qwen/Qwen3.5-122B-A10B` 以及較小的密集變體。

Key Features

GPQA Diamond 以 88.4 分領先是 Qwen 3.5 的決定性基準成果。GPQA 是研究所層級的科學問答基準，設計上無法透過搜尋或淺層知識解決，因此優異表現是深度推理能力的可信指標。Qwen 3.5 在此處的領先——超越發布當時所有其他開放權重旗艦——來自統一思考模式以及針對研究所層級科學推理資料的後訓練。

此家族的參數範圍特別廣。0.8B 變體實現了 2026 年其他旗艦無法達到的裝置內部署模式；397B-A17B 旗艦則在推理基準上與頂級閉源模型競爭。這個範圍提供架構彈性——團隊可以在行動、桌面與伺服器部署中使用同一家族，同時維持一致的提示慣例與工具使用行為。

MoE 變體（35B-A3B 與 122B-A10B）採用類似 Qwen3-Next 的細粒度專家路由。35B-A3B 尤其能以 3B 等級的推論速度提供服務，同時交付接近 14B-32B 密集模型的品質——使其成為目前最高效的中階部署選項之一。

Qwen 3.5 繼承了 Qwen 廣泛的多語言能力（119 種語言），並原生整合 Qwen-Agent 與 MCP、函式呼叫和程式碼解譯器支援。對於需要強大推理品質的代理工作流程，啟用思考模式的 Qwen 3.5 是最強的開放權重選項之一。

Fine-Tuning with Ertas

所有 Qwen 3.5 變體都非常適合在 Ertas Studio 中進行微調。較小的密集變體（0.8B、2B、4B、9B）使用 QLoRA 可在 4-12GB VRAM 的消費級 GPU 上運作。27B 密集變體可在單張 48GB GPU 上以完整序列長度進行微調。35B-A3B MoE 變體尤其高效——得益於 3B 的活躍參數量，QLoRA 可在 24GB GPU 上運作。

122B-A10B 與 397B-A17B 變體進行 QLoRA 微調需要多 GPU 伺服器配置。對於沒有此基礎架構的團隊，建議的模式是教師-學生蒸餾：使用 Qwen3.5-397B 作為教師生成合成推理軌跡資料，然後在該資料上微調較小的基礎模型（Qwen3.5-27B、Qwen3.5-9B，甚至是 Qwen 3.5 蒸餾變體）。

當為推理密集型用例微調 Qwen 3.5 時，Ertas Studio 支援包含明確思考模式軌跡（`<think>...</think>` 標籤或等效形式）的訓練資料格式。這能在微調後的模型中保留自適應推理行為，而不會塌縮成單一模式。訓練後，Ertas Studio 匯出為 GGUF 格式，並完整保留 Qwen 3.5 對話樣板。

Use Cases

Qwen 3.5 是研究所層級科學推理最強的開放權重選擇——研究輔助、科學文獻分析、技術內容生成以及 STEM 教育應用都能受益於 GPQA Diamond 領先的能力。397B-A17B 變體特別適合推理深度比推論速度更重要的專家層級分析任務。

中階 MoE 變體（35B-A3B、122B-A10B）目標是需要推理能力但推論經濟性也很重要的生產 API 服務。35B-A3B 尤其廣泛部署於客戶支援、文件分析與內容生成工作負載，這些場景中品質與速度都必須優異。

較小的密集變體可實現推理工作負載的邊緣與消費級硬體部署——啟用思考模式的 4B Qwen 3.5 在困難推理任務上比沒有專門推理訓練的 7B 密集模型更有能力。對於行動裝置與嵌入式部署的推理能力，Qwen 3.5 的小型變體與開放權重生態系中任何選項都具備競爭力。

Hardware Requirements

Qwen 3.5 在 Q4_K_M 下的小型密集變體：0.8B 約 700MB、2B 約 1.5GB、4B 約 2.5GB、9B 約 5.5GB。27B 密集變體在 Q4_K_M 下約需 16GB，可在單張 24GB GPU 上運作。

35B-A3B MoE 在 Q4_K_M 下約需 20GB（必須載入所有專家權重），可在 24GB GPU 上運作。122B-A10B 在 Q4_K_M 下約需 65GB，可裝入 80GB GPU 或分散至兩張 48GB GPU。397B-A17B 在 Q4_K_M 下約需 220GB，需要多 GPU 伺服器部署（4x A100 80GB 或 4x H100 80GB）。

Ertas Studio 中微調：小型密集變體需要 4-12GB VRAM，27B 需要 32-40GB，35B-A3B MoE 需要 22-28GB（得益於低活躍參數量），122B-A10B 需要 80-100GB（多 GPU），397B-A17B 需要與 DeepSeek V4 Flash 微調相似的多 GPU 伺服器規模。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →