Fine-Tune Qwen 3.5 with Ertas

    阿里巴巴 2026 年 2 月旗艦推理版本——一個 397B-A17B 專家混合模型,目前在開放權重 GPQA Diamond 基準測試中以 88.4 分領先,並提供從 0.8B 到 122B-A10B 的同系列變體。Apache 2.0 授權。

    0.8B2B4B9B27B35B-A3B122B-A10B397B-A17BAlibaba

    Overview

    Qwen 3.5 由阿里巴巴於 2026 年 2 月發布,是 Qwen 3 家族的推理導向後繼版本,也是奠定阿里巴巴在研究所層級科學基準上領先地位的版本。旗艦 Qwen3.5-397B-A17B 目前以 88.4 分領先開放權重 GPQA Diamond 排行榜,並在 MMLU-Pro(84.9)、AIME 2025 與複雜程式碼推理上有優異表現。產品線範圍特別廣泛,從 0.8B(行動裝置)到 397B(伺服器旗艦)涵蓋八種規格,中階層級同時提供密集與專家混合變體。

    35B-A3B MoE 變體尤其成為熱門的主力選擇——每個 token 約 3B 活躍參數,能以小模型速度提供服務,同時提供與中階密集模型相當的品質。較小的密集變體(0.8B、2B、4B、9B)進一步擴展了 Qwen 3 原本就強勢的小型模型覆蓋範圍。所有變體皆內建 Qwen 3 引入的統一混合思考模式,可透過執行階段控制參數實現自適應推理深度。

    Qwen 3.5 在 2026 年 4 月被 Qwen 3.6 取代為 Qwen 旗艦(後者提供更強的程式碼能力),但當推理能力——特別是研究所層級科學問題——是主要需求時,Qwen 3.5 仍是更佳選擇。對於擁有多 GPU 伺服器基礎架構、能部署較大活躍參數量的團隊而言,397B-A17B 變體仍是 Qwen 家族中最強的選項。

    所有 Qwen 3.5 變體皆以 Apache 2.0 授權發布。權重於 Hugging Face Qwen 組織下提供,路徑如 `Qwen/Qwen3.5-397B-A17B`、`Qwen/Qwen3.5-122B-A10B` 以及較小的密集變體。

    Key Features

    GPQA Diamond 以 88.4 分領先是 Qwen 3.5 的決定性基準成果。GPQA 是研究所層級的科學問答基準,設計上無法透過搜尋或淺層知識解決,因此優異表現是深度推理能力的可信指標。Qwen 3.5 在此處的領先——超越發布當時所有其他開放權重旗艦——來自統一思考模式以及針對研究所層級科學推理資料的後訓練。

    此家族的參數範圍特別廣。0.8B 變體實現了 2026 年其他旗艦無法達到的裝置內部署模式;397B-A17B 旗艦則在推理基準上與頂級閉源模型競爭。這個範圍提供架構彈性——團隊可以在行動、桌面與伺服器部署中使用同一家族,同時維持一致的提示慣例與工具使用行為。

    MoE 變體(35B-A3B 與 122B-A10B)採用類似 Qwen3-Next 的細粒度專家路由。35B-A3B 尤其能以 3B 等級的推論速度提供服務,同時交付接近 14B-32B 密集模型的品質——使其成為目前最高效的中階部署選項之一。

    Qwen 3.5 繼承了 Qwen 廣泛的多語言能力(119 種語言),並原生整合 Qwen-Agent 與 MCP、函式呼叫和程式碼解譯器支援。對於需要強大推理品質的代理工作流程,啟用思考模式的 Qwen 3.5 是最強的開放權重選項之一。

    Fine-Tuning with Ertas

    所有 Qwen 3.5 變體都非常適合在 Ertas Studio 中進行微調。較小的密集變體(0.8B、2B、4B、9B)使用 QLoRA 可在 4-12GB VRAM 的消費級 GPU 上運作。27B 密集變體可在單張 48GB GPU 上以完整序列長度進行微調。35B-A3B MoE 變體尤其高效——得益於 3B 的活躍參數量,QLoRA 可在 24GB GPU 上運作。

    122B-A10B 與 397B-A17B 變體進行 QLoRA 微調需要多 GPU 伺服器配置。對於沒有此基礎架構的團隊,建議的模式是教師-學生蒸餾:使用 Qwen3.5-397B 作為教師生成合成推理軌跡資料,然後在該資料上微調較小的基礎模型(Qwen3.5-27B、Qwen3.5-9B,甚至是 Qwen 3.5 蒸餾變體)。

    當為推理密集型用例微調 Qwen 3.5 時,Ertas Studio 支援包含明確思考模式軌跡(`<think>...</think>` 標籤或等效形式)的訓練資料格式。這能在微調後的模型中保留自適應推理行為,而不會塌縮成單一模式。訓練後,Ertas Studio 匯出為 GGUF 格式,並完整保留 Qwen 3.5 對話樣板。

    Use Cases

    Qwen 3.5 是研究所層級科學推理最強的開放權重選擇——研究輔助、科學文獻分析、技術內容生成以及 STEM 教育應用都能受益於 GPQA Diamond 領先的能力。397B-A17B 變體特別適合推理深度比推論速度更重要的專家層級分析任務。

    中階 MoE 變體(35B-A3B、122B-A10B)目標是需要推理能力但推論經濟性也很重要的生產 API 服務。35B-A3B 尤其廣泛部署於客戶支援、文件分析與內容生成工作負載,這些場景中品質與速度都必須優異。

    較小的密集變體可實現推理工作負載的邊緣與消費級硬體部署——啟用思考模式的 4B Qwen 3.5 在困難推理任務上比沒有專門推理訓練的 7B 密集模型更有能力。對於行動裝置與嵌入式部署的推理能力,Qwen 3.5 的小型變體與開放權重生態系中任何選項都具備競爭力。

    Hardware Requirements

    Qwen 3.5 在 Q4_K_M 下的小型密集變體:0.8B 約 700MB、2B 約 1.5GB、4B 約 2.5GB、9B 約 5.5GB。27B 密集變體在 Q4_K_M 下約需 16GB,可在單張 24GB GPU 上運作。

    35B-A3B MoE 在 Q4_K_M 下約需 20GB(必須載入所有專家權重),可在 24GB GPU 上運作。122B-A10B 在 Q4_K_M 下約需 65GB,可裝入 80GB GPU 或分散至兩張 48GB GPU。397B-A17B 在 Q4_K_M 下約需 220GB,需要多 GPU 伺服器部署(4x A100 80GB 或 4x H100 80GB)。

    Ertas Studio 中微調:小型密集變體需要 4-12GB VRAM,27B 需要 32-40GB,35B-A3B MoE 需要 22-28GB(得益於低活躍參數量),122B-A10B 需要 80-100GB(多 GPU),397B-A17B 需要與 DeepSeek V4 Flash 微調相似的多 GPU 伺服器規模。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.