Fine-Tune Qwen 3.6 with Ertas

    阿里巴巴於 2026 年 4 月發布的旗艦版本,結合了完全密集的 27B 變體(在程式編寫上勝過上一代 397B 推理模型)以及用於超高效推論的 35B-A3B 專家混合變體,全部以 Apache 2.0 授權發布。

    27B35B-A3BAlibaba

    Overview

    Qwen 3.6 由阿里巴巴於 2026 年 4 月發布,是 Qwen 3.5 家族的直接後繼者,也是阿里巴巴迄今最具能力的開源權重發布。產品線以兩個互補的模型為核心:4 月 22 日發布的完全密集 27B 變體,儘管規模適中,但據報導在多項程式編寫基準上勝過上一代旗艦 Qwen3.5-397B-A17B;以及 4 月 16 日發布的 35B-A3B 專家混合變體,每個 token 僅活化約 3B 參數,同時可存取 35B 模型的知識。

    此次發布延續了 Qwen 模型在單一世代內結合密集與稀疏架構的趨勢,讓開發者可依部署限制做出明確的選擇。密集 27B 定位於高吞吐量批次推論與微調工作負載,這類場景重視可預測的記憶體存取模式;而 35B-A3B MoE 則鎖定對延遲敏感的服務情境,在這類場景中活躍參數量決定了每秒 token 的效能表現。

    如同先前的 Qwen 3.x 發布,Qwen 3.6 內建統一思考模式——同一個模型可以針對簡單查詢直接回應,或針對複雜問題產生延伸推理軌跡,由思考預算參數控制。這消除了在生產環境中維護獨立推理模型與指令微調模型變體的必要。

    Qwen 3.6 繼承了 Qwen 廣泛的多語言覆蓋(119 種以上語言),並以 Apache 2.0 授權發布——這是開源權重領域中最寬鬆的授權之一。模型可在 Hugging Face 上透過 `Qwen/Qwen3.6-27B` 與 `Qwen/Qwen3.6-35B-A3B` 模型 ID 取得,量化的 GGUF 版本也廣泛可用,可部署於 Ollama 與 llama.cpp。

    Key Features

    密集 27B 模型的程式編寫表現是頭條成果。阿里巴巴的評估顯示,它在競技程式設計與程式碼補全基準上超越 Qwen3.5-397B-A17B(一個遠大得多的推理模式模型),而推論時所需的活躍參數量僅約為其 1/14。這項改進歸功於更精煉的後訓練資料整理,以及強調可驗證程式碼執行獎勵的更新版強化學習管線。

    35B-A3B MoE 變體採用細粒度專家路由與 top-K 選擇策略,類似於 2025 年底推出的 Qwen3-Next 架構。每個 token 僅有約 3B 活躍參數,在標準推論框架上以與 3B 密集模型相當的速度執行,同時在大多數評估套件上提供與 14B-32B 密集模型相當的品質。

    統一思考模式仍是核心特色。開發者可傳遞 `thinking_budget` 參數來限制推理 token 的產生量,設為零則為快速直接回應,或保持無限制以在困難問題上達到最大推理深度。這種彈性對於成本敏感的 API 服務特別有價值,因為大多數查詢都很簡單,但長尾的少數查詢可受益於延伸思考。

    Qwen 3.6 也與 Qwen-Agent 原生整合,這是阿里巴巴的開源代理框架,內建支援 MCP(Model Context Protocol)連線、函式呼叫、程式碼直譯器工具與多步驟規劃。這使 Qwen 3.6 成為最具代理就緒度的開源權重發布之一,無需第三方鷹架程式碼即可使用。

    Fine-Tuning with Ertas

    兩個 Qwen 3.6 變體都非常適合在 Ertas Studio 中進行微調。密集 27B 模型可在單張 48GB GPU(如 A6000 或 RTX A6000 Ada)上以 QLoRA 微調,或在 24GB GPU 上使用積極的 4-bit 量化搭配梯度檢查點進行微調。對大多數領域適配的使用情境,27B 變體上的 QLoRA 微調可產生一個保留近乎全部基礎模型能力,同時針對你的領域專門化的微調模型——而無需全參數訓練的記憶體負擔。

    相對於其參數量,35B-A3B MoE 模型的微調效率異常出色。由於每次前向傳遞僅有約 3B 參數活躍,QLoRA 微調可舒適地裝在 24GB GPU 上,並支援高達 8K-16K token 的完整序列長度。Ertas Studio 自動處理 MoE 特有的考量——低秩適配期間的專家路由穩定性、跨專家的負載平衡,以及 LoRA 適配器與 MoE 基礎權重的正確合併。

    微調完成後,Ertas Studio 直接匯出為 GGUF 格式,與兩種 Qwen 3.6 架構完全相容。27B Q4_K_M 量化產生約 16GB 的檔案,可透過 Ollama 或 llama.cpp 部署於 24GB GPU。35B-A3B Q4_K_M 約 20GB,但以 3B 級的推論速度執行——對於同時重視品質與延遲的生產部署而言,是極為出色的選擇。

    Use Cases

    密集 27B 變體是程式編寫密集型工作負載的推薦選擇:程式碼補全、程式碼審查、代理式編程(搭配 Qwen-Agent 或第三方鷹架如 Cline 與 Claude Code 風格的 CLI),以及在需要本地端部署的受監管環境中進行程式碼生成。模型針對程式碼的 RL 訓練使其在真實世界軟體工程任務上特別強,而不只是合成基準。

    35B-A3B MoE 變體在重視 token 吞吐量的生產 API 服務情境表現優異。客戶支援聊天機器人、文件分析管線與內容生成系統都可受益於 3B 級的推論速度,搭配遠勝任何 3B-7B 密集模型的品質。思考模式的切換允許混合部署模式——對例行查詢給予快速直接回應,對需要的 5-10% 複雜查詢進行延伸推理。

    多語言應用對兩個變體都是良好的契合。119 種語言的訓練覆蓋讓 Qwen 3.6 成為少數幾個對越南語、印尼語、泰語、菲律賓語、史瓦希里語與阿拉伯語方言等語言具備生產級品質支援的開源權重模型之一。國際產品團隊經常因為這個語言廣度而選擇 Qwen 3.6 而非 Llama 或 Mistral。

    Hardware Requirements

    密集 Qwen3.6-27B 在 Q4_K_M 量化下約需 16GB VRAM,可裝在單張 RTX 4090、RTX 5090 或任何 24GB+ GPU 上,並在中等上下文長度下保留活化值與 KV 快取的餘裕。在 Q8_0 量化下,預期約需 28GB。完整 BF16 推論約需 54GB VRAM,通常分散於兩張 32GB 或更大的 GPU 上。

    35B-A3B MoE 模型不論每個 token 活躍哪些專家,都會將所有專家載入記憶體。Q4_K_M 下預期約 20GB 記憶體;Q8_0 下約 36GB。儘管相對於 3B 密集模型有較大的記憶體佔用,推論速度由活躍參數量主導,因此在相同硬體上 token 生成以約 3B 級的速度執行。24GB GPU 是實務上的最低門檻。

    在 Ertas Studio 中進行微調:密集 27B 在典型序列長度(4K token)下使用 QLoRA 需 24-32GB VRAM,較長上下文(16K+)則需 40-48GB。35B-A3B MoE 使用 QLoRA 因低活躍參數量僅需 20-24GB VRAM,使其儘管總參數量較大卻意外地易於使用。兩個變體在較長序列訓練時都受益於梯度檢查點。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.