Fine-Tune Qwen3-Coder-Next with Ertas

    阿里巴巴於 2026 年 2 月推出的小巨人版本——一個 800 億參數的專家混合模型,每個 token 僅活躍 3B 參數,在程式設計基準上勝過 DeepSeek V3.2(37B 活躍)、Kimi K2.5 與 GLM-4.7(各 32B 活躍),同時激活的參數少 10 倍。Apache 2.0 授權,256K 上下文。

    80B-A3BAlibaba

    Overview

    Qwen3-Coder-Next 由阿里巴巴於 2026 年 2 月 2-4 日發布,是當年最具架構積極性的開放權重發布之一——一個 800 億參數的專家混合模型,每個 token 僅激活 30 億參數。26:1 的總參數對活躍參數比是開放權重生態系中最積極的比例之一,該模型證明了超稀疏 MoE 設計能提供顯著優於較不稀疏替代方案的「每個活躍參數效能」。

    標題基準結果令人矚目。儘管激活的參數比 DeepSeek V3.2(37B 活躍)少 10 倍,比 Kimi K2.5 / GLM-4.7(各 32B 活躍)少 10 倍,Qwen3-Coder-Next 在代理式程式設計基準上仍能與其匹敵或超越。SWE-Bench Verified 約 70.6% 的得分使其與推論成本顯著更高的模型具有競爭力。對於 token 成本經濟性至關重要的生產部署——高吞吐量程式設計代理、CI 整合的程式碼審查系統、大規模 AI 結對程式設計——Qwen3-Coder-Next 是目前最具成本效益的開放權重選擇之一。

    架構為代理式程式設計部署目的而設計。如同更廣泛的 Qwen3-Coder 產品線,後訓練強調可驗證的程式碼執行獎勵與多步驟代理軌跡。256K 的上下文視窗對大多數專案的完整程式碼庫推理而言足夠寬裕,得益於從 Qwen3-Next 研究產品線借鑒的架構精煉,其有效上下文保留優於相同公告長度下的單純 RoPE 延伸模型。

    Apache 2.0 授權結合小巨人推論經濟性,使 Qwen3-Coder-Next 對自行託管程式設計代理部署特別具吸引力。權重於 Hugging Face 的 `Qwen/Qwen3-Coder-Next` 取得。模型透過標準 MCP 與函式呼叫介面,原生整合 Qwen-Agent、Claude Code、Cline、Aider 與其他代理式程式設計 CLI。

    Key Features

    26:1 總參數對活躍參數比的超稀疏 MoE 是 Qwen3-Coder-Next 最具代表性的架構選擇。80B 的總參數容量提供大量知識廣度,而 3B 的活躍參數量讓推論經濟性留在消費級 GPU 範疇。在標準推論框架上的 token 生成吞吐量以約 3B 級速度運行,使該模型可部署於延遲敏感的生產情境,這些情境下較大活躍參數的替代方案會過於緩慢。

    聚焦程式設計的訓練轉化為真實世界的可靠性。後訓練流程強調可驗證的程式碼執行結果——模型因產生實際能執行並通過測試的程式碼而獲得獎勵,而非看起來正確的程式碼。結合多步驟代理軌跡訓練(規劃、工具使用、觀察輸出、迭代),這產生的模型處理真實生產程式設計代理工作負載時,比同等規模通用模型更為可靠。

    與代理式程式設計 CLI 生態系的原生整合在運作上具有重要意義。Qwen3-Coder-Next 是專門設計用來接入 Claude Code、Cline、Aider 與類似工具的——其提示格式、工具使用架構與多輪行為符合這些工具預期的模式。對於從基於 Claude 或 GPT 的程式設計代理切換至自行託管替代方案的團隊,整合摩擦顯著低於從通用基礎開始適配。

    Apache 2.0 授權結合 256K 上下文與推論經濟性,使 Qwen3-Coder-Next 對生產自行託管部署特別具吸引力。256K 上下文可處理大多數程式碼庫的完整儲存庫推理,而授權則消除了限制性授權替代方案常見的商業部署摩擦。

    Fine-Tuning with Ertas

    Qwen3-Coder-Next 的 3B 活躍參數 MoE 架構使其在 Ertas Studio 中微調極為高效。QLoRA 微調可舒適地運行於單張 24GB GPU——活躍參數量驅動訓練時的運算,因此 80B 的總參數佔用對記憶體有影響,但對每步訓練成本沒有影響。

    就微調資料集而言,Qwen3-Coder-Next 從包含完整代理式程式設計軌跡(任務描述、規劃、程式碼編輯、測試輸出與迭代)的訓練資料中獲益匪淺。Ertas Studio 原生支援這些多步驟格式,包括來自 Claude Code、Cline 或 Aider 執行的工具使用軌跡。在團隊特定的程式設計模式與程式碼庫慣例上訓練,能產生在程式碼庫內任務上大幅超越基礎模型的領域專用模型。

    訓練完成後,Ertas Studio 匯出為 GGUF 格式並完整保留 Qwen3-Coder-Next 對話模板。Q4_K_M 量化約為 45GB——可在單張 48GB GPU 上運行,或以模型平行分散於兩張 24GB GPU。儘管總參數量為 80B,推論以約 3B 級速度運行,使微調部署對高吞吐量代理式程式設計工作負載而言相當實用。

    Use Cases

    自行託管的代理式程式設計代理是 Qwen3-Coder-Next 的主要目標。生產部署模式包括例行變更模式的自主 PR 生成、具團隊特定程式碼庫理解(透過微調)的 AI 結對程式設計、CI 整合的程式碼審查與測試生成,以及大規模重構協助。前沿級程式設計能力與小活躍參數推論經濟性的結合,使自行託管部署在比原本可行的請求量大幅更高的情境下,仍能與基於 API 的替代方案競爭。

    對於考慮自行託管以替代 Claude Code、Cursor 後端模型或 GitHub Copilot 的團隊,Qwen3-Coder-Next 是 2026 年最具吸引力的選擇之一。Apache 2.0 授權結合推論經濟性,在比較大型 MoE 替代方案(如 Kimi K2.6 或 DeepSeek V4)所需更低的請求量下即可損益兩平,使其對較小團隊也具可及性。

    完整程式碼庫推理工作流程能從 256K 上下文中獲益。架構審查、跨整個程式碼庫的安全稽核、依賴項升級影響分析,以及大型重構規劃,都能在大多數真實程式碼庫上落於 Qwen3-Coder-Next 的上下文視窗內。結合優於單純長上下文模型的有效上下文保留,這啟用了較小上下文替代方案無法匹敵的全面性程式碼庫推理模式。

    Hardware Requirements

    Qwen3-Coder-Next 在 Q4_K_M 量化下約需 45GB 記憶體(所有專家權重皆載入)。單張 48GB GPU 是部署的甜蜜點,可同時容納模型與合理的上下文,並為 KV 快取留有餘量。或者,64GB+ 的 Apple Silicon Mac(M2/M3/M4 Ultra Mac Studio)可透過 MLX 以完整品質部署該模型。

    儘管總參數量為 80B,推論速度由 3B 的活躍參數量主導——在標準推論框架上,生成吞吐量以約 3B 級速度運行。這使 Qwen3-Coder-Next 在延遲敏感的生產部署中相當實用,這在 30B+ 活躍替代方案上是無法做到的。

    在 Ertas Studio 中進行微調:Qwen3-Coder-Next QLoRA 在典型序列長度下約需 22-30GB VRAM,得益於 3B 的活躍參數量。長上下文微調(32K-64K 序列)在 48GB GPU 上配合梯度檢查點可行——比微調同等程式設計能力品質的同等模型大幅更為普及。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.