Fine-Tune Qwen3-Coder-Next with Ertas

阿里巴巴於 2026 年 2 月推出的小巨人版本——一個 800 億參數的專家混合模型，每個 token 僅活躍 3B 參數，在程式設計基準上勝過 DeepSeek V3.2（37B 活躍）、Kimi K2.5 與 GLM-4.7（各 32B 活躍），同時激活的參數少 10 倍。Apache 2.0 授權，256K 上下文。

80B-A3BAlibaba

Overview

Qwen3-Coder-Next 由阿里巴巴於 2026 年 2 月 2-4 日發布，是當年最具架構積極性的開放權重發布之一——一個 800 億參數的專家混合模型，每個 token 僅激活 30 億參數。26:1 的總參數對活躍參數比是開放權重生態系中最積極的比例之一，該模型證明了超稀疏 MoE 設計能提供顯著優於較不稀疏替代方案的「每個活躍參數效能」。

標題基準結果令人矚目。儘管激活的參數比 DeepSeek V3.2（37B 活躍）少 10 倍，比 Kimi K2.5 / GLM-4.7（各 32B 活躍）少 10 倍，Qwen3-Coder-Next 在代理式程式設計基準上仍能與其匹敵或超越。SWE-Bench Verified 約 70.6% 的得分使其與推論成本顯著更高的模型具有競爭力。對於 token 成本經濟性至關重要的生產部署——高吞吐量程式設計代理、CI 整合的程式碼審查系統、大規模 AI 結對程式設計——Qwen3-Coder-Next 是目前最具成本效益的開放權重選擇之一。

架構為代理式程式設計部署目的而設計。如同更廣泛的 Qwen3-Coder 產品線，後訓練強調可驗證的程式碼執行獎勵與多步驟代理軌跡。256K 的上下文視窗對大多數專案的完整程式碼庫推理而言足夠寬裕，得益於從 Qwen3-Next 研究產品線借鑒的架構精煉，其有效上下文保留優於相同公告長度下的單純 RoPE 延伸模型。

Apache 2.0 授權結合小巨人推論經濟性，使 Qwen3-Coder-Next 對自行託管程式設計代理部署特別具吸引力。權重於 Hugging Face 的 `Qwen/Qwen3-Coder-Next` 取得。模型透過標準 MCP 與函式呼叫介面，原生整合 Qwen-Agent、Claude Code、Cline、Aider 與其他代理式程式設計 CLI。

Key Features

26:1 總參數對活躍參數比的超稀疏 MoE 是 Qwen3-Coder-Next 最具代表性的架構選擇。80B 的總參數容量提供大量知識廣度，而 3B 的活躍參數量讓推論經濟性留在消費級 GPU 範疇。在標準推論框架上的 token 生成吞吐量以約 3B 級速度運行，使該模型可部署於延遲敏感的生產情境，這些情境下較大活躍參數的替代方案會過於緩慢。

聚焦程式設計的訓練轉化為真實世界的可靠性。後訓練流程強調可驗證的程式碼執行結果——模型因產生實際能執行並通過測試的程式碼而獲得獎勵，而非看起來正確的程式碼。結合多步驟代理軌跡訓練（規劃、工具使用、觀察輸出、迭代），這產生的模型處理真實生產程式設計代理工作負載時，比同等規模通用模型更為可靠。

與代理式程式設計 CLI 生態系的原生整合在運作上具有重要意義。Qwen3-Coder-Next 是專門設計用來接入 Claude Code、Cline、Aider 與類似工具的——其提示格式、工具使用架構與多輪行為符合這些工具預期的模式。對於從基於 Claude 或 GPT 的程式設計代理切換至自行託管替代方案的團隊，整合摩擦顯著低於從通用基礎開始適配。

Apache 2.0 授權結合 256K 上下文與推論經濟性，使 Qwen3-Coder-Next 對生產自行託管部署特別具吸引力。256K 上下文可處理大多數程式碼庫的完整儲存庫推理，而授權則消除了限制性授權替代方案常見的商業部署摩擦。

Fine-Tuning with Ertas

Qwen3-Coder-Next 的 3B 活躍參數 MoE 架構使其在 Ertas Studio 中微調極為高效。QLoRA 微調可舒適地運行於單張 24GB GPU——活躍參數量驅動訓練時的運算，因此 80B 的總參數佔用對記憶體有影響，但對每步訓練成本沒有影響。

就微調資料集而言，Qwen3-Coder-Next 從包含完整代理式程式設計軌跡（任務描述、規劃、程式碼編輯、測試輸出與迭代）的訓練資料中獲益匪淺。Ertas Studio 原生支援這些多步驟格式，包括來自 Claude Code、Cline 或 Aider 執行的工具使用軌跡。在團隊特定的程式設計模式與程式碼庫慣例上訓練，能產生在程式碼庫內任務上大幅超越基礎模型的領域專用模型。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 Qwen3-Coder-Next 對話模板。Q4_K_M 量化約為 45GB——可在單張 48GB GPU 上運行，或以模型平行分散於兩張 24GB GPU。儘管總參數量為 80B，推論以約 3B 級速度運行，使微調部署對高吞吐量代理式程式設計工作負載而言相當實用。

Use Cases

自行託管的代理式程式設計代理是 Qwen3-Coder-Next 的主要目標。生產部署模式包括例行變更模式的自主 PR 生成、具團隊特定程式碼庫理解（透過微調）的 AI 結對程式設計、CI 整合的程式碼審查與測試生成，以及大規模重構協助。前沿級程式設計能力與小活躍參數推論經濟性的結合，使自行託管部署在比原本可行的請求量大幅更高的情境下，仍能與基於 API 的替代方案競爭。

對於考慮自行託管以替代 Claude Code、Cursor 後端模型或 GitHub Copilot 的團隊，Qwen3-Coder-Next 是 2026 年最具吸引力的選擇之一。Apache 2.0 授權結合推論經濟性，在比較大型 MoE 替代方案（如 Kimi K2.6 或 DeepSeek V4）所需更低的請求量下即可損益兩平，使其對較小團隊也具可及性。

完整程式碼庫推理工作流程能從 256K 上下文中獲益。架構審查、跨整個程式碼庫的安全稽核、依賴項升級影響分析，以及大型重構規劃，都能在大多數真實程式碼庫上落於 Qwen3-Coder-Next 的上下文視窗內。結合優於單純長上下文模型的有效上下文保留，這啟用了較小上下文替代方案無法匹敵的全面性程式碼庫推理模式。

Hardware Requirements

Qwen3-Coder-Next 在 Q4_K_M 量化下約需 45GB 記憶體（所有專家權重皆載入）。單張 48GB GPU 是部署的甜蜜點，可同時容納模型與合理的上下文，並為 KV 快取留有餘量。或者，64GB+ 的 Apple Silicon Mac（M2/M3/M4 Ultra Mac Studio）可透過 MLX 以完整品質部署該模型。

儘管總參數量為 80B，推論速度由 3B 的活躍參數量主導——在標準推論框架上，生成吞吐量以約 3B 級速度運行。這使 Qwen3-Coder-Next 在延遲敏感的生產部署中相當實用，這在 30B+ 活躍替代方案上是無法做到的。

在 Ertas Studio 中進行微調：Qwen3-Coder-Next QLoRA 在典型序列長度下約需 22-30GB VRAM，得益於 3B 的活躍參數量。長上下文微調（32K-64K 序列）在 48GB GPU 上配合梯度檢查點可行——比微調同等程式設計能力品質的同等模型大幅更為普及。