Fine-Tune GLM-4.6 with Ertas

Z.ai 於 2025 年下半年發布的中階版本——一個 3,550 億參數的專家混合模型，具備 200K 上下文、近乎 Claude Sonnet 4 的程式編寫表現，且每個任務所用的 token 比前代少約 15%。配套的視覺變體 GLM-4.6V（106B 與 9B）將該家族延伸至多模態使用情境。

355BZ.ai

Overview

GLM-4.6 由 Z.ai（前身為智譜）於 2025 年 9 月下旬發布，是 GLM-4.5 基礎的中世代更新，並成為 Z.ai 產品線在 2026 年第一季的主力。架構是 3,550 億參數的專家混合（與 GLM-4.5 總參數量相同），但具備大幅精煉的後訓練，產生了品質提升與效率提升。頭條的效率成果是相對於 4.5 在每個任務上產生約 15% 較少的 token，這在生產工作負載上轉化為可觀的推論成本節省。

GLM-4.6 被 Z.ai 定位為程式編寫工作負載上的 Claude Sonnet 4 替代方案——其代理式程式編寫基準表現在生產代理式部署所重視的多步驟任務上達到接近 Anthropic 中階程式編寫模型的水準。雖然不在 2026 排行榜的絕對前沿（現由 GLM-5/5.1、DeepSeek V4 與 Kimi K2.6 主導），GLM-4.6 在 2026 年初仍是熱門的生產選擇，因為其營運經濟性——比 GLM-5 更低的推論成本，搭配對大多數實際工作負載而言足夠的能力。

上下文視窗從 128K（GLM-4.5）跳升至 200K，為大多數專案的長文件推理與完整程式碼庫分析提供有意義的餘裕。結合從 GLM-4.5 MoE 拓樸繼承的 32B 活躍參數量，GLM-4.6 維持了前代的生產友善推論經濟性，同時提供大幅更佳的真實世界品質。

配套的視覺變體系列——2025 年 12 月發布的 GLM-4.6V（106B 與 9B 規格）——將 GLM-4.6 延伸至多模態應用。這些變體內建原生函式呼叫支援與 128K 上下文，使其適合生產級多模態代理式部署。文字模型的權重可在 Hugging Face 的 `zai-org/GLM-4.6` 下取得，視覺變體則在對應路徑下。

Key Features

15% 的 token 效率改進是 GLM-4.6 相對於 4.5 在營運上最有意義的提升。該改進反映了精煉後訓練產生更精簡的回應，內容密度更佳——更少的開場白 token、更少的重複、更直接的任務完成。對於 token 成本經濟性至關重要的生產部署，這直接轉化為相同品質水準下較低的每次請求成本。

Claude Sonnet 4 級的程式編寫能力是頭條基準成果。雖然不同的評估方法產生不同的具體分數，但定性模式是一致的——GLM-4.6 在接近封閉源中階水準的品質下處理真實的代理式程式編寫任務。對於想要 Sonnet 級能力又不想承諾 API 依賴的自託管部署，GLM-4.6 提供可信的替代方案。

200K 上下文視窗對大多數生產使用情境而言慷慨。完整文件分析、多檔案程式碼審查、長對話連續性與類似的長上下文模式，對於大部分真實工作負載都可舒適地裝入 200K token。雖然較新的模型（DeepSeek V4 1M、Llama 4 Scout 10M）標榜更大的上下文，但 GLM-4.6 在 200K 下的有效上下文保留通常比替代方案在更大標榜上限下更佳。

GLM-4.6V 視覺變體（106B 與 9B）採用與文字模型相同的提示格式與工具使用慣例，使部署統一的多模態代理系統相當直接。視覺變體上的原生函式呼叫結合 128K 上下文，可直接支援生產多模態代理模式，無需獨立視覺與文字模型之間的框架級膠水程式碼。

Fine-Tuning with Ertas

在 Ertas Studio 中對 GLM-4.6 進行微調透過標準 MoE 訓練管線運作。每個 token 32B 活躍參數，QLoRA 訓練在典型序列長度下可裝在單張 80GB GPU 上，或透過模型並行分散於兩張 48GB GPU。這比微調更大的 745B GLM-5 家族大幅更易使用，使 GLM-4.6 對想要在 Z.ai 家族上特化的團隊特別有吸引力。

針對 MoE 架構，Ertas Studio 在低秩適配期間自動處理專家路由穩定性。包含多輪對話、工具使用軌跡與推理範例的訓練資料格式皆原生運作。針對多模態微調，GLM-4.6V 變體支援交錯式文字與影像訓練資料格式。

訓練完成後，Ertas Studio 將 GLM-4.6 微調模型匯出為 GGUF 格式並完整保留對話模板。Q4_K_M 量化約 200GB——可裝在多 GPU 伺服器（4 張 A100 80GB 或類似）並有餘裕。對於在華為昇騰基礎設施上部署的團隊，也支援針對該硬體優化的替代量化格式。

Use Cases

GLM-4.6 適合廣泛的生產部署情境。客服聊天機器人、文件分析管線、內容生成系統與工程團隊的程式輔助，皆可受益於強大的跨領域能力與生產友善的推論經濟性結合。32B 的活躍參數量提供良好的每次請求吞吐量，且 200K 上下文可處理大多數長上下文工作負載而無需階層式檢索模式。

針對代理式程式編寫部署，GLM-4.6 自託管時在大幅較低的每次請求成本下與 Sonnet 級的專有替代方案具有競爭力。AI 結對程式設計、程式碼審查自動化與 CI 整合的程式編寫工作流程皆可受益於 GLM-4.6 強大程式編寫能力與營運經濟性的結合。

GLM-4.6V 視覺變體將該家族延伸至混合文字與影像內容的使用情境——含嵌入式圖表的文件處理、含圖示的技術分析、多模態客服與無障礙應用。9B 變體特別適合消費級硬體的多模態部署，使裝置端或邊緣多模態應用變得實用。

Hardware Requirements

GLM-4.6 在 Q4_K_M 量化下約需 200GB 記憶體，可裝在 4 張 A100 80GB 或 4 張 H100 80GB 伺服器上，或具備 384GB+ RAM 的 CPU 推論主機上。一旦載入後，32B 的活躍參數量決定 token 生成吞吐量。

對於較小部署，Q3_K_M 量化（約 150GB）以略低品質換取較少記憶體，可裝在 2 張 H100 80GB 或 3 張 A100 80GB 配置上。針對 Apple Silicon 部署，192GB Mac Studio M3 Ultra 配置可在 Q3 下執行 GLM-4.6 並有可用效能。

在 Ertas Studio 中進行微調：GLM-4.6 QLoRA 約需 100-160GB 總 VRAM，在典型序列長度下可裝在單張 80GB GPU 上，或在模型並行下兩張 48GB GPU 上。32B 活躍參數的 MoE 架構使訓練比微調同等品質的密集替代方案大幅更高效。GLM-4.6V 視覺變體（106B 與 9B）的推論分別需要 60-90GB 與 6-12GB，微調需求按比例。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →