Fine-Tune GLM-4.7 with Ertas

    Z.ai 於 2025 年 12 月發布的程式編寫導向版本——一個 4,000 億參數的專家混合模型,具備「保留思考」多輪推理,加上一個較小的 GLM-4.7 Flash 變體用於生產服務。發布時在開源權重模型中登頂 Code Arena,後續由 GLM-5 系列接棒。

    ~400B (旗艦)Flash (較小)Z.ai

    Overview

    GLM-4.7 由 Z.ai 於 2025 年 12 月 22 日發布,是 GLM-4.6 的程式編寫導向後繼者,也是在 GLM-5 系列接掌家族旗艦地位之前,建立 Z.ai 在代理式程式編寫基準上競爭地位的模型。旗艦約 4,000 億參數,採用專家混合架構,搭配 Flash 變體——一個較小的蒸餾級別,針對推論經濟性比顛峰能力更重要的生產服務優化。

    頭條的基準成果是 GLM-4.7 在發布時於開源權重模型中登頂 Code Arena。Code Arena 衡量跨多元程式設計任務的真實世界程式編寫能力,當時相較於 HumanEval 風格基準明顯較少飽和,為頂級程式編寫模型之間提供有意義的差異化。GLM-4.7 的領先——雖然這是一個瞬間而非持續的位置,因為 Qwen3-Coder-Next、MiMo V2.5 Pro 與 Kimi K2.5 隨後在不同程式編寫基準上建立了領先——是 2026 年初開源權重程式編寫模型競爭中的重要資料點。

    GLM-4.7 中具特色的架構創新是「保留思考」——一種多輪推理模式,模型在對話的多個輪次間維持其推理狀態,相較於典型的混合推理模型,可進行更連貫的長時間代理式執行。Qwen 3+ 與 DeepSeek V3.2/V4 的思考模式在單一輪次內運作,而保留思考則設計用於跨越多輪、橫跨數小時執行的工作流程。此模式是 GLM-5.1 的 8 小時自主執行能力的先驅。

    GLM-4.7 已實質上被 GLM-5(2026 年 2 月)與 GLM-5.1(2026 年 4 月)取代為 Z.ai 旗艦,這兩者使用不同的 745B 基礎架構,而非延續 GLM-4 的脈絡。GLM-4.7 仍作為 GLM 家族演化中已被記錄的一步而具有相關性,並作為對需要程式編寫導向能力與獨特多輪推理行為的團隊的生產選項。權重可在 Hugging Face 的 `zai-org/GLM-4.7` 與 `zai-org/GLM-4.7-Flash` 下取得。

    Key Features

    發布時的 Code Arena 領先地位是 GLM-4.7 的頭條基準成果。模型短暫占據 Code Arena 上的開源權重首位,證明程式編寫導向訓練與保留思考架構共同產生了相對於替代開源權重選項可衡量的真實世界能力提升。雖然該領先在數月內就被較新發布所挑戰,但這個瞬間驗證了 Z.ai 對代理式程式編寫能力的策略聚焦。

    保留思考是使 GLM-4.7 與同期模型不同的架構特徵。標準混合推理模型(Qwen 3+、DeepSeek V3.2/V4)在單一對話輪次內計算推理軌跡——下一輪重新開始。GLM-4.7 的保留思考跨輪維持推理狀態,使模型能在處理同一對話中後續查詢時參照其先前的思考。對於上下文漂移是品質問題的長時間代理式工作流程,此模式產生可衡量的改進。

    Flash 變體填補生產服務的利基。雖然旗艦 400B 模型規模足以需要多 GPU 伺服器部署,但 GLM-4.7 Flash 鎖定單 GPU 與消費級硬體部署,品質與中階密集替代方案具有競爭力。對於大規模執行生產程式編寫代理的團隊,Flash 變體強大程式編寫能力與生產友善經濟性的結合特別具有吸引力。

    GLM-4.7 是建立 Z.ai 為認真的開源權重程式編寫模型競爭者的模型。在 4.7 之前,Z.ai 普遍被視為有能力但屬第二級的中國實驗室開源權重供應商。Code Arena 成果與更廣泛的 4.7 接受度,為 GLM-5/5.1 後繼發布定位 Z.ai,這些後繼發布隨後將該公司確立為頂級開源權重模型供應商之一。

    Fine-Tuning with Ertas

    在 Ertas Studio 中對 GLM-4.7 進行微調透過標準 MoE 訓練管線運作。旗艦 400B 變體需要多 GPU 伺服器配置進行 QLoRA——在典型序列長度下總共約 250-320GB VRAM。Flash 變體則大幅更易使用,可在單張 48-80GB GPU 上裝下 QLoRA 訓練。

    針對程式編寫特定的微調,GLM-4.7 受益於包含完整代理式執行軌跡的訓練資料——任務描述、規劃、多輪工具使用與觀察結果。當訓練資料適當地運用多輪推理模式時,保留思考架構在微調過程中保留推理狀態。Ertas Studio 原生支援這些格式,包括帶有明確思考軌跡的代理式對話格式。

    對於沒有多 GPU 伺服器存取的多數團隊,建議的模式是使用 GLM-4.7 旗艦作為教師產生合成訓練資料,然後在該資料上微調 GLM-4.7 Flash 或較小基礎。這在生產友善的部署成本下產生領域特化程式編寫模型,同時繼承 GLM-4.7 的程式編寫模式與保留思考行為。

    訓練完成後,Ertas Studio 匯出為 GGUF 格式並完整保留 GLM-4.7 對話模板。旗艦與 Flash 變體都可乾淨地透過 Ollama、llama.cpp 或 vLLM 部署,並透過自訂模型配置一鍵整合至 Claude Code、Cline 或 Aider。

    Use Cases

    多輪代理式程式編寫工作流程受益於 GLM-4.7 的保留思考架構。長時間實作任務——跨越多個開發週期的功能、迭代進行的複雜重構、跨會話暫停與恢復的程式碼庫遷移——透過保留思考處理多輪模式比透過單輪推理模型更可靠。對於建構在可觀時間窗口內運行的生產程式編寫代理的團隊,GLM-4.7 值得相對於替代方案進行特定評估。

    Flash 變體鎖定高吞吐量程式編寫代理服務。面向客戶的程式編寫工具、內部開發者助理與 CI 整合的程式碼審查代理,皆可受益於較小變體強大程式編寫品質與生產友善推論經濟性的結合。對於在 GLM-4.7 Flash 與 Qwen3-Coder-Next 之間選擇作為 Claude Code 自託管替代方案的團隊,兩者都是具有不同營運取捨的可信選項。

    對於在 GLM-5 系列推出之前已採用、執行穩定生產部署的團隊,GLM-4.7 仍是個有記錄且支援的選項。遷移到 GLM-5/5.1 提供可衡量的能力改進,但伴隨非微不足道的營運變更成本。對於有既有管線投資的團隊,GLM-4.7 微調工作流程仍然有效。

    Hardware Requirements

    GLM-4.7 旗艦在 Q4_K_M 量化下約需 220GB 記憶體,可裝在 4 張 A100 80GB 或 4 張 H100 80GB 伺服器上,或具備 384GB+ RAM 的 CPU 推論主機上。Flash 變體所需大幅較少——依量化等級約需 30-50GB——可裝在單張 48-80GB GPU 上。

    對於較小部署,Q3_K_M 量化(旗艦約 165GB,Flash 約 22-38GB)以略低品質換取較少記憶體。Flash 變體的 Q3 部署對消費級硬體配置(高階 Mac Studio 配置、雙 GPU 工作站)真正可使用。

    在 Ertas Studio 中進行微調:GLM-4.7 旗艦 QLoRA 約需 250-320GB 總 VRAM(多 GPU 伺服器)。GLM-4.7 Flash QLoRA 需 32-48GB VRAM,可裝在單張 48-80GB GPU 上。Flash 變體的訓練可使用性使其成為大多數對領域特化感興趣但沒有伺服器級基礎設施的團隊的實用選擇。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.