Fine-Tune GLM-5.1 with Ertas

    Z.ai 於 2026 年 4 月 8 日對 GLM-5 的更新——相同的 7,450 億參數基礎搭配精煉後的後訓練,帶來 28% 的程式編寫提升、8 小時自主執行能力,以及 SWE-Bench Pro 領先成績,短暫地讓開源權重模型超越 GPT-5.4 與 Claude Opus 4.6。

    745BZ.ai

    Overview

    GLM-5.1 由 Z.ai 於 2026 年 4 月 7-8 日發布,是兩個月前發布的 GLM-5 基礎之上的後訓練更新。7,450 億參數的密集架構與 GLM-5 相同沒有變動,但後訓練管線在各方面都帶來了可量測的改進——最顯著的是程式編寫基準上的 28% 躍升(在 Z.ai 的內部評測上從 35.4 提升到 45.3),以及改進後的長視界代理執行能力,可支援 8 小時無人監管的自主執行。

    頭條成果是 GLM-5.1 在 SWE-Bench Pro 上短暫領先所有可用模型——包括開源權重與專有模型——勝過 GPT-5.4 與 Claude Opus 4.6。雖然這個領先地位幾乎立即受到 MiMo V2.5 Pro 與其他中國實驗室發布的挑戰,但這一刻標誌著一個轉捩點:開源權重模型在最具公信力的代理式編程基準上首度勝過專有的前沿模型。撰寫本文時,SWE-Bench Pro 主張的獨立驗證仍在進行中,但定性共識是 GLM-5.1 在代理式編程上確實能與閉源前沿競爭。

    8 小時自主執行能力是另一項實務創新。雖然大多數代理系統在延伸執行過程中會失去脈絡與準確性,GLM-5.1 是專門針對長視界可靠性進行後訓練——持續的工具使用保真度、跨數千個推理步驟的持續任務專注,以及從中間失敗中優雅地復原。對於執行長時間自主工作流程的生產部署(大型重構、多日研究綜整、端到端遷移),這項可靠性是有意義的能力增益。

    GLM-5.1 權重可在 Hugging Face 上以 `zai-org/GLM-5.1` 取得。Z.ai 於 2026 年 1 月在香港交易所掛牌上市,獲得機構支持,應能支撐持續的模型投資。授權為商業寬鬆型——大致適合商業部署,條款類似 MIT 風格的授權。

    Key Features

    相對於 GLM-5 的 28% 程式編寫提升是頭條基準成果。這項提升反映的是精煉後的後訓練而非架構變更——同樣的 745B 密集基礎,但搭配大幅升級的程式碼執行獎勵訊號、訓練資料中更長的多輪工具使用軌跡,以及更佳的代理工作流程模式校準。累積效應使 GLM-5.1 與 MiMo V2.5 Pro 及 Kimi K2.6 並列開源權重程式編寫模型的頂尖層級。

    8 小時自主執行能力具有重要的營運意義。大多數代理框架在延伸執行過程中會失去可靠性,因為脈絡漂移、中間錯誤累積、模型失去對原始任務的追蹤。GLM-5.1 專門以長視界執行軌跡進行後訓練——模型可在數千個推理步驟與數萬次工具呼叫中維持任務專注。對於以往每隔 30-60 分鐘就需要交接或人工檢查點的自主工作流程,GLM-5.1 在大幅更長的時間視界上實現了真正無人監管的執行。

    SWE-Bench Pro 短暫領先——發布時,GLM-5.1 據報導在所有模型上勝出,包括專有的前沿模型(GPT-5.4、Claude Opus 4.6)。排行榜主張的獨立驗證仍在進行中,且領先地位在數週內就被其他中國實驗室發布所挑戰,但定性模式很清楚:GLM-5.1 在代理式編程上以早期開源權重模型無法比擬的方式與專有前沿競爭。

    GLM-5.1 繼承 GLM-5 血統,在華為昇騰(Ascend)基礎設施上訓練,而非 NVIDIA 硬體。雖然這對部署團隊影響較小(產生的模型在兩種生態系上服務都相同),但對關注供應鏈多元化或 NVIDIA 硬體取得受限地區的組織而言是值得注意的細節。Z.ai 的技術堆疊是少數幾個有公開記錄在替代 AI 加速器上訓練的前沿規模開源權重模型線之一。

    Fine-Tuning with Ertas

    GLM-5.1 在 745B 密集參數規模下處於實務微調的上限。Ertas Studio 支援在多 GPU 伺服器配置(8x A100 80GB 或更大)上進行 QLoRA 微調,在典型序列長度下總計約需 450-550GB 的 VRAM。在相同參數量下,密集架構從根本上比同等品質的 MoE 替代方案更難有效率地進行微調。

    對大多數沒有 8 GPU 伺服器存取權的團隊,建議的模式是教師-學生蒸餾:使用 GLM-5.1 作為教師來生成合成訓練資料,然後在該資料上微調較小的基礎模型(Qwen 32B、Llama 70B,或——最自然的——具備 32B 活躍 MoE 架構的 GLM-4.5)。GLM-4.5 是特別吸引人的蒸餾目標,因為它繼承了 Z.ai 的提示格式與指令遵循慣例,使蒸餾後的微調與下游 GLM 家族工具更加相容。

    至於微調資料集,GLM-5.1 大幅受益於含有多步代理執行軌跡的訓練資料——任務描述、工具呼叫、觀察到的輸出與校正迭代。Ertas Studio 原生支援這些格式。訓練後,模型匯出為 GGUF 格式並完整保留 GLM-5.1 對話模板。Q4_K_M 量化約 380GB——屬於伺服器級部署範圍。

    Use Cases

    長視界自主工作流程是 GLM-5.1 的定義性目標。生產部署包括執行多小時的自主研究代理、多日程式碼庫遷移(採定期檢查點而非持續監督)、可在長輸出中維持一致語調與結構的端到端內容生產管線,以及需要持續多步推理的複雜分析工作流程。

    代理式編程是強而具體的使用情境。GLM-5.1 在發布時的 SWE-Bench Pro 領先地位,使其成為團隊在無需承諾閉源 API 依賴的情況下,需要前沿品質代理式編程能力時的自架替代方案,可取代 Claude Code 或 Cursor 後端模型。8 小時的自主能力直接轉化為可端到端處理大型重構或功能實作的編程代理。

    研究與分析應用受益於長視界可靠性。跨越數百篇論文的全面文獻回顧、多來源競爭情報彙整、含主要文件綜整的金融分析,以及含廣泛引用管理的科學寫作等任務,都可受益於跨越長執行視窗的持續專注。

    Hardware Requirements

    GLM-5.1 在 Q4_K_M 量化下約需 380GB 記憶體,可裝在 8x A100 80GB 或 8x H100 80GB 伺服器,或是配備 512GB+ RAM 的 CPU 推論主機。密集架構意味著活躍與總參數量相同——生成吞吐量對應於 745B 密集模型,每個 token 的速度遠低於同等品質的 MoE 替代方案。

    對於較小的部署,Q3_K_M 量化(約 290GB)以適度品質換取較少記憶體,可舒適地裝在 4x H100 80GB 伺服器上。生產部署不建議低於 Q3——區別 GLM-5.1 的 8 小時自主執行可靠性,仰賴於跨越長執行視窗的一致品質,過於積極的量化會引入錯誤累積,破壞這項可靠性。

    在 Ertas Studio 中進行微調:GLM-5.1 QLoRA 約需 450-550GB 總 VRAM(多 GPU 伺服器)。對沒有該規模的團隊,GLM-4.5 微調(具備 32B 活躍參數 MoE 架構)大幅更易取得,可在單張 80GB GPU 上以 QLoRA 訓練時的記憶體需求運行。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.