Fine-Tune GLM-4.5 with Ertas

    Z.ai 於 2025 年 7 月發布的專家混合版本——3,550 億總參數,每個 token 活躍 320 億,設計於 8× 華為昇騰 H20 晶片上運作。GLM-5 旗艦的主力前身。

    355B-A32BZ.ai

    Overview

    GLM-4.5 由 Z.ai(前身為智譜)於 2025 年 7 月發布,是該公司部署最廣泛的開放權重模型,也是 GLM 家族的實用主力。3,550 億參數的專家混合架構搭配每 token 320 億活躍參數,為 GLM-4.5 提供強勁的推論經濟性——可媲美 32B 密集模型——同時在多數基準上交付可與更大密集模型競爭的品質。

    一個顯著的設計約束:GLM-4.5 設計用於在 8× 華為昇騰 H20 晶片上運作,使其成為首批刻意鎖定非 NVIDIA 訓練與推論硬體的前沿規模開放權重模型之一。模型架構與量化配方調優以在此替代硬體路徑上有效運作,但在標準 NVIDIA 基礎架構上部署(vLLM、TensorRT-LLM 等)也完整支援。

    GLM-4.5 在 2025 年末由 GLM-4.6(Claude Code 替代方案定位變體)接續為 Z.ai 旗艦,然後在 2026 年 2 月由 GLM-5(745B 規模擴展)接續。對於部署成本敏感的團隊,GLM-4.5 仍是熱門選擇——32B 活躍參數量提供大幅優於 GLM-5 密集 745B 架構的推論經濟性,即使巔峰基準分數較低。

    權重位於 Hugging Face 的 `zai-org/GLM-4.5`。模型以 Z.ai 的商業寬鬆授權條款發布。

    Key Features

    MoE 架構搭配 32B 活躍參數提供生產友善的推論經濟性。標準推論框架上的生成吞吐量以約 32B 等級速度執行,完全在中階伺服器硬體的運作範圍內。對於 token 成本至關重要的高吞吐量 API 服務,這是相對於同等品質密集替代方案的有意義優勢。

    8× 華為昇騰 H20 部署目標是顯著的架構細節。GLM-4.5 是少數有文件記載針對非 NVIDIA 推論基礎架構最佳化的前沿規模開放權重模型之一。對於偏好或要求昇騰部署的地區團隊,這提供清晰的部署路徑。

    GLM-5 之前的優勢仍然強勁。GLM-4.5 在程式碼(GLM-4.6 後續 Claude Code 替代方案變體建構於此基礎之上)、推理與指令遵循工作負載上提供具競爭力的表現。雖然 2026 年並非處於開放權重品質的絕對前沿,GLM-4.5 對於合適的部署形態仍是可信的生產選擇。

    廣泛的商業寬鬆授權結合 32B 活躍參數推論輪廓,使 GLM-4.5 非常適合成本敏感的生產服務——特別是在團隊熟悉 Z.ai 技術堆疊或區域生態系優勢納入決策考量的情境。

    Fine-Tuning with Ertas

    GLM-4.5 的 32B 活躍參數 MoE 架構使其在 Ertas Studio 中相對易於微調。QLoRA 微調在典型序列長度下可裝入單張 80GB GPU,或透過模型平行分散至兩張 48GB GPU。這比微調 GLM-5 的密集 745B 架構(需要多 GPU 伺服器規模)大幅更易取得。

    針對 MoE 架構,Ertas Studio 在低秩適配期間自動處理專家路由穩定性。包含多輪對話、工具使用軌跡與推理範例的訓練資料格式皆原生運作。

    訓練後,Ertas Studio 將 GLM-4.5 微調匯出為 GGUF 格式。Q4_K_M 量化約 200GB——可裝入多 GPU 伺服器(4x A100 80GB 或 4x H100 80GB)並保留餘裕。對於在華為昇騰基礎架構上執行的團隊,也支援針對該硬體最佳化的替代量化格式。

    Use Cases

    GLM-4.5 是採用 Z.ai 生態系團隊的實用主力,特別是在 Z.ai 支援與生態系優勢最強的地區。32B 活躍參數的推論經濟性使其非常適合 token 成本比巔峰基準分數更重要的生產 API 服務。

    對於在華為昇騰基礎架構上執行的團隊,GLM-4.5 為該部署目標所做的有文件記載最佳化是相對於主要為 NVIDIA 硬體調優模型的有意義優勢。替代加速器部署模式因供應鏈多樣性與區域偏好而日益相關。

    面向客戶的聊天機器人、文件分析管線與內容生成工作負載的生產服務,皆受益於 GLM-4.5 強大品質與合理推論經濟性的結合。雖然 GLM-5 提供更高的巔峰品質,GLM-4.5 在高吞吐量部署中常提供更佳的總體擁有成本。

    Hardware Requirements

    GLM-4.5 在 Q4_K_M 量化下約需 200GB 記憶體,可裝入 4x A100 80GB 或 4x H100 80GB 伺服器,或具備 384GB+ RAM 的 CPU 推論主機。載入後,32B 的活躍參數量決定 token 生成吞吐量。

    對於較小部署,Q3_K_M 量化(約 150GB)以適度品質換取較少記憶體,可裝入 2x H100 80GB 或 3x A100 80GB 配置。

    Ertas Studio 中微調:GLM-4.5 QLoRA 需要約 100-160GB 總 VRAM,在典型序列長度下可裝入單張 80GB GPU 或透過模型平行使用兩張 48GB GPU。32B 活躍參數的 MoE 架構使其比直接微調 GLM-5 大幅更易取得。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.