Fine-Tune GLM-4.5 with Ertas

Z.ai 於 2025 年 7 月發布的專家混合版本——3,550 億總參數，每個 token 活躍 320 億，設計於 8× 華為昇騰 H20 晶片上運作。GLM-5 旗艦的主力前身。

355B-A32BZ.ai

Overview

GLM-4.5 由 Z.ai（前身為智譜）於 2025 年 7 月發布，是該公司部署最廣泛的開放權重模型，也是 GLM 家族的實用主力。3,550 億參數的專家混合架構搭配每 token 320 億活躍參數，為 GLM-4.5 提供強勁的推論經濟性——可媲美 32B 密集模型——同時在多數基準上交付可與更大密集模型競爭的品質。

一個顯著的設計約束：GLM-4.5 設計用於在 8× 華為昇騰 H20 晶片上運作，使其成為首批刻意鎖定非 NVIDIA 訓練與推論硬體的前沿規模開放權重模型之一。模型架構與量化配方調優以在此替代硬體路徑上有效運作，但在標準 NVIDIA 基礎架構上部署（vLLM、TensorRT-LLM 等）也完整支援。

GLM-4.5 在 2025 年末由 GLM-4.6（Claude Code 替代方案定位變體）接續為 Z.ai 旗艦，然後在 2026 年 2 月由 GLM-5（745B 規模擴展）接續。對於部署成本敏感的團隊，GLM-4.5 仍是熱門選擇——32B 活躍參數量提供大幅優於 GLM-5 密集 745B 架構的推論經濟性，即使巔峰基準分數較低。

權重位於 Hugging Face 的 `zai-org/GLM-4.5`。模型以 Z.ai 的商業寬鬆授權條款發布。

Key Features

MoE 架構搭配 32B 活躍參數提供生產友善的推論經濟性。標準推論框架上的生成吞吐量以約 32B 等級速度執行，完全在中階伺服器硬體的運作範圍內。對於 token 成本至關重要的高吞吐量 API 服務，這是相對於同等品質密集替代方案的有意義優勢。

8× 華為昇騰 H20 部署目標是顯著的架構細節。GLM-4.5 是少數有文件記載針對非 NVIDIA 推論基礎架構最佳化的前沿規模開放權重模型之一。對於偏好或要求昇騰部署的地區團隊，這提供清晰的部署路徑。

GLM-5 之前的優勢仍然強勁。GLM-4.5 在程式碼（GLM-4.6 後續 Claude Code 替代方案變體建構於此基礎之上）、推理與指令遵循工作負載上提供具競爭力的表現。雖然 2026 年並非處於開放權重品質的絕對前沿，GLM-4.5 對於合適的部署形態仍是可信的生產選擇。

廣泛的商業寬鬆授權結合 32B 活躍參數推論輪廓，使 GLM-4.5 非常適合成本敏感的生產服務——特別是在團隊熟悉 Z.ai 技術堆疊或區域生態系優勢納入決策考量的情境。

Fine-Tuning with Ertas

GLM-4.5 的 32B 活躍參數 MoE 架構使其在 Ertas Studio 中相對易於微調。QLoRA 微調在典型序列長度下可裝入單張 80GB GPU，或透過模型平行分散至兩張 48GB GPU。這比微調 GLM-5 的密集 745B 架構（需要多 GPU 伺服器規模）大幅更易取得。

針對 MoE 架構，Ertas Studio 在低秩適配期間自動處理專家路由穩定性。包含多輪對話、工具使用軌跡與推理範例的訓練資料格式皆原生運作。

訓練後，Ertas Studio 將 GLM-4.5 微調匯出為 GGUF 格式。Q4_K_M 量化約 200GB——可裝入多 GPU 伺服器（4x A100 80GB 或 4x H100 80GB）並保留餘裕。對於在華為昇騰基礎架構上執行的團隊，也支援針對該硬體最佳化的替代量化格式。

Use Cases

GLM-4.5 是採用 Z.ai 生態系團隊的實用主力，特別是在 Z.ai 支援與生態系優勢最強的地區。32B 活躍參數的推論經濟性使其非常適合 token 成本比巔峰基準分數更重要的生產 API 服務。

對於在華為昇騰基礎架構上執行的團隊，GLM-4.5 為該部署目標所做的有文件記載最佳化是相對於主要為 NVIDIA 硬體調優模型的有意義優勢。替代加速器部署模式因供應鏈多樣性與區域偏好而日益相關。

面向客戶的聊天機器人、文件分析管線與內容生成工作負載的生產服務，皆受益於 GLM-4.5 強大品質與合理推論經濟性的結合。雖然 GLM-5 提供更高的巔峰品質，GLM-4.5 在高吞吐量部署中常提供更佳的總體擁有成本。

Hardware Requirements

GLM-4.5 在 Q4_K_M 量化下約需 200GB 記憶體，可裝入 4x A100 80GB 或 4x H100 80GB 伺服器，或具備 384GB+ RAM 的 CPU 推論主機。載入後，32B 的活躍參數量決定 token 生成吞吐量。

對於較小部署，Q3_K_M 量化（約 150GB）以適度品質換取較少記憶體，可裝入 2x H100 80GB 或 3x A100 80GB 配置。

Ertas Studio 中微調：GLM-4.5 QLoRA 需要約 100-160GB 總 VRAM，在典型序列長度下可裝入單張 80GB GPU 或透過模型平行使用兩張 48GB GPU。32B 活躍參數的 MoE 架構使其比直接微調 GLM-5 大幅更易取得。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →