Fine-Tune GLM-5 with Ertas

Z.ai 的 2026 年 2 月旗艦——一個於華為昇騰晶片上訓練的 7,450 億參數模型，是 GLM-5 系列的基礎，在 2026 年 4 月 GLM-5.1 更新加入大量後訓練改善之前。Z.ai 於 2026 年 1 月在香港證券交易所掛牌上市。

745BZ.ai

Overview

GLM-5 由 Z.ai（前身為智譜）於 2026 年 2 月 11 日發布，是 GLM-5 系列的基礎核心——一個於華為昇騰晶片上訓練的 7,450 億參數密集模型。GLM-5 兩個月後由 GLM-5.1（2026 年 4 月 8 日）接續，後者使用相同的基礎架構但加入了精煉的後訓練，帶來 28% 的程式碼改善與 8 小時自主執行能力。對於新部署，GLM-5.1 是建議的選擇；GLM-5 作為基礎發布以及在 5.1 更新前已採用的穩定生產部署團隊仍相關。

GLM-5 訓練的一個顯著細節是使用華為昇騰晶片而非 NVIDIA 硬體訓練——使其成為首批在替代 AI 加速器基礎架構上訓練的前沿規模開放權重模型之一。這對 AI 訓練的地緣政治與供應鏈敘事具有意涵，但對多數部署團隊而言，架構與品質特性比訓練硬體更重要。

Z.ai 於 2026 年 1 月 8 日在香港證券交易所上市，顯示對該公司 AI 基礎架構定位的高度機構興趣。GLM-5 建構於 GLM-4.5（2025 年 7 月）的架構與後訓練方法，在參數量與訓練資料上大幅擴展。模型定位強調 Claude Code 風格的代理式程式碼能力——使其成為評估此利基領域 GLM-4.6 或類似模型團隊的可信自主託管替代方案。

權重位於 Hugging Face 的 `zai-org/GLM-5`。授權條款屬商業寬鬆，但針對特定部署情境值得審閱。

Key Features

BenchLM 整體分數位於 70 多分區段，使 GLM-5 位列開放權重模型頂級——並非絕對排行榜頂端（DeepSeek V4 為 87、Kimi K2.6 為 86），但與發布時的二級旗艦穩固競爭。GLM-5.1 更新僅透過後訓練精煉就將此分數進一步提升（BenchLM 83），展現 GLM-5 基礎中大量未實現的能力。模型優勢在程式碼與推理基準上特別顯著，GLM-5 大幅優於前身 GLM-4.5。

在華為昇騰晶片上訓練是顯著的基礎架構細節。雖然模型架構與行為與 NVIDIA 訓練的同等模型沒有根本差異，但這代表前沿規模開放權重模型首次來自非 NVIDIA 訓練管線之一。對於關心供應鏈多樣性或處於 NVIDIA 硬體取得受限地區的團隊，GLM-5 的訓練源頭可能相關。

Claude Code 替代方案定位——強調代理式程式碼能力——使 GLM-5 非常適合自主託管程式碼代理部署。雖然 MiMo V2.5 Pro 與 Kimi K2.6 領先開放權重程式碼基準，GLM-5 是可信的替代方案，特別是 Z.ai 區域支援與生態系為強優勢的地區團隊。

Z.ai 在香港證券交易所的 IPO 提供持續的機構支撐，應能支援持續的模型投資與生態系發展。對於評估特定中國實驗室開放權重模型長期承諾的團隊，這在模型發布之外提供額外的信心。

Fine-Tuning with Ertas

GLM-5 以 745B 參數處於實際微調的上限。Ertas Studio 支援多 GPU 伺服器配置（8x A100 80GB 或更大）的 QLoRA 微調，在典型序列長度下總計約需 450-550GB VRAM。

對於沒有 8 GPU 伺服器存取的多數團隊而言，建議的模式是教師-學生蒸餾：使用 GLM-5 作為教師生成合成訓練資料，然後在該資料上微調較小的基礎模型（Qwen 32B、Llama 70B 或 GLM-4.5 本身）。GLM-4.5 的 355B/32B 活躍架構是比直接使用 GLM-5 更易取得的蒸餾目標。

訓練後，Ertas Studio 將 GLM-5 微調匯出為 GGUF 格式。Q4_K_M 量化約 380GB——伺服器級部署。對於多數對 GLM 能力感興趣但不願承擔多 GPU 占用的團隊，直接微調 GLM-4.5 或蒸餾至較小基礎是更實際的路徑。

Use Cases

GLM-5 最適合執行多 GPU 伺服器基礎架構、希望取得 DeepSeek V4 或 Kimi K2.6 高品質開放權重替代方案的團隊。對於與 Z.ai 生態系有強連結或偏好在替代基礎架構上訓練的中國實驗室模型的組織尤其有吸引力。

鑑於 Claude Code 替代方案定位，代理式程式碼部署是天然契合點。自主託管程式碼代理、希望評估多種中國實驗室選項的團隊，常將 GLM-5 與 MiMo V2.5 Pro 及 Kimi K2.6 一同納入評估。

對於 NVIDIA 硬體受限或將供應鏈多樣性視為策略考量的地區團隊，GLM-5 在華為昇騰上的訓練是有意義的細節——既針對模型本身，也作為前沿規模開放權重訓練可在替代加速器上發生的訊號。

Hardware Requirements

GLM-5 在 Q4_K_M 量化下約需 380GB 記憶體，可裝入 8x A100 80GB 或 8x H100 80GB 伺服器，或具備 512GB+ RAM 的 CPU 推論主機。密集架構意味著活躍與總參數量相同——生成吞吐量對應 745B 密集模型，每 token 比同等品質的 MoE 模型如 Kimi K2.6（32B 活躍）或 DeepSeek V4（49B 活躍）明顯更慢。

對於較小部署，Q3_K_M 量化（約 290GB）以適度品質換取較少記憶體，可在 4x H100 80GB 伺服器上運作並保留餘裕。

Ertas Studio 中微調：GLM-5 QLoRA 需要約 450-550GB 總 VRAM（多 GPU 伺服器）。對於沒有此規模的團隊，GLM-4.5 微調（具備 32B 活躍參數的 MoE 架構）大幅更易取得——在 QLoRA 訓練時記憶體需求下可裝入 80GB GPU。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →