Fine-Tune GLM-5 with Ertas

Z.ai 2026 年 2 月旗舰——一个 7450 亿参数模型，在华为昇腾芯片上训练，是 GLM-5 系列的基础，2026 年 4 月的 GLM-5.1 更新带来了大量后训练改进。Z.ai 于 2026 年 1 月在港交所上市。

745BZ.ai

Overview

GLM-5 由 Z.ai（前身为智谱）于 2026 年 2 月 11 日发布，是 GLM-5 系列的基础——一个 7450 亿参数稠密模型，在华为昇腾芯片上训练。GLM-5 在两个月后被 GLM-5.1（2026 年 4 月 8 日）继承，后者使用相同的基础架构但增加了精炼的后训练，带来 28% 的编码改进和 8 小时自主运行能力。对于新部署，GLM-5.1 是推荐选择；GLM-5 作为基础版本仍具相关性，并适用于在 5.1 更新前采用其稳定生产部署的团队。

GLM-5 训练的一个值得注意的细节是它在华为昇腾芯片而非 NVIDIA 硬件上训练——使其成为首批在替代 AI 加速器基础设施上训练的前沿规模开源权重模型之一。这对围绕 AI 训练的地缘政治和供应链叙事具有意义，但对大多数部署团队而言，架构和质量特征比训练硬件更重要。

Z.ai 于 2026 年 1 月 8 日在港交所上市，标志着对该公司 AI 基础设施定位的重要机构兴趣。GLM-5 在 GLM-4.5（2025 年 7 月）的架构和后训练方法基础上构建，参数数量和训练数据均大幅扩展。该模型的定位强调 Claude Code 风格的智能体编码能力——使其成为评估 GLM-4.6 或该领域类似模型团队的可信自托管替代方案。

权重在 Hugging Face 上以 `zai-org/GLM-5` 提供。许可条款是商业宽松的，但对特定部署场景值得审阅。

Key Features

BenchLM 综合得分位于 70 多分高位，使 GLM-5 跻身开源权重模型第一梯队——并非排行榜绝对顶端（DeepSeek V4 87 分，Kimi K2.6 86 分），但在发布时与第二梯队旗舰相当。GLM-5.1 更新仅通过后训练改进就将该得分进一步提升（BenchLM 83），证明了 GLM-5 基座中存在大量未实现的能力。该模型的优势在编码和推理基准测试上尤为明显，其中 GLM-5 大幅优于其前身 GLM-4.5。

在华为昇腾芯片上训练是值得注意的基础设施细节。虽然模型架构和行为与 NVIDIA 训练的等效模型在根本上没有差异，但这代表了首批来自非 NVIDIA 训练管道的前沿规模开源权重模型之一。对于对供应链多样性感兴趣或在 NVIDIA 硬件访问受限地区的团队，GLM-5 的训练来源可能具有相关性。

Claude Code 替代定位——强调智能体编码能力——使 GLM-5 非常适合自托管编码代理部署。虽然 MiMo V2.5 Pro 和 Kimi K2.6 在开源权重编码基准上领先，但 GLM-5 是可信的替代方案，特别适合 Z.ai 区域支持和生态系统优势明显的地区团队。

Z.ai 在港交所上市提供持续的机构支持，应能支撑持续的模型投入和生态系统发展。对于评估对特定中国实验室开源权重模型长期投入的团队，这在模型发布本身之外提供了额外信心。

Fine-Tuning with Ertas

GLM-5 745B 参数处于实用微调的上限。Ertas Studio 在多 GPU 服务器配置（8x A100 80GB 或更大）上支持 QLoRA 微调，典型序列长度下需要约 450-550GB 总 VRAM。

对大多数没有 8 GPU 服务器访问权限的团队，推荐的模式是教师-学生蒸馏：使用 GLM-5 作为教师生成合成训练数据，然后在该数据上微调较小的基础模型（Qwen 32B、Llama 70B 或 GLM-4.5 本身）。GLM-4.5（355B/32B 活跃）相比直接使用 GLM-5 是更易获取的蒸馏目标。

训练完成后，Ertas Studio 将 GLM-5 微调导出为 GGUF 格式。Q4_K_M 量化约 380GB——服务器级部署。对大多数希望获得 GLM 能力但不愿承担多 GPU 占用的团队，直接微调 GLM-4.5 或蒸馏到较小基座是更实用的路径。

Use Cases

GLM-5 最适合运行多 GPU 服务器基础设施的团队，他们希望获得 DeepSeek V4 或 Kimi K2.6 的高质量开源权重替代方案。对于与 Z.ai 生态系统联系紧密或对在替代基础设施上训练的中国实验室模型有区域偏好的组织，尤其有吸引力。

智能体编码部署是 Claude Code 替代定位的天然契合点。自托管编码代理并希望评估多个中国实验室选项的团队，常将 GLM-5 与 MiMo V2.5 Pro 和 Kimi K2.6 一起列入评估。

对于 NVIDIA 硬件受限或将供应链多样性视为战略关切的地区团队，GLM-5 在华为昇腾上的训练是有意义的细节——既针对模型本身，也作为前沿规模开源权重训练可以在替代加速器上发生的信号。

Hardware Requirements

GLM-5 在 Q4_K_M 量化下约需 380GB 内存，可装入 8x A100 80GB 或 8x H100 80GB 服务器，或具有 512GB+ RAM 的 CPU 推理主机。稠密架构意味着活跃参数数量与总参数数量相同——生成吞吐量对应 745B 稠密模型，每 token 速度比同等质量的 MoE 模型（如 Kimi K2.6 32B 活跃，或 DeepSeek V4 49B 活跃）明显更慢。

对于较小的部署，Q3_K_M 量化（约 290GB）以适度的质量换取减少的内存，可装入 4x H100 80GB 服务器并留有余量。

在 Ertas Studio 中微调时：GLM-5 QLoRA 需要约 450-550GB 总 VRAM（多 GPU 服务器）。对没有该规模的团队，GLM-4.5 微调（凭借其 32B 活跃参数 MoE 架构）大幅更易获取——在 QLoRA 训练时内存需求下可装入 80GB GPU。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →