Fine-Tune GLM-4.5 with Ertas

Z.ai 2025 年 7 月专家混合版本——3550 亿总参数，每 token 320 亿活跃参数，设计运行于 8× 华为昇腾 H20 芯片。GLM-5 旗舰的主力前身。

355B-A32BZ.ai

Overview

GLM-4.5 由 Z.ai（前身为智谱）于 2025 年 7 月发布，是该公司部署最广泛的开源权重模型，也是 GLM 系列的实用主力。3550 亿参数的专家混合架构每 token 有 320 亿活跃参数，赋予 GLM-4.5 强大的推理经济性——可与 32B 稠密模型相媲美——同时在大多数基准测试上提供可与更大稠密模型竞争的质量。

值得注意的设计约束：GLM-4.5 被设计为运行于 8× 华为昇腾 H20 芯片之上，使其成为首批有意针对非 NVIDIA 训练和推理硬件的前沿规模开源权重模型之一。该模型的架构和量化方案经过调优以在这条替代硬件路径上高效工作，但在标准 NVIDIA 基础设施（vLLM、TensorRT-LLM 等）上的部署也得到完整支持。

GLM-4.5 作为 Z.ai 旗舰已被 GLM-4.6（2025 年末发布的 Claude Code 替代定位变体）以及随后的 GLM-5（2026 年 2 月的 745B 扩展）继任。对部署成本敏感的团队，GLM-4.5 仍是流行选择——32B 活跃参数数量提供的推理经济性大幅优于 GLM-5 的稠密 745B 架构，即便峰值基准得分较低。

权重在 Hugging Face 上以 `zai-org/GLM-4.5` 提供。该模型以 Z.ai 的商业宽松许可条款发布。

Key Features

32B 活跃参数的 MoE 架构提供生产友好的推理经济性。在标准推理框架上的生成吞吐量以约 32B 级别速度运行，在中端服务器硬件运行范围之内。对于 token 成本至关重要的高吞吐量 API 服务，相比同等质量的稠密替代方案，这是有意义的优势。

8× 华为昇腾 H20 部署目标是值得注意的架构细节。GLM-4.5 是少数为非 NVIDIA 推理基础设施提供文档化优化的前沿规模开源权重模型之一。对于偏好或要求昇腾部署的地区团队，这提供了清晰的部署路径。

GLM-5 之前的优势仍然强劲。GLM-4.5 在编码（GLM-4.6 后续 Claude Code 替代变体在此基础上构建）、推理和指令遵循工作负载上提供有竞争力的性能。虽然在 2026 年并非开源权重质量的绝对前沿，但 GLM-4.5 对于合适的部署形态仍是可信的生产选择。

广泛的商业宽松许可结合 32B 活跃参数推理特征使 GLM-4.5 非常适合成本敏感的生产服务——特别是当团队对 Z.ai 技术栈的熟悉度或区域生态系统优势影响决策时。

Fine-Tuning with Ertas

GLM-4.5 的 32B 活跃参数 MoE 架构使其在 Ertas Studio 中相对易于微调。QLoRA 微调在典型序列长度下可装入单块 80GB GPU，或通过模型并行拆分在两块 48GB GPU 上。这比微调 GLM-5 的稠密 745B 架构（需要多 GPU 服务器规模）更易获取。

对于 MoE 架构本身，Ertas Studio 自动处理低秩适配期间的专家路由稳定性。带有多轮对话、工具使用轨迹和推理示例的训练数据格式都能原生工作。

训练完成后，Ertas Studio 将 GLM-4.5 微调导出为 GGUF 格式。Q4_K_M 量化约 200GB——可装入多 GPU 服务器（4x A100 80GB 或 4x H100 80GB）并留有余量。对在华为昇腾基础设施上运行的团队，针对该硬件优化的替代量化格式也得到支持。

Use Cases

GLM-4.5 是采用 Z.ai 生态系统的团队的实用主力，特别是在 Z.ai 支持和生态系统优势最强的地区。32B 活跃参数推理经济性使其非常适合 token 成本比峰值基准得分更重要的生产 API 服务。

对于在华为昇腾基础设施上运行的团队，GLM-4.5 针对该部署目标的文档化优化相比主要为 NVIDIA 硬件调优的模型是有意义的优势。替代加速器部署模式对供应链多样性和区域偏好的相关性日益增加。

面向客户的聊天机器人、文档分析管道和内容生成工作负载的生产服务都能受益于 GLM-4.5 强大质量与合理推理经济性的组合。虽然 GLM-5 提供更高的峰值质量，但对于高吞吐量部署，GLM-4.5 通常提供更好的总拥有成本。

Hardware Requirements

GLM-4.5 在 Q4_K_M 量化下约需 200GB 内存，可装入 4x A100 80GB 或 4x H100 80GB 服务器，或具有 384GB+ RAM 的 CPU 推理主机。一旦加载，32B 的活跃参数数量决定 token 生成吞吐量。

对于较小的部署，Q3_K_M 量化（约 150GB）以适度的质量换取减少的内存，可装入 2x H100 80GB 或 3x A100 80GB 配置。

在 Ertas Studio 中微调时：GLM-4.5 QLoRA 需要约 100-160GB 总 VRAM，在典型序列长度下可装入单块 80GB GPU 或通过模型并行装入两块 48GB GPU。32B 活跃参数 MoE 架构使其比直接微调 GLM-5 大幅更易获取。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →