Fine-Tune GLM-5.1 with Ertas
Z.ai 于 2026 年 4 月 8 日对 GLM-5 的更新——相同的 7450 亿参数基础架构,配以精炼的后训练,带来 28% 的编码改进、8 小时自主运行能力,以及一度让开源权重模型在 SWE-Bench Pro 上领先于 GPT-5.4 和 Claude Opus 4.6 的成绩。
Overview
GLM-5.1 由 Z.ai 于 2026 年 4 月 7-8 日发布,是对两个月前发布的 GLM-5 基础版本的后训练更新。7450 亿参数的稠密架构与 GLM-5 保持一致,但后训练管道在多个方面 带来了可衡量的改进——最显著的是编码基准测试上 28% 的跃升(在 Z.ai 内部评测中从 35.4 提升至 45.3),以及改进的长程智能体执行能力,可支持无监督的 8 小时自主运行。
核心亮点是 GLM-5.1 一度在 SWE-Bench Pro 上领先所有可用模型——包括开源权重和专有模型——超越了 GPT-5.4 和 Claude Opus 4.6。尽管这一领先地位几乎立即被 MiMo V2.5 Pro 和其他中国实验室发布的模型挑战,但这一时刻标志着一个转折点:开源权重模型在最具公信力的智能体编码基准上击败了专有前沿模型。SWE-Bench Pro 声称的独立验证在撰写本文时仍在进行中,但定性共识是 GLM-5.1 在智能体编码上确实可与闭源前沿模型抗衡。
8 小时自主运行能力是另一项实用创新。虽然大多数智能体系统在长时间运行中会丢失上下文和准确性,但 GLM-5.1 专门针对长程可靠性进行了后训练——持续的工具使用保真度、跨数千个推理步骤的持续任务专注,以及从中间故障中优雅恢复的能力。对于运行长时间自主工作流(大型重构、跨多日的研究综合、端到端迁移)的生产部署而言,这种可靠性是有意义的能力提升。
GLM-5.1 的权重在 Hugging Face 上以 `zai-org/GLM-5.1` 提供。Z.ai 于 2026 年 1 月在香港交易所上市,提供了机构支持,应能持续支持模型投资。许可证为商业宽松型——大致适合商业部署,条款类似于 MIT 风格的许可证。
Key Features
相比 GLM-5 的 28% 编码改进是核心基准结果。这一改进反映的是后训练精炼而非架构变化——相同的 745B 稠密基础,但配备了大幅升级的代码执行奖励信号、训练数据中更长的多轮工具使用轨迹,以及对智能体工作流模式的更好校准。累积效应使 GLM-5.1 与 MiMo V2.5 Pro 和 Kimi K2.6 一同跻身开源权重编码模型的顶级行列。
8 小时自主运行能力具有重要的运维意义。大多数智能体框架在长时间运行中会因上下文漂移、中间错误累积以及模型丢失原始任务跟踪而失去可靠性。GLM-5.1 专门通过长程执行轨迹进行后训练——模型在数千个推理步骤和数万次工具调用中保持任务专注。对于以前每 30-60 分钟需要交接或人工检查点的自主工作流,GLM-5.1 实现了真正无监督的执行,时间跨度大大延长。
SWE-Bench Pro 短暂领先——在发布时,GLM-5.1 据报道在所有模型(包括 GPT-5.4、Claude Opus 4.6 等专有前沿模型)中领先 SWE-Bench Pro。排行榜声明的独立验证仍在进行中,且这一领先在数周内被其他中国实验室的发布所挑战,但定性模式很清晰:GLM-5.1 在智能体编码上能与专有前沿模型竞争,这是早期开源权重模型所不具备的。
GLM-5.1 继承了 GLM-5 系列在华为昇腾基础设施而非 NVIDIA 硬件上进行训练的传统。虽然这对部署团队影响较小(生成的模型在两个生态系统上的服务表现完全相同),但对于关注供应链多样性或 NVIDIA 硬件访问受限地区的组织来说,这是一个值得注意的细节。Z.ai 技术栈是为数不多的有据可查在替代 AI 加速器上训练的前沿规模开源权重模型系列之一。
Fine-Tuning with Ertas
GLM-5.1 的 745B 稠密参数处于实际微调的上限。Ertas Studio 支持 在多 GPU 服务器配置上进行 QLoRA 微调(8x A100 80GB 或更大),在典型序列长度下约需 450-550GB 总 VRAM。稠密架构在相同参数数量下从根本上比同等质量的 MoE 替代方案的微调效率更低。
对于大多数没有 8 卡 GPU 服务器访问权限的团队,推荐的模式是教师-学生蒸馏:使用 GLM-5.1 作为教师生成合成训练数据,然后在该数据上微调一个较小的基础模型(Qwen 32B、Llama 70B,或最自然的——具有 32B 活跃 MoE 架构的 GLM-4.5)。GLM-4.5 是一个特别有吸引力的蒸馏目标,因为它继承了 Z.ai 的提示格式和指令跟随约定,使蒸馏微调与下游 GLM 系列工具更兼容。
对于微调数据集,GLM-5.1 大幅受益于包含多步智能体执行轨迹的训练数据——任务描述、工具调用、观察输出和纠正性迭代。Ertas Studio 原生支持这些格式。训练完成后,模型导出为 GGUF 格式,完整保留 GLM-5.1 聊天模板。Q4_K_M 量化约为 380GB——属于服务器级部署范畴。
Use Cases
长程自主工作流是 GLM-5.1 的标志性目标。生产部署包括运行数小时的自主研究智能体、跨多日的代码库迁移(采用周期性检查而非持续监督)、端到端内容生产管道(智能体在长输出中保持一致的语气和结构),以及需要持续多步推理的复杂分析工作流。
智能体编码是一个强有力的具体用例。GLM-5.1 发布时在 SWE-Bench Pro 上的领先地位使其成为 Claude Code 或 Cursor 后端模型的自托管替代方案,适合需要前沿质量智能体编码能力但又不愿依赖闭源 API 的团队。8 小时自主能力直接转化为编码智能体能 够端到端处理大型重构或功能实现。
研究和分析应用受益于长程可靠性。诸如跨数百篇论文的综合文献综述、多源竞争情报聚合、配合一手文件综合的财务分析,以及涉及大量引用管理的科学写作等任务,都能从长执行窗口中的持续专注中受益。
Hardware Requirements
GLM-5.1 在 Q4_K_M 量化下约需 380GB 内存,可装入 8x A100 80GB 或 8x H100 80GB 服务器,或具有 512GB+ RAM 的 CPU 推理主机。稠密架构意味着活跃参数和总参数数量相同——生成吞吐量对应于 745B 稠密模型,每个 token 显著慢于同等质量的 MoE 替代方案。
对于较小的部署,Q3_K_M 量化(约 290GB)以适度的质量换取内存减少,可装入有余量的 4x H100 80GB 服务器。生产部署不建议低于 Q3——区别 GLM-5.1 的 8 小时自主运行可靠性依赖于长执行窗口中一致的质量,激进的量化会引入误差累积,破坏这种可靠性。
在 Ertas Studio 中微调时:GLM-5.1 QLoRA 约需 450-550GB 总 VRAM(多 GPU 服务器)。对于没有该规模的团队,GLM-4.5 微调(其 32B 活跃参数 MoE 架构)大幅更易访问,可在单块 80GB GPU 上以 QLoRA 训练时内存需求装入。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.