Fine-Tune GLM-4.7 with Ertas

Z.ai 2025 年 12 月聚焦编码的发布——约 4000 亿参数的专家混合模型，具备「保留思考」（Preserved Thinking）多轮推理能力，并配有面向生产服务的小型 GLM-4.7 Flash 变体。在被 GLM-5 系列接替之前，曾在发布之际登顶开放权重模型 Code Arena。

~400B (Flagship)Flash (smaller)Z.ai

Overview

GLM-4.7 由 Z.ai 于 2025 年 12 月 22 日发布，是 GLM-4.6 的编码导向继任者，也是在 GLM-5 系列接管家族旗舰之前为 Z.ai 在智能体编码基准上确立竞争位置的模型。旗舰版采用专家混合架构，参数约 4000 亿，并搭配 Flash 变体——一个针对生产服务、在推理经济性优先于峰值能力的场景中优化的小型蒸馏层级。

标志性基准成果是 GLM-4.7 在发布之际登顶开放权重模型 Code Arena。Code Arena 衡量跨多元编程任务的真实编码能力，且当时相较 HumanEval 类基准明显未饱和，能在顶级编码模型间提供有意义的区分度。GLM-4.7 的领跑——尽管这只是一个时刻而非持续位置，随后 Qwen3-Coder-Next、MiMo V2.5 Pro 和 Kimi K2.5 在不同编码基准上相继确立领先——是 2026 年初开放权重编码模型竞争中的重要数据点。

GLM-4.7 中独特的架构创新是「保留思考」（Preserved Thinking）——一种多轮推理模式，模型在对话的多个轮次间保留其推理状态，相比典型的混合推理模型可实现更连贯的长时间智能体执行。在 Qwen 3+ 和 DeepSeek V3.2/V4 的思考模式在单一轮次内运作的情况下，保留思考为跨越数小时执行、跨越多轮的工作流而设计。这一模式是 GLM-5.1 8 小时自主运行能力的前身。

GLM-4.7 已被 GLM-5（2026 年 2 月）和 GLM-5.1（2026 年 4 月）作为 Z.ai 旗舰实质性接替，二者都使用不同的 745B 基础架构，而非延续 GLM-4 血统。GLM-4.7 仍作为 GLM 家族演进中的一个有据可考的步骤而保有相关性，并作为希望获得编码导向能力且具备独特多轮推理行为的团队的生产选项。权重可在 Hugging Face 上 `zai-org/GLM-4.7` 与 `zai-org/GLM-4.7-Flash` 获取。

Key Features

发布之际的 Code Arena 领跑是 GLM-4.7 的标志性基准成果。该模型曾短暂占据 Code Arena 开放权重榜首位置，证明编码导向训练与「保留思考」架构相结合，相对其他开放权重选项产生了可衡量的真实能力提升。尽管该领先在数月内被新的发布所挑战，但这一时刻验证了 Z.ai 聚焦智能体编码能力的战略选择。

「保留思考」是将 GLM-4.7 与同代模型区分开的架构特性。标准的混合推理模型（Qwen 3+、DeepSeek V3.2/V4）在单个对话轮次内计算推理轨迹——下一轮重新开始。GLM-4.7 的「保留思考」跨轮次保留推理状态，使模型在处理同一对话中的后续查询时可参照其先前思考。对于上下文漂移成为质量问题的长时间智能体工作流而言，这一模式带来了可衡量的改进。

Flash 变体填补了生产服务的位置。旗舰 400B 模型规模庞大，需要多 GPU 服务器部署，而 GLM-4.7 Flash 则面向单 GPU 与消费级硬件部署，质量与中端稠密替代方案具有竞争力。对于在大规模运行生产编码智能体的团队而言，Flash 变体在编码能力与生产友好经济性上的结合尤具吸引力。

GLM-4.7 是确立 Z.ai 为严肃开放权重编码模型竞争者的模型。在 4.7 之前，Z.ai 被普遍视为有能力但属第二梯队的中国实验室开放权重供应商。Code Arena 成果以及 4.7 更广泛的市场反响为 Z.ai 后续的 GLM-5/5.1 继任发布铺路，使其在开放权重模型供应商的顶级梯队中确立了位置。

Fine-Tuning with Ertas

在 Ertas Studio 中对 GLM-4.7 微调通过标准的 MoE 训练流水线进行。旗舰 400B 变体的 QLoRA 需要多 GPU 服务器配置——在典型序列长度下约需 250-320GB 总 VRAM。Flash 变体则可及得多，QLoRA 训练可装入单块 48-80GB GPU。

针对编码特定微调，GLM-4.7 受益于包含完整智能体执行轨迹的训练数据——任务描述、规划、多轮工具使用以及观察到的结果。当训练数据适当地训练多轮推理模式时，「保留思考」架构可通过微调保留推理状态。Ertas Studio 原生支持这些格式，包括带显式思考轨迹的智能体对话格式。

对于大多数没有多 GPU 服务器接入权限的团队，推荐的模式是使用 GLM-4.7 旗舰作为教师生成合成训练数据，然后在该数据上微调 GLM-4.7 Flash 或更小的基础模型。这能以对生产友好的部署成本产出领域特化编码模型，同时继承 GLM-4.7 的编码模式与「保留思考」行为。

训练完成后，Ertas Studio 导出为 GGUF 格式，并完整保留 GLM-4.7 对话模板。旗舰和 Flash 两个变体均可通过 Ollama、llama.cpp 或 vLLM 干净部署，并通过自定义模型配置一键集成至 Claude Code、Cline 或 Aider。

Use Cases

多轮智能体编码工作流受益于 GLM-4.7 的「保留思考」架构。长时间运行的实现任务——跨多个开发周期的功能、迭代推进的复杂重构、跨会话暂停与恢复的代码库迁移——相比单轮推理模型，使用「保留思考」可更可靠地处理多轮模式。对于构建在较长时间窗口内运行的生产编码智能体的团队，GLM-4.7 值得与其他替代方案进行专门评估。

Flash 变体面向高吞吐编码智能体服务。面向用户的编码工具、内部开发者助手以及与 CI 集成的代码评审智能体，均得益于该小型变体在强编码质量与对生产友好推理经济性上的结合。对于在 GLM-4.7 Flash 与 Qwen3-Coder-Next 之间选择 Claude Code 自托管替代方案的团队，二者均为可信选项，但运维取舍不同。

对于在 GLM-5 系列可用之前已采用并稳定运行的生产部署团队，GLM-4.7 仍是有据可考且受支持的选项。迁移至 GLM-5/5.1 提供可衡量的能力提升，但伴随非微不足道的运维变更成本。GLM-4.7 微调工作流对在已有流水线投入的团队仍然有效。

Hardware Requirements

GLM-4.7 旗舰在 Q4_K_M 量化下约需 220GB 内存，可在 4x A100 80GB 或 4x H100 80GB 服务器上运行，或在配备 384GB+ RAM 的 CPU 推理主机上运行。Flash 变体所需远少——根据量化层级约需 30-50GB——可在单块 48-80GB GPU 上运行。

对于较小的部署，Q3_K_M 量化（旗舰约 165GB，Flash 约 22-38GB）以适度的质量换取减少的内存。Flash 变体在 Q3 下的部署对消费级硬件配置（高端 Mac Studio 配置、双 GPU 工作站构建）确实可及。

在 Ertas Studio 中微调时：GLM-4.7 旗舰 QLoRA 需要约 250-320GB 总 VRAM（多 GPU 服务器）。GLM-4.7 Flash QLoRA 需 32-48GB VRAM，可在单块 48-80GB GPU 上运行。Flash 变体的训练可及性使其成为大多数希望进行领域特化但不具备服务器级基础设施的团队的实际选择。