Fine-Tune GLM-4.6 with Ertas

Z.ai 2025 年末的中端发布——3550 亿参数的专家混合模型，200K 上下文，编码能力接近 Claude Sonnet 4，相较前代每任务所用 token 数减少约 15%。配套的视觉变体 GLM-4.6V（106B 与 9B）将该家族扩展至多模态用例。

355BZ.ai

Overview

GLM-4.6 由 Z.ai（前身为智谱）于 2025 年 9 月底发布，是 GLM-4.5 基础上的中代际更新，并在 2026 年第一季度成为 Z.ai 阵容中的主力。其架构为 3550 亿参数的专家混合（与 GLM-4.5 总参数量相同），但经过了大幅打磨的后训练，带来了质量提升和效率增益。其标志性效率成果是相较 4.5 在每任务上少生成约 15% 的 token，可在生产工作负载上转化为可观的推理成本节省。

Z.ai 将 GLM-4.6 定位为编码工作负载上的 Claude Sonnet 4 替代品——其智能体编码基准表现在生产级智能体部署所关注的多步任务上接近 Anthropic 中端编码模型的水平。尽管尚未达到 2026 排行榜的绝对前沿（现由 GLM-5/5.1、DeepSeek V4 和 Kimi K2.6 主导），GLM-4.6 在 2026 年初仍是热门的生产选择，原因在于其运维经济性——比 GLM-5 更低的推理成本，加上对大多数实际工作负载而言足够的能力。

上下文窗口从 GLM-4.5 的 128K 跃升至 200K，为大多数项目的长文档推理和全代码库分析提供了有意义的余量。结合从 GLM-4.5 MoE 拓扑继承的 320 亿活跃参数量，GLM-4.6 在保持其前代对生产友好的推理经济性的同时，交付了显著更优的实际质量。

配套的视觉变体线——106B 与 9B 规模的 GLM-4.6V，于 2025 年 12 月发布——将 GLM-4.6 扩展至多模态应用。这些变体原生支持函数调用并具备 128K 上下文，适合用于生产级多模态智能体部署。文本模型的权重可在 Hugging Face 上 `zai-org/GLM-4.6` 获取，视觉变体则在对应路径下。

Key Features

15% 的 token 效率提升是 GLM-4.6 相较 4.5 在运维上最显著的收益。该提升反映了打磨后的后训练所带来的更精炼响应、更高内容密度——更少的引言铺垫、更少的重复、更直接地完成任务。对于看重 token 成本经济性的生产部署，这直接转化为同质量水平下更低的单次请求成本。

与 Claude Sonnet 4 相当的编码能力是其标志性基准成果。尽管不同评估方法会得出不同的具体分数，但定性模式是一致的——GLM-4.6 在质量上接近闭源中端水平地处理真实的智能体编码任务。对希望获得 Sonnet 级能力但又不想绑定 API 依赖的自托管部署而言，GLM-4.6 提供了可信的替代方案。

200K 上下文窗口对大多数生产用例而言较为宽裕。全文档分析、多文件代码评审、长对话连续性以及类似的长上下文模式，绝大多数实际工作负载都能舒适地装入 200K token 之内。尽管更新的模型（DeepSeek V4 1M 上下文、Llama 4 Scout 10M）宣称更大的上下文，GLM-4.6 在 200K 下的有效上下文保留通常优于替代方案在远高于此宣称上限下的表现。

GLM-4.6V 视觉变体（106B 和 9B）与文本模型采用相同的提示格式和工具使用约定，使部署统一的多模态智能体系统变得直接。视觉变体上的原生函数调用结合 128K 上下文，可直接支撑生产级多模态智能体模式，而无需在独立的视觉与文本模型之间进行框架级粘合。

Fine-Tuning with Ertas

在 Ertas Studio 中对 GLM-4.6 微调通过标准的 MoE 训练流水线进行。每个 token 320 亿活跃参数，QLoRA 训练在典型序列长度下可装入单块 80GB GPU，或通过模型并行拆分到两块 48GB GPU 上。这相比微调更大的 745B GLM-5 家族要可及得多，使 GLM-4.6 对希望在 Z.ai 家族上特化的团队而言尤具吸引力。

针对 MoE 架构本身，Ertas Studio 自动处理低秩适配过程中的专家路由稳定性。带多轮对话、工具使用轨迹和推理样例的训练数据格式均原生可用。针对多模态微调，GLM-4.6V 变体支持交错的文本与图像训练数据格式。

训练完成后，Ertas Studio 导出 GLM-4.6 微调为 GGUF 格式，并完整保留对话模板。Q4_K_M 量化约 200GB——可在多 GPU 服务器（4x A100 80GB 或类似）上留有余量地运行。对于在华为昇腾基础设施上部署的团队，也支持针对该硬件优化的替代量化格式。

Use Cases

GLM-4.6 适配多种生产部署场景。客户支持聊天机器人、文档分析流水线、内容生成系统以及面向工程团队的代码辅助，均得益于强跨域能力与对生产友好的推理经济性的结合。320 亿活跃参数量为单次请求提供了良好的吞吐，200K 上下文可在不依赖分层检索模式的情况下处理大多数长上下文工作负载。

对于智能体编码部署，GLM-4.6 在自托管时与 Sonnet 级闭源替代方案具有竞争力，且单次请求成本显著更低。AI 结对编程、代码评审自动化以及与 CI 集成的编码工作流，均得益于 GLM-4.6 在编码能力与运维经济性上的结合。

GLM-4.6V 视觉变体将该家族扩展至混合文本与图像内容的用例——含嵌入图表的文档处理、含图示的技术分析、多模态客户支持以及无障碍应用。9B 变体尤其适合消费级硬件的多模态部署，使设备端或边缘端多模态应用具备实用性。

Hardware Requirements

GLM-4.6 在 Q4_K_M 量化下约需 200GB 内存，可在 4x A100 80GB 或 4x H100 80GB 服务器上运行，或在配备 384GB+ RAM 的 CPU 推理主机上运行。320 亿的活跃参数量决定了加载后的 token 生成吞吐。

对于较小的部署，Q3_K_M 量化（约 150GB）以适度的质量换取减少的内存，可在 2x H100 80GB 或 3x A100 80GB 配置上运行。对于 Apple Silicon 部署，192GB 的 Mac Studio M3 Ultra 配置可在 Q3 下以可用性能运行 GLM-4.6。

在 Ertas Studio 中微调时：GLM-4.6 QLoRA 在典型序列长度下需要约 100-160GB 总 VRAM，可在单块 80GB GPU 上运行，或在两块 48GB GPU 上以模型并行运行。320 亿活跃参数的 MoE 架构使训练效率显著高于微调等效质量的稠密替代方案。GLM-4.6V 视觉变体（106B 与 9B）推理分别需 60-90GB 与 6-12GB，微调需求成比例。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →