Fine-Tune Kimi K2.5 with Ertas

Moonshot AI 于 2026 年 1 月发布的版本——首个多模态 Kimi 模型,在 K2 系列 1T 参数专家混合架构上加入 MoonViT-3D 视觉编码器。创下 99.0 的开放权重 HumanEval 纪录,并首次引入 100 智能体集群运行时,后由 K2.6 扩展至 300。

1T-A32BMoonshot AI

Overview

Kimi K2.5 由 Moonshot AI 于 2026 年 1 月 27 日发布,是 Kimi K2 系列的第二个主要迭代版本,也是为该系列引入多模态能力的版本。其架构是 1.04T 参数的专家混合,每 token 活跃参数约为 32B——基本结构与 K2(2025 年 7 月)一致——但相比原始 K2 语料,在视觉与文本混合数据上额外训练了约 15T tokens。

标志性新增是 MoonViT-3D 视觉编码器,使 K2.5 在原有文本能力之上具备原生图像输入能力。与将视觉编码器拼接到纯文本基础模型上的零碎式视觉-语言流水线不同,MoonViT-3D 与语言模型在同一训练流水线中集成——产生跨模态更加协调的推理。K2.5 还是首个引入原始 100 智能体集群运行时的版本,该运行时随后在 K2.6(2026 年 4 月)中扩展到 300 个子智能体。

K2.5 在开放权重 HumanEval 上以 99.0 创下纪录——这一基准结果在 2026 年初为 K2 系列吸引了大量关注。虽然 HumanEval 现在被认为已饱和且容易受到污染影响(前沿模型的得分通常在 95% 以上,顶级模型之间的差异主要由噪声主导),但 K2.5 接近满分的成绩仍是该基准上公开报告的最高开放权重结果。

对于 2026 年的大多数新部署,推荐选择 K2.6 而非 K2.5——它继承了所有多模态和智能体能力,并将集群运行时扩展至 300 个子智能体。K2.5 仍适用于在 K2.6 推出之前已采用它的稳定生产部署的团队,以及作为 K2 系列发展史中有据可查的一环。整个系列的许可一致(改良版 MIT),使任何版本的商业部署都简单直接。

权重可在 Hugging Face 的 `moonshotai/Kimi-K2.5` 下获取。面向 Ollama 与 llama.cpp 的量化 GGUF 构建广泛可用。

Key Features

MoonViT-3D 视觉编码器是 K2.5 标志性的能力扩充。它与语言模型在同一训练流水线中集成——而非作为后期适配器添加——使 MoonViT-3D 在文本与图像之间产生统一的多模态推理。这在工程与研究工作流中尤其有价值,因为对截图、图表和文档插图的推理是任务的一部分。3D 后缀指代相对于原始 MoonViT 的架构改进(K2.6 又对其进一步精炼)。

K2.5 中首次引入的原始 100 智能体集群运行时,是开放权重基座上首个生产级的大规模多智能体编排实现。K2.6 将其扩展到 300 个子智能体,但 K2.5 的发布是智能体集群模式从研究奇观跃迁为可部署基础设施的关键时刻。对于采用基于 Kimi 的智能体系统的团队,K2.5 记录了其原始的架构方法。

99.0 的 HumanEval 纪录使 K2.5 在发布时居于最被引用的编码基准之一的榜首。虽然我们不推荐将 HumanEval 作为 2026 年模型选型的主要信号(存在饱和与污染问题),但该结果被广泛报道,并促成了发布之后数月内显著的 K2.5 部署采用。

32B 的活跃参数量赋予 K2.5 良好的推理经济性。在标准推理框架上的 token 生成吞吐量约为 32B 级速度,完全在中端服务器硬件的运行范围内。结合 1T 的总参数容量,K2.5 在可持续的生产服务成本下提供具有竞争力的质量。

Fine-Tuning with Ertas

Kimi K2.5 的 1T 总参数处于实际可微调的上限。Ertas Studio 支持在多 GPU 服务器配置(8x A100 80GB 或 8x H100 80GB)上进行 QLoRA 微调,在典型序列长度下大约需要 580-700GB 的总 VRAM。

对于多模态微调,Ertas Studio 支持文本与图像交错的训练数据格式。K2.5 的 MoonViT-3D 视觉编码器可受益于强化统一文本-视觉推理的训练数据——例如截图与代码配对、图表与技术文档配对,或将领域特定的视觉内容与结构化分析配对。

对于大多数无法访问 8 卡服务器的团队,推荐采用师生蒸馏模式:将 K2.5 用作教师生成合成的智能体任务数据,再在该数据上微调更小的基础模型(Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体)。这样可以在继承 K2.5 行为模式的同时,以单 GPU 部署成本得到一个领域专精的智能体。训练完成后,Ertas Studio 会导出为 GGUF(或 vLLM 原生格式),完整保留聊天模板。

对于专门面向 Kimi 系列微调的新部署,我们通常推荐 K2.6 而非 K2.5——它继承了 K2.5 的全部能力,并具备扩展后的智能体集群运行时。对于在旧版本上已有部署投入的团队,K2.5 微调仍然是合理选择。

Use Cases

K2.5 在 2026 年的主要使用场景是为那些在 K2.6 推出之前就已采用它的稳定生产部署服务。这类部署通常更看重运维连续性而非迁移成本,尤其是当微调已在 K2.5 基座上完成,或下游工具链已根据 K2.5 特有行为校准时。

对于希望使用原始 100 智能体集群模式(而非 K2.6 扩展后的 300 智能体运行时)的团队,K2.5 是更合适的基座。某些智能体工作流在更小的集群规模上更易调试和理解,100 智能体模式在运维上仍非常适合许多生产场景。

受益于 MoonViT-3D 集成视觉能力的多模态智能体工作流——带截图的代码审查、含嵌入图表的文档分析、含图表的技术研究——与 K2.5(或 K2.6)尤为契合。统一架构所产生的跨模态推理比零碎流水线更加协调。

Hardware Requirements

Kimi K2.5 在 Q4_K_M 量化下大约需要 520GB 内存,可在 8x A100 80GB 或 8x H100 80GB 服务器上运行,或在拥有 768GB+ 内存的 CPU 推理主机上运行。32B 的活跃参数量决定了 token 生成吞吐量。

对于较小规模部署,Q3_K_M 量化(约 380GB)以略微下降的质量换取更小的内存占用,可在 4x H100 80GB 服务器上运行并保留余量。不建议在生产部署中使用低于 Q3 的量化——质量退化会变得明显,尤其在 K2.5 竞争优势所在的智能体和多模态基准上。

关于在 Ertas Studio 中微调:K2.5 QLoRA 大约需要 580-700GB 的总 VRAM(多 GPU 服务器)。对于没有此规模条件的团队,蒸馏到 Qwen 32B 或 Llama 70B 上仅需这些基础模型对应的标准 20-48GB VRAM,从而可通过师生方法以单 GPU 部署成本获得 K2.5 的多模态与智能体模式。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →