Fine-Tune Kimi K2 with Ertas
Moonshot AI 2025 年首版万亿参数专家混合模型——Kimi K2 系列的基础,K2.5 以 99.0 分创下开源权重 HumanEval 纪录,K2.6 引入 Agent Swarm 编排。修改版 MIT 许可。
Overview
Kimi K2 是 Moonshot AI 2025 年首发的万亿参数开源权重版本,奠定了 K2.5 和 K2.6 后继版本继续构建的架构。该模型使用 1T 参数的专家混合架构,每 token 约 32B 参数活跃,组织在数百个专家之间并采用 top-K 路由。Kimi K2 于 2025 年中发布,是早期证明万亿参数开源权重模型可以在宽松许可下发布、同时保持商业部 署可行性的关键证据之一。
K2 谱系发展迅速:K2.5(2026 年初)以 99.0 分创下开源权重 HumanEval 纪录并引入显著的智能体编码改进;K2.6(2026 年 4 月)添加了支持多达 300 个子智能体跨 4,000 个推理步骤的 Agent Swarm 运行时。每个后继版本都保持核心 1T-A32B 架构,同时改进训练数据、后训练以及(在 K2.6 中)面向多智能体编排的周边运行时。
原版 K2 在那些早期采用 Moonshot 技术栈并运行稳定基础设施的生产环境中仍被广泛部署。对于新部署,K2.6 是推荐选择——但对于存在部署锁定或有特定理由偏好旧版的团队,K2 仍是有文档支持的选项。修改版 MIT 许可在整个 K2 系列中保持一致,使任何版本的商业部署都很简单。
权重在 Hugging Face 上以 `moonshotai/Kimi-K2` 提供。社区中广泛提供面向 Ollama 和 llama.cpp 的量化 GGUF 构建。
Key Features
万亿参数架构配 32B 活跃是 K2 的标志性规格。1T 总参数量赋予模型可观的知识容量,而 32B 活跃数量保持推理经济性可承受用于多 GPU 服务器部署。这是早期证明万亿参数开源权重层级可以以可用生产经济性发布的范例。
长上下文能力(在后期 K2 变体中达到 256K tokens)支持全代码库推理和长文档分析等用例。虽然 K2 原版发布时上下文窗口较小,但该系列的演进显著提升了长上下文检索质量。
修改版 MIT 许可使 K2 可广泛商业部署。与 Cohere Command A 仅限研究的 CC-BY-NC 许可或 Meta 的自定义社区许可不同,K2 修改 版 MIT 条款以最少限制允许衍生训练、商业部署和专有集成。
Kimi K2 也确立了 Moonshot 的智能体定位,并在 K2.6 的 Agent Swarm 运行时达到顶峰。即便在原版 K2 上,模型也针对工具使用保真度和结构化输出遵循进行了调优,使其非常适合通过 LangGraph、CrewAI 或 Moonshot 自家智能体栈等框架进行的智能体部署。
Fine-Tuning with Ertas
Kimi K2 总参数 1T 处于实用微调的上限。Ertas Studio 在多 GPU 服务器配置(8x A100 80GB 或 8x H100 80GB)上支持 QLoRA 微调,典型序列长度下需要约 580-700GB 总 VRAM。
对大多数没有 8 GPU 服务器访问权限的团队,推荐的模式是教师-学生蒸馏:使用 K2 作为教师生成合成训练数据,然后在该数据上微调较小的基础模型(Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体)。这能以单 GPU 部署成本生成领域专用模型,同时继承 K2 的行为模式。
对于微调数据集,K2 从带有多步骤工具使用轨迹和结构化智能体执行模式的训练数据中显著获益。Ertas Studio 原生支持这些格式。训练完成后,Ertas Studio 导出为 GGUF(或用于更高吞吐量服务的 vLLM 原生格式),并完整保留 Kimi K2 的对话模板。
Use Cases
Kimi K2 在 2026 年的主要用例是为那些在 K2.5/K2.6 可用之前采用 K2 的稳定生产部署团队服务。这些部署通常重视运维连续性而非升级到最新版本,特别是当微调已基于 K2 基座完成时。
对于新部署,K2.6 是推荐选择——但 K2 对希望获得稍旧但有良好文档基座来微调特定应用的团队仍是可信选项。使用 K2 作为教师的蒸馏工作流对生产较小专用模型仍有价值。
长上下文应用、智能体工作流和工具使用部署都受益于 K2 的架构优势。对于考虑使用自托管替代 Claude 或 GPT 来处理这些工作负载的团队,K2(或 K2.6)是开源权重生态中最具吸引力的选项之一。
Hardware Requirements
Kimi K2 在 Q4_K_M 量化下约需 520GB 总内存,可装入 8x A100 80GB 或 8x H100 80GB 服务器,或具有 768GB+ RAM 的 CPU 推理主机。一旦加载,32B 的活跃参数数量决定 token 生成吞吐量。
对于较小的部署,Q3_K_M 量化(约 380GB)以适度的质量换取减少的内存,可装入 4x H100 80GB 服务器并留有余量。低于 Q3 不推荐用于生产部署——质量退化变得显著,特别是在智能体和工具使用基准测试上。
在 Ertas Studio 中微调时:K2 QLoRA 需要约 580-700GB 总 VRAM(多 GPU 服务器)。对没有该规模的团队,蒸馏到 Qwen 32B 或 Llama 70B 使用这些基础模型 QLoRA 标准的 20-48GB VRAM,通过教师-学生微调方法以单 GPU 部署成本获得 K2 的行为模式。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.