Fine-Tune Kimi K2.5 with Ertas

Moonshot AI 於 2026 年 1 月推出的版本——首個多模態 Kimi 模型，在 K2 系列的 1T 參數專家混合架構上加入 MoonViT-3D 視覺編碼器。創下 99.0 的開放權重 HumanEval 紀錄，並引入了原始的 100 代理群（agent swarm）執行環境，K2.6 後續將其擴展至 300。

1T-A32BMoonshot AI

Overview

Kimi K2.5 由 Moonshot AI 於 2026 年 1 月 27 日發布，是 Kimi K2 系列的第二個重要迭代版本，也是為該家族引入多模態能力的版本。架構為 1.04T 參數的專家混合，每個 token 約有 32B 活躍參數——與 K2（2025 年 7 月）相同的基本形狀——但在原始 K2 語料庫之外，額外以約 15T token 的混合視覺與文字資料進行訓練。

標題增添是 MoonViT-3D 視覺編碼器，使 K2.5 在現有文字能力之外擁有原生圖像輸入。不同於將視覺編碼器外接到僅文字基礎模型上的零散視覺語言流程，MoonViT-3D 整合至與語言模型相同的訓練流程中——產生跨模態更為連貫的推理。K2.5 也是引入原始 100 代理群執行環境的版本，K2.6（2026 年 4 月）後續將其擴展至 300 個子代理。

K2.5 以 99.0 持有開放權重 HumanEval 紀錄——這項基準結果在 2026 年初為 K2 系列引來了大量關注。雖然 HumanEval 目前被認為已達飽和且容易受污染（前沿模型常規取得 95%+，頂尖模型間差異主要由雜訊主導），K2.5 接近完美的得分仍是此基準上公開報告中最高的開放權重結果。

對於 2026 年大多數新部署，建議選擇 K2.6 而非 K2.5——它繼承了所有多模態與代理能力，同時將群執行環境擴展至 300 個子代理。對於在 K2.6 推出前已採用 K2.5 的穩定生產部署團隊，以及作為 K2 系列傳承中已記錄的一步而言，K2.5 仍具有相關性。授權在整個家族中一致（修改版 MIT），使任何版本的商業部署都直接明瞭。

權重於 Hugging Face 的 `moonshotai/Kimi-K2.5` 取得。供 Ollama 與 llama.cpp 使用的量化 GGUF 建置廣泛可得。

Key Features

MoonViT-3D 視覺編碼器是 K2.5 最具代表性的能力新增。整合至與語言模型相同的訓練流程中——而非作為事後適配器附加——MoonViT-3D 在文字與圖像間產生統一的多模態推理。這對於工程與研究工作流程特別有價值，這些情境下對螢幕截圖、圖表與文件圖形進行推理是任務的一部分。3D 後綴指的是相對於原始 MoonViT 的架構改進（K2.6 後續進一步精煉）。

K2.5 中引入的原始 100 代理群執行環境，是首個在開放權重基礎上正式生產級的大規模多代理協調實作。K2.6 將此擴展至 300 個子代理，但 K2.5 發布是代理群模式從研究好奇心轉為可部署基礎設施的時刻。對於採用基於 Kimi 的代理系統的團隊，K2.5 記錄了原始的架構方法。

HumanEval 99.0 的紀錄使 K2.5 在發布時位居最被引用的程式設計基準之首。雖然我們不建議將 HumanEval 作為 2026 年模型選擇的主要訊號（飽和與污染顧慮），該結果獲得廣泛報導，並對發布後數月 K2.5 的大量部署採用做出貢獻。

32B 的活躍參數量讓 K2.5 擁有有利的推論經濟性。在標準推論框架上的 token 生成吞吐量約以 32B 級速度運行，完全在中階伺服器硬體的運作範圍內。結合 1T 的總參數容量，K2.5 在可持續的生產服務成本下提供具有競爭力的品質。

Fine-Tuning with Ertas

Kimi K2.5 在 1T 總參數規模下，位於實用微調的上限。Ertas Studio 支援在多 GPU 伺服器配置（8x A100 80GB 或 8x H100 80GB）上進行 QLoRA 微調，在典型序列長度下總共約需 580-700GB 的 VRAM。

專門針對多模態微調，Ertas Studio 支援交錯的文字與圖像訓練資料格式。K2.5 的 MoonViT-3D 視覺編碼器從訓練資料中受益匪淺，這些資料能訓練統一的文字視覺推理——例如在搭配程式碼的螢幕截圖、搭配技術文件的圖表，或搭配結構化分析的領域特定視覺內容上進行微調。

對於沒有 8 GPU 伺服器存取的多數團隊，建議的模式為師生蒸餾：使用 K2.5 作為教師生成合成代理任務資料，再用該資料對較小的基礎模型（Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸餾變體）進行微調。這能以單 GPU 部署成本產生領域專用代理，同時繼承 K2.5 的行為模式。訓練完成後，Ertas Studio 匯出為 GGUF（或 vLLM 原生格式），並完整保留對話模板。

對於專門針對 Kimi 家族微調的新部署，我們通常建議使用 K2.6 而非 K2.5——它繼承了所有 K2.5 能力，並擴展了 Agent Swarm 執行環境。對於對較舊變體有既有部署投資的團隊，K2.5 微調仍然有效。

Use Cases

K2.5 在 2026 年的主要使用情境是 K2.6 推出前已採用此版本的穩定生產部署團隊。這些部署通常更看重運作連續性勝於遷移成本，特別是當已在 K2.5 基礎上進行微調，或下游工具已針對 K2.5 特有行為進行校準時。

對於專門想要原始 100 代理群模式（而非 K2.6 擴展的 300 代理執行環境）的團隊，K2.5 是更合適的基礎。某些代理工作流程在較小的群規模下更易於除錯與推理，而 100 代理模式在許多生產情境下仍具有運作上的良好適合性。

從 MoonViT-3D 整合視覺能力中受益的多模態代理工作流程——含螢幕截圖的程式碼審查、含嵌入圖形的文件分析、含圖表的技術研究——與 K2.5（或 K2.6）特別搭配。統一架構產生比零散流程更為連貫的跨模態推理。

Hardware Requirements

Kimi K2.5 在 Q4_K_M 量化下約需 520GB 記憶體，可在 8x A100 80GB 或 8x H100 80GB 伺服器上運行，或於配備 768GB+ RAM 的 CPU 推論主機上運行。32B 的活躍參數量決定了 token 生成吞吐量。

對於較小規模的部署，Q3_K_M 量化（約 380GB）以略微的品質下降換取記憶體節省，可在 4x H100 80GB 伺服器上有充裕餘量地運行。低於 Q3 不建議用於生產部署——品質下降會變得明顯，特別是在 K2.5 競爭力源頭的代理與多模態基準上。

在 Ertas Studio 中進行微調：K2.5 QLoRA 約需 580-700GB 總 VRAM（多 GPU 伺服器）。對於沒有此規模的團隊，蒸餾至 Qwen 32B 或 Llama 70B 使用這些基礎模型標準的 20-48GB VRAM，透過師生方式以單 GPU 部署成本即可取得 K2.5 的多模態與代理模式。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →