Fine-Tune Kimi K2.5 with Ertas

El lanzamiento de Moonshot AI en enero de 2026 — el primer modelo Kimi multimodal, añadiendo el codificador de visión MoonViT-3D al linaje K2 con su arquitectura de mezcla de expertos de 1T parámetros. Estableció el récord open-weight en HumanEval con 99,0 e introdujo el runtime original de enjambre de 100 agentes que K2.6 luego escaló a 300.

1T-A32BMoonshot AI

Overview

Kimi K2.5, lanzado por Moonshot AI el 27 de enero de 2026, es la segunda iteración importante de la serie Kimi K2 y la versión que introdujo capacidad multimodal a la familia. La arquitectura es una mezcla de expertos de 1,04T de parámetros con aproximadamente 32B de parámetros activos por token — la misma forma fundamental que K2 (julio de 2025) — pero entrenada sobre un corpus adicional de ~15T tokens de datos visuales y de texto mixtos más allá del corpus original de K2.

La adición principal es el codificador de visión MoonViT-3D, que otorga a K2.5 entrada nativa de imágenes junto con las capacidades de texto existentes. A diferencia de los pipelines fragmentados de visión-lenguaje que añaden codificadores de visión a modelos base solo de texto, MoonViT-3D fue integrado en el mismo pipeline de entrenamiento que el modelo de lenguaje — produciendo un razonamiento más coherente entre modalidades. K2.5 es también la versión que introdujo el runtime original de enjambre de 100 agentes, que K2.6 (abril de 2026) luego escaló a 300 sub-agentes.

K2.5 mantiene el récord open-weight en HumanEval con 99,0 — un resultado de benchmark que atrajo una atención sustancial a la serie K2 a principios de 2026. Si bien HumanEval ahora se considera saturado y propenso a contaminación (los modelos de frontera obtienen rutinariamente 95%+, con las diferencias entre los modelos punteros dominadas por el ruido), la puntuación casi perfecta de K2.5 sigue siendo el resultado open-weight más alto reportado públicamente en este benchmark.

Para la mayoría de los nuevos despliegues en 2026, K2.6 es la opción recomendada sobre K2.5 — hereda toda la capacidad multimodal y agéntica mientras extiende el runtime de enjambre a 300 sub-agentes. K2.5 sigue siendo relevante para equipos que ejecutan despliegues estables en producción que lo adoptaron antes de que K2.6 estuviera disponible, y como un paso documentado en el linaje de la serie K2. La licencia es consistente entre toda la familia (MIT modificada), haciendo el despliegue comercial sencillo en cualquier versión.

Los pesos están disponibles en Hugging Face bajo `moonshotai/Kimi-K2.5`. Las compilaciones GGUF cuantizadas para Ollama y llama.cpp están ampliamente disponibles.

Key Features

El codificador de visión MoonViT-3D es la adición de capacidad definitoria de K2.5. Integrado en el mismo pipeline de entrenamiento que el modelo de lenguaje — en lugar de añadirse como un adaptador post-hoc — MoonViT-3D produce razonamiento multimodal unificado entre texto e imágenes. Esto es particularmente valioso para flujos de trabajo de ingeniería e investigación donde el razonamiento sobre capturas de pantalla, diagramas y figuras de documentos es parte de la tarea. El sufijo 3D se refiere a mejoras arquitectónicas sobre el MoonViT original (que K2.6 luego refinó aún más).

El runtime original de enjambre de 100 agentes introducido en K2.5 fue la primera implementación de grado de producción de orquestación multi-agente a gran escala sobre una base open-weight. K2.6 escaló esto a 300 sub-agentes, pero el lanzamiento de K2.5 fue el momento en que el patrón de enjambre de agentes pasó de curiosidad de investigación a infraestructura desplegable. Para los equipos que adoptan sistemas agénticos basados en Kimi, K2.5 documentó el enfoque arquitectónico original.

El récord en HumanEval con 99,0 colocó a K2.5 en la cima de uno de los benchmarks de programación más citados en el momento del lanzamiento. Si bien no recomendamos HumanEval como señal principal para la selección de modelos en 2026 (preocupaciones de saturación y contaminación), el resultado fue ampliamente cubierto y contribuyó a una sustancial adopción de K2.5 en los meses posteriores al lanzamiento.

El conteo de 32B de parámetros activos otorga a K2.5 una economía de inferencia favorable. El rendimiento de generación de tokens en frameworks de inferencia estándar funciona aproximadamente a velocidades de clase 32B, dentro del rango operativo de hardware de servidor de gama media. Combinado con la capacidad total de 1T parámetros, K2.5 entrega calidad competitiva con costos sostenibles de servicio en producción.

Fine-Tuning with Ertas

Kimi K2.5 con 1T de parámetros totales está en el extremo superior del fine-tuning práctico. Ertas Studio admite fine-tuning con QLoRA en configuraciones de servidor multi-GPU (8x A100 80GB u 8x H100 80GB), con aproximadamente 580-700GB de VRAM total requerida en longitudes de secuencia típicas.

Para fine-tuning multimodal específicamente, Ertas Studio admite formatos de datos de entrenamiento intercalados de texto e imagen. El codificador de visión MoonViT-3D de K2.5 se beneficia de datos de entrenamiento que ejercitan el razonamiento texto-visión unificado — fine-tuning en capturas de pantalla emparejadas con código, diagramas emparejados con documentación técnica, o contenido visual específico de dominio emparejado con análisis estructurado.

Para la mayoría de los equipos sin acceso a servidor de 8 GPUs, el patrón recomendado es la destilación profesor-estudiante: usar K2.5 como profesor para generación de datos sintéticos de tareas agénticas, luego ajustar un modelo base más pequeño (Qwen 32B, Llama 70B o variantes destiladas de DeepSeek-R1) sobre esos datos. Esto produce un agente especializado por dominio con costo de despliegue de una sola GPU mientras hereda los patrones de comportamiento de K2.5. Después del entrenamiento, Ertas Studio exporta a GGUF (o formatos nativos de vLLM) con preservación completa de la plantilla de chat.

Para nuevos despliegues que apuntan específicamente al fine-tuning de la familia Kimi, generalmente recomendamos K2.6 sobre K2.5 — hereda todas las capacidades de K2.5 más el runtime extendido de Agent Swarm. El fine-tuning de K2.5 sigue siendo válido para equipos con inversiones de despliegue existentes en la variante anterior.

Use Cases

El caso de uso principal de K2.5 en 2026 es para equipos que ejecutan despliegues estables en producción adoptados antes de que K2.6 estuviera disponible. Estos despliegues a menudo valoran la continuidad operativa sobre los costos de migración, particularmente cuando se ha hecho fine-tuning sobre la base K2.5 o cuando las herramientas posteriores están calibradas al comportamiento específico de K2.5.

Para equipos que específicamente quieren el patrón original de enjambre de 100 agentes (en lugar del runtime expandido de 300 agentes de K2.6), K2.5 es la base más apropiada. Algunos flujos de trabajo agénticos son más fáciles de depurar y razonar a la escala de enjambre más pequeña, y el patrón de 100 agentes sigue siendo operativamente adecuado para muchos escenarios de producción.

Los flujos de trabajo agénticos multimodales que se benefician de la capacidad de visión integrada de MoonViT-3D — revisión de código con capturas de pantalla, análisis de documentos con figuras incrustadas, investigación técnica con diagramas — emparejan particularmente bien con K2.5 (o K2.6). La arquitectura unificada produce un razonamiento multimodal más coherente que los pipelines fragmentados.

Hardware Requirements

Kimi K2.5 con cuantización Q4_K_M requiere aproximadamente 520GB de memoria, cabiendo en un servidor 8x A100 80GB u 8x H100 80GB, o un host de inferencia en CPU con 768GB+ de RAM. El conteo de parámetros activos de 32B determina el rendimiento de generación de tokens.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 380GB) intercambia una calidad modesta por memoria reducida, cabiendo en un servidor 4x H100 80GB con margen. Por debajo de Q3 no se recomienda para despliegues en producción — la degradación de calidad se vuelve perceptible, particularmente en benchmarks agénticos y multimodales donde se origina la ventaja competitiva de K2.5.

Para fine-tuning en Ertas Studio: K2.5 con QLoRA necesita aproximadamente 580-700GB de VRAM total (servidor multi-GPU). Para equipos sin esa escala, la destilación sobre Qwen 32B o Llama 70B usa los 20-48GB de VRAM estándar para esos modelos base, haciendo accesibles los patrones multimodales y agénticos de K2.5 con costo de despliegue de una sola GPU mediante el enfoque profesor-estudiante.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →