Fine-Tune MiMo V2.5 with Ertas
Lanzamiento de gama media de Xiaomi del 28 de abril de 2026: una mezcla de expertos de 310 mil millones de parámetros con 15B de parámetros activos, con licencia MIT y publicado junto con el buque insignia más grande MiMo V2.5 Pro. La gama media desplegable de la familia MiMo para equipos que no necesitan la infraestructura completa Pro.
Overview
MiMo V2.5 (la variante no-Pro), lanzada por Xiaomi el 28 de abril de 2026 junto con MiMo V2.5 Pro, es la gama media desplegable de la familia insignia de modelos de programación de Xiaomi. La arquitectura es una mezcla de expertos de 310 mil millones de parámetros con aproximadamente 15B de parámetros activos por token: significativamente más pequeña que el buque insignia V2.5 Pro (1.02T totales / 42B activos) pero diseñada para los mismos casos de uso de programación agéntica con economía de despliegue sustancialmente mejor.
La estrategia de lanzamiento de Xiaomi posicionó ambas variantes como hermanas en lugar de como niveles insignia y económico. MiMo V2.5 apunta a escenarios de despliegue en producción donde la escala 1T de V2.5 Pro no es necesaria: la mayoría de las cargas de trabajo de programación agéntica en producción, programación en pareja con IA para bases de código empresariales típicas, agentes de programación integrados en CI a volúmenes moderados de solicitudes. El conteo de 15B parámetros activos proporciona economía de inferencia amigable con producción mientras mantiene una fuerte capacidad de programación que compite con la gama media de las alternativas de 2026.
La licencia MIT heredada de la familia MiMo más amplia es de las más permisivas en el ecosistema open-weight. Combinada con una fuerte capacidad de programación e infraestructura de despliegue accesible (el modelo cabe en un servidor de 4 GPUs frente al requisito de 8 GPUs para V2.5 Pro), MiMo V2.5 es particularmente atractivo para despliegues auto-hospedados de agentes de programación a escalas de equipos más pequeños.
Xiaomi posiciona la línea MiMo para especialización vertical mediante fine-tuning. MiMo V2.5 específicamente -con su escala de despliegue más accesible- está bien adaptado como base de fine-tuning para agentes de programación específicos de la industria. Los equipos en finanzas, salud, legal-tech e industrias reguladas similares con requisitos específicos de bases de código encuentran a MiMo V2.5 un punto de partida natural para producir agentes de programación especializados de dominio a escala de infraestructura desplegable.
Los pesos están disponibles en Hugging Face bajo `XiaomiMiMo/MiMo-V2.5`. La licencia es MIT: sin restricciones comerciales, requisitos de atribución ni topes de uso.
Key Features
La proporción total-a-activo de 21:1 (310B / 15B) es lo suficientemente agresiva para entregar fuerte economía de inferencia mientras mantiene amplitud de conocimiento. El rendimiento de generación de tokens en frameworks estándar de inferencia funciona aproximadamente a velocidades de clase 15B, cómodamente dentro del rango operativo del hardware de servidor de gama media. Para despliegue en producción de agentes de programación a escala moderada, MiMo V2.5 alcanza un punto óptimo productivo.
La herencia de licencia MIT de la familia MiMo más amplia es estructuralmente significativa para despliegue comercial. MIT es una de las licencias open-source más permisivas: sin topes de uso, sin requisitos de atribución más allá de los avisos estándar de copyright, sin restricciones sobre entrenamiento derivado o integración comercial. Para los equipos que previamente usaban modelos restringidos por la Llama Community License, MiMo V2.5 proporciona simplificación de licencia junto con mejoras de capacidad.
El entrenamiento enfocado en programación se traduce en confiabilidad del mundo real. Como las líneas Qwen3-Coder y MiMo más amplias, el post-entrenamiento de MiMo V2.5 enfatiza recompensas verificables de ejecución de código y trazas agénticas multi-paso. El modelo maneja cargas de trabajo reales de agentes de programación en producción con más confiabilidad que los modelos de propósito general de tamaño equivalente, incluso en dominios donde los modelos de propósito general tienden a confabular (versiones específicas de framework, APIs de bibliotecas, configuraciones de build).
La escala desplegable relativa a V2.5 Pro es el diferenciador práctico. Donde V2.5 Pro requiere infraestructura de servidor de 8 GPUs para despliegue de calidad completa, V2.5 cabe en servidores de 4 GPUs (4x A100 80GB o 4x H100 80GB) con cuantización Q4. Esto reduce a la mitad el costo de infraestructura para equipos que no necesitan la escala completa Pro, abriendo el despliegue de MiMo a sustancialmente más equipos.
Fine-Tuning with Ertas
El fine-tuning de MiMo V2.5 en Ertas Studio es más accesible que la variante V2.5 Pro. Con 15B parámetros activos por token, el entrenamiento QLoRA cabe en una sola GPU de 80GB en longitudes de secuencia típicas, o se divide entre dos GPUs de 48GB con paralelismo de modelo. El rendimiento de paso de entrenamiento a 15B parámetros activos es sustancialmente más rápido que hacer fine-tuning de alternativas densas de calidad equivalente.
Para fine-tuning específico de programación, MiMo V2.5 se beneficia de datos de entrenamiento que incluyen trazas completas de ejecución agéntica: descripciones de tareas, planificación, ediciones multi-archivo, salidas de pruebas e iteraciones correctivas. Ertas Studio admite estos formatos multi-paso de forma nativa. El entrenamiento en la base de código específica de tu equipo produce un modelo de programación especializado en dominio que supera al base en tareas dentro de tu base de código por un margen sustancial.
Para especialización vertical específicamente -el posicionamiento explícito de Xiaomi para la línea MiMo- MiMo V2.5 es el punto de partida más práctico que V2.5 Pro. El hardware de fine-tuning accesible combinado con la licencia MIT significa que las variantes verticales especializadas comerciales pueden producirse y desplegarse sin las restricciones de infraestructura o licencia que aplicarían a alternativas con base más grande o licencia restrictiva.
Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de MiMo V2.5. La cuantización Q4_K_M es de aproximadamente 175GB, cabiendo en un servidor de 4 GPUs con margen o en configuraciones Apple Silicon Mac Studio con 192GB+ de memoria unificada.
Use Cases
Los despliegues auto-hospedados de agentes de programación a escala moderada de equipo son el caso de uso más natural de MiMo V2.5. La combinación de fuerte capacidad de programación, licencia MIT y escala de despliegue de 4 GPUs lo hace particularmente atractivo para equipos de 10-50 desarrolladores que quieren capacidad de agentes de programación de nivel frontera sin comprometerse con infraestructura de servidor de 8 GPUs. Los patrones de producción incluyen programación en pareja con IA para bases de código empresariales, generación autónoma de PRs, automatización de revisión de código y flujos de programación integrados en CI.
La especialización vertical es el posicionamiento explícito de Xiaomi para MiMo V2.5. Equipos en finanzas (análisis de código regulatorio, desarrollo de sistemas financieros), salud (software médico compatible con HIPAA), legal-tech (herramientas de análisis de contratos) e industrias reguladas similares con requisitos específicos de bases de código encuentran a MiMo V2.5 una base de fine-tuning particularmente fuerte. La escala de despliegue accesible combinada con la licencia MIT simplifica el despliegue comercial de variantes verticales especializadas.
Para los equipos que consideran alternativas auto-hospedadas a los modelos backend de Claude Code o Cursor, MiMo V2.5 es una de las opciones económicamente más atractivas. El punto de equilibrio -donde la infraestructura auto-hospedada se vuelve más barata que el precio por solicitud de API- se alcanza a volúmenes de solicitud más bajos para V2.5 que para V2.5 Pro que requiere 8 GPUs. Esto abre el despliegue auto-hospedado a sustancialmente más equipos.
Hardware Requirements
MiMo V2.5 con cuantización Q4_K_M requiere aproximadamente 175GB de memoria, cabiendo en un servidor 4x A100 80GB o 4x H100 80GB. La inferencia en CPU es factible en hosts con 256GB+ de RAM pero a un rendimiento sustancialmente menor que el despliegue en GPU. El conteo de 15B parámetros activos determina el rendimiento de generación de tokens una vez cargado.
Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 130GB) intercambia calidad modesta por memoria reducida, cabiendo en una configuración 2x H100 80GB. Las configuraciones Apple Silicon Mac Studio M3 Ultra o M4 Ultra con 192GB+ de memoria unificada pueden desplegar MiMo V2.5 vía MLX con rendimiento utilizable, aunque el throughput es significativamente menor que los despliegues acelerados con NVIDIA.
Para fine-tuning en Ertas Studio: MiMo V2.5 QLoRA necesita aproximadamente 80-130GB de VRAM total, cabiendo en una sola GPU de 80GB en longitudes de secuencia típicas o en dos GPUs de 48GB con paralelismo de modelo. La arquitectura MoE de 15B parámetros activos hace al entrenamiento significativamente más eficiente que hacer fine-tuning de alternativas densas de calidad equivalente con la misma capacidad efectiva de programación.
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.