Fine-Tune MiniMax M2.7 with Ertas

Lanzamiento auto-evolutivo de MiniMax de marzo de 2026 — mejorado mediante más de 100 rondas de aprendizaje por refuerzo autónomo, con razonamiento nativo, contexto de 205K, y la capacidad de ejecutar el 30-50% de un flujo de investigación en RL de forma autónoma. El sucesor de M2.5 (el anterior líder en SWE-Bench Verified con 80,2%).

456B-A45BMiniMax

Overview

MiniMax M2.7, lanzado por MiniMax el 17 de marzo de 2026, es uno de los lanzamientos open-weight arquitectónicamente más distintivos del año — no por nuevas innovaciones arquitectónicas, sino por cómo el pipeline de post-entrenamiento produjo el modelo. M2.7 fue desarrollado a través de más de 100 rondas de aprendizaje por refuerzo autónomo, donde el propio modelo ejecutó porciones sustanciales del flujo de investigación de RL que tradicionalmente impulsan los investigadores humanos. Las descripciones publicadas por MiniMax estiman que el modelo realizó del 30 al 50% del flujo de investigación de RL de forma autónoma a lo largo de las más de 100 iteraciones de entrenamiento.

La narrativa de auto-evolución impulsó una cobertura sustancial en marzo y abril de 2026, tanto por el logro técnico (los pipelines de entrenamiento auto-mejorables han sido un concepto largamente discutido pero raramente ejecutado) como por los resultados prácticos. La puntuación en el benchmark AA-Omniscience saltó de -40 (M2.5) a +1 (M2.7) — una mejora absoluta sustancial en un benchmark diseñado específicamente para medir la capacidad de razonamiento en diversos dominios. Aunque la metodología sigue siendo controvertida en algunos círculos de investigación (preguntas sobre la contaminación de datos de entrenamiento a lo largo de las más de 100 iteraciones, preguntas sobre la definición de 'autónomo' en el flujo de RL), el modelo resultante es genuinamente capaz y se ha desplegado ampliamente.

M2.7 es el sucesor de M2.5 (que mantuvo la posición de líder en SWE-Bench Verified con 80,2% antes de los lanzamientos de MiMo V2.5 Pro y Kimi K2.6). La forma arquitectónica es similar — una gran mezcla de expertos con parámetros activos en el rango de 40-50B — pero las mejoras en el post-entrenamiento ofrecen ganancias medibles en capacidad en benchmarks de razonamiento, programación e inteligencia general. El razonamiento nativo está integrado en lugar de estar restringido detrás de un conmutador separado de modo de pensamiento, lo que simplifica el despliegue en producción frente a alternativas de modo híbrido.

M2.7 se publica inicialmente como un modelo propietario con pesos publicados posteriormente en Hugging Face bajo la organización de MiniMax. La licencia es comercialmente permisiva pero conviene revisarla para escenarios específicos de despliegue. La ventana de contexto de 205K es lo suficientemente sustancial para la mayoría de las cargas de producción manteniéndose tratable para la economía de inferencia.

Key Features

La auto-evolución mediante más de 100 rondas de RL autónomo es el titular metodológico. La mayoría de los pipelines de entrenamiento de LLM involucran a investigadores humanos impulsando cada iteración de entrenamiento, evaluando resultados y decidiendo los próximos pasos. El pipeline de entrenamiento de M2.7 ejecutó porciones sustanciales de este flujo de forma autónoma — el propio modelo propuso ajustes de datos de entrenamiento, criterios de evaluación y conformación de recompensas de aprendizaje por refuerzo a lo largo de iteraciones. Esta es una demostración temprana de auto-mejora del pipeline de entrenamiento que, si se generaliza, podría cambiar sustancialmente la economía del desarrollo de IA.

La mejora de AA-Omniscience de -40 a +1 es el titular empírico. AA-Omniscience está diseñado para medir la capacidad de razonamiento a través de diversos dominios académicos usando preguntas suficientemente difíciles como para que incluso modelos fuertes puntúen muy por debajo de las líneas base aleatorias. La sustancial mejora absoluta en la transición M2.5 → M2.7 refleja ganancias medibles de capacidad a lo largo del ciclo más amplio de entrenamiento por RL, no solo optimización estrecha de benchmarks.

La integración nativa de razonamiento elimina la complejidad operativa de los modelos de modo híbrido. Mientras que Qwen 3+, DeepSeek V3.2/V4 y modelos similares de 2026 requieren un parámetro de control para alternar entre los modos de respuesta directa rápida y razonamiento extendido, M2.7 produce respuestas apropiadamente deliberadas por defecto basándose en la complejidad aparente de la solicitud. Esto simplifica la ingeniería de prompts para equipos que no quieren gestionar parámetros de presupuesto de pensamiento.

La ventana de contexto de 205K es generosa para la mayoría de las cargas de producción manteniéndose tratable para la economía de inferencia. Combinada con una sólida fidelidad en el uso de herramientas heredada de M2.5 y refinada aún más mediante el entrenamiento RL autónomo, M2.7 está bien adaptada a despliegues agénticos que necesitan tanto contexto sustancial como un comportamiento confiable de salida estructurada.

Fine-Tuning with Ertas

El fine-tuning de MiniMax M2.7 en Ertas Studio requiere configuraciones de servidor multi-GPU para QLoRA a la escala completa del modelo. Se necesitan aproximadamente 280-340GB de VRAM total en longitudes de secuencia típicas, cabiendo en un servidor 8x A100 80GB o equivalente.

Para la mayoría de los equipos sin esa infraestructura, el patrón recomendado es la destilación profesor-alumno: usar M2.7 como profesor para generar datos de entrenamiento sintéticos, luego ajustar un modelo base más pequeño (Qwen 32B, Llama 70B o una de las variantes destiladas de DeepSeek-R1) sobre esos datos. Esto produce un modelo especializado por dominio al coste de despliegue de una sola GPU mientras hereda los patrones de comportamiento de M2.7.

Para conjuntos de datos de fine-tuning, M2.7 se beneficia de datos de entrenamiento que incluyen trazas de razonamiento multi-paso, secuencias de uso de herramientas y patrones complejos de ejecución agéntica. Ertas Studio admite estos formatos de forma nativa. El comportamiento de razonamiento nativo se preserva a través del fine-tuning cuando los datos de entrenamiento incluyen patrones de respuesta apropiadamente deliberados.

Después del entrenamiento, Ertas Studio exporta a GGUF (o formatos nativos de vLLM para mayor rendimiento). La cuantización Q4_K_M del modelo M2.7 completo es grande — territorio de despliegue en servidor multi-GPU — pero los fine-tunes destilados sobre bases más pequeñas se exportan en tamaños estándar de 7B-70B para despliegue normal en una sola GPU.

Use Cases

Los casos de uso primarios de M2.7 reflejan la narrativa de auto-evolución y el perfil de capacidad resultante. Las aplicaciones de asistencia a la investigación se benefician de la amplia capacidad de dominio académico del modelo — la mejora de AA-Omniscience refleja ganancias genuinas de razonamiento que se traducen en calidad para tareas de investigación. Los flujos de trabajo analíticos de contexto largo se benefician del contexto de 205K combinado con la profundidad de razonamiento nativo.

Los despliegues agénticos donde importa la calidad del razonamiento son una buena opción. La integración de razonamiento nativo elimina una categoría de complejidad operativa que introducen los modelos de modo híbrido, y el énfasis en post-entrenamiento sobre la fidelidad en el uso de herramientas se traduce en un comportamiento confiable de agentes en producción. Para equipos que despliegan agentes en industrias reguladas o aplicaciones donde el razonamiento consistente importa más que el rendimiento bruto, M2.7 es competitivo con las mejores opciones open-weight.

Para equipos curiosos sobre los sistemas de IA auto-mejorables, M2.7 es uno de los artefactos desplegables más interesantes de esa dirección de investigación. Aunque las implicaciones a largo plazo de la auto-mejora del pipeline de entrenamiento siguen siendo discutidas, el modelo resultante es concreto y está bien soportado. Los despliegues en producción pueden beneficiarse de las ganancias de capacidad mientras las preguntas de investigación más amplias sobre la escalabilidad y los límites de la metodología continúan explorándose.

Hardware Requirements

MiniMax M2.7 con cuantización Q4_K_M requiere aproximadamente 250GB de memoria, cabiendo en un servidor 4x A100 80GB o 4x H100 80GB, o un host de inferencia en CPU con 384GB+ de RAM. El conteo de parámetros activos de aproximadamente 45B determina el rendimiento de generación de tokens una vez cargado.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 190GB) intercambia una calidad modesta por memoria reducida, cabiendo en una configuración 2x H100 80GB o 3x A100 80GB. Por debajo de Q3 no se recomienda para despliegues en producción — el comportamiento de razonamiento nativo que distingue a M2.7 depende de calidad consistente a lo largo de cadenas de razonamiento multi-paso, y la cuantización agresiva introduce un compuesto de errores que rompe esta consistencia.

Para fine-tuning en Ertas Studio: QLoRA de M2.7 necesita aproximadamente 280-340GB de VRAM total (servidor multi-GPU). Para equipos sin esa escala, la destilación sobre Qwen 32B (GPU de 40GB) o Llama 70B (GPU de 48GB) usando M2.7 como profesor ofrece agentes especializados por dominio a un coste de fine-tuning sustancialmente menor.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →