Fine-Tune Magistral with Ertas

La línea de modelos de razonamiento dedicada de Mistral AI — Magistral Medium 1.2 (magistral-medium-2509) y Magistral Small 1.2 (magistral-small-2509) — enfocada en capacidad extendida de cadena de pensamiento antes de que el linaje fuera unificado en Mistral Small 4.

SmallMediumMistral AI

Overview

Magistral es la línea de modelos de razonamiento dedicada de Mistral AI, lanzada originalmente en 2025 como respuesta de la compañía a la tendencia de razonamiento dedicado establecida por DeepSeek-R1 y QwQ-32B. La línea incluye variantes Magistral Small y Magistral Medium, siendo las últimas versiones documentadas públicamente Magistral Medium 1.2 (`magistral-medium-2509`) y Magistral Small 1.2 (`magistral-small-2509`), publicadas en septiembre de 2025.

El linaje Magistral enfatiza el razonamiento extendido de cadena de pensamiento entrenado con aprendizaje por refuerzo, similar en espíritu a la metodología de entrenamiento de DeepSeek-R1 pero con el pipeline distintivo de post-entrenamiento de Mistral y un posicionamiento enfocado en despliegue europeo. Los modelos Magistral apuntan a casos de uso donde la profundidad del razonamiento importa más que la velocidad de respuesta: resolución de problemas matemáticos, análisis científico, generación compleja de código y tareas de deliberación estructurada.

En marzo de 2026, Mistral anunció la consolidación de su linaje de modelos: Magistral (razonamiento), Devstral (agentes de programación) y Mistral Small (instrucción) se unificaron en un único checkpoint Mistral Small 4. Esta consolidación marca el final de Magistral como línea de producto separada, pero las variantes Magistral Medium y Small permanecen disponibles para escenarios de despliegue donde los equipos prefieren el comportamiento de razonamiento dedicado sobre el enfoque híbrido de Mistral Small 4.

Para equipos que evalúan la capacidad de razonamiento de Mistral en 2026, Mistral Small 4 es el camino recomendado a futuro. Magistral permanece documentado y soportado para despliegues estables en producción que adoptaron la línea antes de la consolidación.

Key Features

El entrenamiento dedicado de razonamiento es el diferenciador original de Magistral. Entrenado con aprendizaje por refuerzo enfatizando la generación de cadena de pensamiento, los modelos Magistral producen trazas de razonamiento extendidas antes de las respuestas finales — similar en patrón a DeepSeek-R1 y QwQ-32B, con las características específicas de post-entrenamiento de Mistral.

El posicionamiento de despliegue europeo es una ventaja significativa para algunos equipos. Mistral AI tiene su sede en la UE con un fuerte posicionamiento de soberanía de datos, lo que hace a Magistral atractivo para organizaciones europeas sujetas a preferencias regulatorias o políticas hacia proveedores de IA no estadounidenses ni chinos. Este posicionamiento se traslada también a Mistral Small 4.

La estructura de niveles Small/Medium ofrece flexibilidad de despliegue. Magistral Small maneja cargas de razonamiento generales con costo de despliegue de una sola GPU; Magistral Medium entrega mayor calidad pico a escala de servidor multi-GPU. Este rango permite a los equipos ajustar el tamaño del modelo de razonamiento a su infraestructura real de despliegue.

El linaje de experiencia en post-entrenamiento de Mistral se refleja en la estabilidad del seguimiento de instrucciones de Magistral y la fidelidad en el uso de herramientas. Si bien los modelos de razonamiento dedicados a veces pueden ser inestables en despliegues agénticos (el modo de razonamiento puede interferir con salidas estructuradas), Magistral ha sido diseñado para fiabilidad en producción más que para rendimiento puramente de benchmark.

Fine-Tuning with Ertas

Magistral Small se ajusta bien en Ertas Studio con QLoRA en una GPU de 24-48GB con longitudes de secuencia típicas. Magistral Medium requiere fine-tuning en servidor multi-GPU dado su mayor conteo de parámetros.

Para fine-tuning específico de modo de razonamiento, Ertas Studio admite formatos de datos de entrenamiento con trazas explícitas de cadena de pensamiento. Incluir trazas de pensamiento en tus datos de entrenamiento preserva el comportamiento de razonamiento dedicado en el modelo ajustado en lugar de colapsar al modo de respuesta directa.

Después del entrenamiento, Ertas Studio exporta los fine-tunes de Magistral al formato GGUF con preservación completa de la plantilla de chat de Mistral. El despliegue mediante Ollama, llama.cpp o vLLM funciona de forma directa con los mismos patrones de configuración que los modelos base de Mistral.

Para la mayoría de los equipos que consideran nuevos proyectos de fine-tuning enfocados en razonamiento en 2026, Mistral Small 4 es el punto de partida recomendado en lugar de Magistral — la arquitectura unificada es operativamente más eficiente e iguala o supera a Magistral en benchmarks de razonamiento. El fine-tuning de Magistral sigue siendo válido para equipos con pipelines existentes o inversiones de despliegue en la línea Magistral.

Use Cases

Los principales casos de uso de Magistral en 2026 son los despliegues estables en producción que se ejecutan sobre la línea antes de la consolidación de Mistral Small 4. Los equipos que ajustaron sobre Magistral a menudo valoran la continuidad sobre los costos de migración, particularmente cuando sus pipelines de evaluación posteriores y patrones de prompt están afinados al comportamiento específico de Magistral.

Para organizaciones europeas con requisitos estrictos de soberanía de datos, Magistral (y ahora Mistral Small 4) sigue siendo una opción atractiva. El despliegue auto-alojado en infraestructura europea proporciona control total de datos mientras aprovecha el ecosistema y las relaciones de soporte de Mistral.

Las cargas de trabajo de razonamiento dedicado — matemáticas, análisis científico, generación compleja de código — se benefician de la capacidad extendida de cadena de pensamiento de Magistral. Si bien el enfoque de modo-de-pensamiento unificado en Mistral Small 4 es operativamente más simple, los modelos de razonamiento dedicados aún tienen ventajas en escenarios especializados donde el razonamiento es la única tarea y el impacto en latencia es aceptable.

Hardware Requirements

Magistral Small en Q4_K_M típicamente requiere 12-20GB de memoria dependiendo de la variante específica (Small 1.2 está en el rango medio de esta banda). Cabe en una sola GPU de 24GB con margen.

Magistral Medium en Q4_K_M requiere sustancialmente más — típicamente 60-100GB dependiendo de la variante — y se beneficia del despliegue multi-GPU para servicio en producción.

Para fine-tuning en Ertas Studio: Magistral Small con QLoRA necesita 16-28GB de VRAM, cabiendo en una sola GPU de 24-32GB. Magistral Medium con QLoRA requiere 80-120GB de VRAM, típicamente repartidos entre dos GPUs de 48GB o desplegado en una sola GPU de 80GB con gestión agresiva de memoria. Para nuevos proyectos de fine-tuning, Mistral Small 4 (con su arquitectura MoE de 6B activos) ofrece una economía de entrenamiento sustancialmente mejor.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →