Fine-Tune Mistral Small 4 with Ertas

El lanzamiento de Mistral en marzo de 2026 que unifica los linajes previamente separados de Magistral (razonamiento), Devstral (agentes de programación) y Mistral Small (ajustado por instrucciones) en un único modelo de mezcla de expertos de 119B con 6B de parámetros activos, publicado bajo Apache 2.0.

119B-A6BMistral AI

Overview

Mistral Small 4, publicado por Mistral AI en marzo de 2026, representa una simplificación significativa de la superficie de productos de Mistral. Donde Mistral previamente mantenía tres linajes de modelo distintos — Magistral para razonamiento, Devstral para programación agéntica y Mistral Small para uso general ajustado por instrucciones — Mistral Small 4 unifica los tres en un único checkpoint de mezcla de expertos. La arquitectura es de 119B de parámetros totales con aproximadamente 6B activos por token, publicado bajo Apache 2.0.

Esta consolidación es la gran historia de 2026 para Mistral. Desde un punto de vista operativo, elimina la necesidad de que los despliegues en producción mantengan tres artefactos de modelo separados y lógica de enrutamiento — un único endpoint de Mistral Small 4 sirve cargas de programación, razonamiento e instrucción general. Desde un punto de vista de calidad, el pipeline unificado de post-entrenamiento produce un modelo que es competitivo con cada una de las variantes especializadas anteriores en sus respectivos dominios mientras entrega un rendimiento sustancialmente mejor entre dominios.

El conteo de 6B de parámetros activos otorga a Mistral Small 4 una economía de inferencia sobresaliente. El rendimiento de generación de tokens es comparable al de un modelo denso de 6B — dentro de los rangos operativos de GPU de consumo — mientras que la capacidad total de 119B de parámetros entrega calidad competitiva con modelos densos de gama media en el rango 30B-70B en la mayoría de los benchmarks. Esto hace de Mistral Small 4 una de las opciones más atractivas para servicio API en producción donde el costo por token y la latencia importan por igual.

Los pesos están disponibles en Hugging Face bajo `mistralai/Mistral-Small-4`. La licencia Apache 2.0 combinada con el historial de Mistral en post-entrenamiento de alta calidad hace que este lanzamiento sea particularmente atractivo para equipos europeos sujetos a estrictos requisitos de soberanía de datos, y para cualquier despliegue comercial que valore licencias directas.

Key Features

La unificación de capacidades de razonamiento, programación e instrucción es la característica definitoria de Mistral Small 4. El modelo incluye capacidad de razonamiento extendido al estilo Magistral — accesible mediante un conmutador de modo de pensamiento similar a Qwen 3+ y DeepSeek V4. Incluye fidelidad de uso de herramientas en programación agéntica al estilo Devstral, con sólida adherencia a esquemas de llamadas a funciones y salida estructurada. Y conserva la fluidez conversacional y la calidad de seguimiento de instrucciones que hizo popular la línea Mistral Small original. Las tres capacidades son accesibles desde el mismo checkpoint sin necesidad de intercambiar pesos.

El perfil de inferencia de 6B de parámetros activos es excepcional para el rango de calidad efectiva del modelo. En la mayoría de los benchmarks, Mistral Small 4 rinde de manera comparable a modelos densos en el rango de 30B-70B parámetros, pero con el costo de inferencia de un modelo de 6B. Este es el mismo patrón arquitectónico que hizo exitosos a Qwen 3-30B-A3B y Mixtral 8x7B, escalado a un régimen de mayor parámetros totales donde el techo de calidad es sustancialmente más alto.

La licencia Apache 2.0 es consistente con el posicionamiento más amplio de open-source de Mistral. A diferencia de Codestral (que usa MNPL — solo investigación sin licencia comercial) y la API propietaria Magistral Medium, Mistral Small 4 está totalmente abierto para uso comercial, incluyendo entrenamiento derivado, fine-tuning e integración propietaria sin acuerdos de licencia separados.

Mistral Small 4 hereda las sólidas capacidades multilingües de Mistral, particularmente en idiomas europeos. Francés, alemán, italiano, español, portugués y holandés tienen cobertura de calidad de producción. Para equipos europeos, esto combinado con el posicionamiento de soberanía de datos UE de Mistral hace de Mistral Small 4 una elección predeterminada natural sobre alternativas open-weight con sede en EE. UU. o China.

Fine-Tuning with Ertas

El conteo de 6B de parámetros activos de Mistral Small 4 lo hace excepcionalmente eficiente para el fine-tuning en relación con sus 119B parámetros totales. En Ertas Studio, el fine-tuning con QLoRA cabe cómodamente en una GPU de consumo de 24GB con longitudes de secuencia completas de hasta 8K-16K tokens — sustancialmente más accesible que el fine-tuning de modelos densos de calidad equivalente en el rango 30B-70B, que típicamente requieren GPUs de 48GB+.

La arquitectura MoE introduce algunas consideraciones de fine-tuning que Ertas Studio gestiona automáticamente: estabilidad del enrutamiento de expertos durante la adaptación de bajo rango, balance de carga entre expertos para prevenir colapsos, y fusión adecuada de adaptadores LoRA con los pesos base del MoE en el momento de exportación. Los usuarios no necesitan configurar esto manualmente — la plataforma aplica valores predeterminados apropiados basados en la arquitectura de Mistral Small 4.

Para los conjuntos de datos de fine-tuning, Mistral Small 4 admite el rango completo de formatos de datos de entrenamiento: pares estándar de seguimiento de instrucciones, conversaciones multi-turno, trazas agénticas de uso de herramientas y datos de modo de razonamiento con trazas explícitas de pensamiento. La arquitectura unificada del modelo significa que un único checkpoint ajustado puede manejar todos estos post-entrenamiento, eliminando la necesidad de fine-tunes especializados separados para diferentes tipos de tareas.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de Mistral Small 4. La cuantización Q4_K_M del modelo completo 119B-A6B es de aproximadamente 65GB, desplegable en una sola GPU de 80GB o repartida entre dos GPUs de 48GB. Para la mayoría de los casos de uso en producción, el fine-tune cuantizado Q4_K_M ofrece un excelente equilibrio entre calidad y eficiencia de recursos.

Use Cases

El servicio API en producción es el caso de uso más fuerte de Mistral Small 4. La combinación de economía de inferencia de clase 6B, sólida calidad entre dominios y licencia Apache 2.0 lo hace ideal para despliegues de chatbot de alto rendimiento, pipelines de moderación de contenido, sistemas de procesamiento de documentos y automatización de soporte al cliente. La economía del costo por token a menudo supera a las alternativas open-weight que requieren mayores conteos de parámetros activos.

Para equipos europeos o cualquier organización con requisitos estrictos de soberanía de datos, Mistral Small 4 es una elección predeterminada natural. El despliegue auto-alojado en infraestructura europea proporciona control total sobre la residencia de datos, mientras que la licencia Apache 2.0 elimina las preocupaciones de licencia con sede en EE. UU. o China. Las sólidas capacidades multilingües de Mistral en idiomas europeos añaden valor adicional para estos despliegues.

El modelo unificado también es adecuado para entornos donde la simplicidad operativa importa. Los equipos de ingeniería que previamente mantenían endpoints separados de Magistral, Devstral y Mistral Small pueden colapsar a un único despliegue de Mistral Small 4, reduciendo la superficie operativa, simplificando la planificación de capacidad y eliminando la lógica de enrutamiento entre modelos. Este beneficio por sí solo a menudo es suficiente para justificar la migración para equipos con integraciones maduras de Mistral.

Hardware Requirements

Mistral Small 4 con cuantización Q4_K_M requiere aproximadamente 65GB de memoria, cabiendo en una sola GPU de 80GB (A100 80GB, H100 80GB) o repartida entre dos GPUs de 48GB con paralelismo tensorial. Con Q8_0, espera aproximadamente 120GB. El conteo de parámetros activos de 6B determina el rendimiento de generación de tokens, así que una vez cargado el modelo sirve a velocidades aproximadamente de clase 6B — dentro del rango operativo para aplicaciones interactivas.

Para despliegue en hardware de consumo, la cuantización Q3_K_M (aproximadamente 50GB) es la configuración práctica más baja. Esto cabe en un sistema Apple Silicon de 64GB (M2 Ultra, M3 Ultra Mac Studio, M4 Pro/Max) usando el backend MLX, o en una GPU de 48GB con margen. La inferencia solo en CPU es viable en sistemas con 96GB+ de RAM pero a un rendimiento sustancialmente menor que el despliegue en GPU.

Para fine-tuning en Ertas Studio: Mistral Small 4 con QLoRA necesita aproximadamente 22-28GB de VRAM en longitudes de secuencia típicas (4K tokens), cabiendo en una sola GPU de 24GB. Para entrenamiento de contexto más largo (16K+ tokens), espera 32-40GB de VRAM con gradient checkpointing habilitado. La huella relativamente baja de fine-tuning en relación con la calidad efectiva del modelo es una de las razones más sólidas para elegir Mistral Small 4 sobre alternativas densas comparables.