Fine-Tune Devstral 2 with Ertas

Familia open-weight especializada en programación de Mistral AI: Devstral 2 (123B) y Devstral Small 2 (24B), con la variante de 123B obteniendo 72.2% en SWE-Bench Verified y la de 24B ejecutándose en hardware de consumo. Lanzada como una línea especialista en programación antes de ser absorbida por la arquitectura unificada de Mistral Small 4 en marzo de 2026.

24B (Small 2)123BMistral AI

Overview

Devstral 2, lanzado por Mistral AI como parte de la línea Devstral 2025 más amplia especializada en programación, es la segunda generación del modelo de programación agéntica dedicado de Mistral. La familia se entrega en dos tamaños: un buque insignia de 123 mil millones de parámetros (Devstral 2) y una variante desplegable en hardware de consumo de 24 mil millones de parámetros (Devstral Small 2). Ambos son lanzamientos open-weight dirigidos a cargas de trabajo de programación agéntica: los patrones de tareas multi-paso que caracterizan a los agentes de programación basados en CLI como Claude Code, Cline y Aider.

El resultado destacado de benchmark de Devstral 2 es 72.2% en SWE-Bench Verified, una puntuación fuerte que lo coloca competitivo con el nivel superior de modelos open-weight de programación al momento del lanzamiento. Devstral Small 2 logra 68.0% en el mismo benchmark, lo que es excepcional para un modelo de 24B parámetros y competitivo con alternativas sustancialmente más grandes. Para los equipos que quieren fuerte capacidad de programación a escalas desplegables en hardware de consumo, Devstral Small 2 alcanza un punto óptimo particularmente productivo.

La línea Devstral fue absorbida sustancialmente en la arquitectura unificada de Mistral Small 4 en marzo de 2026. Donde Mistral previamente mantenía tres linajes de modelos distintos -Magistral para razonamiento, Devstral para programación y Mistral Small para uso ajustado a instrucciones- Mistral Small 4 unifica los tres en un único checkpoint de mezcla de expertos 119B-A6B. Para nuevos despliegues, Mistral Small 4 es el camino recomendado, pero Devstral 2 sigue siendo válido para los equipos que ejecutan despliegues estables en producción adoptados antes de la consolidación.

El posicionamiento de Devstral 2 como un especialista dedicado en programación es significativo en escenarios específicos de despliegue. Aunque Mistral Small 4 cubre la programación a través de su arquitectura unificada, la línea Devstral 2 fue diseñada específicamente para cargas de trabajo de programación agéntica: diferente énfasis de post-entrenamiento, diferente suite de evaluación, diferentes patrones de despliegue. Para los equipos cuyo caso de uso principal es la programación en lugar de IA de propósito general, Devstral 2 mantiene ventajas en nichos específicos incluso después de la consolidación.

La licencia para Devstral 2 cubre el despliegue open-weight pero vale la pena revisarla para escenarios comerciales específicos. Devstral Small 2 en particular se entrega bajo términos diseñados para apoyar el despliegue de productos de consumo sin topes de uso restrictivos. Los pesos están disponibles en Hugging Face bajo la organización de Mistral.

Key Features

La puntuación de 72.2% en SWE-Bench Verified de Devstral 2 posicionó al modelo competitivamente frente a las alternativas open-weight al lanzamiento. El benchmark mide la capacidad real de ingeniería de software: cambios multi-archivo, iteración guiada por pruebas, navegación de bases de código, y la puntuación de Devstral 2 refleja capacidad genuina de programación de grado de producción en lugar de optimización sintética de benchmarks.

Devstral Small 2 con 24B parámetros y 68.0% en SWE-Bench Verified es el resultado destacado de eficiencia. Para escalas desplegables en hardware de consumo, lograr esta puntuación es excepcional: supera sustancialmente a las alternativas generales de 24B y se acerca a la capacidad de modelos especializados en programación mucho más grandes. Para los equipos que quieren capacidad de programación de nivel frontera en hardware de consumo o estación de trabajo, Devstral Small 2 está entre las opciones más fuertes en la familia.

El posicionamiento de especialista en programación diferencia a Devstral 2 de las alternativas de propósito general. Aunque la arquitectura unificada de Mistral Small 4 cubre la programación a través del post-entrenamiento general, Devstral 2 apuntaba específicamente a cargas de trabajo de programación agéntica con énfasis apropiado de datos de entrenamiento: trazas de programación multi-paso, patrones de uso de herramientas, ejemplos de iteración guiada por pruebas. Para los equipos cuyo despliegue está exclusivamente enfocado en programación, esta especialización proporciona ventajas de calidad sobre las alternativas de propósito general con conteos de parámetros equivalentes.

La fuerte tradición de entrenamiento en uso de herramientas de Mistral se traduce bien a la capacidad de programación agéntica de Devstral 2. El modelo maneja llamadas a funciones, salidas estructuradas y secuencias de herramientas multi-paso con alta fidelidad: capacidades que importan para despliegues de programación agéntica donde la confiabilidad del bucle de uso de herramientas es a menudo más importante que la calidad bruta de generación de código.

Fine-Tuning with Ertas

El fine-tuning de Devstral 2 en Ertas Studio es directo en ambas variantes. Devstral Small 2 (24B) se ajusta con QLoRA en GPUs de consumo (16-24GB de VRAM), haciéndolo entre las bases especialistas en programación más accesibles para equipos sin infraestructura de clase servidor. Devstral 2 (123B) requiere configuraciones de estación de trabajo o servidor modesto: GPU de 48GB+ para QLoRA en longitudes de secuencia típicas.

Para fine-tuning específico de dominio de programación, Devstral 2 se beneficia de datos de entrenamiento que incluyen trazas completas de ejecución agéntica: descripciones de tareas, planificación, ediciones multi-archivo, salidas de pruebas e iteraciones correctivas. Ertas Studio admite estos formatos multi-paso de forma nativa, incluyendo trazas de uso de herramientas de ejecuciones de Claude Code, Cline o Aider. El entrenamiento en la base de código específica de tu equipo produce un modelo de programación especializado en dominio que supera al base en tareas dentro de tu base de código.

Para los equipos que eligen entre fine-tuning de Devstral 2 y fine-tuning de Mistral Small 4, la recomendación depende del perfil de despliegue. El conteo de 6B parámetros activos de Mistral Small 4 proporciona mejor economía de fine-tuning para especialización de propósito general incluyendo programación. Devstral 2 ofrece capacidad base específica de programación algo mejor para equipos cuya variante ajustada se usará exclusivamente para cargas de trabajo de programación, pero la brecha se ha estrechado sustancialmente con el lanzamiento de Mistral Small 4.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de Devstral 2. Ambas variantes se despliegan limpiamente vía Ollama, llama.cpp o vLLM con configuración estándar.

Use Cases

Los despliegues auto-hospedados de agentes de programación en hardware de consumo o estación de trabajo son el caso de uso más natural de Devstral Small 2. Los equipos de 5-20 desarrolladores que quieren fuerte capacidad de agentes de programación sin comprometerse con infraestructura de servidor encuentran a Devstral Small 2 entre las opciones más accesibles en la clase de tamaño de 24B. Los patrones de producción incluyen programación en pareja con IA para bases de código empresariales pequeñas, generación autónoma de PRs para patrones rutinarios de cambio y revisión de código integrada en CI a volúmenes moderados de solicitudes.

Devstral 2 con 123B apunta a despliegues de equipos más grandes donde la capacidad adicional justifica la inversión en hardware de estación de trabajo/servidor. La programación en pareja con IA para grandes bases de código empresariales, los agentes autónomos de programación que manejan refactorizaciones complejas y la automatización de revisión de código de alto rendimiento se benefician de la capacidad base más fuerte de la variante de 123B.

Para los equipos que ejecutan despliegues estables en producción en Devstral 2 antes de la consolidación de Mistral Small 4, el modelo permanece documentado y soportado. La migración a Mistral Small 4 ofrece simplificación operativa (un modelo reemplazando tres linajes separados) pero viene con costos no triviales de migración para equipos con fine-tunes específicos de Devstral existentes o herramientas downstream. Continuar con el despliegue de Devstral 2 es válido para estos escenarios.

Para equipos europeos o cualquier despliegue sujeto a requisitos de soberanía de datos, el posicionamiento de Mistral con sede en la UE combinado con la distribución open-weight de Devstral 2 proporciona ventajas estructurales sobre las alternativas con sede en EE.UU. o de laboratorios chinos. El despliegue auto-hospedado en infraestructura de la UE con modelos desarrollados en la UE cumple con requisitos de cumplimiento que algunos entornos regulatorios requieren específicamente.

Hardware Requirements

Devstral Small 2 con cuantización Q4_K_M requiere aproximadamente 14GB de memoria, cabiendo en GPUs de consumo desde RTX 3090 24GB y RTX 4090 en adelante. Con Q8_0, espera aproximadamente 26GB. El tamaño de 24B lo hace desplegable en hardware de estación de trabajo que es sustancialmente más accesible que la infraestructura de clase servidor.

Devstral 2 con Q4_K_M requiere aproximadamente 70GB, cabiendo en una sola GPU de 80GB (A100 80GB, H100 80GB) o dividido entre dos GPUs de 48GB con paralelismo de tensor. Con Q8_0, espera aproximadamente 130GB. La inferencia en CPU es factible en hosts con 192GB+ de RAM pero a un rendimiento sustancialmente menor que el despliegue en GPU.

Para fine-tuning en Ertas Studio: Devstral Small 2 QLoRA necesita 16-24GB de VRAM en longitudes de secuencia típicas, cabiendo en una sola GPU de nivel consumo (RTX 4090, RTX 5090). Devstral 2 QLoRA necesita 50-80GB de VRAM, cabiendo en una sola GPU de 80GB o dividido entre dos GPUs de 48GB con paralelismo de modelo. El fine-tuning de contexto largo (secuencias de 32K-64K) requiere proporcionalmente más memoria con gradient checkpointing.