¿Qué Small Language Model Deberías Ajustar para Empresa en 2026?

Elegir un modelo base para fine-tuning empresarial solía ser simple — solo había unas pocas opciones. En 2026, el panorama de SLMs ha madurado al punto donde los equipos empresariales enfrentan un problema de selección genuinamente difícil. Hay al menos seis modelos base creíbles en el rango de 3B–14B parámetros, cada uno con diferentes fortalezas, términos de licencia y requisitos de hardware.

Esta guía te da la información para tomar esa decisión sin tener que revisar docenas de papers de benchmarks. Compararemos los modelos en las dimensiones que realmente importan para despliegue empresarial: licenciamiento, compatibilidad de fine-tuning, requisitos de hardware, rendimiento por tipo de tarea y soporte de idiomas.

Los Contendientes

Estos son los seis modelos que vale la pena evaluar para fine-tuning empresarial en 2026:

Modelo	Parámetros	Desarrollador	Lanzamiento	Ventana de Contexto
Phi-4	14B	Microsoft	Finales 2025	16K tokens
Gemma 2	9B	Google	Mediados 2024	8K tokens
Llama 3.2	8B	Meta	Finales 2024	128K tokens
Qwen 2.5	7B	Alibaba	Finales 2024	128K tokens
Mistral 7B	7B	Mistral AI	Finales 2023	32K tokens
Phi-3 mini	3.8B	Microsoft	Mediados 2024	128K tokens

Cada uno ha pasado por múltiples ciclos de fine-tuning en la comunidad open-source, por lo que el soporte de herramientas es sólido en general. Las diferencias están en los detalles.

Licenciamiento: El Primer Filtro

El licenciamiento es el criterio de evaluación más importante para despliegue empresarial. Un modelo que es técnicamente superior pero legalmente riesgoso no es una opción real.

Modelo	Licencia	Uso Comercial	Restricciones Clave
Phi-4	MIT	Sí, sin restricciones	Ninguna. Totalmente permisiva.
Phi-3 mini	MIT	Sí, sin restricciones	Ninguna. Totalmente permisiva.
Qwen 2.5	Apache 2.0	Sí, sin restricciones	Ninguna. Términos Apache estándar.
Mistral 7B	Apache 2.0	Sí, sin restricciones	Ninguna. Términos Apache estándar.
Gemma 2	Google Permissive	Sí	Debe cumplir con la política de uso de Google. No usar para entrenar modelos competidores.
Llama 3.2	Custom Meta License	Sí, con condiciones	Uso comercial OK si usuarios activos mensuales son menos de 700 millones. Debe incluir atribución.

Recomendaciones de Licenciamiento

Más seguro para empresa: Phi-4 (MIT) y Qwen 2.5 / Mistral 7B (Apache 2.0). Estas licencias son bien entendidas por equipos legales, tienen décadas de precedente y no imponen restricciones de uso. Tu departamento legal las aprobará rápidamente.

Bien para la mayoría de empresas: Llama 3.2 (licencia Meta) y Gemma 2 (licencia Google). La restricción de 700M MAU en Llama es irrelevante para uso empresarial interno. La política de uso de Google en Gemma es razonable pero agrega una dependencia de la interpretación de Google. Ambas son comercialmente viables para casi todos los casos de uso empresarial, pero espera un ciclo de revisión legal ligeramente más largo.

Si el licenciamiento es tu prioridad máxima: Ve con Phi-4 (MIT). Sin restricciones, sin condiciones, sin ambigüedad.

Rendimiento en Benchmarks

Los puntajes crudos de benchmarks solo cuentan parte de la historia — los resultados de fine-tuning dependen fuertemente de tus datos y tarea específicos. Pero la calidad del modelo base establece el punto de partida, y un modelo base más fuerte típicamente se ajusta a un techo más alto.

Benchmarks Generales (Pre-Fine-Tuning)

Benchmark	Phi-4 (14B)	Gemma 2 (9B)	Llama 3.2 (8B)	Qwen 2.5 (7B)	Mistral 7B	Phi-3 mini (3.8B)
MMLU (conocimiento)	84.8	71.3	73.0	74.2	64.2	68.8
ARC-Challenge (razonamiento)	93.6	89.8	83.4	84.5	85.2	84.9
HellaSwag (sentido común)	89.2	87.3	82.0	83.1	83.3	80.4
HumanEval (código)	82.6	54.3	72.6	74.4	40.2	64.0
GSM8K (matemáticas)	89.4	68.3	79.6	82.3	58.4	75.7

Phi-4 lidera en todos los benchmarks, lo cual es esperado dada su ventaja de 14B parámetros. Entre los modelos clase 7B, Qwen 2.5 y Llama 3.2 compiten cabeza a cabeza dependiendo del benchmark, con Qwen mostrando particular fortaleza en tareas de matemáticas y código.

Phi-3 mini (3.8B) rinde muy por encima de su categoría, desempeñándose de manera comparable a modelos de 7B en varios benchmarks. Esto lo convierte en una opción atractiva para despliegue en el borde donde el tamaño del modelo es una restricción dura.

Rendimiento Post-Fine-Tuning

El fine-tuning comprime la brecha de rendimiento entre modelos. Un modelo de 7B ajustado con 2,000 ejemplos específicos de dominio frecuentemente se acerca al rendimiento de un modelo de 14B ajustado con los mismos datos. La brecha se reduce porque el conocimiento específico de dominio en los datos de fine-tuning importa más que el conocimiento general del modelo base para rendimiento en tareas específicas.

Rangos típicos de precisión post-fine-tuning (en tareas específicas de dominio):

Modelo	Tareas de Clasificación	Tareas de Extracción	Seguimiento de Instrucciones
Phi-4 (14B)	94–97%	91–95%	Excelente
Qwen 2.5 (7B)	92–96%	89–94%	Muy bueno
Llama 3.2 (8B)	91–95%	88–93%	Muy bueno
Gemma 2 (9B)	91–95%	88–93%	Bueno
Mistral 7B	90–94%	87–92%	Bueno
Phi-3 mini (3.8B)	88–93%	85–90%	Bueno

La conclusión: Phi-4 tiene una ventaja consistente de 2–3 puntos porcentuales post-fine-tuning, pero cualquiera de estos modelos puede alcanzar precisión viable para producción en tareas empresariales bien definidas.

Compatibilidad de Fine-Tuning

No todos los modelos son igualmente fáciles de ajustar. Los detalles prácticos — soporte de QLoRA, estabilidad de entrenamiento, herramientas disponibles — importan mucho cuando estás iterando en corridas de fine-tuning.

Característica	Phi-4	Gemma 2	Llama 3.2	Qwen 2.5	Mistral 7B	Phi-3 mini
Soporte QLoRA	Sí	Sí	Sí	Sí	Sí	Sí
Soporte Unsloth	Sí	Sí	Sí	Sí	Sí	Sí
Soporte Axolotl	Sí	Sí	Sí	Sí	Sí	Sí
HF Transformers	Sí	Sí	Sí	Sí	Sí	Sí
Exportación GGUF	Sí	Sí	Sí	Sí	Sí	Sí
Estabilidad de entrenamiento	Alta	Media	Alta	Alta	Alta	Alta
Fine-tunes comunitarios	Muchos	Muchos	Muchísimos	Muchos	Muchísimos	Muchos
Plantilla de chat	ChatML	Gemma	Llama	ChatML	Mistral	ChatML

Los seis modelos soportan la cadena de herramientas estándar de fine-tuning (QLoRA vía Unsloth o Axolotl, exportación GGUF vía llama.cpp, servicio vía Ollama o vLLM). La diferencia práctica está en la adopción comunitaria: Llama y Mistral tienen el ecosistema más grande de variantes ajustadas, adaptadores y guías de despliegue, lo que significa más implementaciones de referencia cuando te atascas.

Gemma 2 tiene una calificación de estabilidad de entrenamiento "Media" porque algunos usuarios reportan picos de pérdida ocasionales durante el fine-tuning que requieren ajustes en la tasa de aprendizaje. Es manejable pero agrega tiempo de iteración.

Soporte de Idiomas

Si tu empresa opera en múltiples idiomas, la selección de modelos se reduce significativamente.

Modelo	Inglés	Chino	Japonés	Coreano	Europeo	Árabe	Sudeste Asiático
Phi-4	Excelente	Bueno	Regular	Regular	Bueno	Regular	Pobre
Gemma 2	Excelente	Bueno	Bueno	Regular	Bueno	Regular	Regular
Llama 3.2	Excelente	Bueno	Bueno	Regular	Bueno	Regular	Regular
Qwen 2.5	Excelente	Excelente	Bueno	Bueno	Bueno	Bueno	Bueno
Mistral 7B	Excelente	Regular	Regular	Pobre	Excelente	Regular	Pobre
Phi-3 mini	Excelente	Bueno	Regular	Regular	Bueno	Regular	Pobre

Qwen 2.5 es el claro ganador para despliegues multilingües, particularmente para idiomas CJK (chino, japonés, coreano) e idiomas del sudeste asiático. Fue entrenado con un enfoque deliberado en capacidad multilingüe y mantiene un rendimiento fuerte en un rango más amplio de idiomas que cualquier competidor en esta categoría de tamaño.

Mistral 7B es notable por su fuerte soporte de idiomas europeos, lo cual tiene sentido dado el origen francés y enfoque europeo de Mistral AI.

Para despliegues solo en inglés, cualquiera de estos modelos funciona bien, y la selección debe guiarse por otros criterios.

Requisitos de Hardware

El hardware que necesitas depende de si solo estás ejecutando inferencia (sirviendo predicciones) o también haciendo fine-tuning (entrenando el modelo).

Inferencia (Sirviendo Predicciones)

Modelo	VRAM (FP16)	VRAM (Q4 Cuantizado)	GPU Mín.	GPU Recomendada
Phi-4 (14B)	28GB	8–10GB	RTX 4090 (24GB)	L40S (48GB)
Gemma 2 (9B)	18GB	6–7GB	RTX 4070 Ti (16GB)	RTX 4090 (24GB)
Llama 3.2 (8B)	16GB	5–6GB	RTX 4070 Ti (16GB)	RTX 4090 (24GB)
Qwen 2.5 (7B)	14GB	4–5GB	RTX 4060 Ti (16GB)	RTX 4090 (24GB)
Mistral 7B	14GB	4–5GB	RTX 4060 Ti (16GB)	RTX 4090 (24GB)
Phi-3 mini (3.8B)	8GB	2–3GB	RTX 4060 (8GB)	RTX 4070 Ti (16GB)

Con cuantización Q4, todos los modelos excepto Phi-4 caben cómodamente en 8GB de VRAM, lo que significa que pueden correr en la mayoría de las GPUs modernas incluyendo hardware de laptop. Phi-4 requiere una GPU de gama más alta o manejo cuidadoso de memoria con offloading.

Phi-3 mini con 3.8B parámetros es lo suficientemente pequeño para correr eficientemente en CPU o NPU, haciéndolo viable para despliegue en estaciones de trabajo y laptops estándar sin ninguna GPU.

Fine-Tuning (Entrenamiento)

Modelo	VRAM para QLoRA Fine-Tuning	GPU Mín.	GPU Recomendada
Phi-4 (14B)	16–24GB	RTX 4090 (24GB)	A100 (40GB)
Gemma 2 (9B)	12–18GB	RTX 4090 (24GB)	RTX 4090 (24GB)
Llama 3.2 (8B)	10–16GB	RTX 4070 Ti (16GB)	RTX 4090 (24GB)
Qwen 2.5 (7B)	10–14GB	RTX 4070 Ti (16GB)	RTX 4090 (24GB)
Mistral 7B	10–14GB	RTX 4070 Ti (16GB)	RTX 4090 (24GB)
Phi-3 mini (3.8B)	6–10GB	RTX 4060 Ti (16GB)	RTX 4070 Ti (16GB)

QLoRA reduce dramáticamente los requisitos de memoria para fine-tuning al cuantizar el modelo base y solo entrenar adaptadores de bajo rango. Esto significa que una sola RTX 4090 ($1,600–$2,000) puede ajustar cualquier modelo en esta lista, y una tarjeta de 16GB maneja la mayoría de los modelos de 7B cómodamente.

Por Caso de Uso: Qué Modelo Elegir

Procesamiento de Lenguaje Natural (Clasificación, Extracción, Resumen)

Primera opción: Phi-4 — Mejor rendimiento general de NLP en benchmarks y resultados de fine-tuning.

Segunda opción: Qwen 2.5 — Rendimiento ajustado comparable con menor tamaño y mejor soporte multilingüe.

Despliegues Multilingües

Primera opción: Qwen 2.5 — Sin competencia. Mejor cobertura multilingüe en su clase, particularmente para idiomas CJK.

Segunda opción: Gemma 2 — Soporte multilingüe decente con rendimiento competitivo en inglés.

Generación y Análisis de Código

Primera opción: Phi-4 — Puntajes más fuertes en HumanEval y benchmarks de código. Los datos de entrenamiento de Microsoft incluyen código extensivo.

Segunda opción: Llama 3.2 — Fuerte rendimiento en código, gran comunidad de fine-tunes enfocados en código.

Seguimiento de Instrucciones y Chat

Primera opción: Phi-4 — Mejor seguimiento de instrucciones out-of-the-box. La plantilla ChatML se alinea bien con formatos de chat empresarial.

Segunda opción: Qwen 2.5 — También usa plantilla ChatML, fuerte rendimiento en seguimiento de instrucciones.

Despliegue en Edge y Móvil

Primera opción: Phi-3 mini (3.8B) — Suficientemente pequeño para despliegue en CPU/NPU. Precisión sorprendentemente fuerte para su tamaño.

Segunda opción: Gemma 2 — 9B es más grande pero cuantiza bien y funciona eficientemente en hardware modesto.

VRAM Limitada / Hardware de Presupuesto

Primera opción: Mistral 7B o Qwen 2.5 — Ambos caben en 5GB de VRAM cuando se cuantizan a Q4. Mistral tiene el ecosistema más grande de variantes ajustadas para empezar.

Segunda opción: Phi-3 mini — Aún más pequeño, corre en casi cualquier cosa.

La Ruta Recomendada

Para la mayoría de los equipos empresariales comenzando su primer proyecto de fine-tuning, aquí está la recomendación práctica:

Opción predeterminada: Phi-4 (14B)

Mejor rendimiento general
Licencia MIT — términos legales más limpios
Fuerte soporte de fine-tuning en todos los frameworks principales
Requiere una RTX 4090 o superior, lo cual es razonable para un servidor de inferencia dedicado

Si necesitas multilingüe: Qwen 2.5 (7B)

Mejor cobertura multilingüe
Apache 2.0 — licenciamiento limpio
Tamaño más pequeño significa menores requisitos de hardware
Techo ligeramente más bajo en tareas solo en inglés, pero la brecha es pequeña

Si necesitas edge/móvil: Phi-3 mini (3.8B)

Corre en CPU, NPU o GPU modesta
Licencia MIT
Sorprendentemente capaz para su tamaño
La opción ideal para despliegue on-device

El Flujo de Trabajo Estándar de Fine-Tuning

Independientemente de qué modelo elijas, el flujo de trabajo de despliegue es el mismo:

Seleccionar modelo base de la lista anterior
Preparar datos de entrenamiento — 500–5,000 pares de instrucción-respuesta en tu dominio
Ajustar con QLoRA — Usando Unsloth o Axolotl, 1–4 horas en una sola GPU
Evaluar — Benchmark en conjunto de prueba reservado, comparar contra línea base
Cuantizar — Exportar a formato GGUF usando llama.cpp (Q4_K_M para el mejor balance calidad/velocidad)
Desplegar — Servir vía Ollama (más simple) o vLLM (mayor throughput)
Monitorear — Rastrear precisión, latencia y drift de distribución en producción
Iterar — Reentrenar periódicamente a medida que tus datos de dominio evolucionan

La corrida inicial de fine-tuning es solo el comienzo. Los modelos en producción necesitan reentrenamiento regular a medida que la terminología cambia, surgen nuevos casos límite y los requisitos del negocio evolucionan. Planifica un ciclo de reentrenamiento trimestral como mínimo.

Notas Finales

El panorama de SLMs continuará evolucionando. Nuevos modelos se lanzan regularmente, y los benchmarks mejoran con cada generación. Pero los criterios de selección — licenciamiento, rendimiento en tus tareas, ajuste de hardware, soporte de idiomas — se mantienen estables.

Elige un modelo, ajústalo en una tarea bien definida y mide los resultados contra tu solución actual. Esa validación empírica importa más que cualquier comparación de benchmarks, incluyendo las tablas en este artículo. El modelo correcto es el que rinde mejor con tus datos, para tus tareas, dentro de tus restricciones.