
¿Qué Small Language Model Deberías Ajustar para Empresa en 2026?
Una guía práctica de selección comparando Phi-4, Gemma 2, Llama 3.2, Qwen 2.5 y Mistral 7B para fine-tuning empresarial. Cubre licenciamiento, rendimiento, requisitos de hardware y ajuste por caso de uso.
Elegir un modelo base para fine-tuning empresarial solía ser simple — solo había unas pocas opciones. En 2026, el panorama de SLMs ha madurado al punto donde los equipos empresariales enfrentan un problema de selección genuinamente difícil. Hay al menos seis modelos base creíbles en el rango de 3B–14B parámetros, cada uno con diferentes fortalezas, términos de licencia y requisitos de hardware.
Esta guía te da la información para tomar esa decisión sin tener que revisar docenas de papers de benchmarks. Compararemos los modelos en las dimensiones que realmente importan para despliegue empresarial: licenciamiento, compatibilidad de fine-tuning, requisitos de hardware, rendimiento por tipo de tarea y soporte de idiomas.
Los Contendientes
Estos son los seis modelos que vale la pena evaluar para fine-tuning empresarial en 2026:
| Modelo | Parámetros | Desarrollador | Lanzamiento | Ventana de Contexto |
|---|---|---|---|---|
| Phi-4 | 14B | Microsoft | Finales 2025 | 16K tokens |
| Gemma 2 | 9B | Mediados 2024 | 8K tokens | |
| Llama 3.2 | 8B | Meta | Finales 2024 | 128K tokens |
| Qwen 2.5 | 7B | Alibaba | Finales 2024 | 128K tokens |
| Mistral 7B | 7B | Mistral AI | Finales 2023 | 32K tokens |
| Phi-3 mini | 3.8B | Microsoft | Mediados 2024 | 128K tokens |
Cada uno ha pasado por múltiples ciclos de fine-tuning en la comunidad open-source, por lo que el soporte de herramientas es sólido en general. Las diferencias están en los detalles.
Licenciamiento: El Primer Filtro
El licenciamiento es el criterio de evaluación más importante para despliegue empresarial. Un modelo que es técnicamente superior pero legalmente riesgoso no es una opción real.
| Modelo | Licencia | Uso Comercial | Restricciones Clave |
|---|---|---|---|
| Phi-4 | MIT | Sí, sin restricciones | Ninguna. Totalmente permisiva. |
| Phi-3 mini | MIT | Sí, sin restricciones | Ninguna. Totalmente permisiva. |
| Qwen 2.5 | Apache 2.0 | Sí, sin restricciones | Ninguna. Términos Apache estándar. |
| Mistral 7B | Apache 2.0 | Sí, sin restricciones | Ninguna. Términos Apache estándar. |
| Gemma 2 | Google Permissive | Sí | Debe cumplir con la política de uso de Google. No usar para entrenar modelos competidores. |
| Llama 3.2 | Custom Meta License | Sí, con condiciones | Uso comercial OK si usuarios activos mensuales son menos de 700 millones. Debe incluir atribución. |
Recomendaciones de Licenciamiento
Más seguro para empresa: Phi-4 (MIT) y Qwen 2.5 / Mistral 7B (Apache 2.0). Estas licencias son bien entendidas por equipos legales, tienen décadas de precedente y no imponen restricciones de uso. Tu departamento legal las aprobará rápidamente.
Bien para la mayoría de empresas: Llama 3.2 (licencia Meta) y Gemma 2 (licencia Google). La restricción de 700M MAU en Llama es irrelevante para uso empresarial interno. La política de uso de Google en Gemma es razonable pero agrega una dependencia de la interpretación de Google. Ambas son comercialmente viables para casi todos los casos de uso empresarial, pero espera un ciclo de revisión legal ligeramente más largo.
Si el licenciamiento es tu prioridad máxima: Ve con Phi-4 (MIT). Sin restricciones, sin condiciones, sin ambigüedad.
Rendimiento en Benchmarks
Los puntajes crudos de benchmarks solo cuentan parte de la historia — los resultados de fine-tuning dependen fuertemente de tus datos y tarea específicos. Pero la calidad del modelo base establece el punto de partida, y un modelo base más fuerte típicamente se ajusta a un techo más alto.
Benchmarks Generales (Pre-Fine-Tuning)
| Benchmark | Phi-4 (14B) | Gemma 2 (9B) | Llama 3.2 (8B) | Qwen 2.5 (7B) | Mistral 7B | Phi-3 mini (3.8B) |
|---|---|---|---|---|---|---|
| MMLU (conocimiento) | 84.8 | 71.3 | 73.0 | 74.2 | 64.2 | 68.8 |
| ARC-Challenge (razonamiento) | 93.6 | 89.8 | 83.4 | 84.5 | 85.2 | 84.9 |
| HellaSwag (sentido común) | 89.2 | 87.3 | 82.0 | 83.1 | 83.3 | 80.4 |
| HumanEval (código) | 82.6 | 54.3 | 72.6 | 74.4 | 40.2 | 64.0 |
| GSM8K (matemáticas) | 89.4 | 68.3 | 79.6 | 82.3 | 58.4 | 75.7 |
Phi-4 lidera en todos los benchmarks, lo cual es esperado dada su ventaja de 14B parámetros. Entre los modelos clase 7B, Qwen 2.5 y Llama 3.2 compiten cabeza a cabeza dependiendo del benchmark, con Qwen mostrando particular fortaleza en tareas de matemáticas y código.
Phi-3 mini (3.8B) rinde muy por encima de su categoría, desempeñándose de manera comparable a modelos de 7B en varios benchmarks. Esto lo convierte en una opción atractiva para despliegue en el borde donde el tamaño del modelo es una restricción dura.
Rendimiento Post-Fine-Tuning
El fine-tuning comprime la brecha de rendimiento entre modelos. Un modelo de 7B ajustado con 2,000 ejemplos específicos de dominio frecuentemente se acerca al rendimiento de un modelo de 14B ajustado con los mismos datos. La brecha se reduce porque el conocimiento específico de dominio en los datos de fine-tuning importa m ás que el conocimiento general del modelo base para rendimiento en tareas específicas.
Rangos típicos de precisión post-fine-tuning (en tareas específicas de dominio):
| Modelo | Tareas de Clasificación | Tareas de Extracción | Seguimiento de Instrucciones |
|---|---|---|---|
| Phi-4 (14B) | 94–97% | 91–95% | Excelente |
| Qwen 2.5 (7B) | 92–96% | 89–94% | Muy bueno |
| Llama 3.2 (8B) | 91–95% | 88–93% | Muy bueno |
| Gemma 2 (9B) | 91–95% | 88–93% | Bueno |
| Mistral 7B | 90–94% | 87–92% | Bueno |
| Phi-3 mini (3.8B) | 88–93% | 85–90% | Bueno |
La conclusión: Phi-4 tiene una ventaja consistente de 2–3 puntos porcentuales post-fine-tuning, pero cualquiera de estos modelos puede alcanzar precisión viable para producción en tareas empresariales bien definidas.
Compatibilidad de Fine-Tuning
No todos los modelos son igualmente fáciles de ajustar. Los detalles prácticos — soporte de QLoRA, estabilidad de entrenamiento, herramientas disponibles — importan mucho cuando estás iterando en corridas de fine-tuning.
| Característica | Phi-4 | Gemma 2 | Llama 3.2 | Qwen 2.5 | Mistral 7B | Phi-3 mini |
|---|---|---|---|---|---|---|
| Soporte QLoRA | Sí | Sí | Sí | Sí | Sí | Sí |
| Soporte Unsloth | Sí | Sí | Sí | Sí | Sí | Sí |
| Soporte Axolotl | Sí | Sí | Sí | Sí | Sí | Sí |
| HF Transformers | Sí | Sí | Sí | Sí | Sí | Sí |
| Exportación GGUF | Sí | Sí | Sí | Sí | Sí | Sí |
| Estabilidad de entrenamiento | Alta | Media | Alta | Alta | Alta | Alta |
| Fine-tunes comunitarios | Muchos | Muchos | Muchísimos | Muchos | Muchísimos | Muchos |
| Plantilla de chat | ChatML | Gemma | Llama | ChatML | Mistral | ChatML |
Los seis modelos soportan la cadena de herramientas estándar de fine-tuning (QLoRA vía Unsloth o Axolotl, exportación GGUF vía llama.cpp, servicio vía Ollama o vLLM). La diferencia práctica está en la adopción comunitaria: Llama y Mistral tienen el ecosistema más grande de variantes ajustadas, adaptadores y guías de despliegue, lo que significa más implementaciones de referencia cuando te atascas.
Gemma 2 tiene una calificación de estabilidad de entrenamiento "Media" porque algunos usuarios reportan picos de pérdida ocasionales durante el fine-tuning que requieren ajustes en la tasa de aprendizaje. Es manejable pero agrega tiempo de iteración.
Soporte de Idiomas
Si tu empresa opera en múltiples idiomas, la selección de modelos se reduce significativamente.
| Modelo | Inglés | Chino | Japonés | Coreano | Europeo | Árabe | Sudeste Asiático |
|---|---|---|---|---|---|---|---|
| Phi-4 | Excelente | Bueno | Regular | Regular | Bueno | Regular | Pobre |
| Gemma 2 | Excelente | Bueno | Bueno | Regular | Bueno | Regular | Regular |
| Llama 3.2 | Excelente | Bueno | Bueno | Regular | Bueno | Regular | Regular |
| Qwen 2.5 | Excelente | Excelente | Bueno | Bueno | Bueno | Bueno | Bueno |
| Mistral 7B | Excelente | Regular | Regular | Pobre | Excelente | Regular | Pobre |
| Phi-3 mini | Excelente | Bueno | Regular | Regular | Bueno | Regular | Pobre |
Qwen 2.5 es el claro ganador para despliegues multilingües, particularmente para idiomas CJK (chino, japonés, coreano) e idiomas del sudeste asiático. Fue entrenado con un enfoque deliberado en capacidad multilingüe y mantiene un rendimiento fuerte en un rango más amplio de idiomas que cualquier competidor en esta categoría de tamaño.
Mistral 7B es notable por su fuerte soporte de idiomas europeos, lo cual tiene sentido dado el origen francés y enfoque europeo de Mistral AI.
Para despliegues solo en inglés, cualquiera de estos modelos funciona bien, y la selección debe guiarse por otros criterios.
Requisitos de Hardware
El hardware que necesitas depende de si solo estás ejecutando inferencia (sirviendo predicciones) o también haciendo fine-tuning (entrenando el modelo).
Inferencia (Sirviendo Predicciones)
| Modelo | VRAM (FP16) | VRAM (Q4 Cuantizado) | GPU Mín. | GPU Recomendada |
|---|---|---|---|---|
| Phi-4 (14B) | 28GB | 8–10GB | RTX 4090 (24GB) | L40S (48GB) |
| Gemma 2 (9B) | 18GB | 6–7GB | RTX 4070 Ti (16GB) | RTX 4090 (24GB) |
| Llama 3.2 (8B) | 16GB | 5–6GB | RTX 4070 Ti (16GB) | RTX 4090 (24GB) |
| Qwen 2.5 (7B) | 14GB | 4–5GB | RTX 4060 Ti (16GB) | RTX 4090 (24GB) |
| Mistral 7B | 14GB | 4–5GB | RTX 4060 Ti (16GB) | RTX 4090 (24GB) |
| Phi-3 mini (3.8B) | 8GB | 2–3GB | RTX 4060 (8GB) | RTX 4070 Ti (16GB) |
Con cuantización Q4, todos los modelos excepto Phi-4 caben cómodamente en 8GB de VRAM, lo que significa que pueden correr en la mayoría de las GPUs modernas incluyendo hardware de laptop. Phi-4 requiere una GPU de gama más alta o manejo cuidadoso de memoria con offloading.
Phi-3 mini con 3.8B parámetros es lo suficientemente pequeño para correr eficientemente en CPU o NPU, haciéndolo viable para despliegue en estaciones de trabajo y laptops estándar sin ninguna GPU.
Fine-Tuning (Entrenamiento)
| Modelo | VRAM para QLoRA Fine-Tuning | GPU Mín. | GPU Recomendada |
|---|---|---|---|
| Phi-4 (14B) | 16–24GB | RTX 4090 (24GB) | A100 (40GB) |
| Gemma 2 (9B) | 12–18GB | RTX 4090 (24GB) | RTX 4090 (24GB) |
| Llama 3.2 (8B) | 10–16GB | RTX 4070 Ti (16GB) | RTX 4090 (24GB) |
| Qwen 2.5 (7B) | 10–14GB | RTX 4070 Ti (16GB) | RTX 4090 (24GB) |
| Mistral 7B | 10–14GB | RTX 4070 Ti (16GB) | RTX 4090 (24GB) |
| Phi-3 mini (3.8B) | 6–10GB | RTX 4060 Ti (16GB) | RTX 4070 Ti (16GB) |
QLoRA reduce dramáticamente los requisitos de memoria para fine-tuning al cuantizar el modelo base y solo entrenar adaptadores de bajo rango. Esto significa que una sola RTX 4090 ($1,600–$2,000) puede ajustar cualquier modelo en esta lista, y una tarjeta de 16GB maneja la mayoría de los modelos de 7B cómodamente.
Por Caso de Uso: Qué Modelo Elegir
Procesamiento de Lenguaje Natural (Clasificación, Extracción, Resumen)
Primera opción: Phi-4 — Mejor rendimiento general de NLP en benchmarks y resultados de fine-tuning.
Segunda opción: Qwen 2.5 — Rendimiento ajustado comparable con menor tamaño y mejor soporte multilingüe.
Despliegues Multilingües
Primera opción: Qwen 2.5 — Sin competencia. Mejor cobertura multilingüe en su clase, particularmente para idiomas CJK.
Segunda opción: Gemma 2 — Soporte multilingüe decente con rendimiento competitivo en inglés.
Generación y Análisis de Código
Primera opción: Phi-4 — Puntajes más fuertes en HumanEval y benchmarks de código. Los datos de entrenamiento de Microsoft incluyen código extensivo.
Segunda opción: Llama 3.2 — Fuerte rendimiento en código, gran comunidad de fine-tunes enfocados en código.
Seguimiento de Instrucciones y Chat
Primera opción: Phi-4 — Mejor seguimiento de instrucciones out-of-the-box. La plantilla ChatML se alinea bien con formatos de chat empresarial.
Segunda opción: Qwen 2.5 — También usa plantilla ChatML, fuerte rendimiento en seguimiento de instrucciones.
Despliegue en Edge y Móvil
Primera opción: Phi-3 mini (3.8B) — Suficientemente pequeño para despliegue en CPU/NPU. Precisión sorprendentemente fuerte para su tamaño.
Segunda opción: Gemma 2 — 9B es más grande pero cuantiza bien y funciona eficientemente en hardware modesto.
VRAM Limitada / Hardware de Presupuesto
Primera opción: Mistral 7B o Qwen 2.5 — Ambos caben en 5GB de VRAM cuando se cuantizan a Q4. Mistral tiene el ecosistema más grande de variantes ajustadas para empezar.
Segunda opción: Phi-3 mini — Aún más pequeño, corre en casi cualquier cosa.
La Ruta Recomendada
Para la mayoría de los equipos empresariales comenzando su primer proyecto de fine-tuning, aquí está la recomendación práctica:
Opción predeterminada: Phi-4 (14B)
- Mejor rendimiento general
- Licencia MIT — términos legales más limpios
- Fuerte soporte de fine-tuning en todos los frameworks principales
- Requiere una RTX 4090 o superior, lo cual es razonable para un servidor de inferencia dedicado
Si necesitas multilingüe: Qwen 2.5 (7B)
- Mejor cobertura multilingüe
- Apache 2.0 — licenciamiento limpio
- Tamaño más pequeño significa menores requisitos de hardware
- Techo ligeramente más bajo en tareas solo en inglés, pero la brecha es pequeña
Si necesitas edge/móvil: Phi-3 mini (3.8B)
- Corre en CPU, NPU o GPU modesta
- Licencia MIT
- Sorprendentemente capaz para su tamaño
- La opción ideal para despliegue on-device
El Flujo de Trabajo Estándar de Fine-Tuning
Independientemente de qué modelo elijas, el flujo de trabajo de despliegue es el mismo:
- Seleccionar modelo base de la lista anterior
- Preparar datos de entrenamiento — 500–5,000 pares de instrucción-respuesta en tu dominio
- Ajustar con QLoRA — Usando Unsloth o Axolotl, 1–4 horas en una sola GPU
- Evaluar — Benchmark en conjunto de prueba reservado, comparar contra línea base
- Cuantizar — Exportar a formato GGUF usando llama.cpp (Q4_K_M para el mejor balance calidad/velocidad)
- Desplegar — Servir vía Ollama (más simple) o vLLM (mayor throughput)
- Monitorear — Rastrear precisión, latencia y drift de distribución en producción
- Iterar — Reentrenar periódicamente a medida que tus datos de dominio evolucionan
La corrida inicial de fine-tuning es solo el comienzo. Los modelos en producción necesitan reentrenamiento regular a medida que la terminología cambia, surgen nuevos casos límite y los requisitos del negocio evolucionan. Planifica un ciclo de reentrenamiento trimestral como mínimo.
Notas Finales
El panorama de SLMs continuará evolucionando. Nuevos modelos se lanzan regularmente, y los benchmarks mejoran con cada generación. Pero los criterios de selección — licenciamiento, rendimiento en tus tareas, ajuste de hardware, soporte de idiomas — se mantienen estables.
Elige un modelo, ajústalo en una tarea bien definida y mide los resultados contra tu solución actual. Esa validación empírica importa más que cualquier comparación de benchmarks, incluyendo las tablas en este artículo. El modelo correcto es el que rinde mejor con tus datos, para tus tareas, dentro de tus restricciones.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Small Language Models for Enterprise: The On-Premise Fine-Tuning Advantage
Why enterprises are shifting from large foundation models to fine-tuned small language models running on-premise. Cost, latency, data sovereignty, and the fine-tuning workflow that makes it work.

SLM Fine-Tuning for Document Processing: Turning Enterprise PDFs into Structured Data
How enterprises use fine-tuned small language models to extract structured data from PDFs — construction BOQs, legal contracts, medical records, and financial statements — at a fraction of manual processing cost.

Fine-Tuned SLM vs GPT-4 API: Enterprise Cost and Accuracy Comparison
A data-driven comparison of fine-tuned small language models vs GPT-4 API for enterprise workloads. Real cost math, accuracy benchmarks by task type, and a decision framework for choosing the right approach.