Back to blog
    ¿Qué Small Language Model Deberías Ajustar para Empresa en 2026?
    slmmodel-selectionfine-tuningenterprise-aion-premisesegment:enterprise

    ¿Qué Small Language Model Deberías Ajustar para Empresa en 2026?

    Una guía práctica de selección comparando Phi-4, Gemma 2, Llama 3.2, Qwen 2.5 y Mistral 7B para fine-tuning empresarial. Cubre licenciamiento, rendimiento, requisitos de hardware y ajuste por caso de uso.

    EErtas Team·

    Elegir un modelo base para fine-tuning empresarial solía ser simple — solo había unas pocas opciones. En 2026, el panorama de SLMs ha madurado al punto donde los equipos empresariales enfrentan un problema de selección genuinamente difícil. Hay al menos seis modelos base creíbles en el rango de 3B–14B parámetros, cada uno con diferentes fortalezas, términos de licencia y requisitos de hardware.

    Esta guía te da la información para tomar esa decisión sin tener que revisar docenas de papers de benchmarks. Compararemos los modelos en las dimensiones que realmente importan para despliegue empresarial: licenciamiento, compatibilidad de fine-tuning, requisitos de hardware, rendimiento por tipo de tarea y soporte de idiomas.

    Los Contendientes

    Estos son los seis modelos que vale la pena evaluar para fine-tuning empresarial en 2026:

    ModeloParámetrosDesarrolladorLanzamientoVentana de Contexto
    Phi-414BMicrosoftFinales 202516K tokens
    Gemma 29BGoogleMediados 20248K tokens
    Llama 3.28BMetaFinales 2024128K tokens
    Qwen 2.57BAlibabaFinales 2024128K tokens
    Mistral 7B7BMistral AIFinales 202332K tokens
    Phi-3 mini3.8BMicrosoftMediados 2024128K tokens

    Cada uno ha pasado por múltiples ciclos de fine-tuning en la comunidad open-source, por lo que el soporte de herramientas es sólido en general. Las diferencias están en los detalles.

    Licenciamiento: El Primer Filtro

    El licenciamiento es el criterio de evaluación más importante para despliegue empresarial. Un modelo que es técnicamente superior pero legalmente riesgoso no es una opción real.

    ModeloLicenciaUso ComercialRestricciones Clave
    Phi-4MITSí, sin restriccionesNinguna. Totalmente permisiva.
    Phi-3 miniMITSí, sin restriccionesNinguna. Totalmente permisiva.
    Qwen 2.5Apache 2.0Sí, sin restriccionesNinguna. Términos Apache estándar.
    Mistral 7BApache 2.0Sí, sin restriccionesNinguna. Términos Apache estándar.
    Gemma 2Google PermissiveDebe cumplir con la política de uso de Google. No usar para entrenar modelos competidores.
    Llama 3.2Custom Meta LicenseSí, con condicionesUso comercial OK si usuarios activos mensuales son menos de 700 millones. Debe incluir atribución.

    Recomendaciones de Licenciamiento

    Más seguro para empresa: Phi-4 (MIT) y Qwen 2.5 / Mistral 7B (Apache 2.0). Estas licencias son bien entendidas por equipos legales, tienen décadas de precedente y no imponen restricciones de uso. Tu departamento legal las aprobará rápidamente.

    Bien para la mayoría de empresas: Llama 3.2 (licencia Meta) y Gemma 2 (licencia Google). La restricción de 700M MAU en Llama es irrelevante para uso empresarial interno. La política de uso de Google en Gemma es razonable pero agrega una dependencia de la interpretación de Google. Ambas son comercialmente viables para casi todos los casos de uso empresarial, pero espera un ciclo de revisión legal ligeramente más largo.

    Si el licenciamiento es tu prioridad máxima: Ve con Phi-4 (MIT). Sin restricciones, sin condiciones, sin ambigüedad.

    Rendimiento en Benchmarks

    Los puntajes crudos de benchmarks solo cuentan parte de la historia — los resultados de fine-tuning dependen fuertemente de tus datos y tarea específicos. Pero la calidad del modelo base establece el punto de partida, y un modelo base más fuerte típicamente se ajusta a un techo más alto.

    Benchmarks Generales (Pre-Fine-Tuning)

    BenchmarkPhi-4 (14B)Gemma 2 (9B)Llama 3.2 (8B)Qwen 2.5 (7B)Mistral 7BPhi-3 mini (3.8B)
    MMLU (conocimiento)84.871.373.074.264.268.8
    ARC-Challenge (razonamiento)93.689.883.484.585.284.9
    HellaSwag (sentido común)89.287.382.083.183.380.4
    HumanEval (código)82.654.372.674.440.264.0
    GSM8K (matemáticas)89.468.379.682.358.475.7

    Phi-4 lidera en todos los benchmarks, lo cual es esperado dada su ventaja de 14B parámetros. Entre los modelos clase 7B, Qwen 2.5 y Llama 3.2 compiten cabeza a cabeza dependiendo del benchmark, con Qwen mostrando particular fortaleza en tareas de matemáticas y código.

    Phi-3 mini (3.8B) rinde muy por encima de su categoría, desempeñándose de manera comparable a modelos de 7B en varios benchmarks. Esto lo convierte en una opción atractiva para despliegue en el borde donde el tamaño del modelo es una restricción dura.

    Rendimiento Post-Fine-Tuning

    El fine-tuning comprime la brecha de rendimiento entre modelos. Un modelo de 7B ajustado con 2,000 ejemplos específicos de dominio frecuentemente se acerca al rendimiento de un modelo de 14B ajustado con los mismos datos. La brecha se reduce porque el conocimiento específico de dominio en los datos de fine-tuning importa más que el conocimiento general del modelo base para rendimiento en tareas específicas.

    Rangos típicos de precisión post-fine-tuning (en tareas específicas de dominio):

    ModeloTareas de ClasificaciónTareas de ExtracciónSeguimiento de Instrucciones
    Phi-4 (14B)94–97%91–95%Excelente
    Qwen 2.5 (7B)92–96%89–94%Muy bueno
    Llama 3.2 (8B)91–95%88–93%Muy bueno
    Gemma 2 (9B)91–95%88–93%Bueno
    Mistral 7B90–94%87–92%Bueno
    Phi-3 mini (3.8B)88–93%85–90%Bueno

    La conclusión: Phi-4 tiene una ventaja consistente de 2–3 puntos porcentuales post-fine-tuning, pero cualquiera de estos modelos puede alcanzar precisión viable para producción en tareas empresariales bien definidas.

    Compatibilidad de Fine-Tuning

    No todos los modelos son igualmente fáciles de ajustar. Los detalles prácticos — soporte de QLoRA, estabilidad de entrenamiento, herramientas disponibles — importan mucho cuando estás iterando en corridas de fine-tuning.

    CaracterísticaPhi-4Gemma 2Llama 3.2Qwen 2.5Mistral 7BPhi-3 mini
    Soporte QLoRA
    Soporte Unsloth
    Soporte Axolotl
    HF Transformers
    Exportación GGUF
    Estabilidad de entrenamientoAltaMediaAltaAltaAltaAlta
    Fine-tunes comunitariosMuchosMuchosMuchísimosMuchosMuchísimosMuchos
    Plantilla de chatChatMLGemmaLlamaChatMLMistralChatML

    Los seis modelos soportan la cadena de herramientas estándar de fine-tuning (QLoRA vía Unsloth o Axolotl, exportación GGUF vía llama.cpp, servicio vía Ollama o vLLM). La diferencia práctica está en la adopción comunitaria: Llama y Mistral tienen el ecosistema más grande de variantes ajustadas, adaptadores y guías de despliegue, lo que significa más implementaciones de referencia cuando te atascas.

    Gemma 2 tiene una calificación de estabilidad de entrenamiento "Media" porque algunos usuarios reportan picos de pérdida ocasionales durante el fine-tuning que requieren ajustes en la tasa de aprendizaje. Es manejable pero agrega tiempo de iteración.

    Soporte de Idiomas

    Si tu empresa opera en múltiples idiomas, la selección de modelos se reduce significativamente.

    ModeloInglésChinoJaponésCoreanoEuropeoÁrabeSudeste Asiático
    Phi-4ExcelenteBuenoRegularRegularBuenoRegularPobre
    Gemma 2ExcelenteBuenoBuenoRegularBuenoRegularRegular
    Llama 3.2ExcelenteBuenoBuenoRegularBuenoRegularRegular
    Qwen 2.5ExcelenteExcelenteBuenoBuenoBuenoBuenoBueno
    Mistral 7BExcelenteRegularRegularPobreExcelenteRegularPobre
    Phi-3 miniExcelenteBuenoRegularRegularBuenoRegularPobre

    Qwen 2.5 es el claro ganador para despliegues multilingües, particularmente para idiomas CJK (chino, japonés, coreano) e idiomas del sudeste asiático. Fue entrenado con un enfoque deliberado en capacidad multilingüe y mantiene un rendimiento fuerte en un rango más amplio de idiomas que cualquier competidor en esta categoría de tamaño.

    Mistral 7B es notable por su fuerte soporte de idiomas europeos, lo cual tiene sentido dado el origen francés y enfoque europeo de Mistral AI.

    Para despliegues solo en inglés, cualquiera de estos modelos funciona bien, y la selección debe guiarse por otros criterios.

    Requisitos de Hardware

    El hardware que necesitas depende de si solo estás ejecutando inferencia (sirviendo predicciones) o también haciendo fine-tuning (entrenando el modelo).

    Inferencia (Sirviendo Predicciones)

    ModeloVRAM (FP16)VRAM (Q4 Cuantizado)GPU Mín.GPU Recomendada
    Phi-4 (14B)28GB8–10GBRTX 4090 (24GB)L40S (48GB)
    Gemma 2 (9B)18GB6–7GBRTX 4070 Ti (16GB)RTX 4090 (24GB)
    Llama 3.2 (8B)16GB5–6GBRTX 4070 Ti (16GB)RTX 4090 (24GB)
    Qwen 2.5 (7B)14GB4–5GBRTX 4060 Ti (16GB)RTX 4090 (24GB)
    Mistral 7B14GB4–5GBRTX 4060 Ti (16GB)RTX 4090 (24GB)
    Phi-3 mini (3.8B)8GB2–3GBRTX 4060 (8GB)RTX 4070 Ti (16GB)

    Con cuantización Q4, todos los modelos excepto Phi-4 caben cómodamente en 8GB de VRAM, lo que significa que pueden correr en la mayoría de las GPUs modernas incluyendo hardware de laptop. Phi-4 requiere una GPU de gama más alta o manejo cuidadoso de memoria con offloading.

    Phi-3 mini con 3.8B parámetros es lo suficientemente pequeño para correr eficientemente en CPU o NPU, haciéndolo viable para despliegue en estaciones de trabajo y laptops estándar sin ninguna GPU.

    Fine-Tuning (Entrenamiento)

    ModeloVRAM para QLoRA Fine-TuningGPU Mín.GPU Recomendada
    Phi-4 (14B)16–24GBRTX 4090 (24GB)A100 (40GB)
    Gemma 2 (9B)12–18GBRTX 4090 (24GB)RTX 4090 (24GB)
    Llama 3.2 (8B)10–16GBRTX 4070 Ti (16GB)RTX 4090 (24GB)
    Qwen 2.5 (7B)10–14GBRTX 4070 Ti (16GB)RTX 4090 (24GB)
    Mistral 7B10–14GBRTX 4070 Ti (16GB)RTX 4090 (24GB)
    Phi-3 mini (3.8B)6–10GBRTX 4060 Ti (16GB)RTX 4070 Ti (16GB)

    QLoRA reduce dramáticamente los requisitos de memoria para fine-tuning al cuantizar el modelo base y solo entrenar adaptadores de bajo rango. Esto significa que una sola RTX 4090 ($1,600–$2,000) puede ajustar cualquier modelo en esta lista, y una tarjeta de 16GB maneja la mayoría de los modelos de 7B cómodamente.

    Por Caso de Uso: Qué Modelo Elegir

    Procesamiento de Lenguaje Natural (Clasificación, Extracción, Resumen)

    Primera opción: Phi-4 — Mejor rendimiento general de NLP en benchmarks y resultados de fine-tuning.

    Segunda opción: Qwen 2.5 — Rendimiento ajustado comparable con menor tamaño y mejor soporte multilingüe.

    Despliegues Multilingües

    Primera opción: Qwen 2.5 — Sin competencia. Mejor cobertura multilingüe en su clase, particularmente para idiomas CJK.

    Segunda opción: Gemma 2 — Soporte multilingüe decente con rendimiento competitivo en inglés.

    Generación y Análisis de Código

    Primera opción: Phi-4 — Puntajes más fuertes en HumanEval y benchmarks de código. Los datos de entrenamiento de Microsoft incluyen código extensivo.

    Segunda opción: Llama 3.2 — Fuerte rendimiento en código, gran comunidad de fine-tunes enfocados en código.

    Seguimiento de Instrucciones y Chat

    Primera opción: Phi-4 — Mejor seguimiento de instrucciones out-of-the-box. La plantilla ChatML se alinea bien con formatos de chat empresarial.

    Segunda opción: Qwen 2.5 — También usa plantilla ChatML, fuerte rendimiento en seguimiento de instrucciones.

    Despliegue en Edge y Móvil

    Primera opción: Phi-3 mini (3.8B) — Suficientemente pequeño para despliegue en CPU/NPU. Precisión sorprendentemente fuerte para su tamaño.

    Segunda opción: Gemma 2 — 9B es más grande pero cuantiza bien y funciona eficientemente en hardware modesto.

    VRAM Limitada / Hardware de Presupuesto

    Primera opción: Mistral 7B o Qwen 2.5 — Ambos caben en 5GB de VRAM cuando se cuantizan a Q4. Mistral tiene el ecosistema más grande de variantes ajustadas para empezar.

    Segunda opción: Phi-3 mini — Aún más pequeño, corre en casi cualquier cosa.

    La Ruta Recomendada

    Para la mayoría de los equipos empresariales comenzando su primer proyecto de fine-tuning, aquí está la recomendación práctica:

    Opción predeterminada: Phi-4 (14B)

    • Mejor rendimiento general
    • Licencia MIT — términos legales más limpios
    • Fuerte soporte de fine-tuning en todos los frameworks principales
    • Requiere una RTX 4090 o superior, lo cual es razonable para un servidor de inferencia dedicado

    Si necesitas multilingüe: Qwen 2.5 (7B)

    • Mejor cobertura multilingüe
    • Apache 2.0 — licenciamiento limpio
    • Tamaño más pequeño significa menores requisitos de hardware
    • Techo ligeramente más bajo en tareas solo en inglés, pero la brecha es pequeña

    Si necesitas edge/móvil: Phi-3 mini (3.8B)

    • Corre en CPU, NPU o GPU modesta
    • Licencia MIT
    • Sorprendentemente capaz para su tamaño
    • La opción ideal para despliegue on-device

    El Flujo de Trabajo Estándar de Fine-Tuning

    Independientemente de qué modelo elijas, el flujo de trabajo de despliegue es el mismo:

    1. Seleccionar modelo base de la lista anterior
    2. Preparar datos de entrenamiento — 500–5,000 pares de instrucción-respuesta en tu dominio
    3. Ajustar con QLoRA — Usando Unsloth o Axolotl, 1–4 horas en una sola GPU
    4. Evaluar — Benchmark en conjunto de prueba reservado, comparar contra línea base
    5. Cuantizar — Exportar a formato GGUF usando llama.cpp (Q4_K_M para el mejor balance calidad/velocidad)
    6. Desplegar — Servir vía Ollama (más simple) o vLLM (mayor throughput)
    7. Monitorear — Rastrear precisión, latencia y drift de distribución en producción
    8. Iterar — Reentrenar periódicamente a medida que tus datos de dominio evolucionan

    La corrida inicial de fine-tuning es solo el comienzo. Los modelos en producción necesitan reentrenamiento regular a medida que la terminología cambia, surgen nuevos casos límite y los requisitos del negocio evolucionan. Planifica un ciclo de reentrenamiento trimestral como mínimo.

    Notas Finales

    El panorama de SLMs continuará evolucionando. Nuevos modelos se lanzan regularmente, y los benchmarks mejoran con cada generación. Pero los criterios de selección — licenciamiento, rendimiento en tus tareas, ajuste de hardware, soporte de idiomas — se mantienen estables.

    Elige un modelo, ajústalo en una tarea bien definida y mide los resultados contra tu solución actual. Esa validación empírica importa más que cualquier comparación de benchmarks, incluyendo las tablas en este artículo. El modelo correcto es el que rinde mejor con tus datos, para tus tareas, dentro de tus restricciones.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading