Back to blog
    ¿Qué modelo open-source deberías ajustar en 2026?
    model-selectionllamaqwengemmamistralfine-tuningcomparison

    ¿Qué modelo open-source deberías ajustar en 2026?

    Una comparación práctica de los principales modelos open-source para fine-tuning en 2026 — Llama 3.3, Qwen 2.5, Gemma 3 y Mistral — cubriendo rendimiento, requisitos de hardware, licencias y mejores casos de uso.

    EErtas Team·

    Hace doce meses, la respuesta a "¿qué modelo debería ajustar?" era sencilla: Llama 3 8B para la mayoría de las cosas, quizás Mistral 7B si querías un cambio. El panorama en 2026 es más competitivo, más matizado y — francamente — mejor para los practicantes. Tienes cuatro familias de modelos serias para elegir, cada una con fortalezas genuinas.

    Esta guía te ayudará a tomar la decisión correcta para tu caso de uso específico. Sin ambigüedades. Recomendaciones concretas respaldadas por benchmarks, requisitos de hardware y realidades de licencias.

    El Panorama Open-Source 2026

    Cuatro familias de modelos dominan el ecosistema de fine-tuning open-source en 2026:

    • Llama 3.3 (Meta) — 1B, 3B, 8B, 70B parámetros
    • Qwen 2.5 (Alibaba) — 0.5B, 3B, 7B, 14B, 32B, 72B parámetros
    • Gemma 3 (Google) — 1B, 4B, 12B, 27B parámetros
    • Mistral (Mistral AI) — 7B, 8x7B (Mixtral) parámetros

    Cada familia toma un enfoque diferente al equilibrio calidad-tamaño, y cada una tiene características distintas que la hacen más adecuada para ciertos casos de uso.

    Comparación Directa

    Calidad Base

    En benchmarks estándar (MMLU, HumanEval, GSM8K, HellaSwag), así se comparan las familias en sus tamaños más populares:

    Nivel 7-8B (el tamaño caballo de batalla):

    ModeloMMLUHumanEvalGSM8KHellaSwag
    Llama 3.3 8B68.462.279.682.0
    Qwen 2.5 7B70.265.882.380.5
    Gemma 3 12B*72.161.481.083.2
    Mistral 7B v0.363.752.171.281.4

    *El tamaño más cercano de Gemma 3 a este nivel es 12B, lo que le da una ventaja en parámetros en esta comparación.

    Conclusión clave: Qwen 2.5 7B supera ligeramente a Llama 3.3 8B en la mayoría de los benchmarks. Gemma 3 12B es fuerte pero requiere más memoria. Mistral 7B se ha quedado atrás del grupo en rendimiento bruto de benchmarks.

    Nivel pequeño (1-4B, para edge y móvil):

    ModeloMMLUGSM8KNotas
    Llama 3.3 3B55.258.4Buen todoterreno
    Qwen 2.5 3B57.862.1El mejor de su clase para 3B
    Gemma 3 4B59.360.7Ligeramente más grande pero competitivo
    Qwen 2.5 0.5B38.231.5Sorprendentemente capaz para su tamaño

    Conclusión clave: En el extremo pequeño, Qwen y Gemma lideran. Qwen 2.5 0.5B es la única opción viable si necesitas un modelo de menos de 1B parámetros.

    Nivel grande (27-72B, para máxima calidad):

    ModeloMMLUHumanEvalGSM8K
    Llama 3.3 70B82.081.793.0
    Qwen 2.5 72B83.484.294.5
    Gemma 3 27B76.872.387.1

    Conclusión clave: Qwen 2.5 72B es el modelo open-source más fuerte para fine-tuning. Llama 3.3 70B es un cercano segundo. Gemma 3 llega hasta 27B, lo que limita su techo.

    Facilidad para Fine-Tuning

    No todos los modelos son igualmente agradables de ajustar. Esto importa más que los benchmarks para la mayoría de los practicantes.

    Llama 3.3: Excelente ecosistema de fine-tuning. Los más tutoriales, los más ejemplos de la comunidad, las configuraciones LoRA más probadas en batalla. Si encuentras un problema, alguien ya lo resolvió en GitHub. La plantilla de chat está bien documentada y es consistente. LoRA típicamente converge en 3-5 épocas con hiperparámetros estándar.

    Qwen 2.5: Muy buen soporte de fine-tuning. El equipo de Qwen proporciona scripts oficiales de fine-tuning e hiperparámetros recomendados. La plantilla de chat es limpia y bien estructurada. Una ventaja: los modelos Qwen tienden a necesitar menos ejemplos de entrenamiento para converger, posiblemente debido a su mezcla de datos de entrenamiento. El entrenamiento LoRA es estable y predecible.

    Gemma 3: Bueno pero con advertencias. El tokenizador y la plantilla de chat de Google difieren de las convenciones de Llama/Qwen. Si estás migrando de un flujo de trabajo basado en Llama, espera ajustar tu preprocesamiento de datos. Algunos practicantes reportan que los modelos Gemma son ligeramente más sensibles a las elecciones de tasa de aprendizaje. Dicho esto, una vez que ajustas los hiperparámetros, el entrenamiento es estable.

    Mistral 7B: El fine-tuning funciona bien, pero el ecosistema se ha estancado. Menos tutoriales recientes, menos innovaciones de la comunidad. La arquitectura mixture-of-experts Mixtral 8x7B agrega complejidad al fine-tuning LoRA porque necesitas decidir qué expertos apuntar. No recomendado a menos que tengas una razón específica para elegir Mistral.

    Exportación GGUF y Despliegue Local

    Para despliegue en producción vía Ollama, LM Studio o llama.cpp, la calidad de exportación GGUF importa.

    Llama 3.3: Estándar de oro. La conversión a GGUF es fluida. Las versiones cuantizadas (Q4_K_M, Q5_K_M, Q8) funcionan bien en todos los tamaños. El proyecto llama.cpp prioriza la compatibilidad con Llama, así que las nuevas optimizaciones llegan aquí primero.

    Qwen 2.5: Excelente soporte GGUF. Los modelos Qwen se convierten limpiamente y se cuantizan bien. El rendimiento en cuantización Q4 es fuerte — típicamente retiene 95%+ de la calidad de precisión completa en tareas downstream.

    Gemma 3: Buen soporte GGUF, pero ocasionalmente va detrás de Llama/Qwen para nuevas funciones en llama.cpp. La calidad de cuantización es sólida en todos los tamaños.

    Mistral 7B: Buen soporte GGUF para el modelo estándar 7B. La arquitectura MoE Mixtral 8x7B tiene peculiaridades en formato GGUF — funciona, pero las versiones cuantizadas pueden comportarse impredeciblemente comparadas con los modelos densos.

    Requisitos de Hardware

    Requisitos de VRAM para inferencia en precisión completa y fine-tuning LoRA:

    ModeloInferencia (FP16)Inferencia (Q4)Entrenamiento LoRA
    Qwen 2.5 0.5B1 GBmenos de 1 GB2 GB
    Llama 3.3 1B2 GB1 GB4 GB
    Llama 3.3 3B / Qwen 2.5 3B6 GB2 GB8 GB
    Gemma 3 4B8 GB3 GB10 GB
    Llama 3.3 8B / Qwen 2.5 7B16 GB5 GB18 GB
    Gemma 3 12B24 GB7 GB26 GB
    Qwen 2.5 14B28 GB8 GB30 GB
    Gemma 3 27B54 GB15 GB60 GB
    Qwen 2.5 32B64 GB18 GB70 GB
    Llama 3.3 70B / Qwen 2.5 72B140 GB40 GB160 GB

    Nota práctica: Con QLoRA (LoRA cuantizado), puedes ajustar los modelos del nivel 7-8B en una sola GPU con 12-16 GB de VRAM. Los modelos de 70B+ requieren configuraciones multi-GPU o entrenamiento en la nube — que es donde Ertas Studio maneja la infraestructura por ti.

    Comunidad y Ecosistema

    Llama 3.3: La comunidad más grande por lejos. Hugging Face tiene 10,000+ modelos ajustados basados en Llama. Cada herramienta de fine-tuning (Unsloth, Axolotl, Ertas) soporta Llama como ciudadano de primera clase. Si necesitas ayuda, la comunidad es vasta.

    Qwen 2.5: Creciendo rápidamente. Fuerte presencia en Hugging Face y la comunidad china de ML. La documentación oficial es completa y disponible en inglés. La comunidad es más pequeña que la de Llama pero altamente técnica.

    Gemma 3: Comunidad moderada. Google proporciona documentación sólida y notebooks de Colab. La comunidad es más pequeña y más fragmentada, en parte porque los niveles de tamaño inusuales de Gemma (1B, 4B, 12B, 27B) no se alinean con el ecosistema estándar de 7B/13B/70B alrededor del cual la mayoría de las herramientas están construidas.

    Mistral 7B: La comunidad ha declinado desde 2024. Se publican menos variantes ajustadas nuevas. El enfoque de Mistral AI se ha desplazado hacia sus productos comerciales de API, y la comunidad open-source lo ha notado.

    Términos de Licencia

    Aquí es donde la decisión se pone legalmente interesante.

    Llama 3.3 — Licencia Comunitaria de Meta:

    • Libre para uso comercial
    • Si tu producto tiene 700M+ usuarios activos mensuales, necesitas una licencia separada de Meta
    • La Política de Uso Aceptable de Meta prohíbe ciertos casos de uso (armas, vigilancia, etc.)
    • Debes incluir el aviso de licencia y atribución

    Qwen 2.5 — Apache 2.0:

    • La licencia más permisiva en esta comparación
    • Uso comercial completo, modificación y distribución
    • Sin restricciones de conteo de usuarios
    • Sin restricciones de política de uso aceptable
    • Esta es una licencia open-source genuina

    Gemma 3 — Términos de Uso de Google:

    • Libre para uso comercial
    • Debe cumplir con la Política de Uso Prohibido de Google
    • No puede usar salidas para entrenar modelos competidores (esta cláusula es controversial)
    • Debe incluir tarjeta de modelo y aviso de licencia
    • Se permite redistribución de versiones modificadas con atribución

    Mistral 7B — Apache 2.0:

    • Mismos términos permisivos que Qwen
    • Uso comercial completo y modificación
    • Sin restricciones más allá del estándar Apache 2.0

    Conclusión clave de licencias: Si la flexibilidad de licencia es una prioridad — especialmente si eres una agencia construyendo soluciones para clientes en diferentes industrias — Qwen 2.5 y Mistral 7B ofrecen los términos más limpios. El umbral de conteo de usuarios de Llama es poco probable que importe para la mayoría de los equipos, pero la política de uso aceptable de Meta podría ser relevante para ciertos verticales. La restricción de Gemma sobre entrenar modelos competidores vale la pena notar si planeas usar salidas del modelo para destilación posterior.

    Recomendaciones por Caso de Uso

    Trabajo de Agencia para Clientes

    Recomendación: Llama 3.3 8B

    La opción predeterminada para trabajo de agencia es Llama 8B. El razonamiento: los clientes esperan confiabilidad, y Llama tiene el ecosistema de fine-tuning más probado en batalla. Cuando algo sale mal (y algo saldrá mal), la comunidad más grande significa el camino más rápido hacia una solución. La brecha de benchmarks entre Llama 8B y Qwen 7B es real pero pequeña — típicamente 2-4 puntos porcentuales — y esta brecha frecuentemente desaparece después del fine-tuning con datos específicos de dominio.

    Subcampeón: Qwen 2.5 7B — si la licencia Apache 2.0 importa para el proceso de revisión legal de tu cliente.

    Despliegue Edge y Móvil

    Recomendación: Qwen 2.5 0.5B-3B o Gemma 3 1B

    Para dispositivos edge, el tamaño del modelo es la restricción principal. Qwen ofrece la gama más amplia de modelos pequeños (0.5B, 3B), dándote la mayor flexibilidad. El modelo 0.5B es notablemente capaz para su tamaño — maneja tareas básicas de clasificación y extracción después del fine-tuning. Para un poco más de margen, Qwen 3B o Gemma 1B proporcionan un salto significativo de calidad mientras siguen siendo desplegables en edge.

    Máxima Calidad (El Costo No Es la Preocupación Principal)

    Recomendación: Qwen 2.5 72B

    Cuando necesitas el mejor modelo open-source absoluto como punto de partida, Qwen 2.5 72B es el ganador. Supera a Llama 3.3 70B en la mayoría de los benchmarks por un margen pequeño pero consistente. La licencia Apache 2.0 es un bono. La desventaja son los requisitos de hardware: necesitas infraestructura GPU seria para entrenamiento, aunque Ertas Studio maneja esto por ti.

    Subcampeón: Llama 3.3 70B — calidad virtualmente idéntica con un ecosistema de soporte más grande.

    Aplicaciones Multilingües

    Recomendación: Qwen 2.5 (cualquier tamaño)

    Las capacidades multilingües de Qwen están claramente por delante de la competencia, particularmente para idiomas de Asia Oriental (chino, japonés, coreano) pero también para idiomas europeos. Si tu aplicación sirve a usuarios en múltiples idiomas, Qwen debería ser tu opción predeterminada.

    Llama 3.3 ha mejorado su soporte multilingüe comparado con Llama 2, pero Qwen mantiene una ventaja significativa, especialmente en idiomas no europeos.

    Generación de Código y Tareas Técnicas

    Recomendación: Qwen 2.5 7B o Llama 3.3 8B

    Ambos funcionan bien en tareas de código después del fine-tuning. Qwen tiene una ligera ventaja en benchmarks HumanEval, pero la diferencia se reduce significativamente después del fine-tuning en tu base de código o patrones de código específicos. Elige basándote en tus otros requisitos (licencia, preferencia de ecosistema).

    Cómo Ertas Soporta las Cuatro Familias

    Ertas Studio proporciona soporte de primera clase para las cuatro familias de modelos. No necesitas elegir tu modelo base antes de registrarte — la plataforma maneja las diferencias de infraestructura por ti.

    • Llama 3.3 — todos los tamaños desde 1B hasta 70B, configuraciones LoRA optimizadas
    • Qwen 2.5 — todos los tamaños desde 0.5B hasta 72B, incluyendo las variantes Coder
    • Gemma 3 — todos los tamaños desde 1B hasta 27B, con manejo correcto de tokenizador
    • Mistral — 7B y Mixtral 8x7B, incluyendo targeting LoRA específico de expertos

    Entrenamiento, evaluación y exportación GGUF funcionan idénticamente en todas las familias. Elige un modelo, sube tus datos y entrena. La plataforma maneja el resto.

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    El Marco de Decisión Práctica

    Si aún no estás seguro, aquí hay un diagrama de flujo simple:

    1. ¿Necesitas un modelo de menos de 1B parámetros? → Qwen 2.5 0.5B (única opción viable)
    2. ¿Es crítico el soporte multilingüe? → Qwen 2.5 en el tamaño que quepa en tu hardware
    3. ¿Se requiere licencia Apache 2.0? → Qwen 2.5 o Mistral
    4. ¿Quieres la comunidad más grande y más tutoriales? → Llama 3.3
    5. ¿Necesitas la mejor calidad absoluta sin importar el tamaño? → Qwen 2.5 72B
    6. ¿Para todo lo demás? → Llama 3.3 8B

    La buena noticia: en 2026, no hay malas opciones entre las tres familias principales (Llama, Qwen, Gemma). La brecha de rendimiento entre ellas es menor que las ganancias de calidad que obtendrás de buenos datos de entrenamiento y técnica adecuada de fine-tuning. Invierte tu tiempo en calidad de datos, no en parálisis de selección de modelos.


    Para benchmarks prácticos comparando Llama y Qwen con QLoRA, consulta nuestro benchmark Llama 3.3 vs Qwen 2.5 QLoRA. Para una guía de fine-tuning paso a paso, comienza con Fine-Tuning Llama 3. Y para una comparación de plataformas de fine-tuning, lee Ertas vs Unsloth vs Axolotl en 2026.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading