¿Qué modelo open-source deberías ajustar en 2026?

Hace doce meses, la respuesta a "¿qué modelo debería ajustar?" era sencilla: Llama 3 8B para la mayoría de las cosas, quizás Mistral 7B si querías un cambio. El panorama en 2026 es más competitivo, más matizado y — francamente — mejor para los practicantes. Tienes cuatro familias de modelos serias para elegir, cada una con fortalezas genuinas.

Esta guía te ayudará a tomar la decisión correcta para tu caso de uso específico. Sin ambigüedades. Recomendaciones concretas respaldadas por benchmarks, requisitos de hardware y realidades de licencias.

El Panorama Open-Source 2026

Cuatro familias de modelos dominan el ecosistema de fine-tuning open-source en 2026:

Llama 3.3 (Meta) — 1B, 3B, 8B, 70B parámetros
Qwen 2.5 (Alibaba) — 0.5B, 3B, 7B, 14B, 32B, 72B parámetros
Gemma 3 (Google) — 1B, 4B, 12B, 27B parámetros
Mistral (Mistral AI) — 7B, 8x7B (Mixtral) parámetros

Cada familia toma un enfoque diferente al equilibrio calidad-tamaño, y cada una tiene características distintas que la hacen más adecuada para ciertos casos de uso.

Comparación Directa

Calidad Base

En benchmarks estándar (MMLU, HumanEval, GSM8K, HellaSwag), así se comparan las familias en sus tamaños más populares:

Nivel 7-8B (el tamaño caballo de batalla):

Modelo	MMLU	HumanEval	GSM8K	HellaSwag
Llama 3.3 8B	68.4	62.2	79.6	82.0
Qwen 2.5 7B	70.2	65.8	82.3	80.5
Gemma 3 12B*	72.1	61.4	81.0	83.2
Mistral 7B v0.3	63.7	52.1	71.2	81.4

*El tamaño más cercano de Gemma 3 a este nivel es 12B, lo que le da una ventaja en parámetros en esta comparación.

Conclusión clave: Qwen 2.5 7B supera ligeramente a Llama 3.3 8B en la mayoría de los benchmarks. Gemma 3 12B es fuerte pero requiere más memoria. Mistral 7B se ha quedado atrás del grupo en rendimiento bruto de benchmarks.

Nivel pequeño (1-4B, para edge y móvil):

Modelo	MMLU	GSM8K	Notas
Llama 3.3 3B	55.2	58.4	Buen todoterreno
Qwen 2.5 3B	57.8	62.1	El mejor de su clase para 3B
Gemma 3 4B	59.3	60.7	Ligeramente más grande pero competitivo
Qwen 2.5 0.5B	38.2	31.5	Sorprendentemente capaz para su tamaño

Conclusión clave: En el extremo pequeño, Qwen y Gemma lideran. Qwen 2.5 0.5B es la única opción viable si necesitas un modelo de menos de 1B parámetros.

Nivel grande (27-72B, para máxima calidad):

Modelo	MMLU	HumanEval	GSM8K
Llama 3.3 70B	82.0	81.7	93.0
Qwen 2.5 72B	83.4	84.2	94.5
Gemma 3 27B	76.8	72.3	87.1

Conclusión clave: Qwen 2.5 72B es el modelo open-source más fuerte para fine-tuning. Llama 3.3 70B es un cercano segundo. Gemma 3 llega hasta 27B, lo que limita su techo.

Facilidad para Fine-Tuning

No todos los modelos son igualmente agradables de ajustar. Esto importa más que los benchmarks para la mayoría de los practicantes.

Llama 3.3: Excelente ecosistema de fine-tuning. Los más tutoriales, los más ejemplos de la comunidad, las configuraciones LoRA más probadas en batalla. Si encuentras un problema, alguien ya lo resolvió en GitHub. La plantilla de chat está bien documentada y es consistente. LoRA típicamente converge en 3-5 épocas con hiperparámetros estándar.

Qwen 2.5: Muy buen soporte de fine-tuning. El equipo de Qwen proporciona scripts oficiales de fine-tuning e hiperparámetros recomendados. La plantilla de chat es limpia y bien estructurada. Una ventaja: los modelos Qwen tienden a necesitar menos ejemplos de entrenamiento para converger, posiblemente debido a su mezcla de datos de entrenamiento. El entrenamiento LoRA es estable y predecible.

Gemma 3: Bueno pero con advertencias. El tokenizador y la plantilla de chat de Google difieren de las convenciones de Llama/Qwen. Si estás migrando de un flujo de trabajo basado en Llama, espera ajustar tu preprocesamiento de datos. Algunos practicantes reportan que los modelos Gemma son ligeramente más sensibles a las elecciones de tasa de aprendizaje. Dicho esto, una vez que ajustas los hiperparámetros, el entrenamiento es estable.

Mistral 7B: El fine-tuning funciona bien, pero el ecosistema se ha estancado. Menos tutoriales recientes, menos innovaciones de la comunidad. La arquitectura mixture-of-experts Mixtral 8x7B agrega complejidad al fine-tuning LoRA porque necesitas decidir qué expertos apuntar. No recomendado a menos que tengas una razón específica para elegir Mistral.

Exportación GGUF y Despliegue Local

Para despliegue en producción vía Ollama, LM Studio o llama.cpp, la calidad de exportación GGUF importa.

Llama 3.3: Estándar de oro. La conversión a GGUF es fluida. Las versiones cuantizadas (Q4_K_M, Q5_K_M, Q8) funcionan bien en todos los tamaños. El proyecto llama.cpp prioriza la compatibilidad con Llama, así que las nuevas optimizaciones llegan aquí primero.

Qwen 2.5: Excelente soporte GGUF. Los modelos Qwen se convierten limpiamente y se cuantizan bien. El rendimiento en cuantización Q4 es fuerte — típicamente retiene 95%+ de la calidad de precisión completa en tareas downstream.

Gemma 3: Buen soporte GGUF, pero ocasionalmente va detrás de Llama/Qwen para nuevas funciones en llama.cpp. La calidad de cuantización es sólida en todos los tamaños.

Mistral 7B: Buen soporte GGUF para el modelo estándar 7B. La arquitectura MoE Mixtral 8x7B tiene peculiaridades en formato GGUF — funciona, pero las versiones cuantizadas pueden comportarse impredeciblemente comparadas con los modelos densos.

Requisitos de Hardware

Requisitos de VRAM para inferencia en precisión completa y fine-tuning LoRA:

Modelo	Inferencia (FP16)	Inferencia (Q4)	Entrenamiento LoRA
Qwen 2.5 0.5B	1 GB	menos de 1 GB	2 GB
Llama 3.3 1B	2 GB	1 GB	4 GB
Llama 3.3 3B / Qwen 2.5 3B	6 GB	2 GB	8 GB
Gemma 3 4B	8 GB	3 GB	10 GB
Llama 3.3 8B / Qwen 2.5 7B	16 GB	5 GB	18 GB
Gemma 3 12B	24 GB	7 GB	26 GB
Qwen 2.5 14B	28 GB	8 GB	30 GB
Gemma 3 27B	54 GB	15 GB	60 GB
Qwen 2.5 32B	64 GB	18 GB	70 GB
Llama 3.3 70B / Qwen 2.5 72B	140 GB	40 GB	160 GB

Nota práctica: Con QLoRA (LoRA cuantizado), puedes ajustar los modelos del nivel 7-8B en una sola GPU con 12-16 GB de VRAM. Los modelos de 70B+ requieren configuraciones multi-GPU o entrenamiento en la nube — que es donde Ertas Studio maneja la infraestructura por ti.

Comunidad y Ecosistema

Llama 3.3: La comunidad más grande por lejos. Hugging Face tiene 10,000+ modelos ajustados basados en Llama. Cada herramienta de fine-tuning (Unsloth, Axolotl, Ertas) soporta Llama como ciudadano de primera clase. Si necesitas ayuda, la comunidad es vasta.

Qwen 2.5: Creciendo rápidamente. Fuerte presencia en Hugging Face y la comunidad china de ML. La documentación oficial es completa y disponible en inglés. La comunidad es más pequeña que la de Llama pero altamente técnica.

Gemma 3: Comunidad moderada. Google proporciona documentación sólida y notebooks de Colab. La comunidad es más pequeña y más fragmentada, en parte porque los niveles de tamaño inusuales de Gemma (1B, 4B, 12B, 27B) no se alinean con el ecosistema estándar de 7B/13B/70B alrededor del cual la mayoría de las herramientas están construidas.

Mistral 7B: La comunidad ha declinado desde 2024. Se publican menos variantes ajustadas nuevas. El enfoque de Mistral AI se ha desplazado hacia sus productos comerciales de API, y la comunidad open-source lo ha notado.

Términos de Licencia

Aquí es donde la decisión se pone legalmente interesante.

Llama 3.3 — Licencia Comunitaria de Meta:

Libre para uso comercial
Si tu producto tiene 700M+ usuarios activos mensuales, necesitas una licencia separada de Meta
La Política de Uso Aceptable de Meta prohíbe ciertos casos de uso (armas, vigilancia, etc.)
Debes incluir el aviso de licencia y atribución

Qwen 2.5 — Apache 2.0:

La licencia más permisiva en esta comparación
Uso comercial completo, modificación y distribución
Sin restricciones de conteo de usuarios
Sin restricciones de política de uso aceptable
Esta es una licencia open-source genuina

Gemma 3 — Términos de Uso de Google:

Libre para uso comercial
Debe cumplir con la Política de Uso Prohibido de Google
No puede usar salidas para entrenar modelos competidores (esta cláusula es controversial)
Debe incluir tarjeta de modelo y aviso de licencia
Se permite redistribución de versiones modificadas con atribución

Mistral 7B — Apache 2.0:

Mismos términos permisivos que Qwen
Uso comercial completo y modificación
Sin restricciones más allá del estándar Apache 2.0

Conclusión clave de licencias: Si la flexibilidad de licencia es una prioridad — especialmente si eres una agencia construyendo soluciones para clientes en diferentes industrias — Qwen 2.5 y Mistral 7B ofrecen los términos más limpios. El umbral de conteo de usuarios de Llama es poco probable que importe para la mayoría de los equipos, pero la política de uso aceptable de Meta podría ser relevante para ciertos verticales. La restricción de Gemma sobre entrenar modelos competidores vale la pena notar si planeas usar salidas del modelo para destilación posterior.

Recomendaciones por Caso de Uso

Trabajo de Agencia para Clientes

Recomendación: Llama 3.3 8B

La opción predeterminada para trabajo de agencia es Llama 8B. El razonamiento: los clientes esperan confiabilidad, y Llama tiene el ecosistema de fine-tuning más probado en batalla. Cuando algo sale mal (y algo saldrá mal), la comunidad más grande significa el camino más rápido hacia una solución. La brecha de benchmarks entre Llama 8B y Qwen 7B es real pero pequeña — típicamente 2-4 puntos porcentuales — y esta brecha frecuentemente desaparece después del fine-tuning con datos específicos de dominio.

Subcampeón: Qwen 2.5 7B — si la licencia Apache 2.0 importa para el proceso de revisión legal de tu cliente.

Despliegue Edge y Móvil

Recomendación: Qwen 2.5 0.5B-3B o Gemma 3 1B

Para dispositivos edge, el tamaño del modelo es la restricción principal. Qwen ofrece la gama más amplia de modelos pequeños (0.5B, 3B), dándote la mayor flexibilidad. El modelo 0.5B es notablemente capaz para su tamaño — maneja tareas básicas de clasificación y extracción después del fine-tuning. Para un poco más de margen, Qwen 3B o Gemma 1B proporcionan un salto significativo de calidad mientras siguen siendo desplegables en edge.

Máxima Calidad (El Costo No Es la Preocupación Principal)

Recomendación: Qwen 2.5 72B

Cuando necesitas el mejor modelo open-source absoluto como punto de partida, Qwen 2.5 72B es el ganador. Supera a Llama 3.3 70B en la mayoría de los benchmarks por un margen pequeño pero consistente. La licencia Apache 2.0 es un bono. La desventaja son los requisitos de hardware: necesitas infraestructura GPU seria para entrenamiento, aunque Ertas Studio maneja esto por ti.

Subcampeón: Llama 3.3 70B — calidad virtualmente idéntica con un ecosistema de soporte más grande.

Aplicaciones Multilingües

Recomendación: Qwen 2.5 (cualquier tamaño)

Las capacidades multilingües de Qwen están claramente por delante de la competencia, particularmente para idiomas de Asia Oriental (chino, japonés, coreano) pero también para idiomas europeos. Si tu aplicación sirve a usuarios en múltiples idiomas, Qwen debería ser tu opción predeterminada.

Llama 3.3 ha mejorado su soporte multilingüe comparado con Llama 2, pero Qwen mantiene una ventaja significativa, especialmente en idiomas no europeos.

Generación de Código y Tareas Técnicas

Recomendación: Qwen 2.5 7B o Llama 3.3 8B

Ambos funcionan bien en tareas de código después del fine-tuning. Qwen tiene una ligera ventaja en benchmarks HumanEval, pero la diferencia se reduce significativamente después del fine-tuning en tu base de código o patrones de código específicos. Elige basándote en tus otros requisitos (licencia, preferencia de ecosistema).

Cómo Ertas Soporta las Cuatro Familias

Ertas Studio proporciona soporte de primera clase para las cuatro familias de modelos. No necesitas elegir tu modelo base antes de registrarte — la plataforma maneja las diferencias de infraestructura por ti.

Llama 3.3 — todos los tamaños desde 1B hasta 70B, configuraciones LoRA optimizadas
Qwen 2.5 — todos los tamaños desde 0.5B hasta 72B, incluyendo las variantes Coder
Gemma 3 — todos los tamaños desde 1B hasta 27B, con manejo correcto de tokenizador
Mistral — 7B y Mixtral 8x7B, incluyendo targeting LoRA específico de expertos

Entrenamiento, evaluación y exportación GGUF funcionan idénticamente en todas las familias. Elige un modelo, sube tus datos y entrena. La plataforma maneja el resto.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

El Marco de Decisión Práctica

Si aún no estás seguro, aquí hay un diagrama de flujo simple:

¿Necesitas un modelo de menos de 1B parámetros? → Qwen 2.5 0.5B (única opción viable)
¿Es crítico el soporte multilingüe? → Qwen 2.5 en el tamaño que quepa en tu hardware
¿Se requiere licencia Apache 2.0? → Qwen 2.5 o Mistral
¿Quieres la comunidad más grande y más tutoriales? → Llama 3.3
¿Necesitas la mejor calidad absoluta sin importar el tamaño? → Qwen 2.5 72B
¿Para todo lo demás? → Llama 3.3 8B

La buena noticia: en 2026, no hay malas opciones entre las tres familias principales (Llama, Qwen, Gemma). La brecha de rendimiento entre ellas es menor que las ganancias de calidad que obtendrás de buenos datos de entrenamiento y técnica adecuada de fine-tuning. Invierte tu tiempo en calidad de datos, no en parálisis de selección de modelos.

Para benchmarks prácticos comparando Llama y Qwen con QLoRA, consulta nuestro benchmark Llama 3.3 vs Qwen 2.5 QLoRA. Para una guía de fine-tuning paso a paso, comienza con Fine-Tuning Llama 3. Y para una comparación de plataformas de fine-tuning, lee Ertas vs Unsloth vs Axolotl en 2026.