Fine-tuning de Llama 3.3 y Qwen 2.5 con QLoRA: comparación de benchmarks

Llama 3.3 8B y Qwen 2.5 7B han emergido como los dos modelos base dominantes para fine-tuning en producción a principios de 2026. Ambos tienen licencias permisivas, están bien soportados por el ecosistema de fine-tuning, y son lo suficientemente pequeños para entrenarse en una sola GPU de consumo. Pero ¿cuál deberías usar realmente?

La respuesta depende de tu tarea, tus datos y tus restricciones de despliegue. Este artículo proporciona una comparación de benchmarks controlada en tres tareas comunes de fine-tuning, con configuraciones de entrenamiento idénticas, para darte datos en lugar de opiniones.

Por qué estos dos modelos

La clase de menos de 10B parámetros es el punto óptimo para fine-tuning en producción. Estos modelos son lo suficientemente grandes para capturar patrones complejos específicos de tareas, lo suficientemente pequeños para ajustarse en una sola GPU de 24GB, y lo suficientemente rápidos para servir con baja latencia en producción.

Llama 3.3 8B es la última iteración de Meta en la familia Llama. Se beneficia de un corpus masivo de preentrenamiento, un tokenizador robusto con vocabulario de 128K, y fuerte rendimiento en inglés. El ecosistema Llama es el más maduro en IA open-source, con amplio soporte de herramientas.

Qwen 2.5 7B es el modelo pequeño insignia de Alibaba. Fue preentrenado en un corpus altamente multilingüe con fuerte representación de idiomas CJK y código. Usa un tokenizador de vocabulario de 152K y ha mostrado rendimiento particularmente fuerte en tareas estructuradas en benchmarks de la comunidad.

Ambos modelos soportan las mismas técnicas de fine-tuning y pueden exportarse a los mismos formatos de inferencia. La elección entre ellos es puramente sobre rendimiento a nivel de tarea.

Configuración de prueba

Para asegurar una comparación justa, controlamos todas las variables excepto el modelo base.

Configuración de entrenamiento:

Método: QLoRA (cuantización de 4 bits, rango LoRA 16, alpha 32)
Tasa de aprendizaje: 2e-4 con schedule de coseno
Tamaño de lote: 4 (con acumulación de gradientes a tamaño de lote efectivo 16)
Épocas: 3
Hardware: Una sola NVIDIA RTX 4090 (24GB VRAM)

Datasets:

Clasificación: 5,000 tickets de soporte al cliente etiquetados (12 categorías)
Extracción de entidades: 3,000 documentos empresariales anotados (nombres de empresas, fechas, valores monetarios, referencias de productos)
Generación de texto: 2,000 pares de instrucción-respuesta para documentación técnica

Cada dataset se dividió 80/10/10 en conjuntos de entrenamiento/validación/prueba. La evaluación se realizó en el conjunto de prueba reservado después de completar el entrenamiento.

Resultados

Clasificación (tickets de soporte al cliente)

Métrica	Llama 3.3 8B	Qwen 2.5 7B
Precisión	94.2%	93.8%
F1 macro	0.921	0.917
F1 ponderado	0.941	0.937

Ambos modelos rindieron comparablemente en clasificación. Llama tuvo una ventaja marginal, probablemente debido a su preentrenamiento más fuerte en inglés. La diferencia no es estadísticamente significativa — cualquier modelo es una excelente opción para tareas de clasificación.

Extracción de entidades (documentos empresariales)

Métrica	Llama 3.3 8B	Qwen 2.5 7B
F1 a nivel de entidad	0.887	0.912
Coincidencia exacta	81.3%	85.7%
Coincidencia parcial	91.2%	93.1%

Qwen mostró una ventaja significativa en extracción de entidades. Su tokenizador maneja texto de formato mixto — fechas en varios formatos, símbolos de moneda, códigos alfanuméricos de productos — más consistentemente que el de Llama. La diferencia de 2.5 puntos porcentuales en coincidencia exacta es significativa en producción, donde los fallos de extracción parcial se propagan a errores posteriores.

Generación de texto (documentación técnica)

Métrica	Llama 3.3 8B	Qwen 2.5 7B
ROUGE-L	0.673	0.651
BERTScore F1	0.894	0.882
Preferencia humana (ciega)	62%	38%

Llama produjo prosa en inglés notablemente mejor. Sus salidas fueron más fluidas, mejor estructuradas y más consistentes en tono. Los evaluadores humanos prefirieron las salidas de Llama casi dos a uno. Para tareas de generación en inglés, Llama 3.3 es la base más fuerte.

Comparación de uso de VRAM

La eficiencia de memoria importa para despliegue en producción, especialmente en hardware restringido.

Fase	Llama 3.3 8B	Qwen 2.5 7B
Entrenamiento (QLoRA)	14.2 GB	12.8 GB
Pico de entrenamiento	18.1 GB	16.3 GB
Inferencia (Q4_K_M GGUF)	5.1 GB	4.6 GB
Inferencia (Q8_0 GGUF)	8.5 GB	7.4 GB

Qwen es consistentemente más eficiente en memoria, reflejando su menor cantidad de parámetros (7B vs 8B). La diferencia es modesta pero puede importar en dispositivos con presupuestos de memoria ajustados — un MacBook de 16GB, por ejemplo, ejecuta la cuantización Q8_0 de Qwen cómodamente mientras que la Q8_0 de Llama deja menos espacio para el sistema operativo y otras aplicaciones.

Ambos modelos caben cómodamente dentro de una GPU de 24GB para entrenamiento con QLoRA. Ninguno requiere configuraciones multi-GPU o estrategias de offloading.

Comparación de velocidad de entrenamiento

Métrica	Llama 3.3 8B	Qwen 2.5 7B
Tokens/segundo (entrenamiento)	1,840	2,120
Tiempo por época (5K muestras)	42 min	36 min
Tiempo total de entrenamiento (3 épocas)	2h 06min	1h 48min

Qwen entrena aproximadamente 15% más rápido que Llama en hardware idéntico, nuevamente reflejando la diferencia en cantidad de parámetros. En tres épocas, ahorras aproximadamente 18 minutos — no dramático para una sola corrida, pero significativo al iterar sobre múltiples experimentos.

Comparación de velocidad de inferencia GGUF

La velocidad de inferencia en producción se midió usando llama.cpp con la cuantización Q4_K_M en la misma RTX 4090.

Métrica	Llama 3.3 8B	Qwen 2.5 7B
Procesamiento de prompt (tok/s)	3,240	3,680
Generación (tok/s)	98.2	112.5
Tiempo al primer token	28ms	24ms

Qwen es más rápido en inferencia en todos los aspectos, con una ventaja particularmente notable en velocidad de generación. A 112.5 tokens por segundo, Qwen entrega respuestas perceptiblemente más rápido a los usuarios finales.

Hallazgos clave

Qwen 2.5 7B es la mejor opción para: extracción de entidades, tareas de salida estructurada, aplicaciones multilingües, despliegues con memoria restringida, y entornos de producción sensibles a la latencia. Entrena más rápido, corre más rápido y usa menos memoria.

Llama 3.3 8B es la mejor opción para: generación de texto en inglés, tareas creativas o conversacionales, y aplicaciones donde la calidad de la prosa es la métrica principal. Produce salidas en inglés más fluidas y naturales.

Ambos son excelentes opciones para: clasificación, análisis de sentimiento, y otras tareas donde la diferencia de calidad está dentro del ruido.

Si estás iniciando un nuevo proyecto de fine-tuning y no estás seguro de cuál elegir, elige por defecto Qwen 2.5 7B a menos que tu tarea principal sea generación de texto en inglés. Las ventajas de memoria y velocidad se acumulan en producción, y la brecha de rendimiento en extracción es significativa.

Cómo elegir: un marco de decisión

Hazte tres preguntas:

¿Tu tarea principal es generación de texto en inglés? Si sí, empieza con Llama.
¿Tu despliegue tiene memoria restringida? Si sí, empieza con Qwen.
¿Tu tarea involucra extracción estructurada o datos multilingües? Si sí, empieza con Qwen.

Si ninguna de estas aplica fuertemente, ejecuta un experimento rápido con ambos. El costo de entrenamiento de una sola corrida de QLoRA en cualquier modelo es mínimo — menos de dos horas en hardware de consumo. Deja que tus datos específicos y tu tarea decidan.

Ajusta ambos con Ertas

Ertas Studio soporta tanto Llama 3.3 como Qwen 2.5 como modelos base para fine-tuning. Puedes ejecutar experimentos paralelos con configuraciones idénticas y comparar resultados directamente en el dashboard de evaluación — exactamente el tipo de comparación controlada que realizamos para este artículo, sin la configuración manual.

¿Listo para comparar modelos con tus datos? Únete a la lista de espera de Ertas y empieza a experimentar.

Fine-tuning de Llama 3.3 y Qwen 2.5 con QLoRA: comparación de benchmarks

Por qué estos dos modelos

Configuración de prueba

Resultados

Clasificación (tickets de soporte al cliente)

Extracción de entidades (documentos empresariales)

Generación de texto (documentación técnica)

Comparación de uso de VRAM

Comparación de velocidad de entrenamiento

Comparación de velocidad de inferencia GGUF

Hallazgos clave

Cómo elegir: un marco de decisión

Ajusta ambos con Ertas

Lectura adicional

Ship AI that runs on your users' devices.

Keep reading

Model Distillation with LoRA: Training Smaller Models from Frontier Outputs

Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)

Synthetic Data Generation for Fine-Tuning: Techniques That Work