
Fine-tuning de Llama 3.3 y Qwen 2.5 con QLoRA: comparación de benchmarks
Comparación directa de fine-tuning de Llama 3.3 8B y Qwen 2.5 7B con QLoRA en tareas comunes — clasificación, extracción, generación — con benchmarks, uso de VRAM y recomendaciones prácticas.
Llama 3.3 8B y Qwen 2.5 7B han emergido como los dos modelos base dominantes para fine-tuning en producción a principios de 2026. Ambos tienen licencias permisivas, están bien soportados por el ecosistema de fine-tuning, y son lo suficientemente pequeños para entrenarse en una sola GPU de consumo. Pero ¿cuál deberías usar realmente?
La respuesta depende de tu tarea, tus datos y tus restricciones de despliegue. Este artículo proporciona una comparación de benchmarks controlada en tres tareas comunes de fine-tuning, con configuraciones de entrenamiento idénticas, para darte datos en lugar de opiniones.
Por qué estos dos modelos
La clase de menos de 10B parámetros es el punto óptimo para fine-tuning en producción. Estos modelos son lo suficientemente grandes para capturar patrones complejos específicos de tareas, lo suficientemente pequeños para ajustarse en una sola GPU de 24GB, y lo suficientemente rápidos para servir con baja latencia en producción.
Llama 3.3 8B es la última iteración de Meta en la familia Llama. Se beneficia de un corpus masivo de preentrenamiento, un tokenizador robusto con vocabulario de 128K, y fuerte rendimiento en inglés. El ecosistema Llama es el más maduro en IA open-source, con amplio soporte de herramientas.
Qwen 2.5 7B es el modelo pequeño insignia de Alibaba. Fue preentrenado en un corpus altamente multilingüe con fuerte representación de idiomas CJK y código. Usa un tokenizador de vocabulario de 152K y ha mostrado rendimiento particularmente fuerte en tareas estructuradas en benchmarks de la comunidad.
Ambos modelos soportan las mismas técnicas de fine-tuning y pueden exportarse a los mismos formatos de inferencia. La elección entre ellos es puramente sobre rendimiento a nivel de tarea.
Configuración de prueba
Para asegurar una comparación justa, controlamos todas las variables excepto el modelo base.
Configuración de entrenamiento:
- Método: QLoRA (cuantización de 4 bits, rango LoRA 16, alpha 32)
- Tasa de aprendizaje: 2e-4 con schedule de coseno
- Tamaño de lote: 4 (con acumulación de gradientes a tamaño de lote efectivo 16)
- Épocas: 3
- Hardware: Una sola NVIDIA RTX 4090 (24GB VRAM)
Datasets:
- Clasificación: 5,000 tickets de soporte al cliente etiquetados (12 categorías)
- Extracción de entidades: 3,000 documentos empresariales anotados (nombres de empresas, fechas, valores monetarios, referencias de productos)
- Generación de texto: 2,000 pares de instrucción-respuesta para documentación técnica
Cada dataset se dividió 80/10/10 en conjuntos de entrenamiento/validación/prueba. La evaluación se realizó en el conjunto de prueba reservado después de completar el entrenamiento.
Resultados
Clasificación (tickets de soporte al cliente)
| Métrica | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Precisión | 94.2% | 93.8% |
| F1 macro | 0.921 | 0.917 |
| F1 ponderado | 0.941 | 0.937 |
Ambos modelos rindieron comparablemente en clasificación. Llama tuvo una ventaja marginal, probablemente debido a su preentrenamiento más fuerte en inglés. La diferencia no es estadísticamente significativa — cualquier modelo es una excelente opción para tareas de clasificación.
Extracción de entidades (documentos empresariales)
| Métrica | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| F1 a nivel de entidad | 0.887 | 0.912 |
| Coincidencia exacta | 81.3% | 85.7% |
| Coincidencia parcial | 91.2% | 93.1% |
Qwen mostró una ventaja significativa en extracción de entidades. Su tokenizador maneja texto de formato mixto — fechas en varios formatos, símbolos de moneda, códigos alfanuméricos de productos — más consistentemente que el de Llama. La diferencia de 2.5 puntos porcentuales en coincidencia exacta es significativa en producción, donde los fallos de extracción parcial se propagan a errores posteriores.
Generación de texto (documentación técnica)
| Métrica | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| ROUGE-L | 0.673 | 0.651 |
| BERTScore F1 | 0.894 | 0.882 |
| Preferencia humana (ciega) | 62% | 38% |
Llama produjo prosa en inglés notablemente mejor. Sus salidas fueron más fluidas, mejor estructuradas y más consistentes en tono. Los evaluadores humanos prefirieron las salidas de Llama casi dos a uno. Para tareas de generación en inglés, Llama 3.3 es la base más fuerte.
Comparación de uso de VRAM
La eficiencia de memoria importa para despliegue en producción, especialmente en hardware restringido.
| Fase | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Entrenamiento (QLoRA) | 14.2 GB | 12.8 GB |
| Pico de entrenamiento | 18.1 GB | 16.3 GB |
| Inferencia (Q4_K_M GGUF) | 5.1 GB | 4.6 GB |
| Inferencia (Q8_0 GGUF) | 8.5 GB | 7.4 GB |
Qwen es consistentemente más eficiente en memoria, reflejando su menor cantidad de parámetros (7B vs 8B). La diferencia es modesta pero puede importar en dispositivos con presupuestos de memoria ajustados — un MacBook de 16GB, por ejemplo, ejecuta la cuantización Q8_0 de Qwen cómodamente mientras que la Q8_0 de Llama deja menos espacio para el sistema operativo y otras aplicaciones.
Ambos modelos caben cómodamente dentro de una GPU de 24GB para entrenamiento con QLoRA. Ninguno requiere configuraciones multi-GPU o estrategias de offloading.
Comparación de velocidad de entrenamiento
| Métrica | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Tokens/segundo (entrenamiento) | 1,840 | 2,120 |
| Tiempo por época (5K muestras) | 42 min | 36 min |
| Tiempo total de entrenamiento (3 épocas) | 2h 06min | 1h 48min |
Qwen entrena aproximadamente 15% más rápido que Llama en hardware idéntico, nuevamente reflejando la diferencia en cantidad de parámetros. En tres épocas, ahorras aproximadamente 18 minutos — no dramático para una sola corrida, pero significativo al iterar sobre múltiples experimentos.
Comparación de velocidad de inferencia GGUF
La velocidad de inferencia en producción se midió usando llama.cpp con la cuantización Q4_K_M en la misma RTX 4090.
| Métrica | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Procesamiento de prompt (tok/s) | 3,240 | 3,680 |
| Generación (tok/s) | 98.2 | 112.5 |
| Tiempo al primer token | 28ms | 24ms |
Qwen es más rápido en inferencia en todos los aspectos, con una ventaja particularmente notable en velocidad de generación. A 112.5 tokens por segundo, Qwen entrega respuestas perceptiblemente más rápido a los usuarios finales.
Hallazgos clave
Qwen 2.5 7B es la mejor opción para: extracción de entidades, tareas de salida estructurada, aplicaciones multilingües, despliegues con memoria restringida, y entornos de producción sensibles a la latencia. Entrena más rápido, corre más rápido y usa menos memoria.
Llama 3.3 8B es la mejor opción para: generación de texto en inglés, tareas creativas o conversacionales, y aplicaciones donde la calidad de la prosa es la métrica principal. Produce salidas en inglés más fluidas y naturales.
Ambos son excelentes opciones para: clasificación, análisis de sentimiento, y otras tareas donde la diferencia de calidad está dentro del ruido.
Si estás iniciando un nuevo proyecto de fine-tuning y no estás seguro de cuál elegir, elige por defecto Qwen 2.5 7B a menos que tu tarea principal sea generación de texto en inglés. Las ventajas de memoria y velocidad se acumulan en producción, y la brecha de rendimiento en extracción es significativa.
Cómo elegir: un marco de decisión
Hazte tres preguntas:
- ¿Tu tarea principal es generación de texto en inglés? Si sí, empieza con Llama.
- ¿Tu despliegue tiene memoria restringida? Si sí, empieza con Qwen.
- ¿Tu tarea involucra extracción estructurada o datos multilingües? Si sí, empieza con Qwen.
Si ninguna de estas aplica fuertemente, ejecuta un experimento rápido con ambos. El costo de entrenamiento de una sola corrida de QLoRA en cualquier modelo es mínimo — menos de dos horas en hardware de consumo. Deja que tus datos específicos y tu tarea decidan.
Ajusta ambos con Ertas
Ertas Studio soporta tanto Llama 3.3 como Qwen 2.5 como modelos base para fine-tuning. Puedes ejecutar experimentos paralelos con configuraciones idénticas y comparar resultados directamente en el dashboard de evaluación — exactamente el tipo de comparación controlada que realizamos para este artículo, sin la configuración manual.
¿Listo para comparar modelos con tus datos? Únete a la lista de espera de Ertas y empieza a experimentar.
Lectura adicional
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Model Distillation with LoRA: Training Smaller Models from Frontier Outputs
A technical guide to distilling GPT-4 and Claude outputs into compact, deployable models using LoRA fine-tuning — the practical path from API dependency to model ownership.

Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)
A practical comparison of three popular fine-tuning tools — Ertas Studio, Unsloth, and Axolotl — covering ease of use, performance, GPU requirements, and production deployment workflows.

Synthetic Data Generation for Fine-Tuning: Techniques That Work
Practical techniques for generating high-quality synthetic training data using frontier models — covering prompt engineering, data augmentation, and quality filtering for fine-tuning datasets.