Back to blog
    Fine-tuning de Llama 3.3 y Qwen 2.5 con QLoRA: comparación de benchmarks
    ml-engineeringbenchmarkllamaqwenqlorasegment:ml-engineer

    Fine-tuning de Llama 3.3 y Qwen 2.5 con QLoRA: comparación de benchmarks

    Comparación directa de fine-tuning de Llama 3.3 8B y Qwen 2.5 7B con QLoRA en tareas comunes — clasificación, extracción, generación — con benchmarks, uso de VRAM y recomendaciones prácticas.

    EErtas Team·

    Llama 3.3 8B y Qwen 2.5 7B han emergido como los dos modelos base dominantes para fine-tuning en producción a principios de 2026. Ambos tienen licencias permisivas, están bien soportados por el ecosistema de fine-tuning, y son lo suficientemente pequeños para entrenarse en una sola GPU de consumo. Pero ¿cuál deberías usar realmente?

    La respuesta depende de tu tarea, tus datos y tus restricciones de despliegue. Este artículo proporciona una comparación de benchmarks controlada en tres tareas comunes de fine-tuning, con configuraciones de entrenamiento idénticas, para darte datos en lugar de opiniones.

    Por qué estos dos modelos

    La clase de menos de 10B parámetros es el punto óptimo para fine-tuning en producción. Estos modelos son lo suficientemente grandes para capturar patrones complejos específicos de tareas, lo suficientemente pequeños para ajustarse en una sola GPU de 24GB, y lo suficientemente rápidos para servir con baja latencia en producción.

    Llama 3.3 8B es la última iteración de Meta en la familia Llama. Se beneficia de un corpus masivo de preentrenamiento, un tokenizador robusto con vocabulario de 128K, y fuerte rendimiento en inglés. El ecosistema Llama es el más maduro en IA open-source, con amplio soporte de herramientas.

    Qwen 2.5 7B es el modelo pequeño insignia de Alibaba. Fue preentrenado en un corpus altamente multilingüe con fuerte representación de idiomas CJK y código. Usa un tokenizador de vocabulario de 152K y ha mostrado rendimiento particularmente fuerte en tareas estructuradas en benchmarks de la comunidad.

    Ambos modelos soportan las mismas técnicas de fine-tuning y pueden exportarse a los mismos formatos de inferencia. La elección entre ellos es puramente sobre rendimiento a nivel de tarea.

    Configuración de prueba

    Para asegurar una comparación justa, controlamos todas las variables excepto el modelo base.

    Configuración de entrenamiento:

    • Método: QLoRA (cuantización de 4 bits, rango LoRA 16, alpha 32)
    • Tasa de aprendizaje: 2e-4 con schedule de coseno
    • Tamaño de lote: 4 (con acumulación de gradientes a tamaño de lote efectivo 16)
    • Épocas: 3
    • Hardware: Una sola NVIDIA RTX 4090 (24GB VRAM)

    Datasets:

    • Clasificación: 5,000 tickets de soporte al cliente etiquetados (12 categorías)
    • Extracción de entidades: 3,000 documentos empresariales anotados (nombres de empresas, fechas, valores monetarios, referencias de productos)
    • Generación de texto: 2,000 pares de instrucción-respuesta para documentación técnica

    Cada dataset se dividió 80/10/10 en conjuntos de entrenamiento/validación/prueba. La evaluación se realizó en el conjunto de prueba reservado después de completar el entrenamiento.

    Resultados

    Clasificación (tickets de soporte al cliente)

    MétricaLlama 3.3 8BQwen 2.5 7B
    Precisión94.2%93.8%
    F1 macro0.9210.917
    F1 ponderado0.9410.937

    Ambos modelos rindieron comparablemente en clasificación. Llama tuvo una ventaja marginal, probablemente debido a su preentrenamiento más fuerte en inglés. La diferencia no es estadísticamente significativa — cualquier modelo es una excelente opción para tareas de clasificación.

    Extracción de entidades (documentos empresariales)

    MétricaLlama 3.3 8BQwen 2.5 7B
    F1 a nivel de entidad0.8870.912
    Coincidencia exacta81.3%85.7%
    Coincidencia parcial91.2%93.1%

    Qwen mostró una ventaja significativa en extracción de entidades. Su tokenizador maneja texto de formato mixto — fechas en varios formatos, símbolos de moneda, códigos alfanuméricos de productos — más consistentemente que el de Llama. La diferencia de 2.5 puntos porcentuales en coincidencia exacta es significativa en producción, donde los fallos de extracción parcial se propagan a errores posteriores.

    Generación de texto (documentación técnica)

    MétricaLlama 3.3 8BQwen 2.5 7B
    ROUGE-L0.6730.651
    BERTScore F10.8940.882
    Preferencia humana (ciega)62%38%

    Llama produjo prosa en inglés notablemente mejor. Sus salidas fueron más fluidas, mejor estructuradas y más consistentes en tono. Los evaluadores humanos prefirieron las salidas de Llama casi dos a uno. Para tareas de generación en inglés, Llama 3.3 es la base más fuerte.

    Comparación de uso de VRAM

    La eficiencia de memoria importa para despliegue en producción, especialmente en hardware restringido.

    FaseLlama 3.3 8BQwen 2.5 7B
    Entrenamiento (QLoRA)14.2 GB12.8 GB
    Pico de entrenamiento18.1 GB16.3 GB
    Inferencia (Q4_K_M GGUF)5.1 GB4.6 GB
    Inferencia (Q8_0 GGUF)8.5 GB7.4 GB

    Qwen es consistentemente más eficiente en memoria, reflejando su menor cantidad de parámetros (7B vs 8B). La diferencia es modesta pero puede importar en dispositivos con presupuestos de memoria ajustados — un MacBook de 16GB, por ejemplo, ejecuta la cuantización Q8_0 de Qwen cómodamente mientras que la Q8_0 de Llama deja menos espacio para el sistema operativo y otras aplicaciones.

    Ambos modelos caben cómodamente dentro de una GPU de 24GB para entrenamiento con QLoRA. Ninguno requiere configuraciones multi-GPU o estrategias de offloading.

    Comparación de velocidad de entrenamiento

    MétricaLlama 3.3 8BQwen 2.5 7B
    Tokens/segundo (entrenamiento)1,8402,120
    Tiempo por época (5K muestras)42 min36 min
    Tiempo total de entrenamiento (3 épocas)2h 06min1h 48min

    Qwen entrena aproximadamente 15% más rápido que Llama en hardware idéntico, nuevamente reflejando la diferencia en cantidad de parámetros. En tres épocas, ahorras aproximadamente 18 minutos — no dramático para una sola corrida, pero significativo al iterar sobre múltiples experimentos.

    Comparación de velocidad de inferencia GGUF

    La velocidad de inferencia en producción se midió usando llama.cpp con la cuantización Q4_K_M en la misma RTX 4090.

    MétricaLlama 3.3 8BQwen 2.5 7B
    Procesamiento de prompt (tok/s)3,2403,680
    Generación (tok/s)98.2112.5
    Tiempo al primer token28ms24ms

    Qwen es más rápido en inferencia en todos los aspectos, con una ventaja particularmente notable en velocidad de generación. A 112.5 tokens por segundo, Qwen entrega respuestas perceptiblemente más rápido a los usuarios finales.

    Hallazgos clave

    Qwen 2.5 7B es la mejor opción para: extracción de entidades, tareas de salida estructurada, aplicaciones multilingües, despliegues con memoria restringida, y entornos de producción sensibles a la latencia. Entrena más rápido, corre más rápido y usa menos memoria.

    Llama 3.3 8B es la mejor opción para: generación de texto en inglés, tareas creativas o conversacionales, y aplicaciones donde la calidad de la prosa es la métrica principal. Produce salidas en inglés más fluidas y naturales.

    Ambos son excelentes opciones para: clasificación, análisis de sentimiento, y otras tareas donde la diferencia de calidad está dentro del ruido.

    Si estás iniciando un nuevo proyecto de fine-tuning y no estás seguro de cuál elegir, elige por defecto Qwen 2.5 7B a menos que tu tarea principal sea generación de texto en inglés. Las ventajas de memoria y velocidad se acumulan en producción, y la brecha de rendimiento en extracción es significativa.

    Cómo elegir: un marco de decisión

    Hazte tres preguntas:

    1. ¿Tu tarea principal es generación de texto en inglés? Si sí, empieza con Llama.
    2. ¿Tu despliegue tiene memoria restringida? Si sí, empieza con Qwen.
    3. ¿Tu tarea involucra extracción estructurada o datos multilingües? Si sí, empieza con Qwen.

    Si ninguna de estas aplica fuertemente, ejecuta un experimento rápido con ambos. El costo de entrenamiento de una sola corrida de QLoRA en cualquier modelo es mínimo — menos de dos horas en hardware de consumo. Deja que tus datos específicos y tu tarea decidan.

    Ajusta ambos con Ertas

    Ertas Studio soporta tanto Llama 3.3 como Qwen 2.5 como modelos base para fine-tuning. Puedes ejecutar experimentos paralelos con configuraciones idénticas y comparar resultados directamente en el dashboard de evaluación — exactamente el tipo de comparación controlada que realizamos para este artículo, sin la configuración manual.

    ¿Listo para comparar modelos con tus datos? Únete a la lista de espera de Ertas y empieza a experimentar.

    Lectura adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading