Fine-Tune Llama 3 with Ertas

    La tercera generación de la familia de modelos de lenguaje de pesos abiertos de Meta, ofreciendo rendimiento de vanguardia en razonamiento, generación de código y tareas multilingües en configuraciones de 8B, 70B y 405B parámetros.

    8B70B405BMeta

    Overview

    Llama 3 representa un gran salto adelante en la serie de modelos de pesos abiertos de Meta. Lanzada en 2024, la familia Llama 3 abarca tres tamaños — 8B, 70B y 405B parámetros — y fue entrenada con más de 15 billones de tokens de datos públicamente disponibles, más de siete veces los datos de entrenamiento usados para Llama 2. La arquitectura usa un decoder transformer denso estándar con atención de consultas agrupadas (GQA) en todos los tamaños, un vocabulario expandido de 128K tokens y una ventana de contexto de hasta 128K tokens.

    El modelo de 8B ofrece rendimiento competitivo con modelos mucho más grandes de generaciones anteriores, haciéndolo una opción excepcional para despliegues con recursos limitados. La variante de 70B rivaliza con modelos propietarios como GPT-3.5 Turbo en muchos benchmarks, mientras que el insignia de 405B compite con modelos de clase GPT-4 en tareas de razonamiento, matemáticas y generación de código.

    Llama 3 fue entrenado usando una combinación de SFT y RLHF, con Meta aplicando DPO para alineación. Las variantes ajustadas con instrucciones (Llama 3 Instruct) soportan uso de herramientas, salida JSON estructurada y conversación multi-turno, haciéndolas muy adecuadas para aplicaciones en producción.

    La licencia de pesos abiertos del modelo permite uso comercial con restricciones mínimas, lo que ha hecho de Llama 3 una de las familias de modelos de código abierto más ampliamente adoptadas en el ecosistema. Una masiva comunidad de variantes ajustadas existe en Hugging Face, abarcando dominios especializados desde medicina hasta derecho y escritura creativa.

    Key Features

    Llama 3 introduce varias mejoras arquitectónicas y de entrenamiento sobre su predecesor. La atención de consultas agrupadas (GQA) se usa en todos los tamaños de modelo, mejorando el rendimiento de inferencia al reducir la huella del KV cache. El vocabulario del tokenizer fue expandido de 32K a 128K tokens, mejorando la eficiencia de codificación para idiomas no ingleses y código en aproximadamente un 15%. La ventana de contexto se extiende a 128K tokens vía escalado de frecuencia RoPE, permitiendo procesar documentos largos, bases de código y conversaciones extendidas.

    Los modelos ajustados con instrucciones soportan llamadas estructuradas a herramientas, permitiendo integración con APIs externas y flujos de trabajo de llamadas a funciones. Llama 3 también demuestra un rendimiento significativamente mejorado en benchmarks multilingües comparado con Llama 2, con fuertes capacidades en inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.

    La seguridad fue una consideración clave de diseño. Meta desarrolló Llama Guard 3, un clasificador complementario de seguridad de contenido, y Prompt Guard, un modelo de detección de inyección, ambos lanzados junto a Llama 3 para soportar despliegue responsable.

    Fine-Tuning with Ertas

    Ertas Studio proporciona un flujo de trabajo simplificado para ajustar modelos Llama 3 sin escribir código. La variante de 8B es la opción más popular para fine-tuning, ya que puede entrenarse con QLoRA en una sola GPU con 24GB de VRAM (como una RTX 4090 o A5000). Simplemente sube tu dataset en formato JSONL o CSV, selecciona Llama 3 8B como modelo base y configura tus hiperparámetros LoRA a través de la interfaz visual.

    Para el modelo de 70B, Ertas Studio soporta entrenamiento con QLoRA y cuantización de 4 bits, lo que reduce los requisitos de memoria a aproximadamente 40-48GB de VRAM — alcanzable en una sola A100 de 80GB o configuración dual de A6000. La plataforma maneja automáticamente el formato de plantilla de chat, padding y tokenización basado en el formato de chat de Llama 3.

    Una vez completado el entrenamiento, Ertas Studio exporta tu modelo ajustado directamente a formato GGUF con tu nivel de cuantización preferido. Luego puedes desplegar el modelo localmente a través de Ollama, llama.cpp o LM Studio con un solo clic. Todo el pipeline — desde datos crudos hasta un modelo cuantizado desplegable — puede completarse en horas en lugar de días.

    Use Cases

    El modelo Llama 3 8B destaca como un asistente rápido y eficiente para tareas de propósito general: resumen, respuesta a preguntas, generación de código simple e interfaces conversacionales. Es una opción ideal para despliegues edge, aplicaciones móviles y escenarios donde la latencia importa más que la capacidad máxima.

    El modelo de 70B es muy adecuado para aplicaciones empresariales que requieren razonamiento de alta calidad, generación de código complejo, análisis de documentos y pipelines de generación aumentada por recuperación (RAG). Funciona particularmente bien en tareas que requieren razonamiento lógico de múltiples pasos y comprensión matizada de texto.

    El modelo de 405B apunta a casos de uso que demandan la más alta calidad posible: asistencia de investigación, resolución avanzada de problemas matemáticos, refactorización de código a gran escala y generación de datos sintéticos para entrenar modelos más pequeños. Las organizaciones frecuentemente usan el 405B para generar datos de entrenamiento de alta calidad que luego se usan para ajustar los modelos de 8B o 70B para dominios específicos.

    Hardware Requirements

    El modelo Llama 3 8B requiere aproximadamente 4.5GB de RAM con cuantización Q4_K_M y 8.5GB con Q8_0, haciéndolo ejecutable en la mayoría de laptops modernas y GPUs de consumo incluyendo la RTX 3060 de 12GB o Apple M1 con 16GB de memoria unificada. La inferencia completa en FP16 requiere aproximadamente 16GB de VRAM.

    El modelo de 70B con cuantización Q4_K_M requiere aproximadamente 40GB de RAM, adecuado para sistemas con 64GB de RAM (inferencia CPU) o GPUs como la A100 de 80GB. Con cuantización Q8_0, se esperan unos 75GB de uso de memoria. La inferencia completa en FP16 demanda aproximadamente 140GB de VRAM, típicamente requiriendo configuraciones multi-GPU.

    El modelo de 405B es el más exigente, requiriendo aproximadamente 230GB con cuantización Q4_K_M. Esto típicamente necesita configuraciones de servidor multi-GPU (por ejemplo, 4x A100 de 80GB u 8x A6000 de 48GB) o sistemas de inferencia CPU con 512GB+ de RAM. Para la mayoría de despliegues prácticos, el modelo cuantizado de 70B ofrece la mejor relación calidad-recursos.

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.