Fine-Tune Llama 4 with Ertas

La cuarta generación de la familia de modelos de pesos abiertos de Meta con arquitectura de mezcla de expertos, con Scout (109B total, 17B activos) para despliegue eficiente y Maverick (400B total, 17B activos) para tareas de alta capacidad.

Scout 109B (17B active)Maverick 400B (17B active)Meta

Overview

Llama 4 marca la transición de Meta hacia una arquitectura de mezcla de expertos (MoE) para su familia insignia de modelos de pesos abiertos. Lanzada a principios de 2025, la familia incluye dos modelos: Llama 4 Scout, con 109B de parámetros totales y 17B activos por paso de inferencia a través de 16 expertos, y Llama 4 Maverick, con 400B de parámetros totales y 17B activos por paso de inferencia a través de 128 expertos. Ambos modelos usan un mecanismo de enrutamiento compartido que activa solo un subconjunto de expertos para cada token, mejorando dramáticamente la eficiencia de inferencia.

La arquitectura MoE significa que Llama 4 entrega rendimiento muy superior a lo que su conteo de parámetros activos sugeriría. Scout, con solo 17B de parámetros activos, compite con modelos densos de 70B+ en muchos benchmarks, mientras que Maverick se acerca al rendimiento de modelos frontera a una fracción del costo computacional de modelos densos de 400B+.

Llama 4 fue entrenado con una ventana de contexto nativa de 128K tokens, con Scout soportando contexto extendido hasta 10 millones de tokens a través de técnicas innovadoras en codificación posicional. Los modelos son nativamente multimodales, soportando entradas de texto e imagen, habilitando tareas de visión-lenguaje directamente.

Ambos modelos fueron entrenados con un dataset significativamente más grande y diverso que Llama 3, incorporando datos multilingües en más de 200 idiomas. Las variantes ajustadas con instrucciones demuestran fuerte rendimiento en flujos de trabajo agénticos, uso de herramientas, generación de salida estructurada y razonamiento complejo multi-turno.

Key Features

La arquitectura de mezcla de expertos es la innovación definitoria de Llama 4. Al enrutar cada token a solo 1-2 expertos del pool completo de expertos, los modelos logran alta calidad mientras mantienen costos de inferencia comparables a modelos densos mucho más pequeños. Esto hace que Llama 4 Scout sea particularmente atractivo para despliegues en producción — obtienes rendimiento de clase 70B con velocidad de inferencia y uso de memoria aproximadamente de clase 17B para los parámetros activos.

La multimodalidad nativa es otro avance significativo. Llama 4 puede procesar entradas intercaladas de texto e imagen sin requerir un pipeline separado de codificador de visión. Esto habilita casos de uso como respuesta visual a preguntas, comprensión de gráficos y diagramas, OCR de documentos con razonamiento, y generación de código guiada por imágenes.

Las capacidades de contexto extendido de Scout (hasta 10M de tokens) abren categorías de aplicación completamente nuevas, incluyendo análisis de bases de código completas, procesamiento de documentos de la longitud de un libro, e historiales de conversación extremadamente largos. El contexto nativo de 128K de Maverick es suficiente para la mayoría de aplicaciones en producción mientras entrega mayor calidad en tareas de razonamiento complejo.

Fine-Tuning with Ertas

Ajustar Llama 4 Scout en Ertas Studio es notablemente eficiente gracias a la arquitectura MoE. Dado que solo 17B de parámetros están activos por paso de inferencia, el fine-tuning con QLoRA apunta a las rutas de expertos activos y capas compartidas, requiriendo aproximadamente 24-32GB de VRAM — alcanzable en una sola A100 de 40GB o configuración dual de RTX 4090. Sube tu dataset, selecciona Llama 4 Scout como modelo base, y Ertas Studio maneja la configuración LoRA compatible con MoE automáticamente.

Para Maverick, el fine-tuning requiere más recursos debido al mayor conteo total de parámetros (400B), pero QLoRA con cuantización de 4 bits reduce los requisitos a aproximadamente 80-96GB de VRAM, alcanzable en dual A100 de 80GB. Ertas Studio gestiona el enrutamiento de expertos y asegura que los adaptadores LoRA se apliquen correctamente a través de las capas MoE.

Después del entrenamiento, Ertas Studio exporta tu modelo ajustado a formato GGUF. La arquitectura MoE se cuantiza eficientemente — los pesos de expertos que no están activos para un token dado no consumen cómputo durante la inferencia, así que los modelos cuantizados Llama 4 Scout funcionan sorprendentemente rápido en hardware de consumo. Despliega a través de Ollama o llama.cpp para inferencia local inmediata.

Use Cases

Llama 4 Scout es ideal para despliegues en producción donde necesitas respuestas de alta calidad con uso eficiente de recursos. Su huella de 17B de parámetros activos lo hace adecuado para servicio de API a escala, chatbots orientados al cliente, pipelines de RAG y aplicaciones en tiempo real. La ventana de contexto extendida lo hace particularmente fuerte para procesamiento de documentos, análisis legal y tareas de comprensión de bases de código.

Llama 4 Maverick apunta a aplicaciones de alta capacidad: razonamiento complejo de múltiples pasos, generación y depuración avanzada de código, síntesis de investigación, y flujos de trabajo agénticos que requieren planificación y orquestación de herramientas. Su calidad se aproxima a modelos frontera mientras permanece desplegable en instalaciones propias.

Las capacidades multimodales nativas hacen que ambos modelos sean excelentes para aplicaciones de visión-lenguaje: analizar gráficos y tablas en informes de negocio, extraer datos estructurados de imágenes de documentos, QA visual para aplicaciones de accesibilidad, y pipelines de generación de contenido multimodal.

Hardware Requirements

Llama 4 Scout con cuantización Q4_K_M requiere aproximadamente 60-65GB de RAM para los pesos completos del modelo (todos los expertos deben cargarse aunque solo un subconjunto esté activo por token). Es ejecutable en sistemas con 64-128GB de RAM para inferencia CPU, o en GPUs como la A100 de 80GB. En Q8_0, se esperan aproximadamente 115GB. A pesar de la mayor huella de memoria comparada con un modelo denso de 17B, la velocidad de inferencia es comparable a modelos densos de 17B ya que solo se computan los expertos activos.

Llama 4 Maverick en Q4_K_M requiere aproximadamente 220-240GB de RAM, necesitando configuraciones multi-GPU (por ejemplo, 4x A100 de 80GB) o nodos de inferencia CPU de alta memoria. La relación calidad-cómputo del modelo hace que esta inversión valga la pena para organizaciones que necesitan rendimiento de clase frontera sin depender de APIs en la nube.

Para fine-tuning con Ertas Studio, Scout requiere 24-32GB de VRAM con QLoRA (una sola A100 de 40GB), mientras que Maverick requiere 80-96GB de VRAM (dual A100 de 80GB). Estos son significativamente menores de lo que modelos densos de calidad equivalente demandarían.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →