Fine-Tune xLAM with Ertas

La familia open-weight Large Action Model de Salesforce — modelos pequeños entrenados específicamente para planificar, llamar a herramientas y ejecutar acciones multi-paso, con soporte de primera clase en vLLM, llama.cpp y el ecosistema Berkeley Function Calling Leaderboard.

1B7B8x7B8x22BSalesforce AI Research

Overview

xLAM (Large Action Model) es la familia de modelos open-weight de Salesforce AI Research diseñada específicamente para flujos de trabajo agénticos: planificación, llamada de herramientas y ejecución de tareas multi-paso. La familia abarca modelos pequeños densos (xLAM-1b, xLAM-7b) y variantes mezcla de expertos (xLAM-8x7b-r, xLAM-8x22b-r), todos entrenados sobre un corpus curado de trazas de llamadas de funciones, despliegues de agentes y secuencias de acciones estructuradas. Donde los modelos de propósito general ajustados por instrucciones adquieren competencia en llamada de herramientas como efecto secundario de un entrenamiento más amplio, xLAM está construido a propósito en torno a ello desde el principio.

El rasgo definitorio de la familia es su consistencia en el Berkeley Function Calling Leaderboard (BFCL). xLAM-1b con 1,35B parámetros ha mantenido una posición destacada entre los modelos de su clase de tamaño, superando repetidamente a alternativas de propósito general 3B–7B en llamadas de funciones paralelas, llamadas anidadas y conversaciones multi-turno con uso opcional de herramientas. La variante 7B es competitiva con modelos frontier de API en tareas agénticas estándar a pesar de ser dos órdenes de magnitud más pequeña.

xLAM tiene soporte nativo en vLLM con un parser dedicado de llamadas de herramientas, en llama.cpp a través de builds GGUF estándar, y en los principales frameworks de agentes (LangGraph, Pydantic AI, Smolagents) a través de endpoints compatibles con OpenAI. Salesforce ha sido inusualmente exhaustivo al documentar el formato de prompt recomendado, lo que hace que xLAM sea inusualmente fácil de incorporar en un pipeline de agente existente.

Key Features

xLAM está licenciado bajo CC-BY-NC-4.0 para las variantes densas y una licencia de investigación específica de Salesforce para las variantes MoE. Esta restricción no comercial es una limitación significativa — xLAM está bien adaptado para investigación, prototipado y evaluación interna pero requiere un acuerdo comercial separado con Salesforce para despliegues que generen ingresos. Los equipos que evalúan xLAM deberían planificar en torno a esto desde el principio.

El modelo admite múltiples estilos de salida JSON (el equipo xLAM publicó evaluaciones sobre al menos cuatro formatos comunes), y el parser de llamadas de herramientas de vLLM maneja todos ellos transparentemente. Esta flexibilidad es inusual — la mayoría de los modelos de llamada de funciones son sensibles a una convención de esquema específica — y hace a xLAM particularmente valioso al integrarse con frameworks de agentes que tienen sus propias convenciones JSON (tipado estricto de Pydantic AI, esquema de llamadas de herramientas de OpenAI, formatos de despacho personalizados de LangGraph).

Los datos de entrenamiento de xLAM se describen públicamente en el paper APIGen-MT e incluyen trayectorias agénticas sintéticas generadas por modelos más grandes, luego verificadas por ejecución. Esta metodología de generación de datos es en sí misma influyente — varios otros modelos especialistas en agentes de 2026 citan el enfoque APIGen como la inspiración para sus propios corpus de entrenamiento.

Fine-Tuning with Ertas

xLAM está bien adaptado al fine-tuning de Ertas Studio cuando la tarea implica planificación multi-herramienta en lugar de llamadas de funciones individuales. Donde FunctionGemma es la base correcta para un mapeo limpio de intención a invocación, xLAM es la base correcta cuando el agente necesita encadenar múltiples llamadas de herramientas, recuperarse de llamadas fallidas o intercalar razonamiento con uso de herramientas.

El flujo de trabajo recomendado de Ertas para xLAM-7B es fine-tuning QLoRA sobre trayectorias agénticas: cada ejemplo de entrenamiento es una conversación multi-turno con llamadas de funciones y observaciones embebidas. El formato de datos de Studio admite esto nativamente — JSONL con arrays `messages` que contienen roles user, assistant, tool_call y tool_observation. Una GPU de consumo de 12-16GB maneja xLAM-7B QLoRA a longitudes de secuencia de 2048 tokens; las variantes MoE más grandes necesitan 24-48GB.

La licencia no comercial afecta la historia del despliegue. Studio maneja el entrenamiento y la evaluación, pero para despliegue en producción los equipos deberían planificar negociar una licencia comercial con Salesforce, desplegar en contextos no comerciales (investigación, herramientas internas, educación), o usar el adaptador entrenado como un profesor para destilar en una base con licencia permisiva (Llama 3, Qwen 3, Gemma 4) — Studio admite este flujo de trabajo de destilación.

Use Cases

El ajuste más fuerte de xLAM son los flujos de trabajo agénticos multi-paso donde el modelo necesita planificar, ejecutar, observar y replanificar: agentes de soporte al cliente que manejan un ticket de extremo a extremo a través de varias herramientas CRM y de base de datos; agentes de investigación que navegan, resumen y referencian fuentes cruzadas; agentes de codificación que leen archivos, ejecutan pruebas y editan código en un bucle. En estas tareas, xLAM-7B iguala o supera rutinariamente modelos de propósito general 14B–34B, particularmente en los sub-benchmarks de uso de herramientas multi-turno de BFCL v4.

Para equipos de investigación y laboratorios académicos, xLAM es una de las bases abiertas más fuertes para investigación específica de agentes — su metodología de datos de entrenamiento está documentada, su conjunto de evaluación está publicado y sus resultados son reproducibles. Los equipos que construyen benchmarks agénticos personalizados o nuevos pipelines de generación de datos de entrenamiento a menudo comienzan con xLAM como punto de referencia.

Para despliegue móvil comercial, xLAM no es la elección correcta dada la restricción de licenciamiento — los derivados ajustados de Qwen 3 o Gemma 4 son normalmente el mejor camino a producción. El papel de xLAM es más a menudo el profesor anterior en un pipeline de destilación de conocimiento que produce un modelo desplegable, con licencia permisiva, con capacidades agénticas similares.

Hardware Requirements

xLAM-1B con cuantización Q4_K_M es aproximadamente 700MB y se ejecuta cómodamente en teléfonos, portátiles y cualquier GPU con 2GB+ de VRAM. El rendimiento de inferencia en una CPU de portátil moderna es de 60–90 tokens por segundo; en GPUs de consumo (RTX 3060 y superiores) supera los 200 tokens por segundo.

xLAM-7B con Q4_K_M es aproximadamente 4,2GB. Una GPU de consumo de 6-8GB es suficiente para inferencia; el fine-tuning QLoRA cabe en 12-16GB. El rendimiento en GPUs de consumo es típicamente 60–100 tokens por segundo a longitudes de contexto estándar.

Las variantes MoE (xLAM-8x7B y xLAM-8x22B) requieren cargar todos los pesos de los expertos en tiempo de inferencia aunque solo un subconjunto esté activo por token — 28GB y 90GB respectivamente con Q4_K_M. Una GPU de consumo de 24GB maneja xLAM-8x7B en los niveles de cuantización más bajos; xLAM-8x22B es un despliegue de clase servidor. Para fine-tuning en Studio, el xLAM-7B denso es el punto óptimo práctico.