Fine-Tune xLAM with Ertas

Salesforce 的开源权重 Large Action Model 家族——专为规划、调用工具、执行多步骤动作而训练的小型模型，在 vLLM、llama.cpp 与 Berkeley Function Calling Leaderboard 生态中具备一流支持。

1B7B8x7B8x22BSalesforce AI Research

Overview

xLAM (Large Action Model) 是 Salesforce AI Research 专为智能体工作流设计的开源权重模型家族：规划、工具调用与多步骤任务执行。该家族横跨稠密小模型 (xLAM-1b、xLAM-7b) 与专家混合变体 (xLAM-8x7b-r、xLAM-8x22b-r)，均在精心挑选的函数调用轨迹、智能体推演与结构化动作序列语料上训练。通用指令调优模型把工具调用胜任力作为更广训练的副产品获得，而 xLAM 从一开始就围绕它专门构建。

该家族的标志性特质是在 Berkeley Function Calling Leaderboard (BFCL) 上的稳定性。xLAM-1b 在 13.5 亿参数下，长期占据其同尺寸级别的领先位置，在并行函数调用、嵌套调用以及带可选工具使用的多轮对话上反复超越 3B–7B 通用替代品。7B 变体在标准智能体任务上与前沿 API 模型有竞争力，尽管其体量小两个数量级。

xLAM 在 vLLM 中通过专用工具调用解析器获得原生支持，在 llama.cpp 中通过标准 GGUF 构建获得支持，并通过兼容 OpenAI 端点在主流智能体框架（LangGraph、Pydantic AI、Smolagents）中受支持。Salesforce 异常细致地记录了推荐提示格式，这使 xLAM 异常容易接入现有智能体流水线。

Key Features

xLAM 稠密变体按 CC-BY-NC-4.0 授权，MoE 变体则按 Salesforce 特定的研究许可证授权。这种非商业限制是有意义的约束——xLAM 非常适合研究、原型与内部评估，但产生收入的部署需要与 Salesforce 单独签订商业协议。评估 xLAM 的团队应从一开始就考虑这一点。

该模型支持多种 JSON 输出风格（xLAM 团队在至少四种常见格式上发布了评估），且 vLLM 工具调用解析器透明处理所有这些。这种灵活性不寻常——大多数函数调用模型对特定 schema 约定敏感——并使 xLAM 在与有自身 JSON 约定的智能体框架（Pydantic AI 的严格类型、OpenAI 的工具调用 schema、LangGraph 的自定义分发格式）集成时尤其有价值。

xLAM 的训练数据在 APIGen-MT 论文中公开描述，包括由更大模型生成、再经执行验证的合成智能体轨迹。这种数据生成方法本身具有影响力——2026 年其他几个智能体专家模型把 APIGen 方法引为其训练语料的灵感来源。

Fine-Tuning with Ertas

当任务涉及多工具规划而非单一函数调用时，xLAM 适合 Ertas Studio 微调。FunctionGemma 是干净的意图到调用映射的合适基础，而 xLAM 是在智能体需要链式调用多个工具、从失败调用中恢复或在工具使用之间穿插推理时的合适基础。

xLAM-7B 推荐的 Ertas 工作流是在智能体轨迹上做 QLoRA 微调：每个训练样本是带嵌入函数调用与观察的多轮对话。Studio 的数据格式原生支持这一点——JSONL 加上包含 user、assistant、tool_call 与 tool_observation 角色的 `messages` 数组。一块 12-16GB 消费级 GPU 可在 2048-token 序列长度下处理 xLAM-7B QLoRA；更大的 MoE 变体需要 24-48GB。

非商业许可证影响部署故事。Studio 处理训练与评估，但生产部署团队应规划为：要么与 Salesforce 协商商业许可证，要么在非商业场景（研究、内部工具、教育）中部署，要么把训练好的适配器作为教师蒸馏到许可宽松的基础模型（Llama 3、Qwen 3、Gemma 4）——Studio 支持这种蒸馏工作流。

Use Cases

xLAM 最强的契合是多步骤智能体工作流，模型需要在其中规划、执行、观察与重新规划：通过若干 CRM 与数据库工具端到端处理工单的客户支持智能体；浏览、总结与交叉引用源的研究智能体；在循环中读取文件、运行测试与编辑代码的编码智能体。在这些任务上，xLAM-7B 经常匹敌或超越通用 14B–34B 模型，在 BFCL v4 的多轮工具使用子基准上尤其如此。

对于研究团队与学术实验室，xLAM 是智能体专项研究的最强开源基线之一——其训练数据方法有据可查、评估集已发布、结果可复现。构建自定义智能体基准或新训练数据生成流水线的团队常以 xLAM 作为参考起点。

对于商业移动部署，鉴于许可约束，xLAM 不是合适选择——微调的 Qwen 3 或 Gemma 4 衍生品通常是通往生产的更佳路径。xLAM 的角色更多是知识蒸馏流水线中的上游教师，产生具有相似智能体能力、可部署且许可宽松的模型。

Hardware Requirements

xLAM-1B 在 Q4_K_M 量化下约 700MB，可舒适运行于手机、笔记本以及任何 2GB+ VRAM 的 GPU。现代笔记本 CPU 上的推理吞吐量为 60–90 tokens/秒；消费级 GPU（RTX 3060 及以上）上超过 200 tokens/秒。

xLAM-7B 在 Q4_K_M 下约 4.2GB。一块 6-8GB 消费级 GPU 足以推理；QLoRA 微调可在 12-16GB 上完成。在标准上下文长度下，消费级 GPU 上的吞吐量通常为 60–100 tokens/秒。

MoE 变体（xLAM-8x7B 与 xLAM-8x22B）即使每 token 只有部分专家激活，推理时也需要加载所有专家权重——在 Q4_K_M 下分别为 28GB 与 90GB。一块 24GB 消费级 GPU 可在较低量化等级下处理 xLAM-8x7B；xLAM-8x22B 是服务器级部署。对于 Studio 微调，稠密 xLAM-7B 是实际的最佳折衷点。