Fine-Tune xLAM with Ertas
Salesforce 的开源权重 Large Action Model 家族——专为规划、调用工具、执行多步骤动作而训练的小型模型,在 vLLM、llama.cpp 与 Berkeley Function Calling Leaderboard 生态中具备一流支持。
Overview
xLAM (Large Action Model) 是 Salesforce AI Research 专为智能体工作流设计的开源权重模型家族:规划、工具调用与多步骤任务执行。该家族横跨稠密小模型 (xLAM-1b、xLAM-7b) 与 专家混合变体 (xLAM-8x7b-r、xLAM-8x22b-r),均在精心挑选的函数调用轨迹、智能体推演与结构化动作序列语料上训练。通用指令调优模型把工具调用胜任力作为更广训练的副产品获得,而 xLAM 从一开始就围绕它专门构建。
该家族的标志性特质是在 Berkeley Function Calling Leaderboard (BFCL) 上的稳定性。xLAM-1b 在 13.5 亿参数下,长期占据其同尺寸级别的领先位置,在并行函数调用、嵌套调用以及带可选工具使用的多轮对话上反复超越 3B–7B 通用替代品。7B 变体在标准智能体任务上与前沿 API 模型有竞争力,尽管其体量小两个数量级。
xLAM 在 vLLM 中通过专用工具调用解析器获得原生支持,在 llama.cpp 中通过标准 GGUF 构建获得支持,并通过兼容 OpenAI 端点在主流智能体框架(LangGraph、Pydantic AI、Smolagents)中受支持。Salesforce 异常细致地记录了推荐提示格式,这使 xLAM 异常容易接入现有智能体流水线。
Key Features
xLAM 稠密变体按 CC-BY-NC-4.0 授权,MoE 变体则按 Salesforce 特定的研究许可证授权。这种非商业限制是有意义的约束——xLAM 非常适合研究、原型与内部评估,但产生收入的部署需要与 Salesforce 单独签订商业协议。评估 xLAM 的团队应从一开始就考虑这一点。
该模型支持多种 JSON 输出风格(xLAM 团队在至少四种常见格式上发布了评估),且 vLLM 工具调用解析器透明处理所有这些。这种灵活性不寻常——大多数函数调用模型对特定 schema 约定敏感——并使 xLAM 在与有自身 JSON 约定的智能体框架(Pydantic AI 的严格类型、OpenAI 的工具调用 schema、LangGraph 的自定义分发格式)集成时尤其有价值。
xLAM 的训练数据在 APIGen-MT 论文中公开描述,包括由更大模型生成、再经执行验证的合成智能体轨迹。这种数据生成方法本身具有影响力——2026 年其他几个智能体专家模型把 APIGen 方法引为其训练语料的灵感来源。
Fine-Tuning with Ertas
当任务涉及多工具规划而非单一函数调用时,xLAM 适合 Ertas Studio 微调。FunctionGemma 是干净的意图到调用映射的合适基础,而 xLAM 是在智能体需要链式调用多个工具、从失败调用中恢复或在工具使用之间穿插推理时的合适基础。
xLAM-7B 推荐的 Ertas 工作流是在智能体轨迹上做 QLoRA 微调:每个训练样本是带嵌入函数调用与观察的多轮对话。Studio 的数据格式原生支持这一点——JSONL 加上包含 user、assistant、tool_call 与 tool_observation 角色的 `messages` 数组。一块 12-16GB 消费级 GPU 可在 2048-token 序列长度下处理 xLAM-7B QLoRA;更大的 MoE 变体需要 24-48GB。
非商业许可证影响部署故事。Studio 处理训练与评估,但生产部署团队应规划为:要么与 Salesforce 协商商业许可证,要么在非商业场景(研究、内部工具、教育)中部署,要么把训练好的适配器作为教师蒸馏到许可宽松的基础模型(Llama 3、Qwen 3、Gemma 4)——Studio 支持这种蒸馏工作流。
Use Cases
xLAM 最强的契合是多步骤智能体工作流,模型需 要在其中规划、执行、观察与重新规划:通过若干 CRM 与数据库工具端到端处理工单的客户支持智能体;浏览、总结与交叉引用源的研究智能体;在循环中读取文件、运行测试与编辑代码的编码智能体。在这些任务上,xLAM-7B 经常匹敌或超越通用 14B–34B 模型,在 BFCL v4 的多轮工具使用子基准上尤其如此。
对于研究团队与学术实验室,xLAM 是智能体专项研究的最强开源基线之一——其训练数据方法有据可查、评估集已发布、结果可复现。构建自定义智能体基准或新训练数据生成流水线的团队常以 xLAM 作为参考起点。
对于商业移动部署,鉴于许可约束,xLAM 不是合适选择——微调的 Qwen 3 或 Gemma 4 衍生品通常是通往生产的更佳路径。xLAM 的角色更多是知识蒸馏流水线中的上游教师,产生具有相似智能体能力、可部署且许可宽松的模型。
Hardware Requirements
xLAM-1B 在 Q4_K_M 量化下约 700MB,可舒适运行于手机、笔记本以及任何 2GB+ VRAM 的 GPU。现代笔记本 CPU 上的推理吞吐量为 60–90 tokens/秒;消费级 GPU(RTX 3060 及以上)上超过 200 tokens/秒。
xLAM-7B 在 Q4_K_M 下约 4.2GB。一块 6-8GB 消费级 GPU 足以推理;QLoRA 微调可在 12-16GB 上完成。在标准上下文长度下,消费级 GPU 上的吞吐量通常为 60–100 tokens/秒。
MoE 变体(xLAM-8x7B 与 xLAM-8x22B)即使每 token 只有部分专家激活,推理时也需要加载所有专家权重——在 Q4_K_M 下分别为 28GB 与 90GB。一块 24GB 消费级 GPU 可在较低量化等级下处理 xLAM-8x7B;xLAM-8x22B 是服务器级部署。对于 Studio 微调,稠密 xLAM-7B 是实际的最佳折衷点。
Supported Quantizations
Related Resources
Fine-Tuning for Tool Calling: How to Build Reliable AI Agents with Small Models
Stop Paying GPT-4 to Call Your APIs: Fine-Tune a Local Tool-Calling Model
FunctionGemma and the Rise of Dedicated Tool-Calling Models
LangGraph
llama.cpp
Ollama
smolagents
vLLM
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.