Fine-Tune xLAM with Ertas

Salesforce 的開源權重 Large Action Model 家族——專門為規劃、呼叫工具與執行多步驟動作而訓練的小模型,在 vLLM、llama.cpp 與 Berkeley Function Calling Leaderboard 生態系中具備一級支援。

1B7B8x7B8x22BSalesforce AI Research

Overview

xLAM（Large Action Model）是 Salesforce AI Research 為代理工作流程量身設計的開源權重模型家族：規劃、呼叫工具與多步驟任務執行。家族橫跨密集小模型（xLAM-1b、xLAM-7b）與專家混合變體（xLAM-8x7b-r、xLAM-8x22b-r）,全部在精心整理的函式呼叫軌跡、代理推演與結構化動作序列語料庫上訓練。通用指令微調模型作為更廣訓練的副作用拾取工具呼叫能力,而 xLAM 從一開始就是圍繞它而為特定目的打造。

家族的定義特徵是其在 Berkeley Function Calling Leaderboard（BFCL）上的一致性。xLAM-1b 在 1.35B 參數下,持續占據其規格類別的領先位置,在並行函式呼叫、巢狀呼叫以及具選擇性工具使用的多輪對話上反覆勝過 3B–7B 通用替代模型。7B 變體在標準代理任務上,儘管比前沿 API 模型小兩個數量級,仍與其競爭。

xLAM 在 vLLM 中以專屬工具呼叫解析器原生支援、在 llama.cpp 中透過標準 GGUF 建置支援,並在主要代理框架（LangGraph、Pydantic AI、Smolagents）中透過 OpenAI 相容端點支援。Salesforce 在記錄建議的提示格式上異常徹底,這使 xLAM 異常容易放入既有代理管線。

Key Features

xLAM 的密集變體以 CC-BY-NC-4.0 授權,而 MoE 變體以 Salesforce 特定研究授權發布。這個非商業限制是有意義的約束——xLAM 適合研究、原型製作與內部評估,但需要與 Salesforce 簽訂獨立商業協議才能用於營收產生的部署。評估 xLAM 的團隊應從一開始就規劃此一前提。

模型支援多種 JSON 輸出風格（xLAM 團隊在至少四種常見格式上發表了評估）,而 vLLM 工具呼叫解析器透明處理它們全部。這種彈性不尋常——多數函式呼叫模型對特定 schema 慣例敏感——使 xLAM 在整合具備自身 JSON 慣例的代理框架時特別有價值（Pydantic AI 的嚴格型別、OpenAI 的工具呼叫 schema、LangGraph 的自訂分派格式）。

xLAM 的訓練資料在 APIGen-MT 論文中公開描述,包括由更大模型產生的合成代理軌跡,然後透過執行驗證。這個資料產生方法本身具影響力——數個其他 2026 年代理專家模型引用 APIGen 方法作為其自家訓練語料庫的靈感。

Fine-Tuning with Ertas

當任務涉及多工具規劃而非單一函式呼叫時,xLAM 適合 Ertas Studio 微調。FunctionGemma 是乾淨意圖到調用映射的正確基底,而當代理需要鏈接多個工具呼叫、從失敗呼叫中恢復或將推理與工具使用交錯時,xLAM 是正確基底。

針對 xLAM-7B 建議的 Ertas 工作流程是在代理軌跡上的 QLoRA 微調：每個訓練範例為包含嵌入函式呼叫與觀察結果的多輪對話。Studio 的資料格式原生支援此——具有包含 user、assistant、tool_call 與 tool_observation 角色的 `messages` 陣列的 JSONL。12-16GB 消費級 GPU 在 2048 token 序列長度下處理 xLAM-7B QLoRA;較大的 MoE 變體需要 24-48GB。

非商業授權影響部署故事。Studio 處理訓練與評估,但對於正式上線部署,團隊應規劃以下其一：與 Salesforce 協商商業授權、在非商業情境中部署（研究、內部工具、教育）,或將訓練好的介面卡作為教師蒸餾到寬鬆授權基底中（Llama 3、Qwen 3、Gemma 4）——Studio 支援這個蒸餾工作流程。

Use Cases

xLAM 最強的契合是多步驟代理工作流程,模型需要規劃、執行、觀察並重新規劃：透過數個 CRM 與資料庫工具端到端處理工單的客戶支援代理;瀏覽、總結並交叉參照來源的研究代理;在迴圈中讀取檔案、執行測試並編輯程式碼的程式編寫代理。在這些任務上,xLAM-7B 經常匹配或超越通用 14B–34B 模型,特別是在 BFCL v4 的多輪工具使用子基準上。

對於研究團隊與學術實驗室,xLAM 是代理特定研究中最強的開放基準之一——其訓練資料方法被記錄、其評估集已發布,且其結果可重現。建構自訂代理基準或新訓練資料產生管線的團隊,經常以 xLAM 作為參考點起步。

對於商業行動部署,xLAM 因授權約束並非正確選擇——微調的 Qwen 3 或 Gemma 4 衍生模型通常是上線的更佳路徑。xLAM 的角色更常是知識蒸餾管線中的上游教師,以產出具類似代理能力的可部署、寬鬆授權模型。

Hardware Requirements

xLAM-1B 在 Q4_K_M 量化下約為 700MB,在手機、筆記型電腦以及任何配備 2GB+ VRAM 的 GPU 上舒適運行。在現代筆記型電腦 CPU 上的推論吞吐量為 60–90 tokens 每秒;在消費級 GPU（RTX 3060 以上）上超過 200 tokens 每秒。

xLAM-7B 在 Q4_K_M 下約為 4.2GB。6-8GB 消費級 GPU 足以推論;QLoRA 微調可裝在 12-16GB 上。在標準上下文長度下,消費級 GPU 上的吞吐量通常為 60–100 tokens 每秒。

MoE 變體（xLAM-8x7B 與 xLAM-8x22B）在推論時需要載入所有專家權重,儘管每個 token 只有一部分活躍——Q4_K_M 下分別為 28GB 與 90GB。24GB 消費級 GPU 在較低量化階層處理 xLAM-8x7B;xLAM-8x22B 是伺服器級部署。對於 Studio 微調,密集 xLAM-7B 是實用的甜蜜點。