TauBench

在擬真多回合客戶服務互動中，評估具工具使用能力的語言模型——衡量模型能否正確使用 API，跨多元領域完成使用者請求。

Tool UseUpdated 2026-04-30

What It Measures

TauBench 在擬真的多回合互動中評估語言模型正確使用工具的能力。每項任務模擬一個客戶服務情境：模型獲得一組工具 API（資料庫查詢、帳戶異動、退款處理等），收到一項需要正確調用這些工具的使用者請求，並必須透過多回合對話完成該請求。此基準衡量工具呼叫的正確性（正確的工具、正確的參數、正確的順序），以及自然語言回覆的品質。

與每次提示要求模型產出單一函式呼叫的合成型工具使用基準不同，TauBench 測試的是擬真的智慧體行為：模型必須推理該使用哪些工具、何時使用、如何處理邊界情況，以及如何在整個互動過程中以對話方式回應。隨著正式部署日益使用 LLM 作為呼叫 API 的智慧體，TauBench 已成為評估真實世界智慧體能力較為可信的方式之一。

How It Works

每項任務包含一個領域（航空客服、零售等）、一組可用的工具（具備文件化簽名的 Python 函式），以及一個帶有具體請求的使用者人物（user persona）。模型透過多回合對話與使用者人物互動，依需要使用工具。任務的計分依據是：在使用者原始請求下，模擬環境的最終狀態（資料庫、帳戶狀態）是否正確，再加上對話本身的品質指標。

計分通常以分領域通過率加上整體綜合分數來呈現。此基準將「任務完成」（正確的事是否發生？）與「對話品質」（模型在回覆時是否有用且準確？）區分開來，因為兩者對於正式部署都很重要，但部分相互獨立。

Current Leaders

How to Interpret Scores

TauBench 分數是真實世界智慧體能力的有意義訊號。在 TauBench 上表現良好的模型，在正式環境的工具使用部署上往往比僅在合成基準上表現好的模型更可靠。70% 以上的分數代表模型有能力處理正式環境的客服風格智慧體工作流；低於 50% 則代表需要大量人工審查。截至 2026 年 4 月，TauBench 上的開源權重領先者包括 Kimi K2.6（其 Agent Swarm 執行環境在多回合任務上提供結構性優勢）以及 DeepSeek V4。前沿專有模型在 TauBench 整體上仍居領先，但與頂尖開源權重模型的差距正在縮小。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

TauBench

What It Measures

How It Works

Current Leaders

Kimi K2.6

DeepSeek V4

Qwen 3.6

GPT-OSS

Mistral Small 4

How to Interpret Scores

Ship AI that runs on your users' devices.