TauBench

用于在真实多轮客服交互中评估工具调用型语言模型的基准——衡量模型能否在多种领域中正确使用 API 来完成用户请求。

Tool UseUpdated 2026-04-30

What It Measures

TauBench 评估语言模型在真实多轮交互中正确使用工具的能力。每个任务模拟一个客服场景：模型获得一组工具 API（数据库查询、账户修改、退款处理等），收到一条需要正确调用这些工具的用户请求，并必须通过多轮对话完成请求。该基准既衡量工具调用的正确性（正确的工具、正确的参数、正确的顺序），也衡量自然语言响应的质量。

与每个提示要求模型产生一次函数调用的合成工具使用基准不同，TauBench 考察的是真实的智能体行为：模型必须推断使用哪些工具、何时使用、如何处理边缘情况，并在交互全程进行得体的对话回应。随着生产部署越来越多地把 LLM 当作调用 API 的智能体使用，TauBench 已成为现实智能体能力评估中较可信的方案之一。

How It Works

每个任务包含一个领域（航空客服、零售等）、一组可用工具（带文档化签名的 Python 函数）和一个具有具体请求的用户人设。模型与用户人设进行多轮对话，根据需要使用工具。任务评分基于模拟环境（数据库、账户状态）的最终状态相对于用户原始请求是否正确，外加针对对话本身的质量指标。

评分通常按各领域的通过率加上一个综合得分进行报告。该基准将 “任务完成”（是否做了对的事？）与 “对话质量”（模型在响应中是否有用、准确？）分开，因为这两者对生产部署都重要，但部分相互独立。

Current Leaders

How to Interpret Scores

TauBench 分数是真实智能体能力的有意义信号。在 TauBench 上得分较高的模型，通常比仅在合成基准上表现好的模型在生产工具调用部署中更可靠。70% 以上的得分意味着该模型有能力胜任生产级客服式智能体工作流；低于 50% 则表明仍需大量人工审核。截至 2026 年 4 月，TauBench 的开源权重领先者包括 Kimi K2.6（其 Agent Swarm 运行时在多轮任务上提供了结构性优势）和 DeepSeek V4。前沿专有模型在 TauBench 整体上仍领先，但与顶尖开源权重模型的差距正在缩小。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

TauBench

What It Measures

How It Works

Current Leaders

Kimi K2.6

DeepSeek V4

Qwen 3.6

GPT-OSS

Mistral Small 4

How to Interpret Scores

Ship AI that runs on your users' devices.