Kimi K2.6
Agent Swarm 优势
用于在真实多轮客服交互中评估工具调用型语言模型的基准——衡量模型能否在多种领域中正确使用 API 来完成用户请求。
TauBench 评估语言模型在真实多轮交互中正确使用工具的能力。每个任务模拟一个客服场景:模型获得一组工具 API(数据库查询、账户修改、退款处理等),收到一条需要正确调用这些工具的用户请求,并必须通过多轮对话完成请求。该基准既衡量工具调用的正确性(正确的工具、正确的参数、正确的顺序),也衡量自然语言响应的质量。
与每个提示 要求模型产生一次函数调用的合成工具使用基准不同,TauBench 考察的是真实的智能体行为:模型必须推断使用哪些工具、何时使用、如何处理边缘情况,并在交互全程进行得体的对话回应。随着生产部署越来越多地把 LLM 当作调用 API 的智能体使用,TauBench 已成为现实智能体能力评估中较可信的方案之一。
每个任务包含一个领域(航空客服、零售等)、一组可用工具(带文档化签名的 Python 函数)和一个具有具体请求的用户人设。模型与用户人设进行多轮对话,根据需要使用工具。任务评分基于模拟环境(数据库、账户状态)的最终状态相对于用户原始请求是否正确,外加针对对话本身的质量指标。
评分通常按各领域的通过率加上一个综合得分进行报告。该基准将 “任务完成”(是否做了对的事?)与 “对话质量”(模型在响应中是否有用、准确?)分开,因为这两者对生产部署都重要,但部分相互独立。
TauBench 分数是真实智能体能力的有意义信号。在 TauBench 上得分较高的模型,通常比仅在合成基准上表现好的模型在生产工具调用部署中更可靠。70% 以上的得分意味着该模型有能力胜任生产级客服式智能体工作流;低于 50% 则表明仍需大量人工审核。截至 2026 年 4 月,TauBench 的开源权重领先者包括 Kimi K2.6(其 Agent Swarm 运行时在多轮任务上提供了结构性优势)和 DeepSeek V4。前沿专有模型在 TauBench 整体上仍领先,但与顶尖开源权重模型的差距正在缩小。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.