TauBench

Un benchmark para evaluar modelos de lenguaje que utilizan herramientas en interacciones realistas multi-turno de atención al cliente: mide si el modelo puede usar correctamente APIs para completar las solicitudes del usuario en una variedad de dominios.

Tool UseUpdated 2026-04-30

What It Measures

TauBench evalúa la capacidad de los modelos de lenguaje para usar herramientas correctamente en interacciones realistas multi-turno. Cada tarea simula un escenario de atención al cliente: el modelo recibe un conjunto de APIs de herramientas (consultas a bases de datos, modificaciones de cuentas, procesamiento de reembolsos, etc.), una solicitud de usuario que requiere invocar correctamente esas herramientas, y debe completar la solicitud a través de una conversación multi-turno. El benchmark mide tanto la corrección de las llamadas a herramientas (las herramientas adecuadas, los parámetros adecuados, en el orden adecuado) como la calidad de las respuestas en lenguaje natural.

A diferencia de los benchmarks sintéticos de uso de herramientas, en los que se le pide al modelo que produzca una llamada a función por prompt, TauBench evalúa el comportamiento agéntico realista: el modelo debe razonar sobre qué herramientas usar, cuándo usarlas, cómo manejar casos límite y cómo responder de forma conversacional a lo largo de la interacción. A medida que los despliegues en producción usan cada vez más LLMs como agentes que llaman a APIs, TauBench ha emergido como una de las evaluaciones más creíbles de la capacidad agéntica en el mundo real.

How It Works

Cada tarea incluye un dominio (atención al cliente de aerolíneas, retail, etc.), un conjunto de herramientas disponibles (funciones de Python con firmas documentadas) y una persona de usuario con una solicitud específica. El modelo interactúa con la persona del usuario a través de una conversación multi-turno, usando herramientas según sea necesario. La tarea se puntúa en función de si el estado final del entorno simulado (base de datos, estado de la cuenta) es correcto dada la solicitud original del usuario, además de métricas de calidad sobre la propia conversación.

La puntuación se reporta normalmente como una tasa de éxito por dominio más una puntuación compuesta global. El benchmark separa la 'finalización de la tarea' (¿ocurrió lo correcto?) de la 'calidad de la conversación' (¿fue el modelo útil y preciso en sus respuestas?), ya que ambas importan para el despliegue en producción pero son parcialmente independientes.

Current Leaders

Kimi K2.6

Ventaja de Agent Swarm

Top open-weight

DeepSeek V4

Strong

Qwen 3.6

Strong

GPT-OSS

Strong tool-use base

Mistral Small 4

Competitive

How to Interpret Scores

Las puntuaciones de TauBench son una señal significativa de la capacidad agéntica en el mundo real. Los modelos que puntúan bien en TauBench tienden a manejar los despliegues de uso de herramientas en producción de forma más fiable que los modelos que puntúan bien solo en benchmarks sintéticos. Puntuaciones en el rango del 70%+ indican un modelo capaz de manejar flujos de trabajo agénticos al estilo de atención al cliente en producción; por debajo del 50% indica requisitos sustanciales de revisión humana. A abril de 2026, los líderes de pesos abiertos en TauBench incluyen a Kimi K2.6 (con el runtime Agent Swarm aportando ventajas estructurales en tareas multi-turno) y DeepSeek V4. Los modelos propietarios de frontera siguen liderando TauBench en general, pero la diferencia con los principales modelos de pesos abiertos se está reduciendo.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →