SWE-Bench Pro

Un sucesor más difícil de SWE-Bench Verified, diseñado para resistir la contaminación y evaluar a los modelos en cambios multi-archivo más complejos extraídos de incidencias recientes de GitHub: el benchmark de frontera actual para la capacidad de codificación agéntica.

CodingUpdated 2026-04-30

What It Measures

SWE-Bench Pro es el sucesor más difícil de SWE-Bench Verified, diseñado para abordar dos limitaciones del benchmark anterior. Primero, incluye cambios multi-archivo más complejos: tareas en las que una solución requiere ediciones coordinadas en varios archivos en lugar de cambios localizados en un solo archivo. Segundo, se nutre de incidencias más recientes de GitHub, reduciendo el riesgo de que los modelos de frontera hayan visto las tareas durante el entrenamiento (un problema de contaminación que ha afectado a las puntuaciones más altas en la tabla de SWE-Bench Verified).

A finales de 2025 / principios de 2026, SWE-Bench Pro se había convertido en el benchmark de referencia para la evaluación seria de codificación agéntica. Los modelos compiten ahora por el ranking de SWE-Bench Pro como hace dos años competían por el de SWE-Bench Verified, con la diferencia de que las puntuaciones de SWE-Bench Pro siguen estando significativamente por debajo del 100%, ofreciendo margen para que los modelos se diferencien en la franja alta.

How It Works

La metodología de evaluación es similar a la de SWE-Bench Verified: cada tarea incluye una incidencia de GitHub, el estado del repositorio y un conjunto de pruebas oculto. El modelo debe producir cambios de código que pasen el conjunto de pruebas. Las diferencias están en la selección de tareas — SWE-Bench Pro pone énfasis en tareas más difíciles, multi-archivo y más recientes — y en el rigor del proceso de curación para garantizar que las tareas no sean ambiguas y sean verificables.

Al igual que con SWE-Bench Verified, el harness de agente que se utiliza para ejecutar el modelo es una variable significativa. Las puntuaciones reportadas en SWE-Bench Pro suelen utilizar harnesses estandarizados, pero las comparaciones entre informes deben siempre verificar los detalles del harness. Algunos informes también distinguen entre puntuaciones de 'modelo puro' y puntuaciones de 'modelo + andamiaje'; las tareas de SWE-Bench Pro son lo bastante complejas como para que la elección del andamiaje pueda mover las puntuaciones entre 5 y 10 puntos porcentuales.

Current Leaders

MiMo V2.5 Pro

Según Xiaomi, supera a Claude Opus 4.6

Leader (open-weight)

Kimi K2.6

Strong

DeepSeek V4

Strong

MiniMax M2.5

Strong

Qwen3-Coder

Competitive

How to Interpret Scores

Las puntuaciones de SWE-Bench Pro son sustancialmente más bajas que las de SWE-Bench Verified para el mismo modelo: un modelo que obtiene un 80% en Verified podría obtener entre 50-60% en Pro. Esto es por diseño: Pro pretende ser la evaluación más difícil que los modelos de frontera aún puedan fallar de forma significativa. A abril de 2026, el líder de pesos abiertos en SWE-Bench Pro es, según se informa, MiMo V2.5 Pro según las evaluaciones de Xiaomi (afirma superar a Claude Opus 4.6), con Claude Opus 4.7 liderando los modelos propietarios con un 64.3%. La verificación independiente de estas afirmaciones está en curso. Para una evaluación práctica, SWE-Bench Pro es la señal más creíble de la capacidad de codificación agéntica de frontera frente a Verified, que está cada vez más contaminado y saturado.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →