SWE-Bench Verified

    Un benchmark para evaluar modelos de lenguaje en tareas reales de ingeniería de software extraídas de repositorios públicos de GitHub: mide si el modelo puede cerrar incidencias de forma autónoma realizando los cambios de código correctos en uno o varios archivos.

    CodingUpdated 2026-04-30

    What It Measures

    SWE-Bench Verified evalúa modelos de lenguaje en tareas reales de ingeniería de software: cerrar incidencias de GitHub aplicando los cambios de código correctos en uno o más archivos. Cada tarea incluye la descripción de la incidencia, el estado relevante del repositorio y un conjunto de pruebas oculto. La puntuación de un modelo en una tarea es binaria: o el cambio propuesto pasa el conjunto de pruebas (resuelto) o no lo hace. El subconjunto 'Verified' es una selección curada de 500 tareas que ha sido revisada manualmente para garantizar su calidad, eliminando aquellas en las que el conjunto de pruebas original era ambiguo, la descripción de la incidencia inducía a error o el cambio esperado dependía de detalles de implementación.

    Esto es fundamentalmente distinto de los benchmarks de programación sintética como HumanEval o MBPP, donde el modelo escribe una sola función a partir de una descripción. Las tareas de SWE-Bench requieren que el modelo navegue por una base de código existente, comprenda relaciones entre archivos, identifique el lugar correcto donde realizar los cambios y produzca ediciones que se integren limpiamente con el código circundante. Como medida de la capacidad de codificación agéntica, SWE-Bench Verified se considera actualmente la evaluación más significativa en uso generalizado desde un punto de vista práctico.

    How It Works

    Cada tarea de SWE-Bench Verified proporciona: el texto de la incidencia de GitHub, el estado del repositorio en el momento en que se reportó la incidencia y un conjunto de pruebas oculto que la solución correcta debe pasar. El modelo (o el agente construido sobre el modelo) recibe acceso al repositorio y debe producir un cambio de código. El cambio se aplica al repositorio y se ejecuta el conjunto de pruebas oculto. La puntuación del modelo en la tarea es 1 si todas las pruebas pasan y 0 en caso contrario.

    La mayoría de las evaluaciones actuales ejecutan el modelo dentro de un harness de agente: una capa de andamiaje que gestiona la navegación por el repositorio, la lectura de archivos, la edición de código y la ejecución de pruebas. El propio harness es una variable significativa: el mismo modelo puede obtener puntuaciones notablemente distintas con diferentes implementaciones de harness. La mayoría de las puntuaciones reportadas en SWE-Bench Verified usan un harness estandarizado (a menudo de tipo CodeAct o SWE-agent), pero conviene siempre verificar los detalles del harness al comparar puntuaciones entre informes.

    Current Leaders

    #5

    DeepSeek V4

    La línea base de V3.2 se mantiene en V4

    ~73%

    How to Interpret Scores

    Las puntuaciones de SWE-Bench Verified tienden a correlacionarse bien con la fiabilidad de los agentes de codificación en el mundo real, sustancialmente mejor que HumanEval, que ahora se considera saturado y propenso a contaminación. Una puntuación del 80% o más en SWE-Bench Verified representa un modelo de codificación capaz de manejar de forma creíble una fracción significativa de las tareas reales de ingeniería de manera autónoma, aunque el 20% que falla incluirá algunas tareas aparentemente fáciles por motivos difíciles de predecir. Puntuaciones por debajo del 50% indican un modelo que requiere revisión humana sustancial en la mayoría de las tareas. El benchmark es lo suficientemente difícil como para que el 100% sea improbable durante un tiempo, ya que los modos de fallo incluyen ambigüedad en las descripciones de incidencias y casos límite en los conjuntos de pruebas con los que incluso los modelos más fuertes tropiezan ocasionalmente.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.