GPQA Diamond

Un benchmark de preguntas y respuestas científicas de nivel posgrado diseñado para no poder resolverse mediante búsqueda web: preguntas redactadas por estudiantes de doctorado del área que ponen a prueba conocimiento profundo y especializado en física, química y biología.

ReasoningUpdated 2026-04-30

What It Measures

GPQA (Graduate-level PhD Question-and-Answering) es un benchmark de preguntas de opción múltiple en física, química y biología redactadas por estudiantes de doctorado del área. El subconjunto 'Diamond' es el de mayor dificultad: preguntas en las que los autores consideran que los no expertos tendrían dificultades incluso con acceso a internet. El benchmark está diseñado para evaluar el conocimiento especializado profundo y el razonamiento, en lugar de la mera recuperación de información ampliamente disponible.

GPQA Diamond ha emergido como uno de los benchmarks más creíbles para evaluar la capacidad de razonamiento de los modelos de frontera. Las preguntas son lo bastante difíciles como para que incluso los modelos fuertes puntúen muy por debajo del 100%, aportando margen para la diferenciación; las preguntas están redactadas por estudiantes de doctorado en lugar de extraerse de fuentes públicas, lo que reduce el riesgo de contaminación; y el contenido abarca disciplinas suficientes como para que las puntuaciones altas reflejen genuinamente un razonamiento científico amplio en lugar de una especialización estrecha.

How It Works

Cada pregunta es un problema de opción múltiple con 4 opciones de respuesta, redactado por un estudiante de doctorado del área en física, química o biología. Las preguntas están diseñadas para requerir un conocimiento especializado profundo: típicamente el tipo de razonamiento que un estudiante de posgrado en la subárea relevante manejaría, pero con el que un no especialista tendría dificultades incluso disponiendo de tiempo para investigar.

La puntuación es el porcentaje de preguntas respondidas correctamente. El subconjunto 'Diamond' está formado por aproximadamente 200 preguntas seleccionadas como las más difíciles del banco completo de GPQA: preguntas en las que el autor estima que los no expertos tendrían dificultades incluso con acceso a internet durante la evaluación. Diamond es el subconjunto estándar citado en rankings y en informes de investigación.

Current Leaders

Qwen 3.5

Líder de pesos abiertos

88.4

DeepSeek V4

Strong

Kimi K2.6

Strong

Hermes 4

Strong (vs Llama 3 base)

Qwen 3.6

Competitive

How to Interpret Scores

Las puntuaciones de GPQA Diamond en el rango del 80%+ indican una sólida capacidad de razonamiento científico en múltiples disciplinas. El líder actual entre modelos de pesos abiertos es Qwen 3.5 con 88.4 — competitivo con los mejores modelos propietarios de frontera. Un modelo que puntúa por encima del 60% en GPQA Diamond demuestra una capacidad significativa para tareas que requieren conocimiento científico de nivel posgrado; por debajo del 50% sugiere que el modelo tendría dificultades en casos de uso de asistencia a la investigación que impliquen razonamiento científico. GPQA Diamond es particularmente útil como complemento de MMLU-Pro: MMLU-Pro cubre amplitud (57 áreas temáticas), GPQA Diamond cubre profundidad (preguntas de nivel posgrado en 3 ciencias). Puntuaciones altas en ambos sugieren capacidad de razonamiento tanto amplio como profundo.

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →