GPQA Diamond

研究生水平的科学问答基准，专为难以通过网络搜索作答而设计——题目由相关领域博士生撰写，考察物理、化学和生物学领域的深层专业知识。

ReasoningUpdated 2026-04-30

What It Measures

GPQA（Graduate-level PhD Question-and-Answering，研究生水平博士问答）是物理、化学和生物学领域的多选题基准，题目由相关领域博士生撰写。其中的 Diamond 子集是难度最高的层级——题目作者认为非专家即便借助互联网也难以作答。该基准旨在考察深层专业知识与推理，而非对广泛可得信息的死记硬背。

GPQA Diamond 已成为评估前沿模型推理能力最可信的基准之一。题目难度足够大，使得即便是强劲模型也明显得不到 100%，从而提供了区分空间；题目由博士生撰写而非从公开来源抓取，降低了污染风险；其覆盖的学科足够广，使高分能真实反映广泛的科学推理能力，而非狭隘的专业化。

How It Works

每道题为 4 选项的多选题，由物理、化学或生物学领域的博士生撰写。题目要求深层专业知识——典型而言，是相关子领域的研究生能够处理、而非专家者即便有调研时间也难以作答的推理。

评分为答对题目的百分比。Diamond 子集约有 200 道题，是从完整 GPQA 题库中挑选出的最难题目——这些题目的作者估计非专家即便在测评中可使用互联网也难以作答。Diamond 是排行榜与研究报告中常被引用的标准子集。

Current Leaders

How to Interpret Scores

GPQA Diamond 在 80% 以上的得分表明在多学科上具备强劲的科学推理能力。当前开源权重领先者为 Qwen 3.5，得分 88.4——可与最佳前沿专有模型相竞争。GPQA Diamond 得分 60% 以上的模型，意味着在涉及研究生水平科学知识的任务上具有有意义的能力；低于 50% 表明该模型在涉及科学推理的研究辅助类用例中可能力不从心。GPQA Diamond 与 MMLU-Pro 互为补充：MMLU-Pro 覆盖广度（57 个学科领域），GPQA Diamond 覆盖深度（3 门科学的研究生水平题目）。两者得分都强，意味着既具广度也具深度的推理能力。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

GPQA Diamond

What It Measures

How It Works

Current Leaders

Qwen 3.5

DeepSeek V4

Kimi K2.6

Hermes 4

Qwen 3.6

How to Interpret Scores

Ship AI that runs on your users' devices.