Qwen 3.5
开源权重领先者
研究生水平的科学问答基准,专为难以通过网络搜索作答而设计——题目由相关领域博士生撰写,考察物理、化学和生物学领域的深层专业知识。
GPQA(Graduate-level PhD Question-and-Answering,研究生水平博士问答)是物理、化学和生物学领域的多选题基准,题目由相关领域博士生撰写。其中的 Diamond 子集是难度最高的层级——题目作者认为非专家即便借助互联网也难以作答。该基准旨在考察深层专业知识与推理,而非对广泛可得信息的死记硬背。
GPQA Diamond 已成为评估前沿模型推理能力最可信的基准之一。题目难度足够大,使得即便是强劲模型也明显得不到 100%,从而提供了区分空间;题目由博士生撰写而非从公开来源抓取,降低了污染风险;其覆盖的学科足够广,使高分能真实反映广泛的科学推理能力,而非狭隘的专业化。
每道题为 4 选项的多选题,由物理、化学或生物学领域的博士生撰写。题目要求深层专业知识——典型而言,是相关子领域的研究生能够处理、而非专家者即便有调研时间也难以作答的推理。
评分为答对题目的百分比。Diamond 子集约有 200 道题,是从完整 GPQA 题库中挑选出的最难题目——这些题目的作者估计非专家即便在测评中可使用互联网也难以作答。Diamond 是排行榜与研究报告中常被引用的标准子集。
GPQA Diamond 在 80% 以上的得分表明在多学科上具备强劲的科学推理能力。当前开源权重领先者为 Qwen 3.5,得分 88.4——可与最佳前沿专有模型相竞争。GPQA Diamond 得分 60% 以上的模型,意味着在涉及研究生水平科学知识的任务上具有有意义的能力;低于 50% 表明该模型在涉及科学推理的研究辅助类用例中可能力不从心。GPQA Diamond 与 MMLU-Pro 互为补充:MMLU-Pro 覆盖广度(57 个学科领域),GPQA Diamond 覆盖深度(3 门科学的研究生水平题目)。两者得分都强,意味着既具广度也具深度的推理能力。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.