GPQA Diamond

研究所程度的科學問答基準，設計上無法靠網路搜尋解出——題目由各領域博士生撰寫，測試在物理、化學與生物學中的深度專業知識。

ReasoningUpdated 2026-04-30

What It Measures

GPQA（Graduate-level PhD Question-and-Answering，研究所博士程度問答）是一項由各領域博士生撰寫的物理、化學、生物選擇題基準。「Diamond」子集屬於最高難度等級——撰題者認為非專家即使能上網查詢，也會難以作答的題目。此基準旨在測試深度的專業知識與推理能力，而非廣泛可得資訊的記憶。

GPQA Diamond 已成為評估前沿模型推理能力最具公信力的基準之一。題目難度足以讓即使是強大的模型也明顯低於 100%，提供區分空間；題目由博士生撰寫，而非從公開來源爬取，降低污染風險；題材橫跨足夠多的學科，使高分能真實反映廣泛的科學推理能力，而非單一領域的專精。

How It Works

每道題目是含 4 個答案選項的選擇題，由物理、化學或生物學的博士生撰寫。題目設計上需要深度的專業知識——通常是相關次領域的研究生會處理，但即使是有時間查資料的非專家也會感到吃力的推理。

計分為答對題目的百分比。「Diamond」子集約有 200 題，是從完整 GPQA 題庫中挑選出的最難題目——出題者估計非專家即使在評估期間能上網也難以作答。Diamond 是排行榜與研究報告中所引用的標準子集。

Current Leaders

How to Interpret Scores

GPQA Diamond 分數達 80% 以上代表跨多學科具備強健的科學推理能力。目前開源權重的領先者為 Qwen 3.5，分數為 88.4——可與最強的前沿專有模型相抗衡。模型在 GPQA Diamond 上得 60% 以上，代表其具備處理需研究所程度科學知識任務的有意義能力；低於 50% 則代表該模型在涉及科學推理的研究輔助使用情境上會吃力。GPQA Diamond 與 MMLU-Pro 互補：MMLU-Pro 涵蓋廣度（57 個學科領域），GPQA Diamond 涵蓋深度（3 個自然科學的研究所程度題目）。在兩者都拿到高分，代表同時具備廣度與深度的推理能力。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

GPQA Diamond

What It Measures

How It Works

Current Leaders

Qwen 3.5

DeepSeek V4

Kimi K2.6

Hermes 4

Qwen 3.6

How to Interpret Scores

Ship AI that runs on your users' devices.