Qwen 3.5
開源權重領先者
研究所程度的科學問答基準,設計上無法靠網路搜尋解出——題目由各領域博士生撰寫,測試在物理、化學與生物學中的深度專業知識。
GPQA(Graduate-level PhD Question-and-Answering,研究所博士程度問答)是一項由各領域博士生撰寫的物理、化學、生物選擇題基準。「Diamond」子集屬於最高難度等級——撰題者認為非專家即使能上網查詢,也會難以作答的題目。此基準旨在測試深度的專業知識與推理能力,而非廣泛可得資訊的記憶。
GPQA Diamond 已成為評估前沿模型推理能力最具公信力的基準之一。題目難度足以讓即使是強大的模型也明顯低於 100%,提供區分空間;題目由博士生撰寫,而非從公開來源爬取,降低污染風險;題材橫跨足夠多的學科,使高分能真實反映廣泛的科學推理能力,而非單一領域的專精。
每道題目是含 4 個答案選項的選擇題,由物理、化學或生物學的博士生撰寫。題目設計上需要深度的專業知識——通常是相關次領域的研究生會處理,但即使是有時間查資料的非專家也會感到吃力的推理。
計分為答對題目的百分比。「Diamond」子集約有 200 題,是從完整 GPQA 題庫中挑選出的最難題目——出題者估計非專家即使在評估期間能上網也難以作答。Diamond 是排行榜與研究報告中所引用的標準子集。
GPQA Diamond 分數達 80% 以上代表跨多學科具備強健的科學推理能力。目前開源權重的領先者為 Qwen 3.5,分數為 88.4——可與最強的前沿專有模型相抗衡。模型在 GPQA Diamond 上得 60% 以上,代表其具備處理需研究所程度科學知識任務的有意義能力;低於 50% 則代表該模型在涉及科學推理的研究輔助使用情境上會吃力。GPQA Diamond 與 MMLU-Pro 互補:MMLU-Pro 涵蓋廣度(57 個學科領域),GPQA Diamond 涵蓋深度(3 個自然科學的研究所程度題目)。在兩者都拿到高分,代表同時具備廣度與深度的推理能力。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.