MMLU-Pro

原始 MMLU 基準的更高難度版本——多學科知識與推理題目，答案選項由 4 個增加為 10 個，旨在解決前沿模型在原版 MMLU 上飽和與污染的問題。

General KnowledgeUpdated 2026-04-30

What It Measures

MMLU-Pro 是原始大規模多任務語言理解（Massive Multitask Language Understanding，MMLU）基準的更難、更嚴謹的後繼版本。它涵蓋同樣的 57 個學科領域——從基礎數學到法律專業到臨床醫學——但做了多項調整，使基準在前沿水準下更具區別力：題目選項由 4 個增加為 10 個（降低隨機猜測的基準線）、納入更多需要推理的題目，並對題庫進行精心篩選，以降低影響原版 MMLU 的污染問題。

MMLU-Pro 如今已是研究與排行榜情境中取代原版 MMLU 的標準。原版 MMLU 被視為飽和——前沿模型分數達 90% 以上，頂尖模型之間的差異多在誤差範圍內。MMLU-Pro 將排行榜拉開到足以提供有意義的區分，且更難的格式更能反映實際推理能力。

How It Works

每道題目是來自 57 個學科領域之一的選擇題，含 10 個答案選項（A 到 J）。模型依照答對題目的百分比計分。計分通常以單一綜合分數呈現，涵蓋全部學科，但分學科分數可揭示模型在特定領域的有趣強項。

10 選項格式有兩個效果：將隨機猜測基準線從 25% 降至 10%，以及因要求模型在更多看似合理的干擾選項間區分而提升題目難度。這兩項效果共同使 MMLU-Pro 在能力光譜的高端更具區別力。

Current Leaders

Qwen 3.5

開源權重領先者

84.9%

DeepSeek V4

Strong

Kimi K2.6

Strong

Qwen 3.6

Strong

GLM-5

Competitive

How to Interpret Scores

MMLU-Pro 分數達 80% 以上代表強健的通用知識與推理能力。目前開源權重的領先者為 Qwen 3.5，分數為 84.9%，前沿專有模型分數略高。相較於原版 MMLU（多數旗艦模型分數達 90% 以上），MMLU-Pro 在頂端提供更佳的區分度。若要評估模型在多元學科上的通用能力，MMLU-Pro 已是現今應參考的標準基準。如同所有選擇題基準，MMLU-Pro 並未涵蓋若干能力面向——指令遵循、結構化輸出、工具使用、長脈絡檢索——這些對正式部署很重要，但需要不同的評估方式。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →