MMLU-Pro

原版 MMLU 基准的更高难度版本——多学科知识与推理题，每题 10 个选项而非 4 个，旨在解决普通 MMLU 在前沿模型上的饱和与污染问题。

General KnowledgeUpdated 2026-04-30

What It Measures

MMLU-Pro 是原版大规模多任务语言理解（MMLU）基准更难、更严格的后继版本。它仍覆盖相同的 57 个学科领域——从初等数学到职业法律再到临床医学——但做了多项修改以提升前沿区分度：每题 10 个选项而非 4 个（降低随机猜测基线）、纳入更多需要推理的题目，并对题库进行了精细整理以减轻影响普通 MMLU 的污染问题。

如今在研究和排行榜场景中，MMLU-Pro 已成为普通 MMLU 的标准替代品。普通 MMLU 已被认为饱和——前沿模型得分 90% 以上，顶尖模型间的差异落在噪声范围内。MMLU-Pro 将排行榜拉得足够开，能提供有意义的区分度，且更难的题型也使其更能反映真实的推理能力。

How It Works

每道题都是来自 57 个学科之一的多选题，提供 10 个选项（A 到 J）。模型按答题正确率得分。评分通常以跨所有学科的综合分数报告，但分学科得分可揭示模型特有的优势。

10 选项的格式有两层效果：将随机猜测基线从 25% 降至 10%；并通过要求模型在更多看似合理的干扰项中辨别正确答案，使题目变得更难。两种效应共同作用，使 MMLU-Pro 在能力高位段成为更具区分度的评估。

Current Leaders

How to Interpret Scores

MMLU-Pro 在 80% 以上的分数表明具备较强的通用知识与推理能力。当前开源权重领先者为 Qwen 3.5，得分 84.9%；前沿专有模型略高。相比普通 MMLU（多数旗舰模型得分 90% 以上），MMLU-Pro 在高位段提供了更好的区分度。要评估模型在多样学科上的通用能力，MMLU-Pro 是当今的标准基准。与所有多选基准一样，MMLU-Pro 无法捕捉某些能力维度——指令跟随、结构化输出、工具使用、长上下文检索——这些在生产部署中很重要，但需要不同的评估方法。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

MMLU-Pro

What It Measures

How It Works

Current Leaders

Qwen 3.5

DeepSeek V4

Kimi K2.6

Qwen 3.6

GLM-5

How to Interpret Scores

Ship AI that runs on your users' devices.