MMLU-Pro

    原版 MMLU 基准的更高难度版本——多学科知识与推理题,每题 10 个选项而非 4 个,旨在解决普通 MMLU 在前沿模型上的饱和与污染问题。

    General KnowledgeUpdated 2026-04-30

    What It Measures

    MMLU-Pro 是原版大规模多任务语言理解(MMLU)基准更难、更严格的后继版本。它仍覆盖相同的 57 个学科领域——从初等数学到职业法律再到临床医学——但做了多项修改以提升前沿区分度:每题 10 个选项而非 4 个(降低随机猜测基线)、纳入更多需要推理的题目,并对题库进行了精细整理以减轻影响普通 MMLU 的污染问题。

    如今在研究和排行榜场景中,MMLU-Pro 已成为普通 MMLU 的标准替代品。普通 MMLU 已被认为饱和——前沿模型得分 90% 以上,顶尖模型间的差异落在噪声范围内。MMLU-Pro 将排行榜拉得足够开,能提供有意义的区分度,且更难的题型也使其更能反映真实的推理能力。

    How It Works

    每道题都是来自 57 个学科之一的多选题,提供 10 个选项(A 到 J)。模型按答题正确率得分。评分通常以跨所有学科的综合分数报告,但分学科得分可揭示模型特有的优势。

    10 选项的格式有两层效果:将随机猜测基线从 25% 降至 10%;并通过要求模型在更多看似合理的干扰项中辨别正确答案,使题目变得更难。两种效应共同作用,使 MMLU-Pro 在能力高位段成为更具区分度的评估。

    Current Leaders

    How to Interpret Scores

    MMLU-Pro 在 80% 以上的分数表明具备较强的通用知识与推理能力。当前开源权重领先者为 Qwen 3.5,得分 84.9%;前沿专有模型略高。相比普通 MMLU(多数旗舰模型得分 90% 以上),MMLU-Pro 在高位段提供了更好的区分度。要评估模型在多样学科上的通用能力,MMLU-Pro 是当今的标准基准。与所有多选基准一样,MMLU-Pro 无法捕捉某些能力维度——指令跟随、结构化输出、工具使用、长上下文检索——这些在生产部署中很重要,但需要不同的评估方法。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.