Qwen 3.5
開源權重領先者
原始 MMLU 基準的更高難度版本——多學科知識與推理題目,答案選項由 4 個增加為 10 個,旨在解決前沿模型在原版 MMLU 上飽和與污染的問題。
MMLU-Pro 是原始大規模多任務語言理解(Massive Multitask Language Understanding,MMLU)基準的更難、更嚴謹的後繼版本。它涵蓋同樣的 57 個學科領域——從基礎數學到法律專業到臨床醫學——但做了多項調整,使基準在前沿水準下更具區別力:題目選項由 4 個增加為 10 個(降低隨機猜測的基準線)、納入更多需要 推理的題目,並對題庫進行精心篩選,以降低影響原版 MMLU 的污染問題。
MMLU-Pro 如今已是研究與排行榜情境中取代原版 MMLU 的標準。原版 MMLU 被視為飽和——前沿模型分數達 90% 以上,頂尖模型之間的差異多在誤差範圍內。MMLU-Pro 將排行榜拉開到足以提供有意義的區分,且更難的格式更能反映實際推理能力。
每道題目是來自 57 個學科領域之一的選擇題,含 10 個答案選項(A 到 J)。模型依照答對題目的百分比計分。計分通常以單一綜合分數呈現,涵蓋全部學科,但分學科分數可揭示模型在特定領域的有趣強項。
10 選項格式有兩個效果:將隨機猜測基準線從 25% 降至 10%,以及因要求模型在更多看似合理的干擾選項間區分而提升題目難度。這兩項效果共同使 MMLU-Pro 在能力光譜的高端更具區別力。
MMLU-Pro 分數達 80% 以上代表強健的通用知識與推理能力。目前開源權重的領先者為 Qwen 3.5,分數為 84.9%,前沿專有模型分數略高。相較於原版 MMLU(多數旗艦模型分數達 90% 以上),MMLU-Pro 在頂端提供更佳的區分度。若要評估模型在多元學科上的通用能力,MMLU-Pro 已是現今應參考的標準基準。如同所有選擇題基準,MMLU-Pro 並未涵蓋若干能力面向——指令遵循、結構化輸出、工具使用、長脈絡檢索——這些對正式部署很重要,但需要不同的評估方式。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.