AI Model Benchmarks

What each benchmark measures, how to interpret scores, and which models lead.

AIME 2025

美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力，多數沒有受過專門訓練的成年人都會吃力。

François Chollet 的抽象與推理語料庫——一組視覺型樣式辨識謎題，旨在測試流體智力。ARC-AGI-2 與 ARC-AGI-3 接續了原版 ARC，前沿模型分數仍遠低於人類基準線。

研究所程度的科學問答基準，設計上無法靠網路搜尋解出——題目由各領域博士生撰寫，測試在物理、化學與生物學中的深度專業知識。

橫跨各學科專家程度題目的基準——設計上是前沿模型仍無法解決的最後挑戰，目前領先者在數千道經專家驗證的題目上分數仍遠低於 50%。

較舊的 Python 編程基準——164 道手寫的程式設計題，搭配隱藏測試套件。曾是標準的編程基準；如今普遍被視為已飽和且容易污染，前沿模型分數達 95% 以上。

每月更新題目以抗污染的基準——題目取自當前時事與近期學術內容，降低前沿模型在訓練期間看過測試資料的風險。

原始 MMLU 基準的更高難度版本——多學科知識與推理題目，答案選項由 4 個增加為 10 個，旨在解決前沿模型在原版 MMLU 上飽和與污染的問題。

SWE-Bench Verified 的更高難度後繼者，設計上具備抗污染特性，並以更近期的 GitHub issue 評估模型在更複雜多檔案變更上的能力——目前是智慧體編程能力的前沿基準。

用於評估語言模型在真實世界軟體工程任務上的基準，題目取自開源 GitHub 倉庫——衡量模型能否透過正確的多檔案程式碼變更，自主關閉 issue。

在擬真多回合客戶服務互動中，評估具工具使用能力的語言模型——衡量模型能否正確使用 API，跨多元領域完成使用者請求。