AIME 2025
Math美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力,多數沒有受過專門訓練的成年人都會吃力。
What each benchmark measures, how to interpret scores, and which models lead.
美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力,多數沒有受過專門訓練的成年人都會吃力。
François Chollet 的抽象與推理語料庫——一組視覺型樣式辨識謎題,旨在測試流體智力。ARC-AGI-2 與 ARC-AGI-3 接續了原版 ARC,前沿模型分數仍遠低於人類基準線。
研究所程度的科學問答基準,設計上無法靠網路搜尋解出——題目由各領域博士生撰寫,測試在物理、化學與生物學中的深度專業知識。
橫跨各學科專家程度題目的基準——設計上是前沿模型仍無法解決的最後挑戰,目前領先者在數千道經專家驗證的題目上分數仍遠低於 50%。
較舊的 Python 編程基準——164 道手寫的程式設計題,搭配隱藏測試套件。曾是標準的編程基準;如今普遍被視為已飽和且容易污染,前沿模型分數達 95% 以上。
每月更新題目以抗污染的基準——題目取自當前時事與近期學術內容,降低前沿模型在訓練期間看過測試資料的風險。
原始 MMLU 基準的更高難度版本——多學科知識與推理題目,答案選項由 4 個增加為 10 個,旨在解決前沿模型在原版 MMLU 上飽和與污染的問題。
SWE-Bench Verified 的更高難度後繼者,設計上具備抗污染特性,並以更近期的 GitHub issue 評估模型在更複雜多檔案變更上的能力——目前是智慧體編程能力的前沿基準。
用於評估語言模型在真實世界軟體工程任務上的基準,題目取自開源 GitHub 倉庫——衡量模型能否透過正確的多檔案程式碼變更,自主關閉 issue。
在擬真多回合客戶服務互動中,評估具工具使用能力的語言模型——衡量模型能否正確使用 API,跨多元領域完成使用者請求。