ARC-AGI

    François Chollet 的抽象與推理語料庫——一組視覺型樣式辨識謎題,旨在測試流體智力。ARC-AGI-2 與 ARC-AGI-3 接續了原版 ARC,前沿模型分數仍遠低於人類基準線。

    ReasoningUpdated 2026-04-30

    What It Measures

    ARC-AGI(Abstraction and Reasoning Corpus,Artificial General Intelligence 變體)是由 François Chollet 設計的視覺型樣式辨識謎題基準,用以測試流體智力——在不依賴記憶型樣的情況下解決新問題的能力。每道題目提供少數幾組視覺轉換的輸入-輸出範例;模型必須推斷該轉換規則,並套用到新的輸入上。這些轉換的設計可由人類解出(人類典型基準線約為 80%),但對於從訓練資料中記憶或型樣比對則具抗性。

    此基準家族經歷多個版本演進:原版 ARC(如今被視為前沿模型在大量鷹架支援下已解決)、ARC-AGI-2(目前的標準版本,設計上更難)、以及 ARC-AGI-3(最新版本,難度持續維持)。此基準被定位為衡量真正能轉移到新問題上的能力,而非透過接觸訓練資料而獲得的能力——使其特別適合作為可能受污染基準的補充。

    How It Works

    每道題目提供 2 至 5 組輸入-輸出範例,展示一個視覺轉換,再給出一個「測試」輸入。模型必須產出正確的測試輸出。這些轉換涉及鏡射、旋轉、顏色替換、形狀辨識、計數,以及上述操作的各種組合。計分為模型產出完全正確輸出的題目百分比。

    目前大多數 ARC-AGI 評估都圍繞著模型加上大量鷹架——產出實作該轉換的 Python 程式的程式碼產生智慧體、多重抽樣策略、驗證者智慧體等類似方法。公布的分數通常包含鷹架的貢獻;不含鷹架的純模型分數明顯較低。ARC Prize 主辦方維護了一個公開排行榜,記錄各種規則組合下的人類與模型表現。

    Current Leaders

    #1

    DeepSeek V4

    開源權重領先者;遠低於 GPT-5.5(在 ARC-AGI-2 上達 85%)

    Top open-weight

    How to Interpret Scores

    ARC-AGI 分數值得關注,因為前沿模型即使有龐大的參數量與訓練算力,在更難的版本上分數仍明顯低於人類基準線。截至 2026 年 4 月,GPT-5.5 以 85% 領先 ARC-AGI-2(於 4 月 24 日發布);其他前沿模型分數較低。ARC-AGI-2 上的人類基準線通常被報為 90% 以上。對於開源權重模型,ARC-AGI 分數普遍低於專有模型——此基準特別仰賴大量鷹架與廣泛抽樣。ARC-AGI 是其他基準的有用補充,因為它特別測試那些不應透過納入訓練資料而提升的能力。優異的 ARC-AGI 表現是泛化能力的可信訊號,但絕對分數應結合所使用的鷹架情境來解讀。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.