ARC-AGI

François Chollet 的抽象與推理語料庫——一組視覺型樣式辨識謎題，旨在測試流體智力。ARC-AGI-2 與 ARC-AGI-3 接續了原版 ARC，前沿模型分數仍遠低於人類基準線。

ReasoningUpdated 2026-04-30

What It Measures

ARC-AGI（Abstraction and Reasoning Corpus，Artificial General Intelligence 變體）是由 François Chollet 設計的視覺型樣式辨識謎題基準，用以測試流體智力——在不依賴記憶型樣的情況下解決新問題的能力。每道題目提供少數幾組視覺轉換的輸入-輸出範例；模型必須推斷該轉換規則，並套用到新的輸入上。這些轉換的設計可由人類解出（人類典型基準線約為 80%），但對於從訓練資料中記憶或型樣比對則具抗性。

此基準家族經歷多個版本演進：原版 ARC（如今被視為前沿模型在大量鷹架支援下已解決）、ARC-AGI-2（目前的標準版本，設計上更難）、以及 ARC-AGI-3（最新版本，難度持續維持）。此基準被定位為衡量真正能轉移到新問題上的能力，而非透過接觸訓練資料而獲得的能力——使其特別適合作為可能受污染基準的補充。

How It Works

每道題目提供 2 至 5 組輸入-輸出範例，展示一個視覺轉換，再給出一個「測試」輸入。模型必須產出正確的測試輸出。這些轉換涉及鏡射、旋轉、顏色替換、形狀辨識、計數，以及上述操作的各種組合。計分為模型產出完全正確輸出的題目百分比。

目前大多數 ARC-AGI 評估都圍繞著模型加上大量鷹架——產出實作該轉換的 Python 程式的程式碼產生智慧體、多重抽樣策略、驗證者智慧體等類似方法。公布的分數通常包含鷹架的貢獻；不含鷹架的純模型分數明顯較低。ARC Prize 主辦方維護了一個公開排行榜，記錄各種規則組合下的人類與模型表現。

Current Leaders

DeepSeek V4

開源權重領先者；遠低於 GPT-5.5（在 ARC-AGI-2 上達 85%）

Top open-weight

Kimi K2.6

Strong open-weight

Qwen 3.5

Strong

Hermes 4

Strong reasoning fine-tune

DeepSeek-R1

Strong dedicated reasoning

How to Interpret Scores

ARC-AGI 分數值得關注，因為前沿模型即使有龐大的參數量與訓練算力，在更難的版本上分數仍明顯低於人類基準線。截至 2026 年 4 月，GPT-5.5 以 85% 領先 ARC-AGI-2（於 4 月 24 日發布）；其他前沿模型分數較低。ARC-AGI-2 上的人類基準線通常被報為 90% 以上。對於開源權重模型，ARC-AGI 分數普遍低於專有模型——此基準特別仰賴大量鷹架與廣泛抽樣。ARC-AGI 是其他基準的有用補充，因為它特別測試那些不應透過納入訓練資料而提升的能力。優異的 ARC-AGI 表現是泛化能力的可信訊號，但絕對分數應結合所使用的鷹架情境來解讀。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →