ARC-AGI

François Chollet 提出的抽象与推理语料库（Abstraction and Reasoning Corpus）——一组用于考察流体智力的视觉模式识别谜题基准。ARC-AGI-2 与 ARC-AGI-3 接替原版 ARC，前沿模型的得分仍明显低于人类基线。

ReasoningUpdated 2026-04-30

What It Measures

ARC-AGI（Abstraction and Reasoning Corpus，通用人工智能版本）是 François Chollet 设计的视觉模式识别谜题基准，旨在考察流体智力——即在不依赖记忆模式的情况下解决新颖问题的能力。每道题给出若干个视觉变换的输入–输出示例；模型必须推断出变换规则并将其应用到新输入。这些变换被设计成人类可解（典型人类基线约 80%），同时抗拒通过训练数据进行记忆或模式匹配。

该基准家族经历了多个版本：原版 ARC（如今前沿模型借助大量脚手架已被认为可解）、ARC-AGI-2（当前标准，更难）、以及 ARC-AGI-3（最新版本，难度持续延续）。该基准被定位为衡量能力是否真正迁移到新颖问题、而非通过暴露于训练数据获得能力的指标——这使其成为对易受污染基准的有力补充。

How It Works

每道题提供 2–5 对输入–输出示例，演示某种视觉变换，再给出一个 “测试” 输入。模型必须给出正确的测试输出。变换涉及反射、旋转、颜色替换、形状识别、计数及其各种组合。评分为模型给出与正确输出完全一致的题目所占百分比。

当前大多数 ARC-AGI 评估都围绕模型搭建了大量脚手架——能产出实现变换规则的 Python 程序的代码生成型智能体、多样采样策略、验证型智能体等。所报告的分数通常包含脚手架的贡献；不带脚手架的纯模型分数要低得多。ARC Prize 的组织方维护着包含人类与模型在不同规则下表现的公开排行榜。

Current Leaders

DeepSeek V4

开源权重领先者；明显落后于 GPT-5.5（在 ARC-AGI-2 上得 85%）

Top open-weight

Kimi K2.6

Strong open-weight

Qwen 3.5

Strong

Hermes 4

强劲的推理微调

DeepSeek-R1

强劲的专用推理

How to Interpret Scores

ARC-AGI 分数仍引人注目，因为前沿模型即便拥有海量参数与训练算力，在更难版本上仍明显低于人类基线。截至 2026 年 4 月，GPT-5.5 在 ARC-AGI-2 上以 85% 领先（4 月 24 日发布）；其他前沿模型得分较低。ARC-AGI-2 的人类基线通常报为 90% 以上。在开源权重模型中，ARC-AGI 得分通常低于专有模型——这是一个重型脚手架与大量采样会带来明显增益的基准。ARC-AGI 是其他基准的有效补充，因为它专门考察那些不应该通过训练数据纳入而提升的能力。强劲的 ARC-AGI 表现是泛化能力的可信信号，但在解读绝对分数时应结合其所用的脚手架。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →