ARC-AGI

    François Chollet 提出的抽象与推理语料库(Abstraction and Reasoning Corpus)——一组用于考察流体智力的视觉模式识别谜题基准。ARC-AGI-2 与 ARC-AGI-3 接替原版 ARC,前沿模型的得分仍明显低于人类基线。

    ReasoningUpdated 2026-04-30

    What It Measures

    ARC-AGI(Abstraction and Reasoning Corpus,通用人工智能版本)是 François Chollet 设计的视觉模式识别谜题基准,旨在考察流体智力——即在不依赖记忆模式的情况下解决新颖问题的能力。每道题给出若干个视觉变换的输入–输出示例;模型必须推断出变换规则并将其应用到新输入。这些变换被设计成人类可解(典型人类基线约 80%),同时抗拒通过训练数据进行记忆或模式匹配。

    该基准家族经历了多个版本:原版 ARC(如今前沿模型借助大量脚手架已被认为可解)、ARC-AGI-2(当前标准,更难)、以及 ARC-AGI-3(最新版本,难度持续延续)。该基准被定位为衡量能力是否真正迁移到新颖问题、而非通过暴露于训练数据获得能力的指标——这使其成为对易受污染基准的有力补充。

    How It Works

    每道题提供 2–5 对输入–输出示例,演示某种视觉变换,再给出一个 “测试” 输入。模型必须给出正确的测试输出。变换涉及反射、旋转、颜色替换、形状识别、计数及其各种组合。评分为模型给出与正确输出完全一致的题目所占百分比。

    当前大多数 ARC-AGI 评估都围绕模型搭建了大量脚手架——能产出实现变换规则的 Python 程序的代码生成型智能体、多样采样策略、验证型智能体等。所报告的分数通常包含脚手架的贡献;不带脚手架的纯模型分数要低得多。ARC Prize 的组织方维护着包含人类与模型在不同规则下表现的公开排行榜。

    Current Leaders

    #1

    DeepSeek V4

    开源权重领先者;明显落后于 GPT-5.5(在 ARC-AGI-2 上得 85%)

    Top open-weight

    How to Interpret Scores

    ARC-AGI 分数仍引人注目,因为前沿模型即便拥有海量参数与训练算力,在更难版本上仍明显低于人类基线。截至 2026 年 4 月,GPT-5.5 在 ARC-AGI-2 上以 85% 领先(4 月 24 日发布);其他前沿模型得分较低。ARC-AGI-2 的人类基线通常报为 90% 以上。在开源权重模型中,ARC-AGI 得分通常低于专有模型——这是一个重型脚手架与大量采样会带来明显增益的基准。ARC-AGI 是其他基准的有效补充,因为它专门考察那些不应该通过训练数据纳入而提升的能力。强劲的 ARC-AGI 表现是泛化能力的可信信号,但在解读绝对分数时应结合其所用的脚手架。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.