是什么让 ARC-AGI-2 更具挑战性？|agi|上下文|arc

分享至

ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems

ARC-AGI-2：面向前沿AI推理系统的新挑战

https://arxiv.org/pdf/2505.11831

摘要
《面向人工通用智能的抽象与推理语料库》（ARC-AGI）于2019年推出，建立了一个具有挑战性的基准，用于通过一组独特且新颖的任务来评估人工智能系统的总体流体智力，这些任务仅需极少的先验知识。尽管在过去五年中，ARC-AGI激发了大量的研究活动，但近年来人工智能的进步要求具备更细粒度、更高认知复杂度的评估基准。我们推出了ARC-AGI-2，这是该基准的升级版本。ARC-AGI-2保留了其前身的输入-输出配对任务格式，确保研究人员的延续性。它包含一组新策划并扩展的任务，专门设计用于在更高的流体智力水平上提供更细致的信号，以评估抽象推理和问题解决能力。为了说明ARC-AGI-2的难度和特点，我们展示了大量人类测试的结果，提供了强有力的基线，突出了该基准对人类智能的可及性，同时又对当前的人工智能系统构成挑战。ARC-AGI-2旨在作为下一代工具，用于严格衡量向更通用、类人AI能力发展的进展。

7 是什么让 ARC-AGI-2 更具挑战性？ 7.1 关键设计变化

许多ARC-AGI-1任务往往可以被人类测试者几乎立即解决，而无需付出显著的认知努力。相比之下，ARC-AGI-2中的所有任务都需要一定程度的深思熟虑——例如，在我们的样本中，人类测试者平均每个任务耗时2.7分钟完成。

这种难度的提升源自几个关键的设计变化。

首先，一个基础性的变化是：ARC-AGI-2任务更加“独特”——虽然一些ARC-AGI-1任务与外部可找到的模式存在一定程度的重叠（由于它们较为简单），但据我们所知，每一个ARC-AGI-2任务都是完全新颖的。

其次，从信息内容的角度来看，ARC-AGI-2任务更加复杂——通常包含更大的网格、每个网格中更多的对象，以及每个任务中更多的概念。对ARC-AGI-2任务进行压缩后，每个任务所包含的信息比特数普遍高于ARC-AGI-1。

最后，ARC-AGI-2的一个重要目标是探索组合泛化（compositional generalization）的更深层次能力——即以新的方式组合已知规则或概念的能力。这通常表现为多规则组合推理、多步骤组合推理、上下文相关规则应用，以及上下文中定义符号等能力。下面我们将回顾这些设计原则，展示定性示例，并讨论它们为何对AI系统构成挑战。

7.2 面向组合泛化的设计：示例

多规则组合推理：虽然大多数ARC-AGI-1任务可以通过识别并应用一个高层次的单一变换规则来解决（例如，“物体向下掉落”），ARC-AGI-2任务则旨在融合多个同时起作用、且常常相互影响的规则。例如，在图6中，解题者必须裁剪输入网格至矩形边框区域，缩放彩色对象，并将缩放后的对象放入边框区域内形状相同的对应空洞中。

多步骤组合推理：许多ARC-AGI-2任务要求按顺序应用某条规则，其中第N步后的状态直接依赖于第N−1步的结果。一个例子可能是迭代地放置对象，其中下一个对象的正确位置和方向由前一个对象的放置方式决定（如图7所示）。如果不执行前N个步骤，几乎不可能预测第N+1个对象的位置。

上下文相关规则应用：ARC-AGI-2中包含一些任务，要求测试者不仅要识别核心的变换规则，还必须理解其应用方式是如何受到网格中特定上下文元素调节的。这在推理链中增加了一个额外的步骤，通常涉及某种形式的控制流。例如，一个任务可能涉及像图8中那样将形状隔离并堆叠到一侧，但选择哪一侧（例如左侧或右侧）则取决于一个上下文线索，比如形状轮廓的颜色。虽然当前系统可能识别出基本的形状堆叠操作，但要正确解读和应用这种上下文控制机制仍然是一个重大挑战。这需要将变换规则与一个从上下文中得出的选择或条件规则进行组合。

上下文中的符号定义：许多ARC-AGI-2任务中包含“符号”（即代表自身之外意义的对象），其含义是在任务内部定义的。例如在图1中，带有孔洞的彩色矩形表示与该孔洞数量相同的形状所应使用的颜色。根据我们的经验，这种即时性的符号赋值对当前前沿的AI系统来说是一个重大挑战。

1 ARC-AGI-1：2019-2024 年历史
由 François Chollet 在2019年的论文《论智能的衡量》中引入的“抽象与推理语料库”（ARC），后来被称为 ARC-AGI-1，代表了与传统人工智能基准的重大偏离。传统基准通常关注特定技能或在大型数据集中进行知识回忆。相反，ARC-AGI-1 的设计目的是评估一种更为通用、类似人类的流体智力——即高效地推理和解决新问题的能力，而无需依赖大量的先前经验或领域特定训练。

1.1 数据集
该数据集由一系列推理任务组成，任务以离散符号的网格配对形式呈现（显示为彩色单元格）。每个任务包含少量（通常为2到5个）示例配对，其中每对展示了一个输入网格根据某个未明确说明的规则被转换为输出网格。测试者（人类或AI）的目标是从这些少量示例中推断出该规则，并将其正确应用于一个或多个未见过的测试输入网格，以生成相应的输出网格。网格大小各不相同，但最大不超过30×30，最多使用10种不同颜色。图1中可以找到一个示例。

原始公开数据集中包含400个训练任务和400个评估任务。此外，还保留了一个包含100个任务的私有评估集（Private Evaluation set），用于竞赛排行榜；在2024年中期又引入了一个包含100个任务的“半私有”评估集（Semi-Private Evaluation set），用于验证闭源模型（1）。

ARC-AGI 有三个核心特征：

它旨在防止过拟合和记忆化，专注于纯粹的一般流体智力测试
。不应存在可以提前准备应对的任务。数据集中的每个任务都是独一无二的。
它最大限度地减少了对先验知识的需求
。ARC-AGI任务仅需人类与生俱来的基本认知先验能力，例如物体恒存性、目标导向性、基础数感（计数）以及基本几何与拓扑概念（如连通性、对称性）（10）。关键在于，它完全不需要专门的世界知识（例如历史事实）或语言理解能力来解答，这使其区别于那些用于评估大语言模型（LLMs）的知识密集型基准。
普通人在没有特殊训练的情况下也能完成这些任务

1.2 以往的竞赛

ARC-AGI-1 基准已成为多个高知名度公共竞赛的核心主题，随着对该基准的兴趣日益增长，竞赛奖金池也逐年显著增加。举办这些竞赛的目的在于激励研究人员提出新思路，推动高效、通用系统的发展，以期战胜 ARC-AGI 的挑战。

过往的 ARC-AGI 竞赛（奖金单位为美元）：

在推出后的几年里，进展一直较为缓慢。2020年竞赛的获胜方案使用程序合成技术，在私有评估集上仅取得了20%的成绩（3）。尽管从2020年到2024年初，大语言模型（LLMs）迅速扩展（在此期间基础LLM的规模增长了超过1万倍），但ARC-AGI的最先进成绩仍停留在约34%（7），远低于估计的人类表现。

这一局面在ARC Prize 2024竞赛期间迅速转变，这是由ARC Prize基金会主办的首届竞赛（9）。在该竞赛中，私有评估集上的最高得分达到了55.5%（由MindsAI团队取得），尽管该解决方案并未开源，因此不符合获奖资格。提交符合要求的获胜团队“the ARChitects”取得了53.5%的成绩（7）。相较于此前最先进的水平，这是一个显著的跃升，突显了竞赛所激发的新方法的有效性，特别是测试时适应（Test-Time Adaptation, TTA）方法的应用。这类方法通过在测试时进行动态调整来提升性能，例如采用测试时搜索（如思维链合成或符号程序合成）或测试时梯度下降等方式实现。这些方法在《ARC Prize 2024 Technical Report》中有详细讨论（8）。

在2024年底竞赛结束后不久，OpenAI 的“o3”模型在一个预览版本的私下测试中，在ARC-AGI-1的半私有评估数据集上表现出色。借助大量计算资源，该模型在测试中分别实现了76%（低计算量；估计每任务成本：200美元）和88%（高计算量；估计每任务成本：20,000美元）的成绩（12），首次超越了名义上的人类基准线。随后公开发布的o3版本表现有所下降，但依然强劲（例如，o3-medium在半私有集上得分为53%）（11）。尽管如此，这一预览结果表明，在使用大量计算资源的情况下，基于测试时适应范式的ARC-AGI-1正在接近饱和状态。

ARC Prize 2024带来了几个关键性的启示。首先，它表明要推进ARC-AGI的发展，必须超越以往主流的深度学习范式。值得注意的是，所有顶尖团队都采用了测试时适应方法，这已成为不可或缺的策略。此次竞赛成功激励了这些新方向的探索与开源，验证了ARC-AGI在推动人工智能研究向更通用、灵活的推理能力发展方面的价值。同时，这也凸显出有必要推出一个升级版、更具挑战性的ARC-AGI版本，以持续推动通往人工通用智能（AGI）的进步。

2 ARC-AGI-1 的局限性

以往的竞赛揭示了ARC-AGI-1的若干关键局限性（8）：

任务易受非通用化策略的影响

在2020年的首届竞赛中，表现最佳的个人提交方案取得了20%的得分。然而，后续的一项元分析汇总了当年所有提交方案所解决的独特任务后发现，至少有一个团队成功解决了私有评估集中49%的任务。关键在于，这些成功提交所采用的主要技术被报告为暴力程序搜索（brute-force program search）的各种变体。

这表明，ARC-AGI-1私有评估集中近一半的任务可能容易受到计算密集型、穷举式搜索方法的攻击，而无需依赖我们认为对AGI至关重要的高效抽象推理能力。尽管剩余任务（约50%）已被证明足够困难，足以抵御当前的方法（从而使该基准仍未被完全破解），但存在相当一部分任务可被暴力破解，这大大削弱了该基准的评估信号。它可能会奖励计算资源的投入，而非更通用认知架构的发展。一个稳健的AGI基准理想情况下应尽可能减少对这类非通用化解题策略的敏感性。

缺乏可靠的第一方人类测试数据

尽管原始的ARC-AGI私有任务已被确认对人类可解（最初的两名测试者得分分别为97%和98%），并且一些第三方研究也调查了Mechanical Turk用户在公开数据集上的表现（例如纽约大学的“Fast and flexible: Human program induction in abstract reasoning tasks”（13）以及“H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark”（14）），但目前尚无基于统一条件、针对竞赛中使用的隐藏任务所获得的官方第一方人类基线得分。

缺乏这样一个人类基线，使得对人类表现的准确认识变得困难。第三方研究中参与者群体、动机、时间限制以及使用界面的不同，可能会引入变异性，与潜在的标准化第一方协议相比存在差异。

低于人类流体智力水平的饱和度

从经验来看，处于智力分布高端的人类可以毫不费力地解决超过97%的ARC-AGI-1任务，这意味着该基准在尚未能捕捉完整人类流体智力范围时就已经达到了上限。

难度分布不一致

根据实测得分情况，ARC-AGI-1在其不同数据子集之间可能存在难度分布上的不一致（例如，公共评估集通常被认为比私有评估集更容易）。如果这些子集并非来自一个底层任务难度分布的可比抽样，那么对于得分的解读将变得不可靠。

信息泄露风险

在所有四届主要的ARC-AGI-1竞赛（2020–2024年）中，相同的100个私有评估任务被重复使用且未作更改，用于为参赛者提供排行榜的中间反馈。因此，多年来已有约10,000次基于该隐藏任务集的表现得分被公开。虽然单个得分提供的信息有限，但每个数据点都可能成为一个潜在的信息泄露渠道，无论其影响多么微小。经过数千次迭代和多个团队的尝试，参赛者可能通过分析得分变化与提交修改之间的关联，隐式或显式地推断出隐藏任务的特征。

这种累积性的反馈循环带来了显著的风险：模型可能会逐渐调整以适应这100个特定任务的独特特性，而不是发展出真正通用的推理能力。因此，排行榜上的性能提升可能反映的是对特定测试集的适应，而非抽象问题解决能力的真实进步。

3 ARC-AGI-2 的目标

针对上述局限性，我们于2021年底开始开发ARC-AGI-2。这个更新版的基准旨在延续ARC-AGI-1的核心理念，同时全面解决上述问题。

我们在此次更新中的主要目标如下：

保持基本原理一致。坚持ARC-AGI-1的基本原则：每个任务都是唯一的、无法提前记忆的；所有任务仅需基础的“核心知识”（Core Knowledge）；所有任务都力求遵循“对人类简单、对AI困难”的设计准则。
保持任务格式一致。保留ARC-AGI-1已被广泛理解和使用任务格式：每个任务通过输入-输出网格对来定义，网格大小从1×1到30×30不等，每个单元格具有最多10种离散值（颜色）。这确保了研究人员的熟悉度，并便于复用现有的工具和可视化方法。
减少可被暴力破解的可能性。在任务设计上有意减少对朴素或计算密集型的暴力程序搜索技术的易感性，因为这类任务无法为AGI进展提供有效信号。此举进一步将重点转向高效的适应能力。
大规模的第一方人类测试。开展面向多样化人群的大规模实时人类测试。这将提供关于人类任务可解率、感知难度以及解题策略的可靠第一方数据，建立可用于严格对比AI系统表现的人类基线性能指标（包括准确率，以及可能的效率指标如时间或成本）。
更广的有效“信号带宽”。提供一个更广泛的、有实际意义的得分区间来衡量AI能力。通过纳入经过精心设计、覆盖合理难度范围的任务，同时仍保持对人类的普遍可及性，并减少可通过近乎简单手段解决的任务数量，ARC-AGI-2应能更好地区分具备不同流体推理能力的系统。
各子集间面向人类的难度校准。对每一个子集（公共评估集、私有评估集、半私有评估集）进行筛选，使其在人类可解性和感知难度方面来自明显相似的分布，从而确保在一个集合上的表现可以可靠地预测在其他集合上的表现。

4 面向人类的校准测试 4.1 测试协议

我们在一个受控环境中，对潜在的ARC-AGI-2任务进行了面向人类志愿者的测试。参与者在会议室环境下单独使用电脑进行测试，每次最多容纳34人。分配的任务是随机的，并通过一个控制界面极简的自定义用户界面呈现。参与者在开始任务前需完成一份简短问卷和界面操作教程。每位参与者在90分钟的测试环节中可获得115至150美元的基本报酬，此外每正确完成一个任务还可获得5美元的激励奖励。三轮测试分别于2024年11月至2025年5月之间进行。

4.2 参与者背景

研究参与者来自多样化的专业背景，在技术、编程、数学和解谜能力方面的自我报告经验也存在广泛差异（部分数据如图2所示）。

4.3 测试结果

所测试的任务中，大多数（68%）包含一个测试配对，其余任务包含两个（29%）、三个（3%）或四个（<1%）测试配对。只有当一个任务中的所有测试配对都被正确解答时，才被视为“完全正确”；若至少有一个测试配对被正确解答，则视为“部分正确”。

我们将“一次尝试”定义为任何持续时间超过5秒的任务查看行为。

根据这些定义，我们记录了515个测试环节中407名独立参与者对1,848个独特任务测试配对的尝试（其中许多任务未被纳入最终的ARC-AGI-2）。总计发生了13,405次测试配对尝试，其中8,277次（62%）成功解决。参与者在每个尝试的测试配对上花费的中位时间为2.3分钟，而在成功完成的测试配对上，中位用时为2.2分钟（见图3）。

4.4 表现情况

参与者在解题速度（每分钟完成的任务数）和准确率（每次尝试中完成的任务比例）方面表现出显著差异，总体来看，这两个指标之间呈现出正相关关系（见图4）。

在观察单个参与者在测试环节中的表现时，我们发现大多数参与者按照指示依次完成任务，偶尔会回退去重新审视之前未能解决的任务。

对于所有记录的自我报告人口统计因素——包括职业、行业、技术经验、编程能力、数学背景、解谜能力以及其他各种测量属性—— none 展现出与表现结果之间具有明确的、统计上显著的相关性。这一发现表明，ARC-AGI-2任务评估的是一般的解决问题能力，而非依赖于特定领域知识或通过特定职业或教育经历获得的专业技能。

5 任务筛选流程

初步筛选与任务纳入：候选任务来自两个渠道：一部分是由ARC Prize基金会工作人员及合作伙伴专门为ARC-AGI-2新创作的任务，另一部分则是此前ARC-AGI版本中未使用过的储备任务。由于在人类测试阶段增加分配的任务数量相对成本较低，我们有意生成了过多的任务，预计在后续筛选过程中会有所淘汰。来自ARC-AGI-1公共训练集的任务未被纳入此次测试。

只有当至少有两名独立参与者在其前两次尝试中各自解决了一个或多个子配对任务时，该任务才会通过人类测试阶段并进入后续流程。

任务子集的难度校准：对于每个任务，我们计算了实现“完全正确”解法的参与者比例，并将此作为经验难度指标。我们将任务划分为公开集、半私有集和私有集，确保各集合之间的人类准确率平均差异不超过1个百分点。新创作的任务优先分配到私有集中，而之前已公开的任务则继续保留在公开集中。

冗余检测：我们使用了一个定制的评审界面，对所有符合条件的任务进行视觉对比。当判断一个程序化解决方案很可能可以同时解决两个任务时，这两个任务就被视为存在冗余。被标记的任务对需经过共识评审流程，最终确保所保留的任务之间不重叠。

训练子集：那些被大多数测试者轻松解决的任务被归入“公共训练集”（Public Training set）。该集合未进行难度校准。公共训练集不是一个评估集，而是为模型训练和展示ARC-AGI格式而设的一个通用任务库。因此，该集合中包含不同难度级别的任务。此外，并非该集合中的所有任务都经过了完整的人类测试。

最终验证：所有任务都经历了两层验证流程。外部验证方面，两名独立的人类测试者完成了ARC-AGI-2公共评估集、半私有集和私有集中的每一个任务（见图5），这为任务的可解性提供了初步确认。内部验证方面，除原作者外，额外安排了一名评审人必须独立完成其他任务的求解。

这些协议优先确保测试配对的正确性。在少数训练配对中发现了单元格级别的轻微不一致问题。虽然这些错误并非有意造成，且并未影响测试配对的可解性（人类知道忽略这些噪声单元格），但我们在发现之处均进行了修正，以保持任务的美观性和逻辑一致性。

在完成这些任务筛选与验证流程之后，最终的ARC-AGI-2测试配对平均被75%的尝试者成功解决。普通测试者平均解决了他们尝试任务中的66%。100% 的 ARC-AGI-2任务在最多两次尝试内被至少两人解决（其中许多任务被更多人解决）。

6 最新技术水平（State-of-the-art）

ARC-AGI-2上的基线模型性能是使用公开可用的《Model Baseline》仓库生成的（6）。模型是在半私有评估集上进行评估的。

完整的更新得分发布在官方的 ARC-AGI 排行榜上（1）。

尽管得分高于0%表明模型至少解决了一个任务，但在ARC-AGI-2中，低于5%的准确率通常不被视为具有实际意义，因为这些得分很可能来自于噪声级别的启发式方法或偶然的模式匹配。根据我们的经验，只有当表现超过5%这一阈值时，才能开始观察到有意义的信号。

7 是什么让 ARC-AGI-2 更具挑战性？ 7.1 关键设计变化

这种难度的提升源自几个关键的设计变化。

7.2 面向组合泛化的设计：示例

8 ARC Prize 2025 8.1 Kaggle 竞赛

全球性的 ARC Prize 竞赛于 2025 年回归，提供总计100万美元的奖金，以加速开源社区在完成 ARC-AGI 方面的研究进展。其目标是通过公开发布 ARC-AGI 解决方案这一具体挑战，激励人工智能研究人员探索新的思路与方法。本竞赛面向个人研究者和小型团队——他们因好奇心驱动、被复杂性激发灵感，并致力于对真正通用智能的严谨追求。

100万美元的奖金分配如下：

大奖（70万美元）
：授予第一个在隐藏的 ARC-AGI-2 私有评估集上达到或超过85% 准确率的团队。
年度进步奖（12.5万美元）
：分为“最高得分奖”（5万美元）和“论文奖”（7.5万美元），并确保在2025年颁发。
待定奖项（17.5万美元）
：额外的奖金池，用于奖励特别突出的成就。

评估协议：每次提交将在 Kaggle 的安全沙箱服务器环境中，在四块 NVIDIA L4 GPU上离线执行。在单个12小时的真实时间窗口内，提交代码必须解决240个此前未见过的 ARC-AGI-2任务，其中包括 120 个半私有评估任务和 120 个私有评估任务，且不得访问互联网（以防止数据泄露）。

每次提交后，半私有评估准确率将反映在公共排行榜上；而私有评估准确率在竞赛结束前保持隐藏状态，直到参赛者在赛后公开其解决方案。最终排名由竞赛结束后计算出的私有评估集得分来决定。

时间安排：ARC Prize 2025 于2025年3月24日启动。最终提交截止时间为2025年11月3日，论文提交截止时间为2025年11月9日。

8.2 公共排行榜

公共的 ARC-AGI 排行榜（1）提供了前沿闭源模型在该基准上的表现快照。虽然这些提交不参与 ARC Prize 2025 的评奖，但它们展示了当前公众可访问系统所能达到的水平。

排行榜采用一个2×2矩阵形式组织，两个轴分别为“每任务成本”和“得分”。将模型映射到这个空间中可以揭示效率（以成本为代理）与任务性能之间的权衡关系。

ARC Prize 还对哪些公司和模型有资格参与测试进行了限制。公共测试政策可在 ARC Prize 官网 arcprize.org/policy 查阅（2）。

9 结论

ARC-AGI-2 是对原始基准的重大升级，在保留其核心原则和任务格式的同时，解决了已知的局限性。它引入了更具复杂性和独特性的任务，专门设计用于抵御暴力破解方法，并更有效地评估组合泛化能力。大规模的人类校准测试确保了这些任务对人类仍然可解，并且在难度上得到了准确的校准。

原文链接：https://arxiv.org/pdf/2505.11831

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.