用ARC-AGI实现人机对齐的深度推理：让AI更通用、更灵活|鲁棒性|智能体|arc|深度思考模型

分享至

System 2 Reasoning for Human-AI Alignment: Generality and Adaptivity via ARC-AGI

用ARC-AGI实现人机对齐的深度推理：让AI更通用、更灵活

https://arxiv.org/pdf/2410.07866

摘要：

尽管具有广泛适用性，基于Transformer的模型在系统2（System 2）推理方面仍存在不足，缺乏实现人机对齐所需的通用性和适应性。我们考察了这些模型在ARC-AGI任务上的弱点，揭示了其在组合泛化（compositional generalization）和新规则适应（novel-rule adaptation）方面的差距，并主张要弥合这些差距，必须彻底改革推理流程及其评估方式。我们提出了三个研究方向：（1）用于组合泛化的符号表示流程；（2）用于适应性的交互式反馈驱动推理循环；（3）平衡上述两种能力的测试时任务增强方法。最后，我们展示了如何调整ARC-AGI的评估套件，以追踪在符号泛化能力、反馈驱动适应性以及任务层面鲁棒性方面的进展，从而为未来实现稳健的人机对齐研究提供指导。

引言
人工智能最近在广泛任务中取得了显著成就，涵盖语言理解、代码生成、图像合成乃至科学发现（Achiam 等，2023；Anthropic，2024；Jumper 等，2021）。这一进展很大程度上由大规模语言模型（LLMs）和在海量互联网规模数据上训练的基础模型所推动。这些模型展现出令人印象深刻的零样本（zero-shot）和少样本（few-shot）性能，表明其具备跨模态的某种通用能力。

然而，当前的人工智能系统本质上仍是数据驱动的。它们在训练分布内的插值任务上表现良好，但在面对新颖、未见过的任务时，系统性泛化能力（systematic generalization）仍然不足（Sutton，2019；Chollet，2019）。其行为往往反映的是表层模式，而非深层次的因果或逻辑推理。尽管大语言模型功能强大，但它们并非通用人工智能（AGI）。它们缺乏抽象的、组合式的、适应性的推理能力，无法解决陌生问题、应对不断变化的目标，或在开放式场景中与人类意图保持一致。

大语言模型的一个具体局限在于其难以进行多跳推理（multi-hop reasoning），即需要跨多个步骤串联多条信息的推理过程（Lee 等，2024；Gendron 等，2024）。虽然大语言模型在系统1（System 1）推理方面能力极强——系统1推理指快速、自动且基于模式的决策过程——但它们在系统2推理方面表现不佳，而系统2推理要求审慎、逻辑性强且具备适应性的思考（Kahneman，2011；Anthony、Tian 和 Barber，2017）。

我们认为，实现系统2（System 2）推理对于构建既具备通用能力又能与人类目标对齐的人工智能系统至关重要。这种推理形式依赖于两种相互依存的能力：通用性（generality），即模型能够将抽象结构泛化到新情境中；以及适应性（adaptivity），即模型能够根据上下文、反馈或任务的新颖性调整其推理过程（Chollet, 2019；Lake 等, 2017）。缺乏通用性，模型就无法在不同任务之间迁移洞见；缺乏适应性，模型就无法对分布偏移或不断演变的目标做出稳健响应。这些局限不仅阻碍了通用人工智能（AGI）的发展进程，也削弱了在动态环境中将人工智能系统与人类价值观对齐的能力。

为了评估这两种能力，《抽象与推理语料库》（Abstraction and Reasoning Corpus, ARC）（Chollet, 2019）及其后续版本 ARC-AGI 基准（Rocha、Dutra 和 Costa, 2024）提供了结构化且高分辨率的测试。在每个 ARC 任务中，模型会接收到 3 至 5 个示例输入–输出网格对，这些示例隐式地定义了一种抽象变换，随后模型需要为一个新的测试输入推理出正确的输出。成功完成任务要求模型既能泛化其中的抽象类比或变换，又能将先前习得的概念适应性地应用于新的配置中。这使得 ARC-AGI 成为评估系统2推理进展的典型基准。

迄今为止，已有多种方法被探索用于求解 ARC-AGI，包括大语言模型（Butt 等, 2024；Xu 等, 2024）、程序合成（Barke 等, 2024；Alford 等, 2021）以及神经符号混合方法（Lim 等, 2024；Hocquette 和 Cropper, 2024）。然而，即便是当前表现最好的模型，在 ARC-AGI-2 上的准确率也仅约为 15%，这既凸显了该基准固有的难度，也揭示了现有推理策略的根本性局限。

我们提出，未来在 ARC-AGI 上取得成功——并由此推动通往 AGI 的实质性进展——将需要真正实现系统2推理的模型。具体而言，我们识别出三个关键方向：（1）优先强调组合泛化（compositional generality）的模型；（2）支持反馈驱动适应性（feedback-driven adaptivity）的模型；（3）通过测试时灵活性（test-time flexibility）平衡上述两种能力的混合方法。本立场论文对这三个研究方向进行了概念性框架构建，并论证它们为构建通用、适应性强、最终可与人类对齐的推理系统提供了一条可行路径。

背景
两种推理模式：系统1与系统2

系统1和系统2推理的概念源自认知心理学（Kahneman, 2011），用于描述两种截然不同的思维模式。系统1是快速、自动且直觉式的，依赖于模式识别和习得的经验。人类在执行驾驶或基础算术等常规任务时通常使用系统1，这些任务几乎不需要有意识的努力。在人工智能中，类似的行为可通过训练用于快速推理的神经网络实现，或结合搜索方法以模拟快速决策（Anthony, Tian, 和 Barber, 2017）。然而，这类模型通常仅在熟悉且结构良好的环境中表现优异，面对新颖或复杂问题时往往难以适应。

相比之下，系统2推理是缓慢、审慎且分析性的。当人类遇到需要逻辑演绎、抽象和规划的陌生挑战时，便会激活系统2。这种推理模式能够在动态、不可预测的情境中制定策略，并支持通用问题求解和类人智能所必需的核心能力。将系统2推理引入人工智能，有望解决当前在抽象能力和逻辑灵活性方面的局限（Booch 等, 2021）。

归根结底，这两种系统不仅在速度和所需认知努力上存在差异，其底层机制也截然不同。系统1依赖于隐式的、联想式的过程，而系统2则涉及显式的、基于规则的推理。对于通用人工智能（AGI）而言，整合这两种模式至关重要：系统1支持在熟悉领域中的高效处理，而系统2则使系统能够在新情境中实现泛化与适应。二者共同构成了一个互补框架，用于构建具备稳健性且与人类对齐的推理能力的人工智能系统。

通用性与适应性：系统2推理的两个关键组成部分

系统2推理能够支持处理新颖且复杂任务所需的深层、逻辑性思维过程。要在人工智能系统中充分实现其潜力，必须具备两种关键能力：通用性（generality） 和 适应性（adaptivity）。二者共同定义了实现人工通用智能（AGI）所必需的推理灵活性。一个AGI系统不仅应在熟悉任务上表现良好，还必须能够泛化到未见过的问题，并在无需大量重新训练的情况下适应新环境。

通用性使人工智能模型能够将已有知识应用于新情境。与在训练数据上过拟合不同，一个具备通用性的AI系统能够抽象出底层原理，并将其迁移到不同任务或领域中。例如，一个在物体识别任务上训练的模型，应能以极少的监督将其理解扩展到新类别。
AI模型 M在任务集合 T和领域知识 K上的通用性可形式化为：

相比之下，适应性（Adaptivity） 指的是模型根据不断变化的环境条件调整自身行为的能力。它对于在动态或不可预测的情境中保持稳健性和相关性至关重要。例如，一个在多个物理环境中运行的机器人必须根据不同布局或障碍物调整其策略。形式上，我们将适应性定义为：

通用性与适应性之间的协同作用是实现 AGI 级别推理的核心。 一个卓越的系统必须既能从先前经验中抽象出规律，又能根据情境变化进行调整，因为这种双重能力使系统能够在陌生或不断演化的任务中实现稳健推理。因此，增强通用性与适应性是弥合当前狭义人工智能系统与 AGI 之间鸿沟的前提条件。

ARC：一个以推理为中心的 AGI 研究基准

《抽象与推理语料库》（Abstraction and Reasoning Corpus, ARC）（Chollet, 2019）被提出作为一个诊断性基准，用于评估人工智能系统以类人方式进行推理的能力。每个 ARC 任务提供若干对输入和输出网格，模型必须仅凭这些有限的示例，为一个新的输入网格预测出正确的输出。该基准明确禁止对任务进行预先训练，也明确不鼓励使用大规模数据集或手工设计的特征。因此，解决 ARC 任务要求模型具备推理抽象规则并灵活地将其应用于未见示例的能力。

ARC 尤其具有挑战性之处在于，其设计旨在评估超越统计模式识别的认知功能。这些任务通常需要组合式推理（compositional reasoning）、符号操作（symbolic manipulation）和类比推理（analogy-making），而这些能力正是心理学家所指的系统2（System 2）推理的核心。模型必须识别底层的变换规则，操作高层概念，并以类似于人类在不确定性条件下推理的方式，从稀疏数据中进行泛化。

ARC 同时也为衡量本文所强调的 AGI 推理两大关键维度——通用性（generality）和适应性（adaptivity）——提供了一个实用的试验平台。通用性是必需的，因为 ARC 任务种类多样且不可预测；模型必须能够灵活地在不同情境中复用其知识。适应性同样至关重要，因为每个 ARC 任务都引入了新的结构规则，模型必须基于有限的示例快速调整其策略。因此，在 ARC 上的优异表现不仅意味着表面的模式匹配能力，更表明模型具备更深层次的抽象能力和灵活的推理机制。

在本文中，我们提出应将 ARC 不仅视为一个基准，更应视为 AGI 级别推理的一个原则性缩影（principled microcosm）。其设计融合了通用性、适应性和符号抽象等挑战，而这些正是系统2认知的核心要素。通过明确针对这些能力，ARC 使得我们能够评估那些旨在实现更稳健、通用推理的人工智能系统。因此，在 ARC 上取得进展不仅关乎经验性能的提升，更是迈向开发具备适应性、与人类对齐的智能系统的重要一步。

ARC 中系统2推理的挑战

近期解决 ARC 任务的努力采用了多种范式，包括程序合成、大语言模型（LLMs）以及专用的 Transformer 架构。从系统2推理的角度来看，这些方法虽在泛化能力上有所提升，但在适应性方面仍面临困难，尤其是在面对不熟悉的规则或示例极其稀疏的情况下。表1对这些方法进行了比较性总结，从通用性、适应性和系统2能力三个维度评估了它们的优势与不足。这一分析凸显了对新方法的迫切需求——这些新方法需更好地融合泛化与适应能力，以推动 ARC 中的推理进展。

在接下来的小节中，我们将更详细地审视程序合成、基于大语言模型的方法以及 Transformer 变体各自的具体局限。

程序合成：受限于预定义领域特定语言（DSL）的通用性与适应性

程序合成方法旨在根据输入–输出示例生成可解释的程序以解决任务。在 ARC 的背景下，这一范式因其对符号推理和透明性的支持而尤为吸引人。然而，ARC 任务不仅要求符号推理，还要求高度的通用性和适应性——而当前的合成方法在这些方面仍难以胜任。

尽管在神经引导、以对象为中心的推理和逻辑分解等方面已取得进展，程序合成从根本上仍受限于其对预定义领域特定语言（Domain-Specific Language, DSL）的依赖。这种依赖本质上限制了系统的表达能力和灵活性。

神经程序合成利用深度学习在 DSL 内部引导搜索（Acquaviva 等, 2022；Ainooson 等, 2023；Alford 等, 2021；Banburski 等, 2020；Barke 等, 2024；Ferré, 2024；Hocquette 和 Cropper, 2024；Lei、Lipovetzky 和 Ehinger, 2024；Lim 等, 2024；Rocha、Dutra 和 Costa, 2024；Xu、Khalil 和 Sanner, 2023）。这些方法提升了效率或可解释性，例如采用双向搜索（Alford 等, 2021）或显式传递概念（Acquaviva 等, 2022）。以对象为中心的合成通过在对象抽象及其关系上进行推理，提高了通用性（Ferré, 2024；Lei、Lipovetzky 和 Ehinger, 2024）；而符号或归纳逻辑程序则增强了跨示例的基于规则的泛化能力（Barke 等, 2024；Rocha、Dutra 和 Costa, 2024）。

然而，所有这些方法都共享一个关键局限：它们的操作被限制在初始 DSL 的边界之内。如果某项任务所需的运算或抽象无法在该 DSL 中表达，系统就无法实现泛化或适应。这种脆弱性在 ARC 中尤为成问题，因为 ARC 任务被有意设计得高度多样化，且所需的变换规则事先未知。

大语言模型展现出强大的通用性，但面临适应性限制

大语言模型（Large Language Models, LLMs）已被成功应用于多种任务，包括《抽象与推理语料库》（ARC）中的抽象推理问题。这些模型通过大规模预训练，擅长识别模式并生成解决方案。在 ARC 中，LLMs 已被用于执行归纳推理、符号转换和假设精炼。尽管它们通过跨任务迁移知识展现出强大的通用性，但在面对需要更深层次、更灵活适应性的新问题时，仍然面临挑战。

近期研究探索了多种将 LLM 应用于 ARC 的策略（Butt 等, 2024；Galanti 和 Baron, 2024；Hu、Lu 和 Clune, 2024；Mirchandani 等, 2023；Qiu 等, 2024；Shin 等, 2024；Tan 和 Motani, 2024；Wang 等, 2024a,b；Xu 等, 2024）。例如，Qiu 等（2024）提出了假设精炼方法，使 LLM 能够基于反馈迭代改进其输出。Shin 等（2024）将符号任务转化为自然语言解释以促进推理，但其方法在处理高度抽象的规则时表现不佳。Mirchandani 等（2023）展示了基于 LLM 的模式识别能力，但这些模型仍受限于对预训练数据的依赖，缺乏动态调整推理策略的灵活性。

尽管 LLM 在 ARC 任务中表现出较强的通用性，但这主要源于其广泛而庞大的训练数据（即知识 K）。因此，它们通常只是在已见过的模式范围内进行插值，而非进行真正的推理；当面对未经训练的、新颖的结构时，其性能显著下降（Lee 等, 2024）。这引发了一个关键问题：当前的 LLM 可能并未进行抽象推理，而仅仅是依赖记忆化的统计模式。

近期基于大语言模型（LLM）在 ARC 任务上的性能提升，往往依赖于扩大模型规模和预训练数据量，而非引入本质上更具适应性的推理机制（OpenAI, 2024）。这反映了一种普遍趋势：通过扩展数据来增强通用性，而对“即时适应”（on-the-fly adaptation）问题却基本未予解决。

为应对这一问题，OpenAI 的 o1 模型集成了思维链（Chain-of-Thought, CoT）推理，以支持多步问题求解（OpenAI, 2024）。该设计旨在通过鼓励迭代式思考和灵活的策略转换来提升适应性（Marino, 2024）。尽管 o1 展现出一定潜力，但其在 ARC 任务上的实际表现及其对 AGI 级别推理的贡献仍不明确（Lab42, 2024）。未来的研究必须评估此类模型是否真能弥合数据驱动泛化与适应性、系统2推理之间的鸿沟。

面向 ARC 的结构偏置 Transformer

Transformer 模型在语言建模和视觉任务等领域已展现出卓越的能力。在 ARC 的背景下，多项研究探索了引入显式归纳偏置（inductive biases）的 Transformer 变体，以提升其在结构化推理任务上的表现。这些模型展现出中等程度的泛化能力，尤其在对称性、对象关系或计数等结构性规律占主导地位的领域中效果显著。然而，它们在面对新颖、非结构化的任务时往往表现不佳，限制了其灵活性和更广泛的应用潜力。

为应对 ARC 中的特定子问题，研究者已开发出多种带有结构先验的 Transformer 模型。例如，Atzeni 等人（Atzeni, Sachan, and Loukas, 2023）引入了对称性感知的注意力机制，帮助模型在几何一致的模式间进行泛化。Park 等人（Park et al., 2023）提出了以对象为中心的 Transformer，通过聚焦于对象之间的关系与交互来提升泛化能力。Ouellette 等人（Ouellette, Pfister, and Jud, 2023）则在 Transformer 架构中加入了专门的计数模块，以增强其在数量推理方面的能力。这些设计在与其结构假设相匹配的任务中效果良好，但当应用于超出其预设先验的、具有新颖或抽象规则的 ARC 问题时，往往表现不佳。

从系统2推理的角度来看，这些结构偏置的 Transformer 在适应性方面存在局限。其性能通常受限于模型设计阶段嵌入的特定归纳偏置，这使得它们在需要即时推理全新推理策略的情境中缺乏灵活性。尽管这些归纳先验能在结构良好的任务中提升性能，但这种专业化恰恰削弱了它们在 ARC 全任务多样性上的泛化能力。

如表1所示，Transformer 变体通过在结构化领域中改善泛化能力，为 ARC 挑战提供了一种部分解决方案。然而，它们在适应性方面的不足凸显了对更灵活、更具组合性的推理架构的需求——这类架构应能超越模型中硬编码的假设而运作。弥合这一差距，对于实现 AGI 级别推理的进展至关重要。

迈向 ARC 中的系统2推理：有前景的方向

前述分析表明，尽管现有解决 ARC 任务的方法在一定程度上实现了泛化，但在适应性推理方面始终存在不足——而适应性正是系统2认知的关键特征。当前大多数模型能够利用结构先验或大规模数据在熟悉分布内进行泛化，却难以对新颖或动态变化的任务做出灵活响应。这一局限凸显了对全新方法的根本性需求：这些方法不仅要能识别模式，更要能在不确定性中进行推理，并适应未曾预见的挑战。

为应对这一挑战，我们提出三个相互关联的研究方向，这些方向契合 AGI 级别推理的要求以及 ARC 基准的结构。每个方向聚焦于通用性与适应性空间中的不同维度，旨在强化系统2思维的核心支柱：抽象能力、灵活性和策略性推理。

首先，我们倡导构建一个符号表示流水线（symbolic representation pipeline），通过将低层感知数据转化为结构化的高层符号抽象，以促进组合泛化（compositional generality）。此类流水线有助于在可跨任务迁移的抽象表示上进行推理，使模型能够对问题进行语义分解，并以新颖的方式重组已知组件。

其次，我们引入一个交互式、反馈驱动的推理循环（interactive, feedback-driven reasoning loop），旨在支持实时适应性。该循环不再将推理视为一次性过程，而是允许模型通过反馈信号（无论来自环境、内部自评估还是外部修正）迭代地优化其假设。这种方法模拟了人类通过试错与策略调整进行学习的能力。

第三，我们强调测试时任务增强与训练（test-time task augmentation and training）的重要性——这是一种在推理过程中动态修改任务表示或生成任务变体的策略。通过在测试阶段向模型暴露经过扰动或增强的任务场景，该方法提升了模型对分布偏移的鲁棒性，并使其能更有效地泛化到不熟悉的模式与约束条件中。

这三个方向共同构成了一个协同的系统2推理框架：通过符号表示实现抽象，通过交互式推理实现灵活性，通过动态任务适应实现鲁棒性。我们相信，若能协同推进这些路径，人工智能系统将更具备深层抽象、策略灵活性和韧性问题求解的能力——而这正是真正系统2推理的标志。

用于可泛化推理的符号化任务抽象

要在 ARC 及类似领域中实现系统2推理，模型不仅需要处理输入数据，还必须提取并操作能够捕捉任务高层语义的抽象符号化表示。一个有前景的方向是符号化任务抽象（symbolic task abstraction），它将视觉或结构化数据转化为可解释的表示形式，从而支持在多样化任务中进行可泛化的推理。通过显式建模任务结构，此类抽象减少了对像素级模式的依赖，将人工智能的推理从表层相关性转向更深层的概念理解。

近期多项研究在这一方向上取得了切实进展。ARC-KG（Lim 等, 2024）从 ARC 的输入–输出网格中构建出类似场景图的知识图谱，其中每个节点代表一个对象，每条边编码关系或空间变换。这种符号化形式使一个溯因求解器（abductive solver）能够在图上进行推理，迭代地推理出最能解释观测行为的变换规则。通过将任务编码为共享的符号结构，ARC-KG 提供了一个可复用的框架，支持在结构相似的任务之间进行泛化。值得注意的是，该方法反映了人类将问题分解为语义组件的策略，从而实现跨任务的类比与抽象。

类似地，PeARL（Bober-Irizar 和 Banerjee, 2024）提出了一种领域特定语言（DSL），将 ARC 任务语义抽象为可解释的程序。该 DSL 包含处理形状、颜色、运动、对称性和对齐等视觉概念的构造。这使得神经网络能够学习可在任务间复用的语义基元（semantic primitives），有效地将知识压缩为符号形式。PeARL 强调组合性（compositionality），使模型能够将已知概念组合成新配置，从而更有效地泛化到未见过的任务。这与人类的认知灵活性相呼应——人类能够将已掌握的子技能重新组合以解决新问题。

其他方法则通过潜在（latent）或压缩结构探索抽象。CompressARC（Liao, 2025）引入了一种多张量架构，以紧凑的层次化格式编码任务信息的多个层级。这些潜在张量不仅捕捉局部模式，还编码对称性或重复性等抽象属性，从而支持高效的下游推理。同样，潜在程序网络（Latent Program Networks, LPN）（Macfarlane 和 Bonnet, 2025）将整个 ARC 任务嵌入到一个潜在程序空间中，推理过程通过在任务嵌入空间中进行学习式搜索来实现。这使得模型能在抽象表示空间中操作，而非直接处理像素数据，从而使推理更具可扩展性和泛化能力。

符号抽象中的另一个有前景的方向是直接从人类问题解决行为中学习高层符号表示。该方法并非人工设计符号结构，而是通过分析人类解题轨迹来推理潜在的认知结构——如目标或意图。例如，IntentionLearning（Kim、Lee 和 Kim, 2025）将 ARC 问题表述为从人类演示中提取的高层意图序列，而非低层动作步骤。这些意图通常反映对象分组、对称性强制、颜色对齐等抽象概念，这些概念不仅本质上是符号化的，而且可在任务间迁移。通过从这些表示中学习，模型能够获得类似人类推理模式的抽象策略，并超越表层输入特征实现泛化。

该方法通过经验嵌入符号结构，是对现有方法的有力补充，有望实现更具可扩展性且与人类对齐的抽象。

这些多样化的方法——包括手工构建的符号图、领域特定语言（DSL）、潜在抽象机制，以及基于人类解题轨迹的意图层级建模——都共享一个共同目标：将任务语义提炼为结构化的形式，以支持高层级、跨任务的推理。符号化任务抽象在原始输入与认知推理之间架起了一座关键桥梁，契合人类系统2思维所具有的组合性与审慎性特征。

其中，像 IntentionLearning（Kim、Lee 和 Kim, 2025）这样的方法展示了符号结构如何也能从人类推理轨迹中自然涌现，使模型能够内化那些可在任务间迁移的抽象策略。展望未来，研究应致力于开发更具表达力和灵活性的抽象框架，包括混合符号-神经架构、分层表示以及基于图的推理系统。这些方向为提升抽象推理领域的泛化能力、并向 AGI 级别认知迈进，提供了一条充满前景的路径。

用于适应性的交互式反馈驱动推理

在系统2推理中实现真正的适应性，仅靠静态推理能力是远远不够的。人工智能系统必须能够根据反馈（包括内部和外部反馈）迭代地修正其假设或策略，从而形成一个反馈驱动的推理循环，这一过程模拟了人类“尝试—反思—改进”的认知机制。这种循环在解决 ARC 任务时尤其有价值，因为 ARC 任务的解法往往并非一目了然，可能需要多个推理步骤，并随着反馈不断演进。

近期研究在构建此类交互式推理循环方面已取得令人鼓舞的成果。例如，ConceptSearch（Singhal 和 Shroff, 2025）利用大语言模型（LLM）探索程序空间，并根据评估反馈不断优化其搜索过程。这种迭代式精炼使系统能够剔除不合理的候选方案，聚焦于更符合目标输出的程序概念，从而随时间推移不断提升适应性。类似地，多智能体 LLM 框架（Mirchandani 等, 2023）提出了一种协作架构，其中不同的基于 LLM 的智能体采用多样化的推理策略，并相互交换反馈。这种智能体间的对话模拟了人类协作式问题求解过程，当个别智能体陷入僵局时，能够支持灵活的适应性调整。

更针对性的方法体现在 CodeIt（Butt 等, 2024）中，它采用了一种优先级回溯重放机制（prioritized hindsight replay mechanism）。该模型会回顾过去失败的尝试，并有选择性地从高质量示例中提取反馈，以改进后续输出。这种设计构建了一个自我改进的循环：模型不仅从外部反馈中学习，还能评估并从自身过往经验中学习。这种回溯式学习通过帮助模型摆脱次优推理模式，显著增强了其适应性。

最后，REx（Tang 等, 2024）进一步证明了反馈驱动适应性的有效性。它将代码修复建模为一个交互式任务：模型迭代地提出修复方案，并根据反馈信号对其进行评估。随着时间推移，模型在探索新颖修复方案与利用先前成功模式之间取得平衡，展现出一种能以原则性方式适应错误模式的灵活推理循环。

这些研究表明，交互式反馈循环是适应性推理的关键组成部分。相比于依赖单次推理（one-shot inference），那些能够进行多轮“假设生成—反馈获取—策略修正”的模型，在面对新颖、不确定或结构复杂的任务时更有可能取得成功。这与人类系统2推理的认知过程高度一致——在该过程中，适应性往往源于对中间结果的学习。未来的研究应深入探索如何构建和引导这些反馈循环，包括哪些形式的反馈（如符号化、程序化或自然语言反馈）最为有效，以及如何将它们整合到学习与推理流程中。

测试时任务增强与训练以提升鲁棒性

许多 ARC 求解模型的一个核心局限在于：在推理阶段无法动态适应不熟悉的任务。尽管通过大规模训练可以实现一定程度的泛化，但真正的适应性要求模型能够根据每个新任务的具体结构，动态更新或优化其内部推理机制。为解决这一问题，近期研究探索了测试时训练（Test-Time Training, TTT）技术——即在推理过程中，模型通过任务特定的增强或内部反馈继续学习或微调。

该领域的一项开创性工作是 MARC（Akyürek 等, 2024），首次将 TTT 引入 ARC 领域。MARC 并非使用静态模型直接求解任务，而是通过测试时优化持续改进其预测。它通过对输入进行扰动，并在无监督损失（例如与增强样本的一致性）上进行反向传播，证明了即使小型模型，只要具备适应性推理能力，也能超越规模大得多的基线模型。这一结果有力地表明：推理阶段的适应性与训练阶段的模型容量同等重要。

在此基础上，后续多项研究将 TTT 融入更复杂的流程中。例如，BARC（Li 等, 2025）将归纳推理与转导推理（transductive reasoning）结合，并引入测试时自训练以提升性能。该模型首先利用其最置信的预测生成伪标签，然后通过多轮迭代在这些标签上进行自我训练。这种迭代精炼显著提升了其跨任务泛化抽象模式的能力。

类似地，LLM ARChitect（Franzen、Disselhoff 和 Hartmann, 2024）在一个模块化系统中集成了 TTT，该系统结合了基于 LLM 的模式发现与网格变换功能。在推理过程中，LLM ARChitect 利用测试时增强（如对输入网格进行轻微修改或生成合成类比）对其模块进行微调。这使得系统能够优化初始假设，并基于增强输入之间的一致性，选择最合理的变换方案。

测试时训练（TTT）的日益普及也体现在《ARC Prize 2024 技术报告》（Chollet 等，2024）中，该报告指出 TTT 是表现最佳参赛方案中的一个常见要素。在 ARC Prize 2024 中，多个顶尖团队采用了基于 TTT 的策略，包括网格扰动、迭代式自标注（iterative self-labeling）和对比学习（contrastive learning），以增强模型的鲁棒性。这些发现进一步印证了一个观点：仅依靠静态示例进行训练，不足以支撑高水平的推理。模型还必须配备支持在线适应（online adaptation）的机制。

总之，测试时任务增强（test-time task augmentation）是提升抽象推理任务中适应性的一项强大工具。它使模型能够根据当前任务的结构动态地探索并优化其假设，而非仅仅依赖预训练或固定的启发式规则。未来的研究应探索更丰富的增强方案、自适应的损失函数以及混合优化策略，以进一步挖掘 TTT 在推动类人推理系统发展方面的潜力。

结论

《抽象与推理语料库》（Abstraction and Reasoning Corpus, ARC）旨在通过评估人工智能系统在极少监督条件下解决新问题的能力，来探究通用智能的基础。与专注于模式识别或数据驱动学习的传统基准不同，ARC 要求模型具备概念抽象、结构理解以及灵活推理的能力。这些特质正是所谓系统2推理（System 2 reasoning）的标志——它超越了统计学习，涵盖审慎、适应性强且目标导向的认知过程。

在本研究中，我们系统地考察了三种主流范式——程序合成、大语言模型（LLMs）和基于 Transformer 的架构——在应用于 ARC 任务时的局限性。尽管每种方法都取得了一定程度的成功，但它们在泛化到真正新颖任务以及在测试时动态适应方面仍存在根本性约束。这一差距在适应性方面尤为突出：当前系统很少能根据新证据修正其假设，或在任务执行中途调整策略。因此，它们尚未达到 AGI 级别推理所需的稳健性与灵活性。

为应对这些挑战，我们提出了三个相互关联的研究方向，旨在同时提升人工智能模型的通用性与适应性：

第一，符号化任务抽象（symbolic task abstraction）强调人工智能系统需要从低层输入中提取编码高层语义的结构化表示。这类表示支持组合式推理、跨任务泛化和可解释性，是实现灵活问题求解的关键要素。

第二，我们提出了一种交互式、反馈驱动的推理循环（interactive, feedback-driven reasoning loop），其灵感源于人类通过试错不断优化策略的能力。配备此类循环的模型能够根据反馈调整其内部假设，从而在推理过程中实现上下文敏感的推理与迭代改进。

第三，我们倡导测试时任务增强（test-time task augmentation），即在推理阶段利用任务变体或扰动后的输入版本来提升模型鲁棒性。该策略有助于模型摆脱对特定数据分布的脆弱依赖，迈向更具适应性的通用智能。

这三个组成部分共同构成了在人工智能系统中实现系统2式认知的蓝图。它们协同作用，为构建能够结构性泛化、过程性适应和策略性推理的模型提供了一条充满前景的路径——而无需依赖海量预训练数据或脆弱的启发式规则。

未来的研究必须超越仅评估模型最终答案的范式，转而深入探究其中间推理过程、适应轨迹以及内部构建的结构化表示。像 ARC 这样的数据集，尤其是当辅以人类解题轨迹或更丰富的任务变体时，为此类研究提供了肥沃的土壤。此外，将强化学习、课程学习和神经符号架构与上述方向相结合，有望催生不仅能模仿人类行为、更能逼近人类深层推理能力的系统。

我们认为，系统2推理不仅是一种理想特性，更是任何旨在实现 AGI 的模型所必需的基础。若缺乏结构化抽象、主动反馈整合和稳健适应能力，无论模型规模多大，人工智能仍将局限于狭窄领域。ARC 不仅仅是一个基准，更是检验这些核心能力的试炼场。通过上述原则推动 ARC 性能的进步，并非旁门左道，而是通往通用智能的直接路径。

现在是时候让整个领域停止对表面指标的盲目优化，转而设计真正会思考、适应和推理的模型了。归根结底，我们主张：通往稳健、对齐且通用的人工智能之路，并不在于扩大数据或参数规模，而在于培育系统2推理的核心机制——抽象、适应与交互式学习。

原文链接：https://arxiv.org/pdf/2410.07866

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.