LLM推理能力深度解析|示例|逻辑推理

分享至

Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus

大语言模型推理能力研究：基于抽象推理语料库的深度分析

https://arxiv.org/pdf/2403.11793

摘要

现有的评估大语言模型（LLMs）推理能力的方法主要集中在结果导向上，这使得全面评估其推理过程变得具有挑战性。我们引入了一种新颖的方法，使用抽象与推理语料库（ARC）基准，以一种过程导向的方式评估LLMs的推理和上下文理解能力。我们的方法聚焦于思维语言假说（Language of Thought Hypothesis, LoTH）中的三个关键要素：逻辑一致性（Logical Coherence）、组合性（Compositionality）以及生成性（Productivity）。

我们精心设计的实验表明，尽管大语言模型在某些推理任务上展现出一定能力，但在上述三个方面仍显著落后于人类水平的推理能力。本文的主要贡献在于引入了LoTH视角，提出了一种传统结果导向方法无法捕捉的、用于评估推理过程的方法，从而为实现类人水平推理的人工智能系统的发展提供了新的洞见。

1 引言

最近的大语言模型（LLMs）展现出了接近人类水平的表现，但实验结果显示它们缺乏通过思维或推理进行规划的能力 [6]。因此，当前语言模型研究中的一个关键问题是：大语言模型能否思考？

为了解答这个问题，研究人员提出了新的用于衡量推理能力的基准测试任务，例如 MathVista [37]、Bongard-Logo [44] 和 Raven [75]。在这些任务中，抽象与推理语料库（Abstraction and Reasoning Corpus, ARC）[8] 成为了评估推理能力的一个代表性基准。

如下图1所示，ARC 中的每个任务包含2到5对演示示例（即输入-输出配对），以及一个测试用的输入网格。目标是从给定的演示示例中推断出规则，并将其应用到测试示例上。输入和输出的网格大小可以从最小的 1×1 到最大的 30×30 不等，每个网格中最多可包含10种不同的颜色。

尽管ARC的内容和评估方法看似简单，它仍然是一个尚未解决的挑战。它要求高度的抽象能力和多步骤推理能力，这也解释了为什么传统的深度学习技术未能取得成功。迄今为止表现最好的模型仅达到了40-55%的准确率 [30]，而大语言模型（LLMs）如GPT-4和PaLM的准确率则大约在10-20% [42]。与人类平均80%的准确率 [27] 相比，这些结果表明人类与LLMs在推理和抽象能力方面存在显著差异。

然而，目前对于LLMs如何进行推理、以及其推理方式与人类有何不同的深入研究仍然缺乏。这一空白促使人们呼吁从结果导向的评估转向对推理过程更为细致的分析 [2, 7, 24, 72]，表明我们需要一种新的视角，即基于推理过程而非仅仅结果来评估推理能力。

为了克服人工智能领域中结果导向分析的局限性，本研究采用了关于人类推理能力本质的已有理论。根据思维语言假说（Language of Thought Hypothesis, LoTH）[17]，人类的推理能力包含三个基本特征：

逻辑一致性（Logical Coherence），即在推理过程中保持一致性的能力；组合性（Compositionality），即通过较简单的组成部分构建复杂思想的能力；生成性（Productivity），即利用有限的元素集合生成无限数量的思想或解决方案的能力。

尽管之前已有研究尝试评估逻辑一致性、组合性和生成性 [6, 58]，但存在一些局限性：一方面，不同论文中对每个组成部分的定义各不相同；另一方面，现有的基准测试在评估各个方面的能力时表现不足。本研究与以往研究主要有两点关键区别：1）将来自心理学的概念重新定义并适配到计算机科学领域；2）通过视觉推理基准 ARC 来评估所有这些要素。

为实现上述目标，我们设计了三项实验：

（1）逻辑一致性（Logical Coherence）：LoTH 指出逻辑一致性包含两种类型。一是推理一致性（Inferential Coherence）——即在多个相关实例中连贯地应用逻辑推理的能力；二是语义一致性（Semantic Coherence）——即在推理过程和结果中保持逻辑一致性的能力 [18]。为了验证这两种逻辑一致性，我们在每一个已解决的 ARC 任务基础上增加了 100 个相似的测试样例，并评估 LLM 在这些相关实例上的表现。此外，我们还分析了解题过程，识别那些答案正确但推理错误的情况，以衡量 LLM 的语义一致性。

（2）组合性（Compositionality）：组合性指的是一个系统表达某一命题的能力与其表达相关命题的能力之间具有内在联系 [18]。在本研究中，我们将组合性定义为能够组合给定语义信息的能力。因此，为了评估组合性，需要验证模型是否能按照预期组合这些语义信息。为此，我们向 LLM 提供了一系列分步骤的功能函数，并考察它们是否能够识别出用于解决 ARC 问题的合适函数。随后，我们进一步分析了 LLM 是否能准确预测这些分步函数的执行结果，并探究其失败的原因。

（3）生成性（Productivity）：生成性指的是通过有限的一组语义信息无限地创造未曾见过的新表达的能力 [18]。然而，要定量地衡量是否能够创造出无限数量的新表达是困难的。因此，以往的研究通常通过评估模型是否能够生成符合规则且未见过的新表达来衡量生成性 [25, 31, 59]。类似地，在本研究中，为了评估生成新表达的能力，我们在给定一组功能函数的前提下，考察模型是否能够生成符合规则、且未曾在训练中出现过的 ARC 任务。

结果表明，我们确认当前水平的 LLMs 具备对图像的基本理解能力，并能够执行简单类型的组合性对象操作。然而，与人类的推理能力相比，LLMs 在以下三个方面仍存在不足：
1）它们在推理一致性和语义一致性方面表现不佳；
2）它们的逻辑推理能力，尤其是以逐步方式进行推理的能力较弱；
3）它们在复杂约束条件下理解和生成未曾见过的表示形式时存在困难。

最后，本研究总结并提出了近期为解决抽象能力和推理能力不足而提出的若干发展趋势。根据人类推理的各个组成部分来分析 LLMs 的推理能力，并探讨如何增强每一个组成部分，这是一种区别于以往研究的新方法。它为未来测量和提升 LLMs 推理能力提供了新的视角。

2 预赛

本节旨在在对大语言模型（LLMs）的推理能力进行详细评估之前，解释我们为何选择从思维语言假说（LoTH）视角和抽象与推理语料库（ARC）出发来进行研究。首先，在第2.1节中，我们将回顾关于推理能力的现有定义，并说明为何 LoTH 在衡量智能方面具有重要意义。随后，在第2.2节中，我们将展示 ARC 是一个适合从人类推理角度研究 LLMs 的基准测试，原因如下：1）它使用可泛化的抽象语义；2）它易于修改。

2.1 对评估 LLMs 推理能力的局限性

对评估 LLMs 能力的研究持续不断，并突出了其在图像和文本生成方面的优势。特别是分析表明，LLMs 具备某种“世界模型”（World Model）[22] 的元素，显示出其在推理任务中的潜力。然而，推理能力仍存在挑战 [58]，常常观察到诸如推理扭曲或不完整等错误 [34]。研究表明，复杂的组合性仍然是一个重大挑战 [16]。

关于 LLMs 推理能力的不同观点源于以结果为中心的测量方法。图灵首次将评估方式引向了注重结果的方向 [56]，之后许多研究者也聚焦于性能指标 [40, 49, 67]。最近，Chollet 尝试从结果导向的角度量化推理能力 [8]。然而，这些研究都关注推理所能实现的结果，而未具体说明其组成部分。West 等人 [66] 对仅从这一视角评估 LLMs 的推理能力提出了担忧。

为克服这些局限性，我们提出采用LoTH 视角。LoTH 通过将推理的组成部分与定量指标相结合，丰富了相关讨论。该理论认为，推理涉及具有组合语法和组合语义的心理表征的操作过程。我们的研究基于 LoTH 来评估 LLMs 的推理能力，重点关注逻辑一致性、组合性和生成性。

以往的研究曾分别评估过这些方面：

逻辑一致性指在解决问题过程中构建一致逻辑的能力 [76]；
组合性涉及理解和组合复杂表达式的能力 [31]；
生成性则通过有限资源下输出的准确性和效率来评估 [25, 59]。

然而，这些尝试缺乏统一的标准，也无法直接与人类推理过程进行对比。

采用 LoTH 视角为提升推理能力提供了有力依据。它有助于开发出一种类似人类推理的信息处理和任务解决方式：

逻辑一致性确保推理过程中无矛盾；
组合性使已有知识能适应新场景；
生成性提升根据给定规则生成结果的能力。

因此，这种方法有助于 LLMs 实现更接近人类的推理能力，使其能够以创新且合理的方式应对复杂问题。

2.2 使用 ARC 作为推理基准的优势

抽象与推理语料库（Abstraction and Reasoning Corpus, ARC）成为从 LoTH 视角评估推理能力的一个有力候选。ARC 与 LoTH 相契合，因为它要求通过组合语义信息来解决问题，并且允许任务的灵活修改。

2.2.1 ARC 的核心特性

ARC 的关键特征在于它要求提取并组合具有组合性的语义信息，这需要复杂的解题方法。两个研究发现支持这一观点：

（1）语义信息的重要性：研究表明，补充的语义信息能显著提升 ARC 任务的表现。例如，整合以图形式表示的对象信息后，成功率几乎翻倍 [71]。

（2）ARC 的高抽象层次：ARC 的抽象程度超过了其他基准测试 [41]。Chollet 认为，传统特征提取方法在 ARC 面前显得不足，因为 ARC 要求对形状进行复杂解释并对变换过程有深入理解 [8]。

这些观察结果突显了开发能够有效提取和利用复杂、抽象信息的方法的必要性，以便解决 ARC 任务。这种特性正好契合 LoTH 的视角，即将推理能力视为由语义组合所驱动的能力。

2.2.2 基准适应的灵活性

尽管 ARC 的规则看似简单，但它仍然是一项极具挑战性的任务：LLMs 的准确率仅为 15% [47]，传统程序合成模型达到了 26% [68]，而人类平均准确率为 80% [27]。为了应对这一挑战，出现了多种 ARC 的变体：

（1）1D-ARC [71]：将维度从二维降低到一维，在保留核心知识的同时简化了复杂度。该变体有效解决了对象聚合问题，LLMs 在其上的准确率高达约 90%。

（2）MC-LARC [51]：采用多选格式，将生成式任务转变为选择式任务。GPT-4 在此格式下表现出色，准确率约为 75%。

（3）Mini-ARC [28]：将网格大小限制为 5×5，在保留二维生成特性的前提下简化输入。其表现仍具挑战性，与原始 ARC 相似（准确率约为 15%）。

（4）ConceptARC [43]：将任务按概念分组，聚焦于特定的空间和语义概念。其表现也与原始 ARC 类似（准确率约为 20%）。

这些变体展示了 ARC 在实验设计中的高度可塑性，并强调了解决 ARC 任务时组合性的重要性。其中，MC-LARC 和 1D-ARC 减少了推理步骤的复杂性，而 Mini-ARC 则专注于降低图像复杂度。不同变体之间的性能差异表明，减少对复杂变换组合的需求可以显著提升模型表现，从而突出了组合语法在解决 ARC 任务中的重要性。

综上所述，ARC 成为了一个适合从 LoTH 视角评估推理能力的有力基准。其核心优势在于要求通过提取和组合具有组合性的语义信息来完成任务，这一点已被附加语义信息带来性能提升的实验证据所证实。各种 ARC 变体展现了其在不同实验目的下的灵活性，而它们之间的性能差异进一步凸显了组合语法在解决 ARC 任务中的必要性。此外，ARC 所展现出的高度抽象性和推理复杂性——体现为人机之间显著的表现差距——也验证了其作为探索 LoTH 框架下推理能力的有效工具的价值。

3 使用 ARC 基准评估 LLMs 的推理能力

为了评估语言模型（LMs）是否具备推理能力，可以将其与人类的推理能力进行比较。正如第 2.1 节所解释的那样，根据思维语言假说（LoTH），人类的推理能力大致可分为三个主要组成部分：逻辑一致性（第 3.1 节）、组合性（第 3.2 节）和生成性（第 3.3 节）。我们利用 ARC 来从 LoTH 的视角评估 LLMs 的各项推理能力。

3.1 LLMs 的能力之一：逻辑一致性 3.1.1 动机

第 3.1 节旨在评估 LLMs 的逻辑一致性。这是 LoTH 中一个基础性的方面，它将“一致性”分为两个维度：推理一致性和语义一致性[18]。

语义一致性指的是在推理过程及结果中保持逻辑一致的能力；
推理一致性则指一个系统在某些情况下能够执行某种推理的前提下，能否在所有相关实例中一致地应用该类推理。

这些概念在人类认知过程中至关重要，并且与 ARC 任务中所需的规则推理密切相关。

我们的初步实验主要通过评估 LLMs 所产生的结果是否在其问题解决步骤中具有逻辑连贯性，来衡量其语义一致性。这项评估使用了多种提示技术（prompt techniques），如思维链（Chain of Thought, CoT）[65]、由简至繁（Least to Most, LtM）[78] 和思维树（Tree of Thought, ToT）[74]，这与之前尝试解决 ARC 任务的方法类似 [42, 71]。我们比较了不同提示策略所达到的一致性水平，旨在识别出在多样化的解题情境中哪些技术能够产生最具有语义一致性的结果。

然而，我们也意识到这种方法在评估推理一致性方面的局限性，因此引入了基于增强型 ARC 任务的补充实验。这些任务是通过 Re-ARC 程序 [23] 创建的，使我们能够评估 LLMs 在原本已解决的问题变体中是否能持续应用相同的逻辑模式，从而更全面地评估其逻辑推理能力。

3.1.2 不同提示技术之间的比较

LLMs 在逻辑推理方面存在不足，这一问题已被多次指出，直接尝试解决 ARC 任务的成功率通常低于 10% [42]。为了解决这一问题，研究者正通过诸如思维链（CoT）、由简至繁（LtM）和思维树（ToT）等提示技术来提升 LLMs 的逻辑推理能力。这些策略被证明能够有效激发 LLMs 的推理能力 [61]，并且由于它们采用逐步推理的方式，使得人类更容易理解和分析其推理过程，从而具备更高的透明度。

因此，在本实验中，我们通过解决 ARC 任务的方式来评估这些提示策略对 LLMs逻辑一致性的影响。

我们使用GPT-4-32k模型，采用三种主要的提示技术 —— CoT、LtM 和 ToT，来解决 100 个 ARC 评估任务。每种技术都进行了五轮测试。ARC 任务遵循“少样本学习”（few-shot learning）范式，要求模型从给定的示例对中推断出任务规则，并将其应用于测试示例。

CoT 方法通过生成结构化的思维链条来提升推理表现，该链条系统地连接了解决 ARC 任务所需的各个步骤，并在提示中提供相应的示例；
LtM 方法将任务分解为多个可管理的步骤，并依次执行；
ToT 方法则在每个分解步骤后生成多个候选答案，通过投票机制选出最佳候选后再继续下一步。

表 1：每种提示技术的平均表现。准确率基于使用 CoT、LtM 和 ToT 提示解决 100 个随机 ARC 任务的结果，每种提示重复五次。括号外的准确率表示仅结果正确的准确率，括号内的准确率表示结果和过程均正确的准确率。

在不同提示方式下对 ARC 任务的准确率进行比较时，CoT 的表现优于 LtM 和 ToT。表1展示了将 LtM、CoT 和 ToT 应用于从 ARC 评估集中随机选取的 100 个任务的结果。实验重复了五次，每次迭代中都包含了正确答案的百分比。

CoT 的准确率约为 10%
LtM 和 ToT 的准确率约为 6%

这表明 CoT 具有更优越的表现，而 ToT 和 LtM 则存在累积误差传播的问题：其多步骤答案生成过程中，某一步骤中的小错误可能会在后续步骤中导致更大的错误。

考虑到 CoT 相较于 LtM 和 ToT 更高的准确率（约 11% 对比约 7%）以及更强的抗误差传播能力，我们在后续实验中仅使用了 CoT 提示方法。

然而，当我们检查解题过程的正确性时，三种提示技术的准确率均较低，括号内的数据显示它们的准确率都在3% 左右，且没有显著差异。这些结果表明，尽管不同的提示技术在准确率上有所差异，但在语义一致性方面几乎没有差别。

这种在各种提示方法之间的一致性表明，问题并不在于引导模型输出的方式，而在于 LLMs 自身的基本推理能力存在局限性。此外，无论是在结果还是过程方面，LLMs 的表现都远低于人类平均 80% 的准确率。

这些低性能指标，特别是与人类基准相比时，不能归因于特定提示技术的局限性。研究结果表明，LLMs 在逻辑一致性方面明显落后于人类。为了进一步分析造成这一现象的具体原因，我们进行了后续实验。

第 3.1.3 节分析了逻辑一致性的一个方面 ——推理一致性；
第 3.1.4 节则通过案例研究，考察了 LLMs 的语义一致性。

3.1.3 LLMs 的推理一致性

在我们的第二项实验中，我们测试了 LLMs 的推理一致性，即它们在共享同一类比规则的任务中保持相同逻辑推理能力的表现。为了评估这一点，我们检验了 LLM 是否能够解决那些与先前已解决的 ARC 任务具有相同规则的新问题。

图6总结了该实验，详细流程见算法1。我们首先使用GPT-4o来解决400个ARC任务中的示例，¹ 并重复此过程五次，以识别出那些可以被持续解决的任务。对于至少有一次被正确解决的任务，我们使用 Re-ARC [23] 生成了100个额外的示例，这些示例模仿了原始任务的解题方式。我们假设，一个具备推理一致性的模型应能解决所有增强后的示例，从而让我们能够严格测试其在相似任务间的泛化能力。

图7展示了结果的两个关键分析。累积分布（图7a）显示，在所有五次迭代中均呈现出一致的指数衰减模式，表明无论哪次迭代，一致性水平始终较低。准确率分布（图7b）显示，在增强后的示例中，有57.8%的任务准确率低于10%。总体来看，这些结果表明LLMs在ARC任务上的推理一致性非常有限。

3.1.4 案例研究：LLMs 的语义一致性

最后，我们分析了 LLMs 在第 3.1.2 节和第 3.1.3 节中所描述的两个实验中是如何解决任务的。在评估 CoT、LtM 和 ToT 三种提示方式时，不仅关注最终答案的正确性，也考察其解题过程，我们发现：无论使用哪种提示方式，过程与结果同时正确的准确率约为 3%，这表明许多正确答案实际上是通过错误的推理过程得出的，如图 8 所示。

为了解决该任务，应执行以下步骤：1）在输入网格中识别出 5×5 的对象；2）统计每个对象中黑色方块的数量；3）提取出黑色方块最多的对象。

然而，CoT、LtM 和 ToT 都以错误的方式尝试解决该任务：

对于CoT，模型对输入网格中的对象进行了排序，并选择了中间的对象作为输出。尽管 CoT 得出了正确的答案，但其排序对象的方法缺乏明确逻辑；
对于LtM 和 ToT，它们意识到需要从输入网格中选择特定对象来完成任务，但却错误地识别了测试输入网格中的对象。

这些解决方案存在一个共同缺陷：它们未能在所提供的训练输入与输出示例之间建立一个逻辑一致的规则。换句话说，无论采用哪种提示技术（CoT、LtM 或 ToT），LLMs 仍难以展现出一种能够跨示例一致应用的、逻辑连贯的推理能力。

在针对训练集开展的第二次实验中，也观察到了从错误推理过程中得出正确结果的不一致现象。在对 400 个训练任务中至少被解决过一次的 83 个任务进行自然语言解释分析后，我们发现其中有 35 个任务的 LLM 所提出的解决方案实际上无法得出正确答案。

这一发现表明，无论采用何种提示技术或任务类型，LLMs 在语义一致性方面均存在不足。换句话说，LLMs 所产生的结果与其推理过程之间并无实质性关联，这一点已从其通过错误的解题过程却生成正确答案的现象中得到印证。

尽管如此，在第 3.1.3 节中，我们发现了有 8 个任务，LLM 的解决准确率达到了 0.6 或更高。如图 9 所示，这 8 个任务的解决方案相对简单，包括镜像操作、颜色映射以及部分网格复制等。这些任务具有一个共同特征：概念上较为简单，仅使用了 ARC 中所包含的四个先验知识领域中的一个：对象性（objectness）、目标导向性（goal-directedness）、数字与计数（numbers and counting）和基础几何（basic geometry）[8]。

而对于需要使用两个或以上先验知识领域的 17 个任务，LLM 在所有 100 个增强示例中均未能成功解决。尽管 LLM 曾经解决了原始任务，但在增强示例中却完全无法应对，这一事实表明 LLM 并不具备语义一致性，甚至可能暗示存在数据泄露（data leakage）的可能性。

这一全面分析表明，虽然 LLM 可以解决某些简单的模式识别任务，但在需要整合多个概念的复杂推理任务面前仍面临显著困难。在增强测试样例中无法一致地应用规则，再加上通过错误推理过程得出正确答案的现象，突显了当前 LLM 系统在面对类似 ARC 所提供的抽象推理任务时，在推理一致性和语义一致性方面存在重大局限。

3.1.5 结论

在第 3.1 节中，我们通过使用三种不同的提示技术来解决 100 个 ARC 任务，评估了 LLM 的逻辑一致性。结果显示，准确率在 4% 到 12% 之间波动，表明不同提示方法对推理表现有一定影响。此外，在使用 GPT-4o 对 400 个训练任务进行实验时，LLM 表现出高达 20% 的准确率。

然而，通过深入的定性分析，我们发现 LLM 的结果可能并不具备逻辑一致性。对于每个已解决问题所生成的 100 个增强测试样例，LLM 仅在 83 个已解决问题中的 8 个任务中实现了超过 60% 的表现。更进一步的是，在 83 个已解决问题中有 35 个任务（近一半），LLM 提供的解题过程是错误的，无法推导出正确的结果。

这项分析表明，LLM 尚未达到人类水平的逻辑一致性。

本研究的结果与此前关于 LLM 在逻辑问题求解方面仍面临挑战的研究结论一致。有研究 [60] 发现，即使 LLM 的推理步骤存在问题，它也能在 CoT 提示下生成逻辑上一致的推理。另一项研究 [77] 表明，LLM 在数学推理和翻译等任务中难以实现准确的自我反思。此外，还有研究 [57] 揭示，LLM 常常无法检测中间步骤中的错误，暴露出其推理过程中的缺陷。

尽管这些研究指出，提供更多上下文信息或加强自我反思机制可能有助于提升逻辑推理能力 [60, 65, 77]，但我们的研究结果表明，这些问题依然存在，说明问题的核心可能并不仅仅是缺乏关于问题的信息。

3.2 LLMs 的能力之二：组合性 3.2.1 动机

在第 3.2 节中，我们研究了 LoTH 的第二个核心概念 ——组合性。
组合性指的是在给定简单表达的前提下，生成复杂语言表达的能力 [18]。这一特性使个体能够通过将子任务分解为更简单的步骤，来有效应对更复杂的任务，也体现了人类在面对复杂任务时的解决能力。强大的组合性不仅有助于解决复杂任务，还能对解决过程进行清晰透明的描述，这也是 LLMs 的一个重要方面。

本节使用 ARC 来测试 LLMs 的组合性。以往的研究通过在提示中提供可以组合以解决任务的功能函数，并检查模型是否能够利用这些函数完成任务，从而测试其组合性 [53]。同样地，在本研究中，我们也提供了一系列分步骤的功能函数，我们将其称为DSL（领域特定语言），并开展实验验证 LLMs 是否能够利用这些函数解决 ARC 任务。

此外，为了理解某些任务为何未能被解决，我们还进一步对模型对这些函数的理解能力进行了实验。因此，我们验证了 LLMs 是否理解为 ARC 任务所提供的函数含义，以及它们是否能够正确地组合这些函数以产生预期结果。

实验结果显示，尽管 LLMs 对所提供的函数及其与图像之间的关系具有一定的理解能力，但它们在分解和组合函数以实现预期目标方面的能力仍然较弱。

3.2.2 LLMs 的组合性

在第一个实验中，为了测量组合性，我们向 LLM 提供了关于 DSL（领域特定语言）的信息，并要求它们解决给定的 ARC 任务。图 10 展示了整个实验的结构。

如果一个 LLM 具备足够的组合性，它应该能够为给定的目标选择合适的 DSL 及其参数。然而，在 LLM 未能选择正确 DSL 的情况下，我们进一步划分了条件以识别失败原因。这些条件包括：LLM 是否理解目标（goal）以及是否理解解题过程。

为了根据每种条件分析结果，我们进行了四种类型的实验： 1）仅提供 DSL； 2）提供正确的输出结果以及 DSL； 3）提供 ARC 测试样例的人类描述 [51] 以及 DSL； 4）同时提供正确的输出网格、人类描述以及 DSL。

提供正确的输出网格可以用于判断在已知或未知目标的情况下的组合性表现；而提供人类描述则可以展示自然语言描述对组合性的影响。

我们将每个 DSL 作为 Python 函数提供。在本实验中，我们使用了 19 种可用于解决 ARC 任务的 DSL。提示信息通常包括：

对 ARC 的简要说明，
带注释的 DSL 函数代码，
DSL 使用示例，
任务演示示例，
测试样例的输入，
以及测试输入的对象信息。

对象信息是解决 ARC 任务的关键参数之一，因此我们将其添加到了提示中。我们使用PnP 算法 [46]从 ARC 任务中提取对象信息。

LLM 在每一步返回一个 JSON 格式的字符串，表示所选择的 DSL 和对应的参数。我们利用这些信息来验证 LLM 是否通过适当的 DSL 和参数组合得出了正确的测试输出。

本实验使用的是最新模型GPT-4o。

最后，为了建立一个基线（baseline），我们还进行了人类实验。我们开发了一个专用工具（图 11），向参与者提供与 LLM 相同的信息：ARC 任务的示例演示、初始测试输入、当前网格状态、DSL 函数以及通过 PnP 提取的对象信息。

共有七名参与者参与实验，他们被限制只能使用与 LLM 相同的 DSL 来解决任务。通过这些实验我们发现，在 800 个公开可用的 ARC 任务中，有 158 个任务可以在 10 步 DSL 操作内使用给定的操作解决。因此，第 3.2 节中的所有实验都是基于这个可解任务子集进行的。

实验结果如表 2 所示。在 LLM 实验中，当提供测试输出时，平均准确率为9%；未提供测试输出时，准确率下降至3%。当提示中加入人类解释时，组合性表现有所增强，其提升幅度与提供测试输出的情况相似。Cronbach’s alpha 测量结果显示了响应的一致性，四项实验的得分均超过 0.7。

在人类实验中，参与者平均解决了 137 个任务，在可解任务上的准确率约为86%。LLM（3–14%）与人类（86%）之间显著的性能差距表明，尽管拥有相同的信息和工具，LLM 在 DSL 组合性方面仍面临根本性的挑战，而这些挑战是人类可以自然克服的。

3.2.3 因 DSL 误解导致的组合失败分析

问题在于，表 2 中描述的平均准确率并不完全反映组合性。DSL 提供了一种逐步方式来表示 ARC 任务中的解题步骤。当我们使用 DSL 来解决这些任务时，可以将每一步选择正确 DSL 的可能性分为两个部分来考虑：

1）LLMs 对 DSL 的理解程度：这体现在给定 DSL 指令后，模型预测下一步网格状态的准确性； 2）每一步预测网格对最终解决方案的必要性：这与各个步骤之间是否能够良好衔接、共同完成任务有关。

能否在所有步骤中都选择正确的 DSL，取决于这两个因素的共同作用。要成功解决一个任务，必须在连续 10 步中都选择正确的 DSL。基于我们的初步分析，我们将 DSL 理解能力与组合难度之间的关系建模为一种乘法交互关系，如公式（1）所示。

在该公式中：

表示 DSL 序列长度，
表示需要个步骤才能解决的任务数量，
表示单步准确率，
表示每个任务的组合难度。

我们假设，LLM 的组合能力会因提供给它的信息内容以及任务本身的不同而有所变化。

为了仅考虑组合难度来确定任务准确率，我们必须在= 1（即单步选择完全准确）的情况下估算值。因此，我们进行了一个额外的实验，如图 12 所示，以验证在选择 DSL 时由于无法预测输出网格而导致找不到合适 DSL 的概率。

在额外的实验中，我们从 800 个公开可用的 ARC 任务中选取了 158 个任务，特别选择了那些可以在 10 步 DSL 操作内解决的任务。我们检查了在给定 DSL 和 ARC 输入网格的情况下，LLM 能够多准确地生成正确的输出网格。每个任务重复进行了 10 次，以确保结果的可靠性。

在这些实验中，我们向 LLM 提供了由人类解题者创建的正确 DSL 操作和参数链。在多个可能的人类解决方案中，我们优先选择了步骤最少的方案，以尽量降低复杂度。由于输入网格和 DSL 指令都已提供，因此假设 LLM 对 DSL 完全理解，无论序列长度如何，它都应该能够生成正确的输出网格。

图 13 显示了 DSL 序列长度与 LLM 预测准确率之间的关系。随着所需序列长度的增加，我们观察到模型预测正确输出网格的能力明显下降。

基于这些观察结果，我们使用公式（2）计算了一个加权平均的单步准确率，其中：

表示序列长度为的任务数量，
表示该长度下的预测准确率。

通过计算得出估计的单步准确率为81%，这表明随着序列变长，错误会显著累积。

表 3 展示了在假设 DSL 完全理解（ = 1.0，从观察到的 = 0.8 调整而来）的情况下，估算出的准确率。这一调整单独隔离出了组合能力的影响，结果显示在提供正确答案和人类描述的理想条件下，近 30% 的任务可以被解决。

当加入正确答案或自然语言描述时，都观察到了约10 个百分点的稳定提升，这表明每种元素都能降低任务的组合难度（即公式 1 中的）。

3.2.4 案例研究：通过人类描述增强组合性

一个值得注意的观察结果是，当在提示中加入关于问题解决方法的人类描述时，LLMs 的组合能力得到了提升。为了探究 LLMs 在有人类描述的情况下是如何解决问题的，我们分析了在提供人类描述后额外解决的 13 个任务的解题过程。

结果表明，人类描述有助于任务输入与操作步骤的抽象理解，从而提升了问题解决能力。例如，在没有描述的情况下，LLMs 无法识别正确输出中的模式；但在有了描述之后，它们能够立即识别出诸如“X 形状”之类的模式。这些发现表明，通过引入抽象化的任务信息，有可能提升 LLMs 的推理表现。

3.2.5 结论

在第 3.2 节中，我们通过使用 ARC 和 DSL 进行实验，测量了 LLMs 的组合性。结果得出了三个结论：

LLMs 在将 DSL 应用于输入时，可以以约 81% 的平均准确率预测输出网格。然而，随着序列长度的增加，准确率下降，这似乎是由于错误的累积所致。
在未提供正确答案的情况下，LLMs 仅在 3% 的情况下选择了正确的 DSL，这表明它既无法推导出规则来预测正确的输出网格，也无法选择合适的 DSL 来达到预期输出。
当加入人类描述后，DSL 选择的准确率提升至与提供正确答案相近的水平。对该过程的分析表明，这种提升源于对 ARC 任务和 DSL 组合的语言抽象理解。

已有研究强调了 LLMs 在将简单元素组合为新含义方面的局限性，揭示了其在组合性方面所面临的挑战。一项研究表明，Transformer 模型在面对新的函数组合时表现出显著的性能下降，显示出在系统性泛化知识方面存在困难 [25]。另一项研究引入了 SADE 等数据集来评估 LLMs 处理视觉与文本信息的能力，指出它们在处理否定理解和复杂内容等方面仍存在困难 [38]。还有一项研究考察了 LLMs 分解复杂指令或将简单指令组合成复杂指令的能力。结果显示，虽然 LLMs 可以通过学习复杂任务更好地理解简单任务，但当从简单任务出发去应对复杂任务时，它们仍面临困难 [73]。

这些研究一致指出，LLMs 在连接简单与复杂元素方面仍存在持续性的挑战，突显了其在组合性能力上的局限性。

3.3 LLMs 的能力之三：生成性（Productivity） 3.3.1 动机

在第 3.3 节中，我们研究了 LoTH 的第三个核心概念 ——生成性（Productivity）。
生成性指的是基于已观察到的数据生成未曾见过的新表示形式的能力 [18]。这一特性使人类能够从单一现象中想象出多种情境，从而实现无需重复数据暴露的高效学习。同样地，当 LLMs 具备这种能力时，它们应能在面对新任务时表现出色，因此生成性是基本推理能力中一个至关重要的功能。

在 ARC 任务中，能够在有限规则集内生成新的输入-输出对尤其有价值，这突显了对生成性的需求。本节中，我们将通过评估 LLM 根据给定的 ARC 示例对所生成的新示例的有效性来衡量其生成性。

虽然理想情况下的生成性应测试无限生成能力，但受实际限制，必须采用替代方法。挑战在于要证明一个系统可以从有限的输入和规则集中生成无限数量的新颖且有意义的输出。以往的研究通过检查模型是否能在新增约束条件下生成有效的输出来应对这一挑战 [25, 31, 59]。这些约束条件有助于创建更可控的测试环境，同时仍能评估其生成能力。

遵循这一方法论，我们的研究考察了在给定一个 ARC 任务及其底层概念规则的情况下，LLMs 能多有效地生成有效输出。这种方法使我们能够在受控框架下评估生成性，同时仍然捕捉到生成能力的本质。

为了理解 LLMs 在基于内在逻辑概念生成新表达方面的能力，我们使用 ARC 任务进行了实验。在此背景下，生成性主要包括两个步骤： 1）从示例图像和自然语言表达中推断出用于图像生成的具体规则； 2）应用这些规则生成新的、未见过的图像。

然而，正如前几节所探讨的那样，解决 ARC 任务的标准方法不足以验证这两个过程。因此，我们提出了一项新的实验：
在给定一个 ARC 任务以及与类似 ARC 任务共享的基本规则的前提下，LLMs 是否能够生成该任务的有效示例？

如果 LLMs 能够理解给定 ARC 任务与抽象规则之间的关系，那么它应该能够推导出该任务的具体规则，并生成新的有效示例。通过这项实验，我们旨在判断 LLMs 是否能够模仿人类思维中的生成性，在面对新问题时生成新颖的解决方案。

3.3.2 增强示例的有效性

为了评估 LLMs 是否能够在给定 ARC 示例的情况下推断出自己的生成规则，并通过适当应用这些规则创建新的任务，我们对提示（prompt）进行了严格控制。

尽管 ARC 提供了多样化的任务集，但它缺乏系统性的分类以及对每个任务的明确规则说明。因此，我们使用了ConceptARC [43]，它保持与 ARC 相同的格式，但为每个任务提供了类别标签，使其更适用于我们的实验设计。

我们向 LLMs 提供了两种类型的提示信息： 1）来自 ConceptARC 任务的示例对； 2）适用于相似任务的抽象规则描述。

在这一步中，一个示例对作为生成的基础，其他示例则用于推导特定任务的规则。根据 ConceptARC 的框架，所有任务被划分为16 个不同的类别。在每个 ConceptARC 类别中，都有一个对应的抽象规则，确保同一类别中的任务都遵循相同的抽象规则。

我们提出了逆变换提示法（Inverse Transformation Prompting, ITP），作为本实验中使用的提示技术。ITP 指导 LLMs 利用 ConceptARC 任务及其相关的抽象规则来生成多个有效的示例。

图 14 展示了在给定 ConceptARC 任务及相应 ITP 的情况下，LLMs 如何生成新示例。通过这种方法，LLMs 可以生成多个输入，这些输入可以与该任务某一示例的输出配对。用于生成的这个示例会被排除在 ITP 之外。

如果 LLMs 理解了通过 ITP 提供的 ConceptARC 任务规则，那么它们所生成的新示例对就应当适合作为该任务的示例。

ITP 基于“多对一”的方法，其具有两个优势：

1）仅生成输入的方法在数据利用上更高效，因为相比于同时生成输入和输出，现有的任务输出无需修改即可重复使用。由于 ConceptARC 中的所有任务都包含示例对，因此重复使用这些示例能够充分利用已提供的数据。ITP 允许单个 ConceptARC 任务被多次复用。特别是，通过改变示例顺序，ITP 还能进一步提升数据效率，使一个 ConceptARC 任务被重复使用多次。

2）ITP 提高了生成有效响应的可能性。通过模拟我们观察到，从输出反推输入比从输入生成输出更容易产生有效的结果。这是因为从输出生成输入所受到的约束相对较少，因此存在更大范围的可接受结果。

在构建 ITP 的过程中，我们遇到了两个挑战。

首先，根据 ConceptARC 的分类标准，同一类别内的任务可能具有不同的具体目标。图 15a 显示了在同一类别中存在多种类型的任务。例如，即使属于同一类别，一个任务的核心解法可能是“删除”，而另一个任务则可能是“重新着色”。这种差异表明，为每个类别提供的相同抽象规则描述可能不足以涵盖各种不同类型的任务。

其次，有一些 ConceptARC 任务使得无法从单一输出推断出多个有效输入（见图 15b）。在这种情况下，只存在唯一一个有效的输入。尽管我们在编写 ITP 时尝试考虑到了这些情况，但这些挑战仍然对实验结果造成了不利影响。

在分析实验结果之前，有必要重新定义评估指标，以反映从“解决任务”到“生成有效示例”的关注点转变。如前所述，对于某个任务的一个给定示例，我们生成了可以与相应输出配对的有效输入。为了成功生成这些输入，LLM 必须通过其 ITP 推导出该任务的具体规则，并将其应用于输出以创建有效的输入。

在本实验中，我们评估了每个任务所生成的所有输入是否均为有效输入。这一指标既评估了 LLM 对正确规则的理解能力，也评估了它基于这些规则生成有效示例的能力。因此，这项实验系统地评估了 LLMs 生成逻辑合理且有效的示例对的能力，增强了我们对其创造新表示形式能力的理解。

基于 160 个 ConceptARC 任务，我们评估了 2,913 个生成示例的有效性。平均有效生成比率为约17.1%，其余示例被判定为无效。如前所述，生成示例的有效性由人工判断决定，主要评估生成的任务是否符合用于解决问题的类比规则。

表 4 中的结果显示，LLMs 在生成符合指定规则的示例方面展现出一定程度的能力。然而，由于确定有效性标准较弱，仍存在局限性：即使可以生成无限多的结果，在没有对数据进行后处理的情况下，这些结果也无法可靠地使用。

3.3.3 案例研究：无效生成

我们分析了生成的输入，以探究 LLMs 在生成 ConceptARC 任务的有效输入方面失败的原因。当 LLMs 生成新的 ConceptARC 任务时，观察到了两个主要限制：

1）LLMs 倾向于简单复制已有输入，而不是从给定的示例对中推导出有意义的规则。如图 16 所示，尽管我们尝试通过提示防止这种情况发生，但它仍反复出现。

2）LLMs未能正确考虑从输出生成输入所需的步骤，这经常导致生成的示例无法通过任务的特定规则求解。例如，在输入中若一个正方形的所有顶点都被擦除，则无法判断这些顶点的颜色，从而使得无法推导出给定的输出。

这些限制表明，LLMs 缺乏对适用于 ConceptARC 任务的语义理解，以及根据约束条件组合这些语义的能力。

3.3.4 结论

在第 3.3 节中，我们进行了实验，旨在确认 LLMs 是否具备生成性，即它们是否能够理解抽象表示下的任务，并基于抽象规则生成新的有效示例。

尽管众所周知 LLMs 在创造性内容生成方面具有显著优势，但我们的实验结果显示，LLMs 在理解规则并生成符合这些规则的创作方面表现较弱。此外，所观察到的局限性突显了 LLMs 在高阶推理和抽象能力方面的关键缺口，而这些能力对于成功完成那些需要理解底层原理而非表面模式的任务至关重要。

这些结果表明，当 LLMs 生成输出时，它们倾向于模仿人类创作的结果，而不是真正理解并应用规则。这使得 LLMs 难以达到人类所能实现的生成水平。

同样地，以往研究在衡量 AI 模型生成能力时也得出了类似的结果。研究人员测试了前 LLM 时代模型在面对新命令组合时的泛化能力 [31, 59]，发现它们在训练数据上表现出色，但在生成未见过的指令响应方面存在不足。

一些研究者指出，LLMs 在复杂约束条件下生成内容的能力较弱，并提出了改进模型的方法来应对这一问题 [29, 35]。他们提出新的框架，以在引入复杂约束时增强 LLMs 生成期望输出的能力，而非仅仅依赖基础模型。

这些研究与我们的研究具有相似之处，均在基于复杂规则扩充有效任务时遇到了困难。

4 讨论

通过第 3 节中的三项实验，我们观察到 LLMs 在理解和操作图像与文本输入方面展现出一定的优势。然而，它们在逻辑推理、基于理解的顺序规划，以及根据预定义规则生成未曾见过的图像方面仍存在明显不足。

我们将以介绍当前旨在进一步提升 LLMs 能力的研究方向，并概述解决 ARC 后的目标作为本节的总结。

4.1 解决 ARC 所需具备的能力是什么？

根据第 3 节的实验结果可以清楚地看出，LLMs 目前仍无法有效解决 ARC 任务。这主要归因于其在逻辑一致性、组合性和生成性方面的不足。

我们如何提升 LLMs 的推理能力？在本节中，我们将从抽象知识和推理能力两个角度探讨增强 LLMs 的可能方向。

4.1.1 抽象知识

要解决 ARC 任务，第一个挑战在于提取其隐含信息。Xu 等人 [70] 强调了基于对象表示的重要性，并提出了 ARGA 方法，该方法将示例网格转化为图结构。他们在后续研究 [71] 中利用 ARGA 生成的信息，在基于对象的 ARC 任务中取得了显著表现。然而，这些方法存在一个关键限制：它们不适用于没有对象概念的 ARC 任务。由于只有大约 40% 的 ARC 任务涉及对象概念 [70]，因此这种方法无法应对超过一半的任务。

Wang 等人 [64] 使用了一个包含 221K 条文本描述的图结构数据集 AbsPyramid，部分提升了 LLM 的抽象能力，并提出了 AbsInstruct 框架。虽然对句子进行结构化可以有效抽象自然语言，但这种方法在不涉及文本数据的 ARC 任务中并不适用。

4.1.2 推理能力

LLMs 在 ARC 中面临的另一个挑战是巨大的搜索空间。一种有前景的方法是让 LLM 自行生成 DSL（领域特定语言）。Rajani 等人 [48] 提出了 CAGE，引导 LLM 在生成答案之前先生成解释。随后，Wang 等人 [62] 报告称，如果让 LLM 基于自己设定的假设来生成 DSL，可以获得更好的结果。

此外，关于应用算法式提示技术的研究也在积极进行中。Zhou 等人 [79] 通过上下文学习（in-context learning）显著提升了 LLM 的推理性能。后续研究围绕 CoT 和 ToT 展开。例如，CoT-SC [63] 通过投票机制从多个 CoT 实例中选择最优结果；GoT [3] 通过生成图状思维节点提高灵活性；XoT [14] 则结合思维树与蒙特卡洛树搜索，并使用强化学习优化树结构。

然而，这些尝试更接近于对 LLM 的额外训练，是否能真正实现 LLM 推理能力的根本性提升，仍有待进一步研究验证。

4.2 解决 ARC 后的发展方向

解决 ARC 任务并不直接意味着实现了类人水平的人工智能。此外，目前还存在一个挑战：难以将 AI 的解题方式与人类方式进行比较。因此，我们提出三种替代方案，以更准确地衡量类人水平的推理能力。

4.2.1 使用不同的基准测试

ARC 的一个局限性在于其环境相对简单。例如，SQA3D [39] 通过扩展至问答任务的方式，在三维领域处理推理任务，使用了如 ScanNet [12] 这样的模拟器。此外，TGIF-QA [26]、MovieQA [55]、TVQA [32] 和 STAR [69] 等视频问答基准也被提出。这类模仿现实世界推理场景的基准测试可作为 ARC 的补充，用于衡量 ARC 未能覆盖的复杂抽象能力。

4.2.2 对 ARC 解题过程进行量化评估

ARC 的提出者 Chollet 曾指出，ARC 的设计目标是在最小化先验知识和经验的前提下最大化通用性 [8]，但这些要素尚未被定量评估。因此，模型在解决 ARC 时所达到的“通用性”、“先验知识水平”及其组成部分等，仍然难以量化。

一种可能的量化评估方法是对模型在解决 ARC 任务过程中所体现的“先验知识”、“经验积累”和“通用性”进行量化分析。

4.2.3 增加评估方法，将解题过程与人类方式进行对比

近年来的 ARC 研究主要集中于寻找 AI 解决任务的方法。然而，人们对其解题方式与人类是否相似仍存疑问。Johnson 等人 [27 ] 的原始论文分析了人类解决 ARC 任务的过程。随后提出的 LARC [1] 则通过语言解释人类解题方式来分析任务解决路径。同时，也有工具不断被开发出来，以促进人类数据的收集。

例如，Kim 等人 [28] 就通过 O2ARC 分析了任务的解决方式。基于这些研究，我们建议在评估中不仅计算每个 ARC 任务的正确率，还应加入与人类解题方式的相似度作为新的评估指标。

4.3 关于 LLMs 推理能力的最新研究趋势

在本文中，我们利用 ARC 来评估并增强大语言模型（LLMs）的推理能力。ARC 作为一个关键基准，用于测试人工智能模型是否具备类人推理的能力。

除了 ARC，还有一些数据集也为提升 LLMs 的多样化推理能力提供了宝贵资源，例如 DROP [15]、CommonsenseQA [54]、BoolQ [10] 和 GSM8K [11]。

近期研究表明，尽管 LLMs 在基于语言的任务上表现出色，但在推理能力方面仍存在显著局限。Carvalho 等人 [13] 发现，LLMs 在超出训练数据范围的任务中，尤其是在需要策略性思维和空间推理的非语言任务中，表现不佳。同样地，Gendron 等人 [21] 也发现，LLMs 在从有限示例中识别并应用通用模式的任务中表现较差。

这些研究共同表明，当前的 LLMs 尽管在语言任务方面已经非常先进，但在实现跨领域的稳健推理能力方面仍有较大差距。

为了解决这些局限性，研究人员提出了多种先进的方法。包括：

结合人类反馈的强化学习[9]，
思维链提示（CoT prompting）[65]，
以推理为中心的微调[33]，
预训练过程中引入知识图谱[36]，
可解释性人工智能技术[4]。

这些方法在提升 LLMs 在各个领域中的推理能力方面发挥了重要作用。

此外，最近的研究还提出了一些创新性的方法，以进一步增强 LLMs 的推理能力。包括：

多模态学习技术[52]，
结合人类反馈的自适应学习策略[45]，
将编程语言与 LLMs 相结合[19]。

这些前沿研究极大地推动了对 LLMs 多维推理能力的系统性增强。

5 结论

本研究通过采用思维语言假说（Language of Thought Hypothesis, LoTH），解决了当前对大语言模型（LLMs）推理能力评估中过于注重结果导向分析的局限性。尽管近年来的 LLMs 在表现上已接近人类水平，但实验结果显示它们在规划与推理方面仍存在显著差距。

我们基于 LoTH 的三个核心要素 ——逻辑一致性、组合性和生成性，提出了一种结构化的方法，用于评估推理过程本身，而不仅仅是最终结果。

以抽象与推理语料库（Abstraction and Reasoning Corpus, ARC）为基准，我们进行了三项定量实验：

逻辑一致性：我们的分析揭示了在推理一致性和语义一致性方面存在的显著不足。虽然 LLMs 偶尔能得出正确答案，但它们常常无法在相似问题中保持逻辑一致性，并且经常通过错误的推理过程得出正确的结果。
组合性：LLMs 在将简单元素组合起来解决复杂问题时表现出根本性的局限性。随着任务复杂度的增加，其性能显著下降；即使在提供更多上下文的情况下，它们在 DSL（领域特定语言）选择方面也表现不佳，显示出较弱的组合能力。
生成性：尽管 LLMs 在创造性任务方面具有较强的能力，但在基于规则的生成任务中却表现出显著弱点。它们往往只是模仿观察到的模式，而非真正理解并应用抽象规则来生成有效的新示例。

这些发现表明，尽管当前 LLMs 在性能指标上令人印象深刻，但从过程导向的角度来看，它们在基本推理能力方面仍存在明显不足。

为了向实现类人水平的人工智能迈进，未来的研究应从以下三个互补方向展开：

增强 LLMs 的抽象知识和推理能力：这可能包括开发更优的隐含信息提取表示方法，以及探索更高效的提示技术，以应对巨大的搜索空间。
建立更全面的评估框架，以确保取得有意义的进展：

（1）引入更多样化的基准测试，更好地反映现实世界的推理场景；
（2）不仅要关注任务是否完成，还要对解题过程进行量化评估；
（3）实现人工智能与人类推理方式之间的系统性对比。

本研究最终为该领域做出了贡献，提供了一个结构化的评估与提升 AI 推理能力的框架，并强调了将 AI 发展与人类认知过程相结合的重要性。

A 补充分析 A.1 比较 LLM 与人类对问题难度的认知

在第 3.1.4 节分析的基础上，我们进一步分析了 LLMs（大语言模型）擅长解决的问题和难以应对的问题。表 5 展示了根据人类判断划分的问题难度等级下，LLMs 在各类问题上的准确率。

该难度分类基于已有任务分类体系，并依赖于人类对任务难度的主观判断 [5]。结果表明，人类认为困难的问题，往往也是 LLMs 难以解决的问题。

这些困难问题具有两个共同特征： 1）它们需要较长的推理过程才能解决； 2）它们要求同时考虑多个问题，以提取关于变化的信息。

图 17 中的一个例子说明了这一点：一个被归类为“入门”（Entry）的任务仅需执行一步着色操作，而一个被归类为“困难”（Hard）的任务则需要三个步骤：

识别每个对象，
确定每个对象的优先级，
根据优先级合并各个对象。

“简单”（Easy）和“中等”（Medium）难度的任务，则是那些比“入门”更复杂、但又比“困难”少一些步骤的任务。

结合这些观察可以推断，人工智能目前具备处理简单视觉逻辑的能力，但这种能力仅限于 ARC 所包含的四个先验知识领域中的一个：

对象性（objectness）、
目标导向性（goal-directedness）、
数字与计数（numbers and counting）、
基础几何（basic geometry）。

然而，它无法处理将这些先验知识融合在一起的复杂逻辑组合。

A.2 不同 GPT 版本在增强示例任务中的成本效率比较

在我们关于生成性（productivity）研究的后续实验中，我们的目标是比较GPT-3.5和GPT-4-32k在增强演示示例任务时的成本效率。这项研究对于理解实际应用中模型性能与相关成本之间的权衡至关重要。

我们的实验设置始于创建一个描述任务类别的提示（prompt）。利用该提示，我们设计了一个逆变换提示（Inverse Transformation Prompt, ITP），并使用GPT-3.5-16k和GPT-4-32k两种模型来增强演示示例。

在整个过程中，我们仔细记录了所有提供给 LLMs 的提示内容及其对应的输出结果。

为了分析成本影响，我们使用tiktoken 库对记录的文本进行分词处理。然后，根据 Azure OpenAI API 提供的每 token 成本，我们计算了生成一个有效演示示例的成本。这种方法使我们能够准确评估使用不同模型进行示例增强所产生的财务成本。

对生成示例的验证是我们实验中的一个关键环节。我们安排了人工评审员手动检查输出的质量和适用性。这些评审员的任务是确认两个关键方面：

1）结果是否可以合法地从给定规则中生成； 2）生成的结果是否具有唯一性，避免重复或简单的变体。

这一严格的验证流程确保了我们在实际应用场景下对“有效”示例的评估是全面且有意义的。

对生成有效演示示例的成本分析如表 6 所示。分析结果显示，尽管GPT-4-32k在有效性方面比GPT-3.5-16k高出约1.5 倍，但其成本却高出近20 倍。

这表明，在生成受复杂约束的输出时，生产力的提升可能不会随着模型能力和成本的增加而线性增长。因此，在需要生成符合复杂约束条件的有效输出的场景中，若考虑性能提升与成本增加之间的权衡，GPT-3.5 可能比 GPT-4-32k 更具优势。

然而，两个模型在有效性方面的整体比率均低于 10%，说明当前的 LLMs 在此类任务上的生成能力仍远低于人类水平。

这一发现表明，单纯升级到更先进的模型并不能完全弥补生成能力上的差距，也突显了在提升 LLM 在复杂、受限任务中的表现方面，仍需进一步的研究与开发。

A.3 作为类人人工智能基准的 ARC 的局限性

解决 ARC 是否意味着实现了类人水平的人工智能？要回答这个问题，需要恰当解决两个疑问：1）该 ARC 解题器是否具备类人水平的问题解决能力？2）该解题器在解决 ARC 任务时是否会像人类一样思考？

如果没有类人水平的推理能力，我们很难想象这个 ARC 解题器是如何运作的。目前我们可以假设的是，该模型将具备 LoTH（思维语言假说）所提出的三种特性，并且可能具备 ARC 中所包含的多种推理能力。基于这一假设，我们尝试回答以下问题。

A.3.1 模型是否具备类人水平的问题解决能力？

具备推理能力并不等同于具备类人水平的问题解决能力。换句话说，即使一个模型能够达到足以解决 ARC 的推理水平，它可能仍不具备类人水平的问题解决能力。

人类所面对的各种任务通常比 ARC 更加复杂，并且除了推理之外，还涉及其他多种认知因素。因此，即使是能够解决 ARC 的模型，与类人水平的问题解决能力相比，也可能存在以下限制：

首先，根据当前的 ARC 标准，尚不清楚解决 ARC 的模型是否能够处理更复杂的任务类型。这是因为 ARC 任务仅聚焦于推理能力，因此其环境设计相对简单。通过 ARC 学习到的推理能力是否适用于更复杂的环境，尚未得到验证。

其次，解决 ARC 并不意味着具备除推理以外的其他智能组成部分。虽然推理无疑是认知过程中的核心部分，但它并不是智能的全部。已有研究表明，解决类人复杂任务需要多种认知能力的协同作用 [20]。

A.3.2 模型是否像人类一样思考？

即使我们假设 ARC 解题器能够在 LoTH（思维语言假说）的意义上进行推理，我们也无法保证其解题过程是类人的，原因如下两点：

第一，当前的 ARC 提供的评估标准只奖励任务的解决结果，而不考虑解题过程。需要注意的是，这种衡量方式可能会引发错误的目标导向，即所谓的“迈达斯国王问题”（King Midas problem）[50]。

该问题强调了 AI 过于字面化地实现既定目标所带来的风险，可能导致意料之外的负面后果，这也突显了将 AI 目标与人类价值观及更大背景相一致的重要性。

仅以结果为导向的评分机制使得我们难以评估模型的解题过程是否与人类推理过程相似。因此，基于当前 ARC 训练出的模型很可能在任务解决方式上与人类存在差异。

第二，直接比较人类与语言模型的推理过程本身具有挑战性。目前对于人类如何解决 ARC 任务的研究尚属空白，因此我们尚不清楚人类与人工智能在解题过程上的具体差异。此外，缺乏用于比较解题过程的度量标准，也使直接对比变得困难。

A.3 作为类人人工智能基准的 ARC 的局限性

解决 ARC 是否意味着实现了类人水平的人工智能？要回答这个问题，需要恰当解决两个疑问：
1）该 ARC 解题器是否具备类人水平的问题解决能力？
2）该解题器在解决 ARC 任务时是否会像人类一样思考？

A.3.1 模型是否具备类人水平的问题解决能力？

具备推理能力并不一定等同于具备类人水平的问题解决能力。换句话说，即使一个模型能够达到足以解决 ARC 的推理水平，它可能仍不具备类人水平的问题解决能力。

人类在日常生活中所面对的各种任务通常比 ARC 更加复杂，并且除了推理之外，还涉及其他多种认知因素。因此，即使是能够解决 ARC 的模型，在与类人水平的问题解决能力相比时，也可能存在以下局限性。

首先，根据当前的 ARC 评估标准，我们尚不清楚一个能解决 ARC 的模型是否也能应对更复杂的任务类型。这是因为 ARC 任务主要聚焦于推理能力，其环境设定相对简单。通过 ARC 所获得的推理能力是否适用于更复杂的现实世界任务，目前尚未得到验证。

其次，解决 ARC 并不意味着模型具备除推理以外的其他智能组成部分。虽然推理无疑是认知过程中的核心部分，但它并不是智能的全部。已有研究表明，要解决类人复杂任务，需要多种认知能力的协同作用 [20]。

A.3.2 模型是否像人类一样思考？

即使我们假设 ARC 解题器能够在 LoTH（思维语言假说）的意义上进行推理，我们也无法保证它的解题过程是类人的，原因如下：

第一，当前的 ARC 提供的评估方式只奖励任务的完成结果，而不考虑其解题过程。需要注意的是，这种衡量机制可能会导致错误的目标导向，引发所谓的“迈达斯国王问题”（King Midas problem）[50]。

这个问题强调了 AI 在实现既定目标时过于字面化所带来的风险，可能导致意想不到的负面后果，也进一步说明了将 AI 的目标与人类价值观及整体背景保持一致的重要性。

仅以结果为导向的评分机制使得我们难以判断模型的解题过程是否与人类推理相似。因此，基于当前 ARC 训练出的模型很可能在任务解决方式上与人类存在差异。

第二，直接比较人类和语言模型的推理过程本身具有挑战性。目前对人类如何解决 ARC 任务的研究仍然空白，因此我们尚不清楚人类与人工智能在解题过程上的具体差异。此外，目前缺乏用于对比解题过程的有效度量指标，这也使直接比较变得困难。

B 实验细节 B.1 逻辑一致性

逻辑一致性研究包括两个主要实验： 1）比较不同提示技术下的语义一致性； 2）评估 LLMs 的推理一致性。

在第一个实验（提示技术比较）中，我们从 ARC 评估集中随机选取了 100 个任务。随后应用了三种不同的提示方法 ——思维链（Chain of Thought, CoT）、由简至繁（Least to Most, LtM）和思维树（Tree of Thoughts, ToT），以比较它们在保持语义一致性方面的有效性。

第二个实验旨在评估 LLMs 的推理一致性，即判断模型是否能够一致地应用相同的逻辑。因此，首先需要确认哪些任务是 LLMs 真正理解了其中的逻辑的。为此，我们使用在提示技术比较实验中表现最好的提示方法 ——CoT 提示，来解决 ARC 训练集中的任务，并重复该实验五次。

在五次实验中至少有一次被正确解决的任务上，我们进行了关于推理一致性的进一步实验。每个实验所使用的具体任务 ID 和提示信息分别见于B.1.1和B.1.2部分。

B.1.1 每个实验所使用任务的 ID 列表

用于逻辑一致性比较实验的任务 ID 列表如下：

第一个实验（不同提示技术之间的比较）基于100 个 ARC 评估任务进行；
第二个实验（LLMs 推理一致性实验）则基于83 个 ARC 训练任务进行。
B.1.2 提示设置
在不同提示技术比较和 LLMs 推理一致性实验中所使用的提示方法包括：CoT（思维链）、LtM（由简至繁）和ToT（思维树）。这些提示的具体内容详见B.1.3 节。
在提示中，用花括号{}括起来的部分表示需要插入相应内容的位置。
例如，如果是CoT 提示，则包含一个 CoT 的单样本示例（one-shot example）、任务中的演示示例以及测试输入。
无论使用哪种提示方法，所有提示都提供了一个单样本示例（one-shot example）：
B.1.3 详细提示内容
逻辑一致性实验中采用了多种提示技术，包括CoT、LtM和ToT：
- LLMs DSL 理解实验用于衡量当给定任务答案时，LLMs 能够多准确地生成正确的 DSL；
- 组合能力实验则用于检验 LLMs 是否能够从所提供的 DSL 中正确选择并使用解决问题所需的 DSL。
- CoT 使用CoT提示：
- LtM 使用分解提示和逐步求解提示：
- ToT 则结合了分解提示、ToT分解投票提示、逐步求解提示和 ToT 逐步求解投票提示
- B.2 组合性
  在关于组合性的研究中，我们进行了两个实验： 1）评估 LLMs 对 DSL（领域特定语言）理解程度的实验； 2）评估 LLMs组合能力（compositionality ability）的实验。
  这两个实验使用了相同的任务集合。有关任务 ID 的详细信息见表 B.2.1，具体的提示细节详见表 B.2.4 和表 B.2.6。
  B.2.1 任务 ID 列表
  组合性实验所使用的任务 ID 列表共包含158 个任务。从总共 800 个 ARC 任务中，我们仅选取了那些输入和输出网格大小相同、并且在使用给定 DSL 的情况下可以通过长度不超过 10 的 DSL 序列解决的任务用于实验。

B.2.2 所使用的DSL类型。

每种DSL都实现为一个Python函数。如表7所示，

共有三种类型的DSL，使用了三种不同的参数类型。颜色变化（Color Change）DSL接受诸如坐标（Coordinate）和对象（Object）等参数。基于坐标的颜色变化DSL包括：像素颜色（Pixel Color）、X线（X Line）、水平线（Horizontal Line）、垂直线（Vertical Line）和对角线（Diagonal Line）。对于对象参数，仅存在“obj color”这一种DSL。

变换（Transformation）DSL使用对象（Object）和网格（Grid）参数。基于对象的变换包括：向左旋转对象（Rotate Left Obj）、向右旋转对象（Rotate Right Obj）、水平翻转对象（Horizontal Flip Obj）、垂直翻转对象（Vertical Flip Obj），以及移动操作（Move Left、Move Right、Move Up、Move Down）。基于网格的变换包括：向左旋转整个状态（Rotate Left State）、向右旋转整个状态（Rotate Right State）、水平翻转整个状态（Horizontal Flip）和垂直翻转整个状态（Vertical Flip）。

最后，存在一种独立于任何参数的“Complete DSL”，用于表示在达到DSL序列长度10之前任务已经完成。对于恰好使用DSL序列长度为10的任务来说，不需要使用Complete DSL。

B.2.3 面向大语言模型（LLMs）的提示内容，包含DSL代码与注释。

在衡量组合性及LLM对DSL理解能力的两项实验中，我们确定了一组共10个任务，这些任务整体上至少需要使用全部15种DSL中每一种一次。该任务集被用于确定向LLM解释DSL时的最佳提示方式。我们尝试了四种提示变体：不提供DSL信息、仅提供DSL代码、仅提供DSL注释、同时提供DSL代码和注释。针对这10个任务，在所有四种提示结构下均进行了LLM对DSL理解能力的实验。结果表明，同时提供代码和注释可以获得最佳性能。因此，在后续关于LLM对DSL的理解能力和组合性的实验中，我们采用的是同时包含DSL代码和注释的提示内容。附录B.2.4节展示了向LLM同时提供DSL代码和注释的提示内容示例。

B.2.4 详细的DSL提示内容。DSL函数代码与注释的提示方式

B.2.5 组合性实验的提示内容

LLM的DSL理解实验与LLM组合性实验均使用了附录B.2.6节中所述的提示结构。
“ARC简介提示”（Introduction ARC Prompt）提供了关于ARC任务的全面概述，而“DSL使用示例提示”（DSL Usage Example Prompt）则展示了DSL的应用方式。
DSL提示由B.2.4节中的DSL函数代码与注释提示以及DSL使用示例提示组成，提供了对DSL的全面解释。
任务提示（Task Prompt）包括演示示例、测试输入、对象信息（通过PnP获得的以字典格式表示的对象坐标），以及输出格式的指导原则。

在LLM的DSL理解实验中使用的提示不同于任务提示，因为会提供该任务所用到的DSL路径（DSLs path）。
CoT提示（推理链提示）包含了ARC简介提示和DSL提示。
对于LLM的DSL理解实验，使用的是LLM的DSL理解提示；
而对于LLM的组合性实验，则使用任务提示。
在组合性实验中，采用的是CoT提示。

B.2.6 详细的提示内容。组合性实验中所使用的提示内容构成。

B.3 生产力

在生产力实验中，我们的目标是使用逆变换提示（ITP, Inverse Transformation Prompt）来扩充任务的演示示例对。ITP 包含一个类别提示（category prompt），其中描述了该类别的特点、示例对以及需要被扩充的目标输出。类别提示的详细结构见附录 B.3.2 节，而 ITP 的结构则在 B.3.1 节中进行了说明。

B.3.1 ITP：生产力实验中所使用提示内容的构成。

ITP 由类别提示、示例对和目标输出组成。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.