求解瑞文渐进矩阵的计算模型:综述|算法|施测

分享至

Computational Models of Solving Raven’s Progressive Matrices: A Comprehensive Introduction

求解瑞文渐进矩阵的计算模型:综述

https://arxiv.org/pdf/2302.04238

摘要

作为广泛用于测量人类智力的工具，**Raven’s Progressive Matrices (RPM)** 测试也对人工智能系统提出了巨大挑战。自20世纪60年代以来，针对解决RPM的计算模型研究一直持续不断，这些研究要么是为了理解其中涉及的认知过程，要么纯粹是为了解决问题的目的。由于人工智能研究领域的范式转变，尤其是过去十年深度学习模型的兴起，针对RPM的计算研究也发生了很大变化。因此，现在是回顾这一系列研究的绝佳时机。正如标题——“全面介绍”——所表明的那样，本文提供了解决RPM的计算模型的全方位展示，包括RPM的历史、RPM背后的智力测试理论、RPM类任务的项目设计和自动生成、解决RPM的计算模型的概念编年史，这些内容揭示了这些模型技术演进背后的哲学思想，并提出了人类智力测试和人工智能测试的迁移建议。

**关键词**：Raven’s Progressive Matrices，智力测试，AI测试

1. 引言

大多数人工智能研究者，即使不是全部，都曾深思过一些令人不安但又无法回答的命运问题，例如“我们在实现人类水平人工智能的道路上还有多远？”以及“我们还需要多长时间才能完全理解智力的基本机制？”有些人则更为悲观，比如“人类水平的人工智能会在我的一生中实现吗？”尽管这些问题目前无法回答，但每一位人工智能研究者都乐于看到这些问题被提出，并有人尝试解答，因为无论是乐观还是悲观，这些问题都代表了人工智能研究的良知。

为了回答这些问题，研究工作主要集中在将人工智能系统与人类在日常任务上进行比较，这些任务被认为是智力的指标。在这些工作中，最直接的方式是在人类智力测试中评估人工智能系统。智力测试的范围比临床环境中使用的能力测试更广。例如，SAT和MAT可以被视为智力测试。此外，许多开发者和出版商并不将他们的测试称为智力测试，因为有些人认为“智力”这个词带有精英主义和种族主义色彩，他们更倾向于使用更准确的词汇，如“学习能力测试”、“记忆和注意力评估”以及“发展运动量表”。

智力测试通常分为两类——单一格式测试和组合型测试。单一格式测试包含相同格式的项目，而组合型测试则包含多种不同格式的子测试。由于当前的人工智能系统要求问题格式必须明确界定，因此对人工智能系统的评估主要集中在单一格式测试或组合型测试的某个子测试上。**Raven’s Progressive Matrices (RPM)** 是一系列单一格式测试，已被大量研究用于测试人工智能系统。同时，RPM也成为了开发更智能系统的一个推动力，这些系统能够像人类一样解决RPM问题。

这一研究线的长度可以追溯到20世纪60年代；其宽度则跨越了多个学科，如人工智能、认知科学、神经科学、心理测量学等。然而，目前还缺乏一项工作能够从其整个时间跨度和空间范围的联合视角来审视这一研究线，并建立其理论深度。鉴于这一研究线的最新发展，我们认为现在是进行这项工作的合适时机。

我们将从第2节开始，回顾RPM在人类智力测试背景下的基本知识。本节的目的是回答关于RPM的两个理论问题——RPM测量什么以及RPM如何测量。答案远不止“它测量人类智力”和“它要求参与者解决问题”。通过回答这两个问题，我们旨在解释使用RPM作为人类智力测量工具的合理性。我们认为这对于分析使用RPM作为AI测量工具的合理性是必要的，更广泛地说，这是为AI测试建立理论基础的必要步骤。

在第3节中，我们将讨论扩展到由RPM代表的整个问题领域。该领域包括几个与RPM相似的任务，这些任务也用于人类智力测试和AI测试。为了与原始RPM区分开来，我们将它们称为RPM类任务。在这些任务中，虽然用于人类智力测试的项目大多由人类专家手工制作，但在某些特殊测试场景中，算法生成的项目越来越有用，例如基于计算机的、自适应的、大规模的和/或重复的测试。算法生成的项目也是研究用于解决RPM类问题的深度学习模型的一个现实激励。因此，在本节的下半部分，我们还回顾了矩阵推理项目算法生成的重要工作，这些项目完全复制了原始RPM的格式。在本节中，我们旨在（a）为读者提供不同任务和问题/数据集的选择，以满足不同的研究目的；（b）为构建算法项目生成器提供实用指导；（c）为后续章节讨论学习模型铺平道路。

在第4节中，我们提出了一个框架，用于整理所有用于解决RPM和RPM类任务的计算模型。我们将此框架称为概念编年史，因为它强调了计算模型之间的概念联系以及技术发展的底层逻辑。它既不像使用特定分类法的综述，也不像将综述工作按时间顺序编排。相反，它模拟了一个初学者在了解该领域更多知识时，对该领域的理解如何自然演进的过程。从某种意义上说，它更像教科书的章节组织。我们相信，这种呈现方式是读者获得对该领域连贯理解的最佳方式。

在第5节中，我们将视角从计算模型中移开，讨论更广泛的AI测试主题。我们首先解决这一研究领域的基本问题——即使用智力测试和类似测试来评估AI系统的有效性。讨论基于这样一个初始想法，即AI系统可以通过这些测试来衡量，就像人类智力通过这些测试来衡量一样。除非这个问题得到妥善解决，否则将这些测试应用于AI系统的实践将局限于特定问题的纯问题解决，而不是加深我们对人类智力和AI的理解。其次，从另一个角度来看，我们也讨论了智力测试中体现的人类智力对构建AI系统的启示。人类智力在智力测试中的泛化能力和鲁棒性远远超过当前AI系统所能达到的水平。我们认为，这样的讨论对于该研究领域的未来工作至关重要。

2. Raven’s Progressive Matrices 瑞文渐进矩阵

对于不熟悉RPM的读者，图1展示了一些RPM项目的示例。原始的RPM测试包含四种格式的项目，如图1所示。这些项目以多选题的形式呈现。上下文可以是一个缺少一块的单张图片（图1a），或者是一个2×2或3×3的矩阵，最后一个条目缺失（图1c、1b和1d）。要解决一个RPM项目，需要从答案集中选择一个答案来完成上下文矩阵。在原始的RPM测试中，单张图片和2×2矩阵的答案集包含6个选项，而3×3图片的答案集包含8个选项。

由于填充矩阵的不同感知刺激，项目需要不同的认知能力和技能。例如，图1a和1b中的项目涉及感知处理能力。特别是，图1a要求处理感知连续性，以推断上下文图像中缺失的部分（或将答案选项与上下文图像匹配）；图1b要求处理感知进展，以推断缺失的图像。图1c和1d中的另外两个项目与前两个项目不同，因为它们不仅需要感知处理能力（例如，感知分解和组织），还需要抽象归纳推理能力，这涉及从原始感知刺激中构建抽象符号并推理这些符号。

图1代表了原始RPM的最典型设计。需要指出的是，RPM类任务并不局限于这些设计，并且在RPM类任务中使用了各种设计来测试不同的认知能力并验证认知理论（更多细节见第3节）。

有人声称，RPM测试是人们可以拥有的最好的单一格式智力测试。这一说法基于统计证据，即RPM的测试分数与其他所有常见智力测试高度相关。从视觉上看，RPM可以被认为位于所有智力测试地图的中心（Snow等，1984），这意味着RPM测试背后的特质也是其他不同测量的特质的核心。因此，尽管RPM在临床环境中受到广泛关注，它在研究环境中也受到了极大的关注，尤其是在认知科学和人工智能领域。

2.1 RPM测量什么？

RPM究竟测量什么？这个简单的问题可能困扰了许多非心理学家或认知科学家的研究人员，尤其是在他们研究RPM的头几年。对于一些研究人员来说，答案可能相当直接——它测量智力。但对于其他人来说，他们不明白为什么这些“从天而降”的项目能够揭示一个人的智力。这个问题可能更适合重新表述为：“为什么以及如何通过解决这些由简单几何图案组成的问题来衡量一个人的智力？”

鉴于人类智力测试的复杂性，答案并不简单。首先，RPM代表了一种理论驱动的智力测试类型。也就是说，测试的开发受到某些关于智力的抽象理论的启发和指导，这些理论涉及不可观察的因素。相比之下，我们对测试的刻板印象是那些与我们日常经验和实用目的相关的测试。例如，SAT包含写作、语言理解和数学部分，因为这些能力对于学生在大学和研究生阶段表现良好是必要的；而《武装部队职业能力倾向电池》（Armed Services Vocational Aptitude Battery）包含电子、汽车、商店、机械理解和物体组装部分，因为这些知识和技能对于军队中的技术职位是必要的。这些测试的开发始于明确的目的和对应该测量哪些特定行为的理解。

然而，RPM作为一种智力测试，旨在测量智力——一个尚未明确定义、无法直接观察或测量的因素。因此，已经构建了理论来解释智力和可观察、可测量行为之间的关系。当RPM在没有澄清相关理论的情况下被介绍给某人时，她会提出本小节开头的问题。特别是，RPM的作者John C. Raven（Raven，1936，1941）曾师从Charles Spearman，后者注意到一个人在不同认知能力测试中的表现是相关的，因此假设存在一个因素——一般智力g1——作为所有认知能力的基础。

Spearman进一步指出，g因素由两种能力组成——演绎能力和再现能力。演绎能力是指从混乱中提取意义并生成高层次（通常是非语言的）模式的能力，这些模式使得处理复杂性变得容易。需要注意的是，“演绎”过程通常被称为归纳推理。再现能力是指吸收、回忆和再现已学信息和技能的能力。

为了测试演绎和再现能力，Raven分别开发了RPM和《Mill Hill Vocabulary Scale》。与实用测试不同，这些测试的开发始于作者对这些能力的个人理解。但重要的是指出，理论驱动测试的开发并非个人化的，因为开发者需要证明测试确实测量了预期测量的内容。这种证明通常通过收集统计证据来实现，即测试分数与某些可测量行为和其他测试相关，这些行为和测试由测试的目的和分数解释决定。例如，如果测试用于招聘，测试分数应与未来的工作表现相关；如果测试是通用智力测试，测试分数应与认知能力测试和医学数据（如大脑的fMRI数据）相关。在心理测量学术语中，开发者需要验证测试，以确保它测量了预期测量的内容。然而，RPM的验证研究将是一本新书。我们简单地声称，RPM是一个经过充分验证的通用智力测试。

读者可能已经注意到，在g的范畴下有两种能力，并且相应地有两种测试。那么，再现能力及其测试呢？为什么RPM被认为是测量一般智力的最佳单一格式测试，而不是其他测试？是否演绎能力比再现能力更重要？在Spearman的一般智力理论中，他并没有将这两种能力视为独立因素。相反，他认为所有认知能力背后只有一个单一因素——g，而演绎和再现能力是g的两个“分析上可区分的组成部分”（Raven，2008）。演绎和再现能力最好被视为两种交织在一起的通用认知过程，通过其中任何一种过程都可以测量g。由于RPM的测试分数与其他智力测试的相关性最高，因此RPM被认为是最有效的单一格式智力测试。

现在是一个很好的时机来比较另外两个贯穿智力文献的相关概念，读者可能对它们更为熟悉。在Cattell的一般智力理论中（Cattell，1941，1943，1963，1987），他提出存在两个一般因素（通过因子分析得出），这些因素支撑着智力表现——流体智力（fluid intelligence，gf）和晶体智力（crystallized intelligence，gc）。流体智力是指在没有现成答案存储在记忆中时，辨别和感知复杂关系的能力。晶体智力包括在特定领域中长期建立的判断性和辨别性推理习惯，最初通过流体智力的运作形成，但不再需要洞察性感知来成功运作。流体智力和晶体智力的定义与演绎和再现能力的定义相似。此外，流体智力和晶体智力在文献中经常被用作演绎和再现能力的同义词。但这两组术语在概念上是不同的。特别是，Spearman将演绎和再现能力视为两个组成部分，而Cattell将流体智力和晶体智力视为因素。当我们说系统的组成部分时，我们的意思是这些组成部分必须协同工作，系统才能正常运作；如果演绎或再现组成部分中的任何一个不起作用，整个系统就无法工作。但当我们说因素（特别是在因子分析中）时，我们的意思是不同的维度，每个维度对实验结果施加可分离的影响，因此可以分别研究。我们可以计算数据中由哪个因素引起的变异百分比（使用方差分析中的程序），但在组成部分系统中这样做在概念上是错误的，因为组成部分的影响是不可分离的。请注意，这并不意味着因素是完全独立的，因为两个因素仍然可以相关并共同贡献一部分变异。一个很好的例子是身高和体重，它们是相关的，但仍然是两个不同的概念和因素。作为因素，如果我们收集运动员的数据，它们的私人贡献和共享贡献对运动能力的影响可以通过统计方法确定。因此，当我们在使用这两组术语时，我们需要清楚地了解它们的理论假设，并在必要时从实验中得出不同的结论。

除了术语背后的概念问题外，另一个问题是理论驱动测试和实用测试之间的界限在实践中并不那么清晰。随着对实用测试的研究越来越多，将会发明理论来解释人类在测试中的反应。同样，当一个理论驱动的测试被证明是某种心理特质的有效测量工具时，也可以将其用于实用目的。例如，RPM在第二次世界大战期间曾被用于英国的军事招募（Burke，1958）。

2.2 RPM 的简史

如果不在本文中提及 RPM 的历史，这篇文章将是不完整的，因为 RPM 的历史已有近 100 年之久。诚然，并非 RPM 历史的每个细节都与我们在人工智能背景下研究 RPM 相关。然而，RPM 在人类智力测试中的发展可能会为未来 AI 测试提供潜在的启示，而 AI 测试目前尚未明确界定。在本小节中，我们将介绍 RPM 的整个家族，并讨论每种 RPM 测试背后的动机及其之间的联系。

Raven（1936）在 20 世纪 30 年代与 Lionel Penrose 一起研究时开发了第一个 RPM 测试。Lionel Penrose 是一位遗传学家和精神病学家。该测试用于研究智力缺陷的遗传和环境决定因素。与其他遗传学研究一样，这项研究需要大量受试者，包括不同年龄段的成年父母和儿童，在不同地点（如家庭、学校和工作场所）进行测试。因此，实施需要数小时的全长智力测试（如 Binet 测试和 Wechsler 测试）是不可行的。此外，由于当时一些受试者是文盲，许多工作场所过于嘈杂，无法进行口头提问，因此题目必须是非语言的，并且尽可能不言自明。这些实际需求共同导致了第一个 RPM 测试的设计。

正如我们提到的，RPM 的发展在理论上受到了 Spearman 智力理论的启发。尽管该理论对于理解智力具有指导意义，但其主导的 g 因素是一个潜在变量，无法直接观察和测量。这使得其测量 inherently 复杂，因为需要识别可测量的活动并决定它们与潜在变量的关系，例如，可以通过对多个认知能力测试的分数进行加权来计算。为了简化其测量，Raven 在他的个人笔记中提到，他打算开发“一系列需要不同能力的重叠同质问题”（Carpenter 等，1990）。特别是，这些题目在感知刺激和抽象关系的类型上是同质的，但其难度范围广泛。如果这些同质题目按难度递增的顺序均匀排列，它们将共同形成一个智力“尺子”。也就是说，如果一个受试者无法解决前面的题目，她更不可能解决后面的题目。随着测试越来越多的人并收集更多数据，题目难度可以更准确地确定（相对于人们解决它的能力；通过心理测量程序）。现在，这种多能力、同质且难度递增的设计结果是，我们可以通过单一格式的测试来测量潜在变量 g。直观地说，RPM 测试使 g 因素直接可测量，并且分数更易于解释，就像我们使用卷尺测量身高和使用温度计测量温度一样。

RPM（Raven's Progressive Matrices，瑞文渐进矩阵）是一系列渐进矩阵测试的统称，包含三个主要测试——**标准渐进矩阵（Standard Progressive Matrices, SPM）**、**彩色渐进矩阵（Coloured Progressive Matrices, CPM）**和**高级渐进矩阵（Advanced Progressive Matrices, APM）**，每个测试都有多个版本，包含不同的题目。第一个 RPM 测试是 1938 年发布的 SPM 测试（Raven, 1941），它是所有后续 RPM 测试的鼻祖。包括 SPM 的第一个版本在内，所有 SPM 测试都由 60 个题目组成，这些题目根据难度分为 5 组（A、B、C、D 和 E）。每组内的题目难度逐渐增加，并且从 A 组到 E 组难度递增。同时，每组都有一个通过该组题目中的感知刺激和概念关系体现的独特主题。

为了在能力范围的低端和高端更好地分布分数并提高精度，1947 年开发并发布了 CPM 和 APM 的第一个版本。CPM 重新使用了 1938 年 SPM 的 A 组和 B 组，并在 A 组和 B 组之间插入了一个包含 12 个题目的过渡组——Ab 组。Ab 组的题目难度介于 A 组和 B 组之间。因此，CPM 包含 36 个题目，分为三组。正如其名称所示，CPM 以彩色印刷，以使其看起来更有趣，因为它通常用于 11 岁以下的儿童。CPM 也可以用于智力障碍者、老年人和脑损伤患者。与 SPM 和 APM 不同，CPM 以两种形式发布——书本形式（即纸笔测试）和板式形式。在板式形式中，每个题目都是一个带有缺失部分的板子，并提供可移动的答案选项来完成板子。研究表明，板式形式与书本形式等效，都能引发相同的认知过程。此外，板式形式有两个优势。首先，板式形式可以在没有口头指导的情况下更好地进行，因为测试者可以通过操作板子和答案选项来演示预期的反应。这对于聋人或因某些原因无法沟通的人来说非常重要。

APM 最初于 1943 年草拟，供英国战争办公室选拔委员会使用，他们需要一种比 SPM 更难的 RPM 测试，以便在较高能力水平上提供更好的区分度。APM 测试于 1947 年发布，包含两组——I 组和 II 组。I 组包含 12 个题目，涵盖了 SPM 测试中的所有主题，并从中抽样。在实践中，I 组可以用于让人们熟悉测试，将人们分为“迟钝”的 10%、“平均”的 80% 和“聪明”的 10%，并决定接下来是使用 SPM 还是 II 组。1947 年的 II 组包含 48 个题目，其呈现方式和逻辑与 SPM 的 C、D 和 E 组中的题目相似。1962 年，II 组中对分数分布没有贡献的 12 个题目被删除，剩余的 36 个题目重新排列。

在过去的几十年中，包括 SPM 在内的许多智力测试分数都有显著且稳定的增长。在所有 RPM 测试中，SPM 旨在覆盖最广泛的能力范围。但这种增长导致 SPM 在较高能力水平上的区分度降低（即天花板效应）。为了恢复其在较高能力水平上的区分能力，同时保持其在较低能力水平上的区分能力不变，1998 年发布了新的 SPM 测试——SPM Plus。具体来说，SPM Plus 包含了 SPM 中 A 组和 B 组的所有题目，并用更难的题目替换了 C、D 和 E 组中难度适中的题目。

由于其简单、不言自明的格式，对文化和语言的不敏感性，以及在所有智力测试中的核心地位，RPM 已成为研究最广泛的单一格式智力测试，并拥有大量可供研究的测试数据。然而，这也引发了一个问题：由于 RPM 测试过于广为人知，参与者可能会通过训练来解决题目或记忆答案。这在基于测试结果做出重要决策（如教育机会和招聘）时会带来问题。因此，1998 年开发了 CPM 和 SPM 的平行版本。这些版本在题目层面和整体分数上与经典的 SPM 平行，以便利用经典 SPM 和 CPM 的现有数据来分析平行版本的数据。

与其他智力测试相比，RPM 测试的施测程序相对灵活。RPM 测试既可以单独施测，也可以团体施测。在单独测试中，一名测试者指导一名参与者完成测试。在团体测试中，一名测试者像普通学校考试一样监考参与者。单独测试引入了团体测试或自我施测中不存在的情感因素，因此分数略低于团体测试，在团体测试中参与者独立完成测试。但单独测试允许测试者确保参与者理解测试要求，并观察参与者以收集更多数据，例如参与者是否使用试错策略。因此，当基于测试结果做出重要决策时，推荐使用单独测试。在团体和单独测试中，指令可以通过口头或手势（如指向、点头和摇头）传达。在大多数情况下，RPM 测试以不限时或提供足够时间尝试每个题目的方式进行，因为根据统计证据，限时测试会降低分数的有效性。此外，有人认为 RPM 既不是速度测试，也不是能力测试，或者两者兼而有之。但有一个例外，即在熟悉 APM 的 I 组后，II 组以限时方式施测，以测量智力工作的速度。

综上所述，RPM 是一个庞大的测试家族，包括 SPM、平行 SPM、SPM Plus、CPM（两种形式）、平行 CPM 和 APM。如今使用的所有 RPM 测试都经历了多次修订，随着越来越多的数据从不同国家和不同人群中收集而来。此外，测试的施测程序也存在差异，导致结果在质量上有所不同。在人工智能背景下研究 RPM 时，明确指出所使用的 RPM 测试及其施测程序非常重要。

2.3 RPM 究竟测量什么？

在本节的开头，我们尝试从理论角度回答了“RPM 测量什么”的问题。简而言之，RPM 测量的是**教育能力**，这是**一般智力**（即 g 因素或一般认知能力）的一个组成部分，因此可以作为一般智力的指标。然而，这个答案仍然过于抽象，并未具体到 RPM 测试中的题目。坦白地说，开头的答案几乎适用于所有教育能力、流体智力或一般智力的测试。为了完整讲述 RPM 的故事，我们通过考察具体的题目和施测程序，进一步具体化这一答案。

我们在前文中提到，测试设计是一个迭代过程的结果，在这个过程中，修订后的测试被反复施测于不同人群，以便收集数据并进一步修订测试。由于 RPM 也是一个理论驱动的测试，其设计也受到智力理论及其在测试中的实现方式的影响。我们以 SPM 为例进行说明。为了保护 RPM 测试的保密性，我们创建了几个新的题目（图 2），模拟了 SPM 中的题目系列。如前所述，SPM 包含五组（A、B、C、D 和 E）。图 2 中的八个题目模拟了从 A 组第一个题目到 E 组最后一个题目的设计变化。

在 A 组的开始，参与者会看到类似于图 2a 的题目。这个题目的作用是向参与者传达测试的基本概念。这是一个很好的起点，因为解决这个题目不需要任何先验知识，并且其答案对几乎所有参与者来说都是不言自明的。在标准的施测程序中，这个题目用于教学示范。测试者会明确告知（可能以非语言方式）参与者“只有一个答案选项能够正确完成图案”，并指出这个题目中哪个选项是正确的。

需要注意的是，在 RPM 测试手册中的每种施测程序（单独或团体、口头或非口头）中，测试者只会告诉参与者哪个答案选项是正确的，但绝不会解释为什么正确，或者解决题目的思考过程。这一点对于测试的有效性至关重要。教学示范的目的是帮助参与者熟悉测试的格式，即需要选择一个答案来完成图案，而不是测试的内容，即图案是什么以及如何完成。内容部分正是测试所测量的——**教育能力**。一个更强有力的类似观点（Raven, 2008）是，将 RPM 题目描述为“需要解决的问题”是不正确的。选择答案的指令并不意味着这是一个问题。相反，只有当参与者从题目中理解了某种意义时，参与者才会将题目视为需要解决的问题。这种**意义构建**的过程是 RPM 题目的核心，它测量的是教育能力。

在教学示范题目之后，参与者会看到类似于图 2b 的题目。这个题目扮演了一个重要的过渡角色，将参与者的注意力从测试格式转移到测试内容上。具体来说，这个题目明确展示了测试内容的本质——**关系推理**。也就是说，要解决后续的题目，参与者需要考虑对象之间的关系，而不是像教学示范题目那样重复原始的感知输入。此外，过渡角色的作用还体现在题目的呈现方式上：教学示范题目和过渡题目并未以矩阵形式呈现，但过渡题目更接近后续题目中的矩阵结构（见图 2c 至 2h），因为过渡题目中的关系同时发生在水平和垂直方向上。这些过渡题目是必要的，因为它们确保参与者能够基于在前面的题目中积累的理解，对后续题目做出有效的回答。

在过渡题目之后，测试进入 2×2 的题目，如图 2c 和 2d 所示，几何对象被分离到不连续的矩阵单元中。这些 2×2 矩阵从更依赖低级感知处理的题目（图 2c）开始，相对简单。当参与者熟悉了 2×2 矩阵的格式后，测试逐渐转向涉及更多抽象关系的题目（图 2d），因此比感知类题目更难。

图 2a 至 2d 中的四个题目代表了 SPM 前两组的设计。接下来的三组遵循相同的逻辑——每个题目就像梯子的一级横档，使参与者能够踏上下一级横档，而参与者能够达到的最大高度取决于她攀爬梯子的能力。作为真正的梯子横档，一个题目不能与前一个题目相差太远。例如，参与者会遇到类似于图 2e 的题目，用于引入 3×3 结构。这个题目仅在矩阵大小上与 A 组和 B 组中的某些题目不同，但其底层感知处理保持不变。当参与者熟悉了 3×3 结构后，SPM 像在 A 组和 B 组中一样，从感知类题目转向涉及更多抽象关系概念的题目，如数字（图 2f）、二元逻辑操作（图 2g）和三元排列（图 2h）。此外，在 SPM 的最后三组中，题目中涉及的关系数量也逐渐增加。例如，图 2e、2f 和 2g 中的每个题目只包含一个关系；而图 2h 中的题目包含两个关系——对象形状的排列和填充纹理的排列。

图 2 中的题目系列概括了 SPM 的设计。通过这个例子，我们可以看到测试设计的动机是为参与者提供一个能力梯子，供其攀爬。梯子的横档/题目均匀分布，使得梯子是可攀爬的。此外，这个梯子对每个能力水平的参与者都是可攀爬的，因为它从“地面”开始——即不需要任何先验知识的简单题目——并通过概念上相互关联的题目引导参与者向预期的方向前进。一旦“思维领域”建立起来，参与者能走多远取决于她在该领域的能力。

从某种意义上说，SPM 与每个人在学校中参加的解决问题测试不同。相反，SPM 是一个微缩模型，模拟了从小学到大学所有测试的集合，因为参与者需要依次“毕业”每一级。尽管这两种测试的持续时间差异很大，但它们都测量了参与者的学习潜力。需要注意的是，这里的“潜力”比“能力”更合适，因为“潜力”指的是一种在环境因素影响下发展的潜在品质。由于在智力测试中环境因素比在教育系统中更容易控制，因此 SPM 可能是学习潜力的更好衡量标准。此外，潜力不仅仅是能力，因为学习知识的渴望和征服新问题的勇气也是潜力的一部分。

总的来说，RPM 远不止是解决问题。甚至“测试”这个词也具有误导性，因为我们对测试有刻板印象。RPM 测试是一个通过测量学习潜力来评估教育能力的系统。然而，在许多人工智能研究中，将 RPM 或类似 RPM 的测试作为纯粹的解决问题测试，并对人工智能系统的相应能力做出夸张的声明，这种常见做法是对这些测试的严重误用。

3. RPM 类任务

在本节中，我们将讨论扩展到由 RPM 代表的整个问题领域，其中包括继承了原始 RPM 测试基本元素并以更丰富方式实现的 RPM 类任务。几乎每种现代智力测试中都可以找到这种 RPM 类题目。与上一节的理论分析不同，本节我们采用更务实的视角来描述这些任务。具体来说，我们调研了四种广泛用于临床环境或在文献中经常与 RPM 相关的智力测试——**Cattell 的文化公平智力测试（CFIT）**、**认知评估系统第二版（CAS2）**、**韦氏成人智力量表第四版（WAIS-IV）**和**Leiter 国际表现量表修订版（Leiter-R）**。通过这次调研，我们总结了问题领域中的五种任务——**矩阵推理**、**图形序列**、**类比推理**、**对比分类**和**开放分类**。此外，我们还进一步调研了算法生成矩阵推理题目的方法，这是后续章节中讨论数据驱动的 AI 模型解决 RPM 类任务的前提。正如我们提到的，智力测试中的题目大多是手工设计的，因此数量非常有限，远远无法满足当前数据驱动模型的需求。本节可以为现有 RPM 类题目提供选项，并为不同研究目的算法创建新的 RPM 类数据集提供建议。

3.1 智力测试中的 RPM 类任务

尽管这四种智力测试背后的智力理论不同，但这些测试中的 RPM 类任务在测量内容上具有一定的一致性。例如：

*CFIT 中的 RPM 类任务测量一般认知能力（即 g 因素），并强调 g 因素“在需要感知复杂关系时达到其最纯粹的表达，即高 g 负荷”（Cattell, 1950）；

*CAS2 中的 RPM 类任务测量 PASS 智力理论中的同时加工能力，即“将刺激整合为（概念上）相互关联的组或整体”的能力（Naglieri 等，2014）；

*WAIS-IV 中的 RPM 类任务涉及流体智力、广泛的视觉智力、分类和空间能力、部分与整体关系的知识、同时加工和感知组织（Wechsler 等，2008）；

*Leiter-R 中的 RPM 类任务测量流体推理、演绎和归纳推理，以及将碎片感知为整体、从部分信息生成规则、感知序列模式和形成新概念的能力（Roid 和 Miller，1997）。

从这些测试中 RPM 类任务的描述可以看出，它们或多或少都涉及测量教育能力或流体智力。鉴于 RPM 类任务之间的这种内在联系，它们之间共享共同元素也就不足为奇了。对于感知元素，为了区分教育能力（或流体智力）与再现能力（或晶体智力），它们必须不局限于某些文化群体。满足这一要求的选项并不多，例如自然元素（如太阳和月亮）、人体部位（如手和脚）以及常见的形状和颜色。同样，常见的概念元素（如对称性、拓扑关系和数字概念）也经常用于创建 RPM 类题目。现在，测试开发者已经很难为 RPM 类题目设计新的元素，因为大多数合适的元素已经在智力测试中被使用。如果有人提出了可用于 RPM 类任务的新颖感知和概念元素，这将是智力测试开发的一大贡献。探索 RPM 类任务的合适感知和概念元素也有助于构建和评估在该问题领域工作的 AI 系统。

除了感知和概念元素外，还有不同的格式来呈现这些元素。根据这些格式，我们将调研的四种智力测试中的 RPM 类任务分为五组——矩阵推理、图形序列、类比推理、对比分类和开放分类。这些格式与感知和概念元素同样有趣，因为每种格式都是一种巧妙的方式，将相同的元素呈现为需要解决的问题，而不是一个显而易见的问题。

3.1.1 矩阵推理

由于这四种测试都是成套测试（battery-type tests），它们都包含多个子测试，其中包括 RPM 类子测试。因此，为了保持整个测试的合理长度，这些 RPM 类子测试比原始 RPM 测试更简短。特别是，这些 RPM 类子测试不一定实现第 2.3 节中提到的“梯子”设计，而这是原始 RPM 测试的一个重要特征。尽管如此，调研的四种测试中有三种包含了复制原始 RPM 矩阵格式的子测试：CFIT 的第二和第三量表中的测试 3、CAS2 的矩阵推理（Matrices）以及 WAIS-IV 的矩阵推理（Matrix Reasoning）。为了与后续章节中讨论的其他 RPM 类任务区分开来，我们将这些任务称为矩阵推理。图 3 通过图示总结了矩阵推理任务。

如图 3 所示，矩阵推理题目包含两个部分——多选题的上下文（A 部分）和答案选项（B 部分）。A 部分通过背景和矩阵（前景）提供上下文信息。背景的示例可以在图 2a 和 2b 的题目中找到。矩阵的大小在大多数测试中从 1×1 到 4×4 不等，并且至少有一个缺失的单元格。为了增加难度，可以设置一些故意隐藏但不需要完成的单元格。如图 3 中的配置所示，这两类单元格的位置和数量可以根据每个题目进行定制。B 部分在大多数测试中包含 5 到 8 个答案选项。我们将答案选项与上下文分开，不仅因为它们的功能不同，还因为答案选项相对于上下文的位置对选择每个答案选项的分布有影响，这是根据人类实验数据得出的结论。因此，这是测试开发中需要考虑的设计选择。在评估 AI 解决 RPM 类任务时，这也是一个值得注意的点。也就是说，如果 AI 系统在答案选项相对于上下文和彼此的位置不同时表现出不同的行为，则需要进一步研究。

尽管矩阵推理任务复制了原始 RPM 的格式（略有修改，例如隐藏单元格和缺失单元格的不同位置），但它们的内容比原始 RPM 更加多样化。例如，原始 RPM 的难度主要在于提取概念关系，而对感知处理的要求相对较低；但由于不同的智力理论，一些 RPM 类题目被设计为更多地依赖感知处理能力，例如在心理上旋转复杂的 3D 对象，而抽象概念关系则建立在这种高要求的感知处理之上。

3.1.2 图形序列

本质上，使 RPM 题目成为有意义的测试问题的关键在于图形之间的关系以及这些关系在矩阵的二维结构中的排列方式。使用矩阵结构并没有特别的理由。也就是说，只要空间结构对关系有意义，就可以使用任何合适的空间结构（例如，如果关系是循环的并回到自身，如模加法 +1 mod N 或音乐键的循环，可以使用圆形结构）。因此，在 RPM 类任务中看到更基础的结构——**序列**——并不令人惊讶，例如 CFIT 的第二和第三量表中的测试 1、Leiter-R 的顺序排列（Sequential Order）和重复模式（Repeated Pattern），以及 WAIS-IV 矩阵推理的一部分。我们将这种结构的 RPM 类题目称为**图形序列**。图 4 给出了总结图形序列题目的图示。

图形序列具有几个使其与其他 RPM 类任务不同的特征。首先，序列的结构决定了一个或多个关系在序列中重复出现。需要注意的是，关系不一定是二元关系，它可能涉及序列中两个以上的连续条目。其次，为了提供足够的上下文信息，图形序列通常比矩阵推理中的一行或一列更长。第三，序列中可能有一个或多个缺失条目。特别是，缺失条目不一定是最后一个。

图形序列也可以被视为矩阵推理任务的一个特例，通过限制矩阵的维度，但它与矩阵推理任务在概念上也有所不同。在矩阵推理中，沿着矩阵的行和列可以存在多个不同的关系。在大多数情况下，行关系与列关系不同。参与者需要找出行和列方向上的关系，并将它们组合起来以唯一确定答案。在图形序列中，多个关系在单一方向上重复出现。

3.1.3 类比推理

除了修改原始 RPM 的格式（如图形序列），其上下文还可以从不同的角度进行观察。一个重要的视角是来自人类认知能力中的一个重要能力——类比推理。也就是说，通过将矩阵条目视为类比，可以在行之间、列之间或对角线之间建立类比。正确的答案是能够使矩阵中的类比最优化的那个。因此，非语言类比推理任务可以被视为 RPM 的近亲。这种任务的经典例子是 1942 年版《美国教育委员会大学新生心理测试》中的几何类比问题（Lovett 等，2009）。这些类比推理题目也可以在我们调研的智力测试中找到，例如 Leiter-R 的设计类比（Design Analogy）和 WAIS-IV 矩阵推理的一部分。图 5 给出了该任务的图示总结。

在类比推理任务中，上下文被明确分为两部分，即图 5 中的 A 部分和 A’ 部分，它们由来自两个不同领域的类比组成。A 部分和 A’ 部分对应于一般类比推理情境中的基础领域和目标领域，其中基础领域通常是熟悉的，而目标领域是不熟悉的，需要通过基础领域的知识来理解。类比推理任务通过以相同方式排列 A 部分和 A’ 部分的类比，并移除 A’ 部分中的一个或多个类比来模拟这种情况。需要注意的是，尽管图 5 中的类比以序列形式列出，但这并不意味着序列中的关系是重复的，如图形序列中那样。当布局对类比之间的关系有意义时，类比可以以任何空间布局排列。由于大多数智力测试中的类比通常以两个序列的形式呈现，类比推理任务类似于图形序列任务。但这两种任务在概念上是不同的，并且需要不同的认知能力。即使我们将矩阵的行或列人为地分为两部分，类比推理任务在概念上也不同于矩阵推理任务。这是因为，要建立一个“有趣的”类比，基础领域和目标领域必须在感知上相距较远，并且必须从两个领域中提取高阶关系。在矩阵推理中，这意味着行（或列）必须在感知上足够不同。这些条件在矩阵推理题目中并不总是满足，尤其是在水平和垂直方向上都存在关系时。

3.1.4 对比分类

分类长期以来被用于探索人类和人工智能。它要求参与者提取一个抽象概念，以便将给定的刺激分类到这些概念中。当这些刺激类似于 RPM 中的刺激时，分类可以被视为 RPM 类任务，因为它们都涉及对多个视觉刺激之间关系的推理。在智力测试中，分类任务可以以对比的方式呈现。也就是说，呈现两组刺激，这两组代表两个对比但相关的概念，例如大-小、凹-凸和高-低。但需要注意的是，分类不仅限于反义词对，它还可以使用像五边形-六边形这样的概念对，以及更随机的概念，如拓扑结构。对比分类的优势显而易见：它允许使用复杂且多样的概念（而不是简单描述感知属性的概念），使测试对参与者具有智力上的吸引力；同时，复杂且多样的概念不会使题目过于开放，因为概念是由两组之间的独特差异唯一确定的。

最具代表性的对比分类任务是**Bongard 问题**。它要求参与者用语言描述两组之间的概念差异。在大多数智力测试中，对比分类通常是多选题，其中答案选项被选为某个概念组的成员，即识别从两组中提取的概念的实例。对比分类通常以两种方式呈现——显式和隐式。对于显式对比分类（图 6a），两组刺激被明确分开，例如 Bongard 问题和 CFIT 的第一量表的测试 2。显式对比分类任务也用于评估 AI 系统，例如 SVRT 和 PSVRT 数据集（Stabinger 等，2021）。对于隐式对比分类（图 6b），来自两个概念组的刺激混合在一起，参与者需要将它们分成两组，例如著名的“找出不同”测试（Odd-One(s)-Out tests）和 CFIT 的第二和第三量表的测试 2。需要注意的是，在对比分类任务中，刺激的空间布局相对于矩阵推理和图形序列来说不太重要。唯一的要求是，在显式对比分类中，组别归属必须明确标示。

3.1.5 开放分类

分类任务在我们的日常认知活动中自然不是对比性的。也就是说，被分类的对象并不总是伴随着另一个对比概念的实例。与对比分类不同，现实生活中的分类更基于感知和概念上的相似性。因此，我们将其称为**开放分类**。具体来说，开放分类题目中涉及的概念可以是完全不相关的，甚至可能只有一个单一概念。例如，在 WAIS-IV 的语言相似性子测试中，可能会看到类似“海豚和大象在哪些方面相似”的题目。一个可能的答案是它们都是动物，而更好的答案是它们都是哺乳动物。不同的答案会得到不同的分数，答案越具体，得分越高。从这个例子可以看出，语言开放分类题目需要一定的先验知识才能具有智力上的吸引力。当开放分类以非语言形式呈现时，它可以被视为 RPM 类任务。在我们调研的智力测试中，非语言开放分类的例子包括 CFIT 的第二和第三量表的测试 4 以及 Leiter-R 的分类子测试。

与对比分类类似，开放分类也可以以显式或隐式的方式呈现，如图 7 所示。显式开放分类（图 7a）由两部分组成。A 部分提供多个概念的实例（不一定是对比的，甚至不一定是相关的），每个实例代表一个独特的概念。B 部分由需要分类的实例组成，通过匹配 A 部分的实例来分类到相应的概念中。隐式开放分类（图 7b）类似于上述语言开放分类的例子，只是将海豚和大象替换为非语言刺激。响应格式和评分方式也与海豚和大象的例子类似。

3.1.6 总结

我们从智力测试中总结的五类 RPM 类任务绝非包罗万象。它们的目的是扩展我们对 RPM 所代表的整个问题领域的关注，使 AI 研究更接近问题领域的本质，而不仅仅局限于解决原始 RPM 或特定测试。问题领域比大约 100 个原始 RPM 题目更加多样化和广泛。问题领域扩展到所有视觉刺激及其之间的关系，这些刺激和关系适合测试具有一定先验知识和经验的人。

在智力测试的题目编写中，**良好的“品味”**极为重要。首先，一个好的题目必须能够让参与者直接意识到这是一个需要解决的问题。这一点看似毫无意义，因为任何智力测试题目都是一个需要解决的问题。但这里的“问题”不应被字面理解。具体来说，题目之所以是一个问题，并不是因为测试者告诉参与者它是问题，或者参与者知道测试由问题组成。相反，参与者应该通过观察题目并形成一个推测来意识到这一点，即基于观察，题目中应该存在潜在的模式。这种推测更多是一种感觉，而不是对解决方案或模式的完全理解，这意味着它基于对解决题目时应注意的粗略想法。这种让参与者产生这种感觉的特性非常重要，因为它使题目在智力上具有吸引力和趣味性，从而激励参与者去解决它。如果没有这种特性，参与者可能会给出无效的回答，例如在没有思考的情况下随机作答。

题目编写的第二个要点是，题目内容的范围应允许较大的难度范围。具体来说，它应允许创建相当困难的题目，以测试高智商个体。这一点本身并不是问题，因为如果深入任何特定领域，都存在大量复杂的抽象关系和模式。但是，当与第一个要点——题目应直接作为问题呈现——结合时，这构成了巨大的挑战，因为这两个要点在许多情况下是相互矛盾的。一个优秀的题目编写者能够调和这两个要点，并实现一种综合效果：当参与者看到题目时，她能立即理解它以何种方式成为问题，并投入有效的智力努力去解决它；而当找到正确答案时，参与者会强烈感受到一种“啊哈”时刻，相信问题已经解决。从这个意义上说，上述五类 RPM 类题目是题目编写的杰作。但这并不意味着问题领域仅限于这些类别，还需要更多的努力来进一步探索问题领域。

3.2 矩阵推理的算法题目生成

**算法题目生成（Algorithmic Item Generation, AIG）** 是指使用计算机算法自动创建测试题目的方法。AIG 最初是为了应对特殊测试环境中对测试题目的需求增加而引入的：

**大规模测试**：例如，学术环境中的重复测试和纵向实验，由于重测效应，需要许多平行版本。

**自适应测试**：其中下一题目的选择取决于对前一题目的回答，这是一种更高效和可靠的测试形式，但也需要更大的题库。

**计算机和互联网测试**：这使得标准化测试更容易被公众获取，并将曝光控制问题提升到一个新的水平。

为了使 AIG 发挥作用，测试开发者必须对所测量的内容和相应的问题领域有深入的理解，从中生成题目。此外，测试开发者还需要检查生成题目的测试属性，如有效性和可靠性，就像在手工设计的测试中一样。AIG 已经在不同领域进行了研究和应用，如心理测量学、认知科学和教育。它可以用于从一般领域测试（如人类智商测试）到特定领域测试（如医学执照测试）的广泛测试题目（Gierl 等，2012）。

随着 RPM 类任务越来越多地用于人类智力测试和 AI 测试，对 RPM 类题目的需求迅速增加。特别是，自从数据驱动的 AI 系统应用于 RPM 类任务以来，这种需求从数百个题目扩展到数百万个题目，这是人类题目编写者无法满足的。因此，RPM 类题目的 AIG 受到了越来越多的关注。然而，RPM 类题目的 AIG 在不同的研究领域中分别进行了研究。在本小节中，我们将这些来自不同领域的工作汇总在一起，系统地探讨 RPM 类题目的 AIG 如何在人类智力测试和 AI 测试中发挥作用。为了深入讨论技术细节和理论意义，我们专注于矩阵推理任务，这是在人类智力和 AI 领域中研究最广泛的 RPM 类任务。在本小节的其余部分，我们首先回顾用于人类测试的矩阵推理 AIG 工作，然后转向用于 AI 测试的工作。

3.2.1 用于人类智力测试的矩阵推理题目算法生成

人类智力测试中的题目是严格按照心理测量学程序和人类智力理论精心手工设计的。特别是，手工设计的题目在最终纳入题库之前，必须经过多次评估和校准，以确保良好的心理测量属性。淘汰率可能高达 50%（Embretson，2004）。为了减轻题目编写者的负担，AIG 已经做出了多种努力。以下我们讨论用于人类智力测试的矩阵推理的典型 AIG 工作。每个被回顾的工作标题后都附有其最突出的特征关键词。这些工作的技术细节总结在表 1 中。

基于规则的题目构建——基于人类的 AIG在文献中，“算法题目生成”更多地被称为“自动题目生成”。“自动”一词暗示了计算机的使用。但算法和支撑算法所测量的理论才是 AIG 的本质，而不是计算机。正如将在第一个被回顾的工作中展示的那样，计算机并不是必需的。Hornke 和 Habon（1986）进行了一项早期研究（如果不是最早的话），关于矩阵推理题目的 AIG。他们创建了一个题目生成程序，雇佣大学生手动执行该程序，并生成了 648 个 3×3 的题目。该程序中的每一步都有有限且明确的选择，因此学生可以随机选择。尽管这些题目的多样性和复杂性无法与人类专家手工设计的题目相比，但在 Hornke 和 Habon（1986）之前，没有人能够“自动”生成如此多的题目。

Hornke 和 Habon 将题目编写任务视为解决问题的逆过程，可以分解为三种类型的认知操作，分别对应解决过程的三个独立维度。为了生成题目，Hornke 和 Habon 设计了一个程序，通过从有限选项集中依次选择来处理这三个维度：

**几何元素的变化规则**：提供了八个选项（见图 8 中的前 8 个矩阵示例）——恒等、加法、减法、交集、异或（或对称差）、序列、开放/封闭格式塔的变化（即三种空心/实心形状的排列）。

**类比方向**：变化规则在行或列方向上进行。

**感知组织**：这一维度涉及如何将多个变化规则组合成矩阵条目中的刺激。提供了三个选项（见图 8 中的最后 3 个矩阵示例）：分离、整合和嵌入。分离意味着使用不同的几何元素来表示不同的变化规则；整合意味着使用单个几何元素的不同属性来表示不同的变化规则；嵌入意味着使用单个几何元素的不同部分来表示不同的变化规则。

在他们的实验中，被雇佣的学生被提供了一组几何形状（例如不同大小的正方形和三角形），并被指示通过从给定集合中联合采样这三个维度和几何形状来创建题目。学生被告知通过最多组合两个变化规则来创建每个题目。因此，生成的题库仅包含 1 规则和 2 规则的题目。对该题库的人类实验表明，对应于这三个维度的认知操作解释了大约 40% 的题目难度。至于未解释的 60%，其他早期研究（Mulholland 等，1980）表明，元素的数量和规则的数量也是难度的主要来源。尽管这种“基于人类”的 AIG 工作与当今的计算能力相比显得有些原始，但它分解生成过程的方式对后续工作产生了持久的影响。

认知设计系统方法——认知建模与心理测量的结合Embretson（1995, 1998, 2004）引入了**认知设计系统方法**。与其他专注于生成题目的 AIG 工作不同，这种方法专注于人类测试，通过将认知建模和心理测量模型与理论（如 IRT 理论和模型）整合到一个类似于人类专家创建和验证智力测试的程序中。一个矩阵推理题目库作为演示被生成。

该方法从信息处理层面对现有认知能力测试的解决过程进行认知建模开始。在演示中，Embretson 重用了由（Carpenter 等，1990）提出的认知模型，该模型也被用于许多其他矩阵推理的 AIG 工作中。然而，Embretson 指出，该认知模型并未包括解决过程中的感知编码或决策过程。因此，Embretson 在生成程序中加入了三个额外的二元感知刺激特征——对象叠加、对象融合和对象扭曲，这些特征代表了将完整格式塔分解为其基本部分的三种不同类型的精神分解。对象叠加和融合类似于图 8 中的分离和嵌入，而对象扭曲指的是对相应元素形状的感知改变（例如弯曲、扭曲、拉伸等）。基于这种方法，开发了一款软件——**ITEMGEN**。

一旦确定了认知模型，刺激特征也随之确定。然后，它将这些特征整合到心理测量模型中，以估计题目属性（例如题目难度和题目区分度），并将其表示为刺激特征的参数化函数。函数参数最初通过将心理测量模型拟合到现有认知能力测试的人类数据来设置。此后，通过操纵刺激特征生成的新题目的属性可以通过这些函数进行预测。将新题目的预测和实证分析进行比较，以进一步调整参数。一旦这些函数具有足够的预测能力，心理测量模型就可以集成到自适应测试系统中，以取代固定的题库，并实时生成具有预期属性的题目。总而言之，认知设计系统方法不仅仅是构建一个题目生成器；它还考虑了生成题目的心理测量属性。

MatrixDeveloper——4×4 矩阵MatrixDeveloper（Hofer，2004）是一个用于生成矩阵推理题目的未发布软件。它已被用于一系列关于算法生成的矩阵推理题目的心理测量研究（Freund 等，2008；Freund 和 Holling，2011a,b,c）。根据这些研究中的有限描述，MatrixDeveloper 在变化规则（例如（Carpenter 等，1990）认知模型的五个规则）和感知组织（即叠加、融合和扭曲）方面与认知设计系统方法类似。不同之处在于，它生成 4×4 矩阵题目，这在矩阵推理任务中并不常见。理论上，它可以容纳比 3×3 或 2×2 矩阵更多的变化规则，从而可以更好地研究变化规则的差异效应。

GeomGen——感知组织早期对手工设计的矩阵推理题目进行认知建模时，通常通过元素数量、规则数量和规则类型来描述题目，例如（Mulholland 等，1980；Bethell-Fox 等，1984；Carpenter 等，1990）。这种描述与处理题目的第一手经验以及人类行为的直接测量（如准确率、反应时间、口头报告和眼动追踪）一致。此外，这种描述的依据可以通过 Baddeley 和 Hitch 的工作记忆理论来解释。然而，为了创建新题目，我们需要至少考虑另一个因素——**感知组织**（Primi，2001）。它描述了几何元素和规则如何感知地整合以呈现题目图像。例如，Hornke 和 Habon（1986）程序中的第三个维度是处理感知组织的一种特定方式。更一般地，感知组织涉及使用格式塔原则（如接近性、相似性和连续性）对元素进行格式塔分组/映射。这一因素定义不够明确，也没有提出过系统的描述。但是，为了创建新题目，必须采用一些形式化的方法来操纵感知组织。

（Arendasy，2002；Arendasy 和 Sommer，2005）提出了一种生成程序——**GeomGen**，采用了二元感知组织，这在许多后续工作中被重用和扩展。GeomGen 中的感知组织提供了两个选项——**经典视图**和**普通视图**。在经典视图中，几何元素的外观发生变化，而它们的数量和位置在矩阵条目中保持不变。在普通视图中，元素的数量和位置发生变化，而它们的外观在矩阵条目中保持不变。这两种视图之间的一个明显区别是如何建立两个矩阵条目中元素之间的对应关系。这种区别很重要，因为它导致在考虑矩阵条目之间的规则之前，需要不同的认知过程来寻找对应关系。

GeomGen 中感知组织的分类只是定义感知组织的一种特定方式，但绝不是唯一的方式。例如，（Primi，2001）提出了另一种重要的分类——**和谐与非和谐**，它与 GeomGen 的分类一起，形成了一个更全面的感知组织描述，该描述被许多后续的 AIG 工作所采用。

Primi（2001）将“和谐组织”描述为视觉上和谐的题目，其感知和概念组合代表了元素之间的相容关系，而非和谐组织则倾向于描绘视觉和概念方面之间的竞争或冲突组合，这些必须在达到解决方案时加以处理。Primi（2001）提到，在 AIG 实践中，非和谐题目可以通过操纵几何元素来导致误导性的格式塔分组，从而从和谐题目中派生出来，如图 9 所示。在和谐题目中，正确的格式塔分组/映射（即元素对应关系）是显而易见的，而非和谐题目则需要额外的认知努力来解决竞争性格式塔分组和映射之间的冲突。

总结综上所述，所有上述因素——元素数量、规则数量、规则类型和感知组织——对题目复杂性的贡献可以通过它们对工作记忆中央执行组件的影响来解释。但它们施加影响的方式不同。元素数量和规则数量与短期记忆管理和目标（或策略）管理相关，而规则类型和感知组织与选择性编码和短期记忆管理相关（Primi，2001）。根据矩阵推理 AIG 的文献，规则类型和感知组织较少被研究，但可能对理解矩阵推理的解决过程和题目难度非常重要。几项人类研究得出了相同的结论（Primi，2001；Arendasy 和 Sommer，2005；Meo 等，2007），而其他研究者可能对此有不同看法（Embretson，1998；Carpenter 等，1990）。

Sandia 矩阵生成软件——高保真 SPM 生成器之前的工作更多地从认知科学和心理测量学的角度研究 AIG，而对算法和软件开发的细节较少提及。但在实践中，我们也对这些想法的实现方式，尤其是生成器软件的可访问性感兴趣。Matzen 等（2010）在他们的工作中提供了一个具有代表性的例子，可以“高保真地重现”3×3 SPM——**Sandia 矩阵生成软件**。

Matzen 等（2010）确定了 SPM 中两种基本类型的 3×3 题目——**元素变换**和**逻辑问题**。元素变换指的是元素某个属性的渐进变化。在不同方向上可能存在多个变化，例如行方向上的颜色变化和列方向上的大小变化。然而，在每个单一方向上，只有一个属性发生变化。这是因为一方面，原始 SPM 中就是如此，另一方面，同一方向上的多个属性变化与仅一个属性变化相比，并不会增加问题的复杂性（对人类参与者而言）。变换问题考虑的属性包括形状、阴影、方向、大小和数量，每个属性都取自有序分类域。逻辑问题涉及元素的加法/减法、合取（AND）、析取（OR）或异或（XOR）等操作。每个生成的题目要么是变换问题，要么是逻辑问题，但不能同时是两者。

此外，Sandia 矩阵生成器以原始 SPM 问题的方式生成答案选项。不正确的答案选项可以是（a）矩阵中的一个条目，（b）矩阵中条目的随机变换，（c）正确答案的随机变换，（d）错误答案的随机变换，（e）从矩阵中采样的特征组合，或（f）矩阵中未出现的新特征组合。

通过一个包含 840 个生成题目的题库研究了题目难度。问题集包含 1、2 或 3 个规则的问题（在行、列或对角线方向上）。需要注意的是，原始 SPM 问题不包含 3 规则问题。生成的题目集和原始 SPM 被提供给同一组大学生。实验数据显示，生成的题目和原始 SPM 具有非常相似的题目难度。特别是，数据进一步显示，题目难度受到规则数量、类比方向和问题类型（即变换问题与逻辑问题）的强烈影响。

CSP 生成器——一阶逻辑表示AIG 的一个更重要的事情是给出生成过程的一般形式化描述，而不是开发各种特定的生成软件。Wang 和 Su（2015）通过一阶逻辑对矩阵推理题目的生成过程进行了形式化，并通过将 RPM 题目的“有效性”5 转化为一组一阶逻辑命题，将 AIG 转化为约束满足问题（CSP）。

具体来说，一个变化规则被表示为方程（1）和（2）的实例化，

其中，α 是一个几何属性，oij 是第 i 行第 j 列图形中的几何元素，τ (α, oij ) 是 oij 的 α 值，P 是一个谓词，描述了属性 α 在每一行中的变化模式。在方程（2）中，谓词 P 进一步等于三个谓词——一元（Unary）、二元（Binary）和三元（Ternary）——的合取，这三个谓词代表了矩阵推理中常用的三类关系，如图 10 所示。

图 10 的一个有趣观察是，从数学上讲，一元关系是二元关系的一个特例，而二元关系又是三元关系的一个特例。也就是说，理论上三元关系足以生成所有题目。然而，将相同的变化解释为一元、二元和三元关系需要不同的工作记忆能力，从而导致不同的难度。因此，这三类关系在认知上是不同的，需要在生成器程序中分别包含，以更好地控制心理测量属性。

方程（1）和（2）仅表示单个属性 α 的变化模式。在矩阵中，可能存在不同属性的多个变化模式，即方程（1）和（2）的多个不同实例化。同时，某些属性也可能没有分配方程（1）和（2）的任何实例化。在这种情况下，可以为它们分配常量值或跨矩阵条目的随机值。随机值可能会在生成的题目中产生干扰效应，类似于（Primi，2001）中的非和谐感知组织。

为了通过方程（1）和（2）生成题目，生成器程序从有限域中采样值以确定（a）规则的数量（即方程（1）和（2）的实例化数量），（b）每个规则的属性 α，（c）τ (α, oij ) 的值，（d）一元、二元和三元关系的具体类型。矩阵图像从方程（1）和（2）的实例化中渲染，每个不正确的答案选项通过破坏方程（1）和（2）的实例化生成（即使用不满足它们的值）。

生成的题目和 APM 测试也被提供给一小群大学生。实验数据显示，总体难度和按规则的难度（规则数量）与 APM 中的题目相似。然而，正如作者指出的那样，他们的生成器无法合成 APM 中的所有题目，因为某些底层变换难以实现。当题目创建时带有干扰属性时，生成的题目对人类受试者来说变得困难得多。

IMak 包——开源尽管已经有很多关于矩阵推理 AIG 的工作，但生成器软件和源代码通常不容易向公众开放。这使得很难重现和基于这些工作进行构建。Blum 和 Holling（2018）意识到了这一点，并将他们的生成器作为 R 包——IMak 包——通过 Comprehensive R Archive Network 向全球发布。他们的工作源代码和详细文档随 R 包一起提供。只需在 R 解释器中输入三行 R 代码即可获得新题目——一行用于下载包，一行用于导入包，一行用于生成题目。

作者开发 IMak 包的目的是研究不同类型变化规则对题目难度的影响。因此，生成器被设计为在保持其他因素不变的情况下操纵规则类型，因此生成的题目与上述生成器生成的题目看起来非常不同。例如，图 11 显示了我们通过该包创建的一些示例题目，每个题目都展示了一个基本规则类型。在当前版本（2.0.1）中，几何元素仅限于主形状（破圈加上其中的折线）、与主形状相切的梯形以及折线角上的一个点。此外，这些元素的大小和形状在所有生成的题目中是固定的，但位置、方向和存在性会根据 5 个基本规则变化。

如图 11 所示，IMak 中有 5 个基本规则。所有规则都在向外类比方向（即行和列）上。例如，在图 11a 中，主形状在第一行中逆时针旋转 45 度；主形状在第一列中逆时针旋转 90 度。那么正确答案将是主形状相对于左上角逆时针旋转 135（45 + 90）度。同样，其他 4 个示例也遵循相同的类比方向。每个题目最多可以包含 4 个规则（因为主形状的旋转和反射是冲突的）。这种设计似乎过度简化了 RPM 类问题，但它确实服务于通过固定其他因素来研究规则差异效应的非常目的。

除了开源可访问性和几何元素的特殊设计外，IMak 还有四个其他显著特征，对后续工作具有启发性。首先，IMak 生成 2×2 格式的矩阵推理 AIG。受（Carpenter 等，1990）关于 RPM 的著名工作的影响，绝大多数 AIG 工作只会生成 3×3 矩阵。2×2 题目在矩阵推理的 AIG 工作中基本上被忽视了。其次，答案集中包含两个额外的元选项“没有正确答案”和“我不知道”，这鼓励受试者更建设性地解决问题，而不是排除选项。第三，一个元素的变化可能取决于另一个元素的变化。例如，点的移动取决于主形状的变化，因为点只沿着主形状中的折线移动。这种变化规则在矩阵推理题目中很少见，但在现实世界的问题解决中很常见，它代表了矩阵推理的额外复杂性因素。

最后但同样重要的是，IMak 使用了一种依赖于规则的策略来生成不正确的答案选项。对于 1 规则题目，采样规则属性的 4 个不同值，包括正确值；由于矩阵中的其他属性保持不变，因此选择另一个随机属性并为其采样 2 个值。生成的 8（4×2）组合构成了答案集中的 8 个选项。对于 2 规则题目，为 2 个规则的 2 个属性中的每一个采样 3 个值，结果为 9 个组合，并丢弃其中一个。对于 3 规则题目，以相同方式采样 2×2×2 组合。对于 4 规则题目，以相同方式采样 2×2×2×2 组合，并丢弃其中的一半。

在一个人类实验中，23 个生成的题目被提供给来自德国、印度尼西亚和阿根廷的 307 名参与者。通过实验结果初步验证了可靠性、有效性和单维性。特别是，基于心理测量模型，题目难度可以从规则的数量和类型中部分预测。总结来说，开源软件是发布 AIG 工作的更推荐方式，特别是出于研究目的，因为它可以在全球研究小组之间共享。更重要的是，研究不应局限于固定的题目集，而应关注生成器的设计方式。

3.2.2 用于 AI 测试的矩阵推理题目算法生成

我们现在回顾两项专门为 AI 测试设计的矩阵推理 AIG 工作。这两个工作中生成的数据集对解决 RPM 类任务的数据驱动 AI 模型具有极大的影响力，因为几乎所有这些模型都在其中一个或两个数据集上进行了测试。此外，我们还回顾了解决算法生成的数据集上下文盲问题的工作，这是数据驱动 AI 模型的一个特殊且重要的问题。

程序化生成矩阵（Procedurally Generated Matrices, PGM）

基于（Carpenter 等，1990）中的五个规则，Barrett 等（2018）继续了 Wang 和 Su（2015）的一阶逻辑方法，并创建了一个大规模（120 万个题目）的矩阵推理题目数据集——**程序化生成矩阵（PGM）**。由于生成器程序和源代码未公开，我们的讨论基于（Barrett 等，2018）中的描述以及我们对数据集的观察。

在 PGM 中，一阶逻辑方法中方程（1）和（2）的实例化由一个三元组 [r, o, a] 表示，其中 r 是关系，o 是对象，a 是属性。这三个因素并不是独立的。特别是，图 12 总结了 PGM 生成器中它们的依赖关系。图 12 由从左到右的 29 条路径组成，对应于 29 个 [r, o, a] 三元组。

如图 12 所示，PGM 中的对象分为两个不相交的子集——形状和线条。在形状子集中，闭合形状排列在每个矩阵条目内的 3×3 网格中（在这种情况下位置固定）。在线条子集中，线条绘图覆盖整个矩阵条目的区域，并且始终居中于矩阵条目。一个 PGM 题目可以同时包含形状和线条绘图，形状叠加在线条绘图上，但这两者的推理是完全独立的。因此，在表 1 中，我们将 PGM 分为两行以更清晰地描述它。

PGM项目的生成过程可以分为五个步骤：(a) 从图12中描述的29个三元组（不能同时选择数字三元组和位置三元组）中随机选择1到4个三元组；(b) 确定每个三元组的类比方向：行或列；(c) 从其域中为每个三元组采样属性值（针对不同的规则和属性，具体实施不同的采样方法）；(d) 确定未指定属性的属性值（常量或随机）；(e) 将所有属性值渲染成矩阵的像素图像。

PGM数据集中使用的关系，在其他文献中也被称为规则，源自Carpenter等人（1990年）总结的APM五大规则，具体如下：
• 行中常量。
• 定量成对递进。
• 图形加或减，即集合的并集和差集（不是算术上的加和减），也可以视为逻辑运算符OR和XOR。
• 三值分布，即一致的并集。
• 二值分布，即逻辑运算符XOR。

将PGM关系与上述规则进行比较，我们发现它们几乎等价。“行中常量”对应于PGM中的无干扰模式。“三值分布”对应于PGM中的一致并集。“图形加或减”和“二值分布”在PGM中分别对应于逻辑运算符OR和XOR。然而，PGM除了包含Carpenter等人（1990年）提出的五大规则外，还增加了一个关系——AND，以使其更加完善。

关系与类比视觉推理（Relational and Analogical Visual rEasoNing, RAVEN）空间配置作为感知组织的一个重要维度，在 PGM 中受到了高度限制——形状子集使用 3×3 网格，线条子集则全部居中，并且形状条目叠加在线条条目之上。为了丰富矩阵推理 AIG 的空间配置，Zhang 等（2019a）开发了一个新的生成器，并生成了 **Relational and Analogical Visual rEasoNing (RAVEN)** 数据集。特别地，RAVEN 包含了 7 种硬编码的空间配置，如图 13 所示。

这 7 种配置源自一个更通用的图像符号表示框架——**属性随机图像语法（Attributed Stochastic Image Grammar, A-SIG）**。在 A-SIG 中，图像通过树结构描述，从根节点到叶节点，概念的粒度逐渐变细。为了生成 RAVEN，树结构被预定义为一个通用的 A-SIG 树，如图 14 所示，它包含 5 个概念层次——场景、结构、组件、布局和实体——并使用随机树遍历过程来生成图像。总体而言，A-SIG 树的主要思想是，在遍历树时，如果当前节点与其子节点之间有虚线边，则扩展一个随机子节点；如果当前节点与其子节点之间有实线边，则扩展其所有子节点。属性及其属性值域附加到节点上，以便在树结构确定后通过从这些域中采样来生成图像。从根节点到叶节点的这种随机遍历过程将生成一类图像的骨架——即空间配置。然而，RAVEN 中的 7 种配置是在 A-SIG 语言中硬编码的，而不是通过这种随机遍历过程生成的，否则可能会使 RAVEN 在空间配置上更加多样化。

为了与 PGM 数据集进行比较，我们将 PGM 题目也用 A-SIG 表示，如图 15 所示。PGM 的线条配置与 RAVEN 的中心配置基本相同，只是实体类型（形状）不同。PGM 的形状配置与 RAVEN 的 3x3Grid 配置几乎相同，只是边界框的大小略有不同。PGM 的形状叠加线条配置在概念上也与 RAVEN 的双组件配置相似。PGM 和 RAVEN 之间的总体差异在于布局和实体节点。如图 15 所示，PGM 数据集无法通过三元组 [r, o, a] 分离“实体”和“实体布局”的概念。也就是说，对象 o 同时承担了布局和实体节点的角色，但无法有效且同时地发挥这些角色。

RAVEN 继承了（Carpenter 等，1990）中的所有五个规则。此外，“加减法”规则在 RAVEN 中得到了扩展，不仅包括图形加法和减法（即集合操作“OR 和 XOR”），还包括算术加法和减法，这些在（Carpenter 等，1990）中未被讨论。由于这两种操作在概念上是不同的，我们将算术加法和减法称为“算术”，将图形加法和减法称为“OR 和 XOR”。此外，（Carpenter 等，1990）中的“三值分布和二值分布”在 RAVEN 中被合并为一个规则，将后者视为前者的一个特例，其中一个三值为空值。因此，RAVEN 的规则集与 PGM 略有不同。同样，我们也可以将 RAVEN 的变化规则表示为三元组——[r, n, a]，其中 n 表示 A-SIG 树中的节点（布局或实体），r 和 a 是关系和属性，与 PGM 相同。然后，图 12 显示了 r、n 和 a 之间的依赖关系。

PGM 和 RAVEN 生成器在某些方面相似。特别是，它们有两个相似之处。首先，它们在属性、属性域和规则类型的选择上相似。例如，它们都禁止数字规则和位置规则在同一题目中同时出现，因为这两个属性可能会相互冲突。其次，尽管 RAVEN 有更多的空间配置，但这些配置在结构上与 PGM 并无显著不同（可以从它们的 A-SIG 树的比较中看出）。同时，PGM 和 RAVEN 在两个方面有所不同。首先，它们在题目中规则的数量上不同。在 PGM 中，从 29 个三元组中采样 1 到 4 个三元组。相比之下，在 RAVEN 题目中，除了两个干扰属性（一致性和方向）外，每个属性都由一个规则控制。因此，每个 RAVEN 题目中有 4 个规则（分别用于数量/位置、类型、大小和颜色）。其次，RAVEN 中的规则都是按行进行的，而 PGM 中的规则可以是按行或按列进行的。

Context-Blind Issue.

RAVEN 的答案集生成方式与一阶逻辑方法类似。也就是说，每个不正确的答案选项是通过修改正确答案的单个属性创建的。RAVEN 与（Wang 和 Su，2015）略有不同，因为 RAVEN 只有 5 个属性（不包括干扰属性），而（Wang 和 Su，2015）有 15 个属性。因此，在（Wang 和 Su，2015）中，每个不正确的答案在某个属性上与正确答案不同；但 RAVEN 必须重复使用这 5 个属性来生成 7 个不正确的答案，即一个属性被赋予不同的值以生成多个不正确的答案。

这种创建不正确答案选项的方法达到了最大程度的干扰和混淆效果，因为必须识别所有变化规则才能解决问题。相反，忽略任何规则都会导致多个选项。然而，这种设计有一个主要缺点——它未能通过多选题的上下文盲测试。在矩阵推理题目中，不完整的矩阵是多选题的上下文，为解决问题提供信息。未能通过上下文盲测试意味着人类参与者或计算模型可能在忽略上下文的情况下解决题目。

两项工作（Hu 等，2021；Benny 等，2021）分别指出了 RAVEN 的上下文盲问题。他们提供了证据，表明数据驱动的 AI 模型在仅访问 RAVEN 答案集时可以实现高准确率（从 70%+ 到 90%+）。一些数据驱动 AI 模型的上下文盲性能甚至比完全访问题目时的正常性能更好。这表明数据驱动的 AI 模型能够捕捉答案集中的统计规律。上下文盲问题的原因显然在于答案集的生成过程。特别是，由于每个不正确的答案选项是通过修改正确答案的单个属性创建的，因此正确答案必须是所有选项中拥有每个共同特征的那个（或者等价地，与每个其他选项最相似的那个）。

Hu 等（2021）和 Benny 等（2021）分别提出了各自的解决方案来解决这一问题——**Impartial-RAVEN** 和 **RAVEN-FAIR** 数据集。这两个数据集的上下文矩阵与原始 RAVEN 相同，但以不同的方式重新生成了答案集。通过将每个答案选项表示为顶点，每个属性的修改表示为边，这三个版本的答案集可以用简单的图来表示，如图 16 所示。原始 RAVEN 的答案集是通过修改正确答案的某个属性创建的。因此，其图结构是一个以正确答案为中心的星形结构（实心顶点）。在上下文盲测试中，上述计算模型捕捉到的正是这种星形结构的唯一中心。

Hu 等（2021）提出了 **Impartial-RAVEN**，其答案集可以用图 16 中的 3-正则图表示。为了创建这样的图，从 RAVEN 的五个属性中随机选择三个独立属性，并分别从这三个属性的值域中采样三个值，确保新采样的值与正确答案的值不同。然后，通过组合方式为这些属性分配新值，我们将得到 2^3 = 8 个答案选项，包括正确答案。这 8 个答案选项之间的关系形成了图 16 中的 3-正则图。

Benny 等（2021）提出了一种不太规范的程序来生成答案集。从仅包含正确答案的初始答案集开始，随机从当前答案集中选择一个答案选项，然后随机更改该选项的一个属性以创建一个新的答案选项；重复此过程，直到我们得到 8 个答案选项。这个过程生成了类似于图 16 中的树形结构。

这两个增强版本的 RAVEN 通过上下文盲训练了（Zhang 等，2019a）中的基线模型和（Zhang 等，2019b）中的 CoPINet 模型。准确率降至 20% 以下。理想情况下，一个上下文盲的人类受试者或计算模型在处理 RAVEN 题目时应表现得像随机猜测一样，即 1/8 = 12.5%，这意味着答案集本身并不提供任何有用的信息来解决问题。然而，在题目编写的实践中，为了保持不正确答案选项的某种程度的干扰和混淆效果，大多数不正确答案选项必须与正确答案和上下文矩阵共享一些相似性，这会略微提高随机猜测的性能。另一方面，如果没有这种设计，受试者将很容易找到正确答案，因为不正确的答案将与上下文和其他答案选项在感知上非常不同。因此，合理的上下文盲性能应略高于随机猜测。这种平衡由题目编写者的判断决定。

通过比较图 16 中的两个增强版本的 RAVEN，可以发现一个细微的差异。如果我们考虑一次单次试验（从概率角度），其中我们上下文盲地给一个受试者（或 AI 模型）一个来自 Impartial-RAVEN 的题目和一个来自 RAVEN-FAIR 的题目，那么该受试者解决 Impartial-RAVEN 题目的概率几乎与解决 RAVEN-FAIR 题目的概率相同。然而，如果我们反复进行不同的题目，假设受试者足够聪明，能够弄清楚答案集背后的图结构，并因此通过概率性地选择“中心”（或最大度顶点）来进行有根据的猜测，那么 RAVEN-FAIR 的表现可能会超过 Impartial-RAVEN。在这种情况下，我们可以说 RAVEN-FAIR 在题目级别上是上下文盲有效的，但在数据集级别上不是。

3.2.3 总结

在本小节中，我们回顾了矩阵推理题目的 AIG 工作。我们根据其目的将这些工作分为两组——一组用于人类智力测试，另一组用于 AI 测试。第一组工作不仅旨在生成题目，还注重良好的心理测量属性。作为智力测试的经典研究，这些工作通常基于认知模型和心理测量模型。因此，刺激特征的选择由认知和心理测量模型决定。特别是，以下因素——元素数量、规则数量、元素类型、规则类型、类比方向和感知组织——通常在这一类研究中被考虑。在这些因素中，元素类型和规则类型以及感知组织由于定义和形式化的难度，是较少被研究的。

第二组工作可以看作是第一组的延续，但对心理测量方面的强调较少。例如，在 PGM 的人类实验中，18 个题目被提供给人类参与者，没有先验经验的参与者几乎无法解决所有题目，而有先验经验的参与者得分超过 80%。这样的结果显然不是心理测量学家期望从教育能力、流体智力或一般智力测试中得到的结果。相反，这个结果似乎是来自再现能力或晶体智力测试的结果。一般来说，这表明用于 AI 测试的数据集不一定适用于人类智力测试。

更重要的是，这引发了一个有趣的问题——我们如何评估数据驱动 AI 模型在 PGM 和 RAVEN 等大型数据集上的表现？一方面，一些数据驱动 AI 模型确实在给人类受试者带来巨大挑战的 AIG 题目上表现良好；另一方面，在大规模数据集上训练的 AI 模型专门为问题领域的一个高度受限的子集做好了准备，但人类受试者在没有经过任何训练或仅在几个示例上进行训练的情况下，可以在整个问题领域中表现良好。

当 AI 系统首次进入人类测试领域时，也提出了类似的问题（Detterman，2011）。已经有一些努力来解决这些问题。（Bringsjord 和 Schimanski，2003；Bringsjord，2011）通过将 AI 测试纳入一个更广泛的概念——心理测量 AI 来解决这个问题。Hernández-Orallo 等（2016）提出，（a）我们应该收集题目生成器，而不是题目，（b）生成的题目应该像对待机器和人类（甚至其他动物）一样进行测试（通用心理测量学）。

所有这些提议都具有建设性，同时也对 AIG 研究提出了更高的要求。

当前的 AIG 数据集远未达到人类题目编写者所能实现的灵活性和多样性水平。例如，PGM 和 RAVEN 中的空间配置是固定的；元素间变化（其中一个元素的变化依赖于另一个元素的变化）也非常罕见；感知和概念上模糊的类比也是如此。对于 AI 测试的 RPM 类任务 AIG，一个更有前景的方法是研究问题领域和人类认知，而不是构建特定的生成程序。在元素类型和规则类型以及感知组织等复杂因素方面，以及随着对人类受试者和 AI 模型使用不同的施测/评估协议，问题的本质如何变化，存在着巨大的未开发领域。

4. 解决 RPM 和 RPM 类任务的计算模型

在前面的章节中，我们已经建立了对 RPM 所代表的问题领域的基本理解，这为我们讨论本文的核心主题——解决这些问题的计算模型——奠定了基础。与之前的讨论方式类似，我们从研究的起源开始，将必备知识保持在最低水平，并以最简单的语言展开讨论，揭示技术发展背后的哲学。

本节的最终目的是帮助读者建立扎实的理解，而不是按时间顺序或任意分类列举尽可能多的前期工作。因此，我们采用了一种叙述方式，模拟了一个新手在没有受到外部条件（如计算能力）和其他相关研究工作影响的情况下，对问题领域解决方案的自然理解过程。这种叙述并不是真实的历史，而是专门设计来简化理解的。特别是，在这个叙述中较晚出现的计算模型在现实中可能出现得更早，反之亦然。这种情况在科学研究中很常见：一些前沿技术背后的原始概念可能在几十年前就已经存在，但由于易于实现，一些替代原始概念的方法可能在这些前沿技术实现之前就已经被实施；当我们回顾这些概念时，我们会重新排列顺序，使概念更加连贯和易于理解。因此，这种叙述是一种理解性的概念编年史，而不是记录性的真实编年史。

在这个概念编年史中，我们将解决 RPM 的计算模型的发展分为五个阶段——基于图像的方法、逻辑推理、神经符号推理、学习方法和数据操作。回顾过去，我们发现这五个阶段中隐含着一个螺旋上升的模式。也就是说，研究人员在不断进步，同时一遍又一遍地访问相同的地方，但理解越来越深入。这些地方可能是特定的研究问题或回答这些研究问题的一种方法。概念编年史从一种直接的方法（基于图像的方法）开始，这种方法针对问题领域但非常有效；然后转向越来越通用的方法（逻辑推理、神经符号推理和学习方法）；当这些方法仍然无法完美解决问题领域时，它回到对问题领域本身的研究，并以类似于第一种方法的方式解决问题，但使用了完全不同的技术集。同样的螺旋上升轨迹可以用不同的方式描述（例如，不同的方法论交替主导智力研究），但它一遍又一遍地访问相同的地方，直到整个问题领域被完美解决的模式保持不变。

在本节的其余部分，我们将使用计算模型的缩写以简化表达，请参考表 2 获取其全名。

4.1 第一阶段：基于图像的方法

视觉心理图像指的是在人类认知中发挥功能作用的心理图像（Kosslyn 等，2006）。心理图像最重要的特征是，人类可以在没有并发感官输入的情况下体验心理图像。试着回答这个问题：“你家有多少扇窗户？”当你不在家时（使用你所在的另一栋建筑）。大多数人通过想象他们的房子来回答这个问题。这个想象中的房子就是一种心理图像。有些人通过在心里走进和环绕他们的房子来数窗户，而另一些人则通过在心里旋转他们的房子来数窗户。无论是走进和环绕房子还是旋转房子，他们都在这个心理表征上进行检查和操作，就像他们检查和操作真实物体一样。此外，心理图像可以是超现实的，例如，有些人向上或向下旋转他们的房子，而房子不会倒塌。正因为如此，使用心理图像的能力对创造力非常重要。这一点使心理...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.