真具身意识AGI|向量|序列|鲁棒性|分类器|神经网络|云计算费用

分享至

https://www.sciencedirect.com/science/article/pii/S0004370221000722

理解原始输入 Making sense of raw input

神经网络的下一步预测器应用于这些序列时，所学到的动态通常无法正确泛化到不同大小的世界或具有不同数量对象的世界中[31]。然而，知觉引擎所学到的理论适用于所有Sokoban世界，无论其大小如何，无论有多少对象。不仅这个学到的理论是正确的，而且它是可证明正确的。

感知引擎在标准的4核Unix桌面计算机上处理一个由17个20×20像素数组组成的单个Sokoban轨迹时，需要占用5GB的RAM并运行48小时。不可否认，这是一个计算成本高昂的过程。（译者：完全从0开始，正常）

NeSy在神经网络内重新实现逻辑推理，而我们的方法在逻辑系统内重新实现神经网络（见第4.4节）。我们不是将神经网络作为基础并在其中重新实现逻辑推理，而是将逻辑系统作为基础，并在逻辑系统内重新实现神经网络。

6.4 概念

我们以讨论感知引擎如何表示概念来结束本文。

理解一个概念意味着什么？当我们声称某个特定的主体理解了一个特定的概念时，我们到底赋予了它什么？

在罗伯特·布兰顿的巨著《明确表达》[94]中，他提供了一种推理性（inferentialist）的概念理解解释。在这种解释中，当满足以下两个条件时，主体被认为理解了一个概念：

1. 它知道何时应用这个概念；换句话说，它知道应用的条件。

2. 它知道应用这个概念的推理性承诺；换句话说，它知道应用的后果。

例如，一个主体如果理解了“红色”这个概念，那么：

1. 当面对红色物体时，它能够将“红色”这个概念应用到这些物体上。

2. 它理解了说某物是红色的推理性后果：它知道没有（单色的）红色物体同时也是蓝色的，红色物体是有颜色的，深红色物体是红色的，等等。

这两个能力都是必需的。任何一个单独的条件都不足以构成对概念的理解。

例如，考虑一只被训练成在看到看起来是红色的东西时说出“红色”的鹦鹉。这只鹦鹉知道何时应用这个概念，从而满足了概念理解的两个条件中的第一个。但它不知道应用这个概念的后果：它不知道“红色”和“蓝色”是不相容的，红色的东西是有颜色的，等等。

或者考虑一下弗兰克·杰克逊著名的思想实验：

玛丽是一位才华横溢的科学家，不知为何，她不得不在黑白房间里通过黑白电视监视器来观察世界。她专攻视觉神经生理学，并获得了所有物理信息，比如当我们看到成熟的西红柿或天空时会发生什么，以及使用“红色”、“蓝色”等术语时会发生什么。

现在玛丽知道了“红色”的推理结果。事实上，作为一名领先的神经生理学家，她比任何人都更了解颜色概念的推理结果。但是，由于她一生都在黑白房间里度过，她还不知道何时应用“红色”的概念。如果她打开门，面对着一个红色的色块，她不会立即知道它是什么颜色。

我们可以用这种对概念理解的两方面推理主义解释来诊断联结主义和符号人工智能的局限性。推理主义者认为，联结主义的问题在于它只关注应用的情况，而忽略了同样重要的应用后果。神经网络可以被训练成在看到狗的图像时发出“狗”的声音，但它不知道所有的狗都是哺乳动物，没有狗也是猫，或者柯基犬是一种狗。推理主义者认为，符号人工智能的问题在于它只关注应用的后果——概念之间的推理关系——而忽略了同样重要的应用情况。这种批评既适用于传统的人工智能（GOFAI），也适用于更现代的符号人工智能形式，如归纳逻辑编程。在传统的 GOFAI 中，人类手工设计描述概念之间推理联系的逻辑规则，而在归纳逻辑编程中，系统自己构建规则。但在这两种情况下，符号系统都没有办法将原始感知输入映射到概念上。如果我们想建立一个概念理解系统，那么，我们需要系统既能理解应用的情况，又能理解应用的后果。感知引擎以上述方式连接到神经网络时，就是试图实现推理主义者对概念理解的两个方面的解释。

摘要

机器智能应如何在感官输入流中进行无监督的结构发现？解决这一问题的一种方法是将其视为一种感知综合任务。在这里，任务是构建一个明确且可解释的理论，既能解释感官序列，又能满足一组统一性条件，以确保理论的组成部分在关系结构中相互连接。

然而，感知综合任务的最初表述存在一个根本性限制：它假设原始感官输入已经使用一组离散类别进行了解析，因此系统所要做的仅仅是接收这些已经处理过的符号输入，并理解它们。但如果无法获得预先解析的输入呢？如果我们的感官序列是未经处理的原始信息呢？

本文的核心贡献是一种从原始、未经处理的感官体验流中提炼出可解释理论的神经符号框架。首先，我们将感知综合任务的定义扩展到包括模糊的（但仍然是符号化的）输入：一系列离散集合的序列。接下来，我们使用神经网络将原始感官输入映射到离散输入。我们的二进制神经网络被编码为逻辑程序，因此网络的权重和理论的规则可以作为一个单一的SAT问题联合求解。通过这种方式，我们能够同时学习如何感知（将原始感官信息映射到概念）和如何进行感知综合（将概念组合成声明性规则）

关键词：可解释人工智能无监督理论学习神经符号融合

1. 引言

一般来说，有两种方法用于解释机器学习系统的输出结果。在一种方法中，事后解释（post-hoc interpretation），我们对一个已经训练好的机器学习系统进行分析，试图理解其内部状态。在另一种方法中，设计明确可解释的机器学习系统，我们限制机器学习系统的设计，以确保其结果在一开始就具有可解释性。

在本文中，我们采用第二种方法进行无监督学习。我们的系统以时间序列形式接收原始未处理的感官信息，并生成一个可解释的理论来捕捉该序列中的规律性。它结合了一个用于构建明确一阶理论的无监督程序合成系统，以及一个二进制神经网络，该网络将原始未处理的感官信息转换为程序合成系统可以访问的符号信息。因此，该系统联合合成了一个与学习到的子符号感知前端相连的解释性符号理论。

1.1 无监督学习与感知综合

假设有一台机器，配备了各种传感器，接收着一股感官信息流。它必须以某种方式理解这股感官信息流。但“理解”到底涉及什么，又应该如何实现呢？

无监督学习在人工智能任务中占据了一个奇特的位置：尽管它被认为是该领域发展的核心，但其定义却模糊不清。究竟该如何“理解”未标记的数据呢？人们甚至还没有就问题本身达成共识，更不用说解决方案了。

自监督学习已经作为无监督学习的一个明确定义的子领域出现。在这里，任务是将未标记的感官序列作为监督学习问题的来源：我们试图根据先前的状态预测未来状态。现在，模糊且未明确规定的无监督学习问题已经被一个明确定义的任务所取代，即在某些数据点的条件下预测其他数据点。

但我们认为，理解不仅仅是预测（或回溯）保留的状态。预测未来的保留状态当然是理解给定感官信息的一部分，但仅靠这一点是不够的。

最近，我们提出了另一种无监督学习的方法。将“理解”序列的问题形式化为感知综合任务。在这里，任务是构建一个明确的理论，既能解释序列，又能满足一组统一性条件，以确保理论的组成部分——对象、属性和命题——以关系结构的形式组合在一起。我们开发了一个实现版本，即感知综合引擎（Apperception Engine），并通过一系列实验展示了该系统如何在一系列任务中超越循环网络和其他基线，包括霍夫斯塔特的“Seek Whence”数据集。

但在我们的初步实现中，存在一个根本性的限制：我们假设感官输入是以符号形式提供的。我们假设另一个系统已经将原始感官输入解析为一组离散类别，因此感知综合引擎只需要接收这些已经处理过的符号输入，并理解它们。但如果无法获得预先解析的输入呢？如果我们的感官序列是原始未处理的信息——例如，来自视频摄像头的一系列嘈杂像素阵列呢？

1.2 概述

我们的核心贡献是一种从原始未处理的感官数据中进行无监督学习以获得可解释符号理论的方法。我们通过对感知综合引擎进行重大扩展，使其能够处理这种原始输入，从而实现这一目标。这涉及两个阶段。首先，我们将感知综合引擎扩展为接收模糊的（但仍然是符号化的）输入：离散序列。其次，我们使用神经网络将原始感官输入映射到离散输入。我们的二进制神经网络被编码为逻辑程序，因此可以通过解决一个单一的SAT问题来联合找到网络的权重和理论的规则。通过这种方式，我们能够同时学习如何感知（将原始感官信息映射到概念）和如何进行感知综合（将概念组合成规则）。

我们在三个领域测试了我们的系统。在第一个领域中，感知综合引擎学会了解决序列归纳任务，其中序列由带噪声的MNIST图像表示。在第二个领域中，它从一系列带噪声的像素阵列中学会了Sokoban游戏的动态。在第三个领域中，它学会了理解没有底层生成模型空间结构知识的带噪声模糊数据序列。

据我们所知，该系统是第一个能够从原始像素输入中学习非平凡游戏的明确且可证明正确动态的系统。我们发现，嵌入在我们系统中的通用归纳偏差足以从非常稀疏的数据（即不到二十几条游戏轨迹）中诱导出这些游戏动态。我们认为这是朝着能够灵活适应甚至合成自己世界模型的机器迈出的一步，这些机器从原始的子符号输入开始，以人类可以理解、调试和验证的格式组织和表示这些模型。

第3节描述了感知综合引擎在处理离散符号输入时的操作。第4节将系统扩展到处理原始未处理输入。第5节展示了我们的实验结果。

2. 背景 2.1 逻辑编程

2.2 相关工作

对时间序列进行无监督建模以理解和预测底层数据生成过程，是统计学、工程学和科学的核心，有着无数的应用。大多数序列模型是概率方法，建模观测时间序列的分布，允许我们对来自噪声测量或部分可观测性的不确定性与模糊性进行建模。传统上，由于计算限制，序列模型依赖于对特定领域的强先验知识，并且通常只包含少量可调参数，例如[16,17]。

深度学习方法的出现以及大规模数据集的可用性，彻底改变了序列建模[18,19]，其应用包括语言建模[20]、基于模型的强化学习[21]和医疗保健[22]，通过引入通用的学习函数近似来替代强先验假设。

概率序列模型大致可以分为两类（存在一些重叠）：自回归模型和潜在变量模型。自回归模型通过建模每个时间片在观测历史上的条件分布，直接捕捉观测变量的时间依赖性。这导致了使用最大似然估计的概念上简单且快速的模型训练过程，无需承诺限制性的条件独立性假设[23–27]。同时，自回归模型对于原始感官数据通常规模较大，因此在测试时评估成本较高，阻碍了它们在需要数千次模型评估的长规划范围问题（如规划问题）中的应用。此外，它们通常难以被人类解释，且难以指定先验领域知识。

潜在变量模型原则上可以解决这些缺点[28]。它们通过假设潜在变量来捕捉时间序列的统计依赖性，这些潜在变量是观测数据的底层因素[29,30]。这种潜在结构通常被认为比观测到的高维原始数据更简单，因此原则上可以减少长范围预测的计算需求，从而便于应用于强化学习和规划等领域[31,32,11]。此外，低维潜在模型通常用于探索性数据分析中寻找简单、结构化的解释[33,34]。允许对潜在实体的不确定性以捕捉观测现象的多种假设，代价是需要复杂的模型拟合数据的方法。大多数方法要么应用显式的概率推理以从观测中确定潜在变量的分布，要么依赖于隐式或无似然方法[35,36]。

现代潜在变量序列模型大多使用连续变量来捕捉潜在结构，因为这允许使用梯度下降作为子程序对参数进行近似模型拟合[37,38]。然而，这些模型下的预测通常会随着预测范围的增加而降低保真度。尽管在某种程度上不可避免，但这种效应由于潜在变量无法捕捉离散或分类结构而被加剧，导致在可以用离散概念描述的领域中出现“概念漂移”。离散（或混合离散-连续[39]）潜在变量模型原则上可以缓解这些问题[40,41]，然而，尽管最近取得了一些进展[42,43]，但将它们高效地拟合到数据中仍然具有挑战性，这使得它们通常比连续变量模型更差。尽管如此，由于它们具有紧凑性和可解释性的吸引人特性，最近的努力尝试将它们应用于基于模型的强化学习[44,45]。

神经符号方法。神经网络和归纳逻辑编程具有互补的优势和劣势[46]。神经网络对噪声和模糊输入具有鲁棒性，并且可以扩展到庞大的数据集，但它们对数据的需求量大，且可能无法有效地泛化到训练分布之外的数据。相比之下，归纳逻辑编程是数据高效的，并且可以实现强大的泛化能力，但通常无法处理噪声数据，并且在处理模糊数据（例如，来自摄像头的原始像素数据）方面存在困难。

神经符号计算（NeSy）是一系列旨在结合两者优势的方法[47–49]。在这些方法中，逻辑推理在神经网络中重新实现：离散事实的值从{0, 1}被概率值[0, 1]替换，而清晰的逻辑运算符（如布尔合取）被概率或模糊函数（如t-范数）替换。这种方法已被应用于经典命题逻辑[50,51]、非经典命题逻辑和模态逻辑[52,53]，以及一阶逻辑[54–56]。

我们的方法与NeSy相似，因为两者都致力于将神经和符号模型的优势结合起来，通过将神经网络的抗噪声性与符号方法的强大泛化能力统一起来。但它们在实现这种统一的具体方式上有所不同：NeSy在神经网络内重新实现逻辑推理，而我们的方法在逻辑系统内重新实现神经网络（见第4.4节）。我们不是将神经网络作为基础并在其中重新实现逻辑推理，而是将逻辑系统作为基础，并在逻辑系统内重新实现神经网络。

关系强化学习。另一种通过学习一阶规则以实现强大泛化能力的方法是关系强化学习[57,58]。他们的方法与我们的关键区别在于，他们学习的规则用于表示策略，而我们学习的规则用于表示下一个状态的转移函数。

3. 离散感知

在描述感知综合引擎时，我们将使用三种逐渐复杂的序列输入形式。我们首先假设感官序列已经被离散化为一阶逻辑的基原子，这些原子代表传感器读数。例如，光传感器a检测到红色这一（离散的）事实可以用原子red(a)表示。接下来，我们将扩展到考虑离散输入序列。例如，为了表示传感器a是红色或橙色，我们将通过red(a) ∨ orange(a)来表示这种不确定性。最后，我们完全放弃已经离散化的感官输入这一简化假设，转而考虑原始未处理输入的序列。例如，考虑来自视频摄像头的一系列像素阵列。

3.1 理解无歧义的符号输入

3.2 感知综合引擎

4. 原始感知

在本节中，我们将感知综合引擎扩展为能够处理原始未处理的感官输入。这是本文的核心贡献。首先，我们将定义理解一个离散感官序列的含义。其次，我们将展示如何使用神经网络将原始未处理的感官输入转换为离散感官序列。

4.1 理解离散符号输入

在本节中，我们将感知综合引擎扩展为处理离散感官输入。

定义 8。离散输入序列是一系列离散基原子的集合。

4.4. 将感知引擎应用于原始输入

在接下来的实验中，我们使用二值神经网络（Binary Neural Network, BNN）作为参数化感知分类器 [67–71]。二值神经网络因其在内存和处理效率方面优于标准人工神经网络而越来越受欢迎。然而，我们选择 BNN 的重点并不在于资源效率，而在于它们的离散性。

由于激活值和权重是二进制的，网络的状态可以通过一组原子来表示，而网络的动态行为可以定义为一个逻辑程序。这意味着我们可以将低层次的感知任务（将原始数据映射到概念）和高层次的知觉任务（将概念组合成规则）合并为一个ASP（Answer Set Programming，答案集编程）中的单一逻辑程序，并通过SAT（布尔可满足性问题）同时解决这两个任务。

4.5 示例

假设我们从简单的序列 abababababab... 开始。我们将这个字母序列重新表示为比特向量序列，用 00 或 01 表示字母 a，用 10 或 11 表示字母 b。使用这种编码方式，ababab 的一种可能表示为 00, 10, 01, 11, 01, 10。

当这个比特向量序列被输入到知觉引擎（Apperception Engine）中时，引擎需要同时学习一个感知分类器（将比特向量分组为类别，从而将原始数据转化为基础原子）和一个理论（解释基础原子如何随时间变化）。对于这个简单问题，一个合适的原始知觉框架是：

退化理论的总对数概率为 -1 + -12 = -13。因此，第一个理论得到了比退化理论（-13）更好的分数（-11）。此外，随着序列长度的增加，这两个理论之间的差异呈线性增长。因此，方程（12）更倾向于那种进行更细致区分的解释，即使需要解释这些细致分类如何变化的理论更为复杂。

当然，这是一个为了说明目的而简化的例子。对于一个更复杂的例子，沿着同样的思路，其中一些比特向量存在歧义，且系统没有提供比特向量的长度，请参阅第5.3节。

5. 实验

5.1 用含噪声的图像进行“Seek Whence”实验

“Seek Whence”数据集是由 Douglas Hofstadter [8] 设计的一组具有挑战性的序列归纳问题。在每个问题中，你会得到一个符号序列，并需要预测序列中的下一个符号。例如：

霍夫斯塔特（Hofstadter）将第三个序列称为“Seek Whence”项目的“主题曲”，因为它极具挑战性。序列中存在一个“感知幻象”，因为连续五个1的子序列使得人们很难看出其预期的模式：(1, x, 1)，其中x逐渐增大。

5.1.1 数据

在霍夫斯塔特最初的数据集中，序列是由离散符号组成的列表。在我们修改后的数据集中，我们将每个离散符号替换为相应的MNIST图像。

为了使其更具趣味性（也更具挑战性），我们故意选择了特别模糊的图像。以图3a为例，最左边的图像可能是一个0或2，而下一个图像可能是一个5，或许是一个6。当然，我们人类不会被这些模糊性所困扰，因为高级符号序列的低柯尔莫哥洛夫复杂度[72]帮助我们解决了低层次感知输入中的模糊性。我们也希望我们的机器能够做到这一点。

对于每个序列，用于评估的保留数据是一组可接受的图像和一组不可接受的图像，用于最终保留的时间步。见图3。我们提供序列的一个片段作为输入，并使用保留的时间步进行评估。如果保留时间步的正确符号是s，那么我们从表示s的无歧义图像中采样一组，作为我们可接受的下一组图像；并从表示除s之外的其他符号的无歧义图像中采样一组，作为我们不可接受的图像集合。

5.1.2 模型

在本实验中，我们将知觉引擎（Apperception Engine）与一个经过预训练的三层感知器网络相结合，该网络带有dropout，用于将图像分类为表示数字0-9的十个类别。对于每张图像，网络会输出一个覆盖十个类别的概率分布。

5.1.3 理解解释

图5a展示了为“主题曲”序列找到的统一理论，而图5b详细展示了该解释。

让我们尝试详细理解为什么知觉引擎（Apperception Engine）认为图5a底部的MNIST图像（在时间步15）应该被解释为“1”，而不是“6”。根据神经网络，该图像可能被分类为“1”或“6”。事实上，网络认为它更有可能是一个“6”。然而，知觉引擎的整体评估是该图像代表“1”。这是为什么呢？

从宏观层面来看，对这种解释的原因是整个序列表现出一种特定的规律性，这种规律性可以用一个具有低柯尔莫哥洛夫复杂度的单一通用模式来描述，而基于这种整体结构，将最后一个符号解释为“1”而不是“6”是最佳的方式。

更具体地说，图5a描述了以下简单过程：传感器是一个读写头，它在三个单元格之间循环移动。这些单元格是o1、o2和o3，它们的排列顺序是：o1、o3、o2。最初，单元格o1和o2的值为1，而单元格o3的值为0。读写头读取当前单元格的值，并将其写入输出带。当读写头移动到中间单元格（o3）时，它会将该单元格的值加1。而当它移动到其他两个单元格中的任何一个时，其值保持不变。

需要注意的是，提供给知觉引擎的唯一谓词是value（由神经网络提供）和succ关系（作为先验知识提供）。其他所有谓词都是发明的，其含义完全由其在嵌入的理论的规则和约束中的推理角色决定。

现在，在这个特定时刻（图5a的时间步15），读写头位于单元格o2。这个单元格的值是1。因此，传感器必须正在读取一个“1”，而不是“6”。没有一个相对简单且合理的理论能够将最终图像解释为“6”并符合所有数据。因此，鉴于解释所有数据的整个理论的合理性（简单性），我们不得不将图像解释为“1”。

5.1.4 基线模型

鉴于知觉引擎（Apperception Engine）的原始输入，神经模型是最适合用于比较的基线。然而，这两种系统的运行模式存在显著差异。知觉引擎输出一个紧凑的理论，旨在全面解释序列，这些规则可用于预测、填补缺失值、回溯预测以及解释。而对于神经模型，很难诱导出一个可验证正确且可解释的理论。不过，我们可以通过比较它们的预测能力来评估。

为了在神经基线和知觉引擎之间进行公平的“同类比较”，我们对基线提出了以下要求：

- 它必须使用自监督学习，通过早期时间步预测未来时间步。

- 它必须能够处理变长数据，因为不同轨迹的长度不同。

- 它必须能够处理噪声或模糊数据，因为我们在所有三个实验中使用的原始数据都是噪声和模糊的。

这些要求表明，我们应该使用循环神经网络（RNN）家族中的模型，我们选择了长短期记忆网络（LSTM），因为它性能稳定且表现良好。

然而，由于知觉引擎能够从单个序列中诱导出有意义的理论，我们还希望比较基线LSTM在以下两个方面的表现：

- 从少量数据中学习的能力，因为知觉引擎能够从少量数据中学习。

- 可解释性，尽管我们无法在神经模型中完全实现这一点，但可以将其纳入能够诱导出可解释状态表示的模型中。这仅在状态层面提供可解释性，因为状态转换函数本身仍然是不透明且难以理解的。

这两个额外的维度使我们能够在更公平的基础上比较知觉引擎和基线：

- 通过不断增加数据量进行学习。

- 使用两种基线变体，它们在生成下一个状态的可解释表示方面的能力不同：

- 普通LSTM（vanilla LSTM），它根本不产生可解释的状态，是一个纯粹的自回归模型，从之前的图像预测下一个原始感官图像。

- 隐状态LSTM（latent state LSTM），它使用松弛的离散分布作为瓶颈，其中LSTM将下一个状态编码为几乎离散的表示，然后再解码为原始感官输出。需要注意的是，这两种基线的超参数数量相同。

为了确保公平比较和相同的测试条件，我们对“Seek Whence”任务进行了微调。具体来说，这里我们只将知觉引擎与普通LSTM进行比较，而不与隐状态LSTM进行比较。这是因为知觉引擎使用预训练的MNIST模型对数字进行分类，如果也为普通LSTM提供预训练的MNIST模型，则无需可解释的隐状态，因为基线实际上是从之前的数字标签中预测一个已经可解释的数字标签。

我们仅在“Seek Whence”任务中采用了这种方法，因为我们可以通过预训练的MNIST模型生成下一个序列元素的目标。这之所以可行，是因为我们不重新训练MNIST模型，因为重新训练会导致不稳定的学习和退化解，我们在早期实验中已经观察到这种现象。

图6所示的普通LSTM模型使用了相同的预训练MNIST模型和一个包含10个隐藏单元的LSTM。它通过Adam优化器[74]进行优化，学习率为0.01。每个实验在不同的随机种子上重复10次，所展示的结果是这10次种子的平均值。

5.1.5 结果

我们的“Seek Whence”实验包含10个序列：

对于每个符号序列，我们生成了多个MNIST图像序列。为了生成一个MNIST图像序列，我们选择了α，即模糊图像的数量，然后采样了一个恰好包含α个模糊图像的图像序列。我们让α的取值范围从0到10。如果我们的预训练神经网络为两个或更多类别分配了高于0.1的概率，则图像相对于我们的0.1阈值被视为模糊的。

图7展示了随着模糊图像数量增加，准确率如何下降。对于少量模糊图像，解释是非常鲁棒的。最终，当我们有10个模糊图像（对于平均长度为12的序列）时，结果开始退化，正如我们所预期的那样。但这里的关键点是，知觉引擎（Apperception Engine）的准确率对一定数量的模糊性具有鲁棒性。

与基线模型相比，我们可以看到，当在单个示例上训练时，普通LSTM的性能也会随着模糊图像数量的增加而下降，尽管其下降幅度没有知觉引擎那么显著。正如预期的那样，随着训练样本数量的增加，神经模型在处理噪声输入时表现良好，这一问题得到了解决。对每个序列的模型进行定性分析表明，普通LSTM可以轻松学习预测简单序列（如全零序列和交替的零一序列）的元素。然而，它们在其他序列上却很吃力，只能正确预测序列中的静态元素（例如在(1, x, 1)中的1），但无法学会近似“后继关系”（succ relation），而这是学习递增数字序列所必需的。尽管要求神经模型学习“后继关系”似乎有些不公平，但我们强调，任何背景知识都需要明确地硬编码到模型的架构中，这需要针对每个任务进行非平凡的修改，而与之相比，知觉引擎添加背景知识的过程则非常简单。此外，如图7中的置信区间所示，模型性能高度依赖于参数初始化。

5.2 （Sokoban）

在第5.1节中，我们使用了一种混合架构，其中预训练神经网络的输出被输入到知觉引擎（Apperception Engine）。我们假设我们已经知道图像恰好分为十个类别（代表数字0-9），并且我们有一个已经知道如何对图像进行分类的网络。

但如果这些假设不成立呢？如果我们正在进行纯粹的无监督学习，不知道输入属于多少个类别呢？如果我们想同时训练神经网络并解决知觉问题呢？

在接下来的实验中，我们将知觉引擎（Apperception Engine）与一个神经网络相结合，同时学习神经网络的权重，并找到一个可解释的理论来解释给定的感知信息。

我们以“Sokoban”作为实验领域。在这里，系统被呈现一系列带噪声的像素图像以及相关的动作。系统必须同时（i）将带噪声的像素图像解析为一组持久对象，以及（ii）构建一组规则，以解释这些对象的属性如何因执行的动作而随时间发生变化。

我们希望学习到的动态模型能够达到100%的正确性。尽管基于神经网络的下一步预测模型在数据足够的情况下能够达到99%的准确率[31]，但对我们来说，这仍然不够。如果一个学习到的动态模型将被用于长期规划，99%的准确率是不够的，因为随着我们逐步推进时间，模拟结果会变得越来越不可靠，因为会随着t的增加迅速趋近于0。

5.2.2 模型
简而言之，我们通过在像素数组上施加网格，并反复将一个二值神经网络应用于网格中的每个精灵，将原始输入序列转换为析取输入序列。具体细节如下：

对于每条Sokoban轨迹，我们让知觉引擎（Apperception Engine）在标准Unix桌面计算机上运行48小时，以根据定义12的评分找到成本最低的解释。

5.2.3 理解解释

图11展示了一个由知觉引擎从包含17个时间步的轨迹中找到的最佳理论。当将基于神经网络的下一步预测器应用于这些序列时，所学到的动态通常无法正确泛化到不同大小的世界或具有不同数量对象的世界中[31]。然而，知觉引擎所学到的理论适用于所有Sokoban世界，无论其大小如何，无论有多少对象。不仅这个学到的理论是正确的，而且它是可证明正确的。

图12展示了随时间演变的状态。左侧的网格是原始感知输入，一个20×20像素的网格。第二个元素是二值神经网络的输出：一个4×4的谓词网格v0、v1、v2。如果vi位于(x, y)，这意味着“看起来在(x, y)处有某种类型为i的对象”（但我们还不知道是哪种特定对象）。因此，例如，顶部行的网格表明在(3, 4)处有某种类型为1的对象，在(4, 1)处有某种类型为2的对象。在这里，v0是一个特殊的谓词，表示该网格单元中没有任何东西。

第三个元素是一个4×4的持久对象网格：如果oi位于(x, y)，这意味着：特定的持久对象oi位于(x, y)。第四个元素是一组基础原子。这是对持久对象网格（第四个元素）的重新表示，同时包含一个代表玩家动作的原子。第五个元素展示了隐状态。在Sokoban中，隐状态存储了关于哪些对象被推及被推的方向的信息。在这里，顶部行中的p1(o2)表示持久对象o2正在被向上推。第六个元素展示了在哪些情境下触发了哪些规则。在顶部行中，触发了三条规则。第一条规则描述了当执行向北的动作时，人的移动方式。第二条规则得出结论，如果人在方块的下方且人正在向北移动，那么方块就会被向北推。第三条规则描述了方块在被向北推时的移动方式。

观察引擎如何解释感知序列，认为系统具有信念是合理的——事实上，我们声称这是不可避免的。例如，在图11的顶部行中，引擎认为位于(3, 3)的对象与位于(4, 1)的对象是同一种东西，而位于(3, 4)的对象与位于(4, 1)的对象不是同一种东西。除了对特定情境的信念外，系统还具有一般性信念，这些信念适用于所有情境。例如，每当执行向北的动作且人在方块下方时，方块就会被向上推。使用像Datalog⊃−这样的纯粹声明性语言的原因之一是，单个原子和子句可以被解释为信念。另一方面，如果生成轨迹的程序是一个过程性程序，那么程序所代表的信念（如果有的话）将不那么清晰（见图13）。

5.2.4 基线模型

根据第5.1.4节的要求，我们为Sokoban任务使用了两个基线模型。这两个基线模型都对游戏状态的每个区块应用了一组参数共享的多层感知器（MLPs），并将结果与动作的独热表示拼接作为模型输入。

普通LSTM（vanilla LSTM）接收模型输入，并被训练以直接预测所需的原始输出，通过输出MLP实现，不对内部表示施加任何约束。而隐状态LSTM（latent state LSTM）则接收模型输入以生成分类分布的Gumbel-Softmax连续近似的参数，每个状态区块生成一个，然后通过输出MLP将这些分布映射到下一个状态。当模型学习良好时，这些分布可以编码出当前状态的接近符号化的表示，而无需直接监督。两种基线模型都包含一个两层感知器作为输出MLP，目标是预测序列的下一个原始状态。需要注意的是，这两个基线模型具有相同数量的可训练参数，唯一的区别在于它们是否能够生成可解释的隐状态（见图14）。

鉴于这些基线模型是针对庞大状态空间的生成模型，为了与知觉引擎（Apperception Engine）进行比较，我们在其输出上添加了一个密度估计分类器。该分类器为每个类别拟合一个高斯分布，基于模型输出的伯努利分布，独立采样可接受和不可接受的测试状态的对数概率进行训练。需要注意的是，这仅用于我们的评估目的。

我们使用Adam优化器训练基线模型，学习率在[0.05, 0.01, 0.005, 0.001]范围内变化，批量大小在[512, 1024]范围内变化，并且每个实验重复10次。我们通过选择在开发集上表现最佳的参数来确定最佳超参数组合，并在10次不同随机种子的重复实验中平均其性能。在隐状态LSTM的训练过程中，我们通过指数衰减的方式逐步降低Gumbel-Softmax的温度，从2.0降至0.5，每轮衰减为0.0009。

5.2.5 结果

我们选取了10条长度为22的时间序列轨迹。对于每条轨迹，我们在长度为3到17（以2为步长递增）的八个子序列上进行评估。对于每个长度为n的子序列，我们使用剩余的22 - n个时间步进行评估。结果如图15所示。尽管大多数轨迹并不包含足够的信息供引擎提取出正确的理论，但其中三条轨迹能够在轨迹的保留部分实现100%的准确率。当然，仅在单条轨迹的保留部分获得完全准确是必要的，但不足以确认所诱导的理论实际上适用于所有可能的Sokoban配置。我们检查了这三种准确诱导的理论，并通过检查验证了其中一种理论适用于所有可能的Sokoban地图，无论其大小如何，无论有多少个对象。

接下来，我们将知觉引擎（Apperception Engine）与LSTM基线模型进行比较。我们在包含足够信息以提取正确理论的单条轨迹上训练这两种基线模型。此外，我们还在不断增加的训练集上训练神经基线模型。

普通LSTM和隐状态LSTM都无法绝对正确地区分可接受和不可接受的下一步，无论是在单个示例上还是在大量示例上。然而，正如预期的那样，随着训练集规模的增加，两种基线模型的准确率都有所提高，尽管它们显示出趋于平稳且无法达到最大值的倾向。通过检查隐状态LSTM的潜在分布，我们发现该模型能够很好地近似棋盘的符号状态——生成的分布大致对应于状态，尽管对解码状态的视觉检查表明，该模型主要关注大型对象（如方块O），而可能忽略了较小的对象（如人物X）。这里需要强调的一个重要问题是，模型的性能高度依赖于初始随机种子，这使得选择最佳结果变得必要。

从这些发现中，我们得出结论：神经网络可以在一定程度上学习预测下一个状态，并且甚至能够诱导出接近符号化的状态表示，尽管该模型需要更多的训练实例，且模型的性能并不完全可靠。

5.3 模糊序列

在第5.2节中描述的Sokoban实验中，系统同时解决了低层次的感知和高层次的知觉任务。它通过找到二值神经网络的权重来执行低层次的感知，并通过找到一个统一的理论来解决知觉任务，从而执行高层次的知觉。由于这两个任务都被编码为一个单一的SAT问题并联合求解，信息可以在两个方向上流动，既有自下而上的，也有自上而下的。

但在这些实验中，我们注入了两部分领域特定的知识：精灵网格的维度和不同对象类型的数量。在这一组最终的实验中，我们研究了在不提供空间结构或关于类别数量的任何提示的情况下，联合解决低层次感知和高层次知觉任务会发生什么。

5.3.1 数据

在这些实验中，输入是由一个随机过程从底层符号序列生成的二进制序列，该底层符号序列具有低柯尔莫哥洛夫复杂度。见图16。我们从一个简单的符号序列开始，例如，aabbaabbaabb... 然后生成一个从符号到二进制向量集合的映射。这个映射包含一些模糊性，一些二进制向量与多个符号相关联：例如，在图16中，011在a和b之间是模糊的。我们将符号序列转换为二进制向量序列，通过为序列中的每个符号均匀随机地采样一个对应的向量。然后我们将二进制向量连接成一个大的序列，从而丢弃了关于序列分段的信息。图17展示了六个示例序列。

我们希望知觉引擎能够从这种模糊且模糊的序列中恢复底层的符号结构，而不向其提供分段信息的特权访问——我们希望系统作为感知过程的一部分恢复分段信息。

5.3.2 保留数据

为了评估模型的准确性，我们考虑模型对序列的保留部分的预测。由于序列是模糊的，因此存在许多不同的可接受的延续方式（见图18）。

我们通过以下方式评估一个模型在序列上的准确性：如果模型接受每一个正确的延续并拒绝每一个错误的延续，那么它就是准确的，我们严格地不给予任何部分得分。

5.3.3 模型
为了找到对模糊序列的最佳解释，我们考虑一组模型，并找到其中概率最高的模型（见定义12）。每个模型是一个感知引擎与一个二进制神经网络的组合

5.3.4. 理解解释

在这里，向量（0, 1, 1）的映射存在一种模糊性。请注意，鉴于图16中原始映射的模糊性，这种模糊性是不可避免的。

请注意，系统已经识别出了底层的符号序列ppqqppqqppqq...，它与图16中用于生成模糊序列的原始符号序列aabbaabbaabb...是同构的。规则R使用f和g作为发明的谓词来计算我们处于p和q两种状态的次数。

令人满意的是，系统能够从模糊且模糊的序列中恢复出底层的符号序列以及从向量到概念的低层次映射。这种解释在所有保留的数据上都是准确的（见第5.3.2节）。

两种解释的比较见图21。左图（a）展示了图20的解释，它模糊了所有差异。右图（b）展示了图19的解释，它正确地识别出了底层的符号结构。

准确解释的概率（见定义12）显著高于不准确解释的概率。一般来说，在我们的实验中，最可能的解释与准确的解释一致。这意味着我们可以通过选择概率最高的解释来获取正确的的值。见第5.3.6节。

5.3.5 基线模型

模糊序列的两个基线模型也遵循了第5.1.4节中提出的要求。具体来说，在将双层多层感知机（MLP）应用于每个输入元素后，输入会被传递到以下两种模型之一：i）一个普通的长短期记忆网络（LSTM），随后是一个双层MLP，该模型直接预测序列的下一个原始元素；或者ii）一个潜在状态LSTM，它预测可解释的Gumbel-Softmax分布，然后通过一个双层MLP将分布中的样本解码为序列的下一个原始元素。

我们在两个数据集大小上训练了这些基线模型，一个包含单个序列，另一个包含1000个序列。对于单序列训练的数据集，我们将学习率设置为0.01；而对于1000序列的数据集，我们在批量大小为[256, 512]和学习率为[0.01, 0.005]的范围内进行了超参数搜索。在注意到潜在状态LSTM在生成清晰分布方面存在困难后，我们引入了KL权重β参数[76]，并将其设置为β=0.1，以生成更好的表示。我们在每个任务实例上分别运行了这两个基线模型10次，每次使用不同的随机种子。

由于这些基线模型的输出被限制在一个较小的空间内，因此我们没有像在Sokoban基线案例中那样应用密度估计分类器，而是简单地对输出进行离散化，并检查它是否在可接受或不可接受序列的测试集中。如果输出在可接受序列的集合中，我们给模型打1.0分；如果它在不可接受序列的集合中，打0.0分；如果它既不在可接受序列集合中，也不在不可接受序列集合中，则打0.5分。我们展示了在10个不同随机种子上平均的模型准确率。

5.3.6 结果

图22展示了对于六个模糊序列，不同理论对kg和ng的不同猜测的评估。准确的理论（那些正确预测所有保留数据的理论）以黑色显示，而不准确的理论以红色显示。请注意，基于(w, θ)对的对数概率的分数（根据定义12）是解释准确性的可靠指标。这意味着我们可以在kg和ng的猜测上进行网格搜索，选择得分最高的解释，并有信心期望该解释在保留数据上是准确的。

关键点在于，我们不需要向系统提供关于模糊序列如何分块的信息。相反，系统本身可以在感知过程中诱导出正确的分块方式。

由于诱导的基线表示通常不是清晰离散的，因此我们没有将其与感知引擎进行相同评分的比较，而是仅评估了它正确预测序列元素的能力。

在单个序列上训练时，如图23所示，我们观察到两个基线模型都能正确学习预测“ababababab...”序列和“aaabaaabaaab...”序列。潜在状态LSTM还能正确学习预测“abcabcabcabc...”（k=2）序列，而普通LSTM在该序列上未能找到正确的参数选择。

在1000个序列上训练时，如图24所示，我们观察到两个基线模型的平均准确率都有所提高，尤其是对于“aabbaabbaabb...”序列，尽管这些准确率无法指示该序列的正确参数选择。这表明，随着数据量的增加，模型能够更好地学习序列，除了最有趣的“ababababab...”序列，我们发现其准确率出现了显著下降。此外，潜在状态LSTM现在能够正确预测“aabaabaabaab...”序列的参数。

因此，尽管我们的基线模型在某些种子上能够正确学习序列，但平均而言，它们无法为所有序列提供可靠的准确率，以选择正确的参数猜测。我们推测这可能是由于欠拟合——即模型需要更大的容量。因此，我们尝试了显著更大的模型（参数数量多达原来的10倍）。然而，我们观察到在这种情况下，模型记住了序列，总体准确率有所提高，但准确率仍然无法可靠地用于准确选择正确的序列参数。我们还研究了“ababababab...”序列的奇怪结果，好奇为什么在单个序列上训练的模型比在1000个序列上训练的模型表现更好。有趣的是，两个模型都能正确预测两个符号的第一个数字（a编码为00或01，b编码为01、10或11），但它们对第二个数字的预测往往模棱两可，通常将其编码为接近0.5的值。在单个序列上训练的模型过度拟合了序列，在平均意义上比在1000个序列上训练的模型更频繁地找到一个好的最优解。而在1000个序列上训练的模型则更频繁地平均第二个数字，并预测出模糊的01，而不是a的00。

在相关方面，观察潜在状态LSTM的Gumbel-Softmax参数可以发现，当模型很好地学习了序列时，它确实能够诱导出一个有意义的清晰分布，但当它没有很好地学习时，它学到的分布对解释没有用处。我们还注意到，对于这些模型无法学习的序列，它们在单个示例上表现出严重的过拟合现象，这是在少量示例上训练时的预期现象。此外，我们再次发现模型依赖于种子，在学习上述两种序列时才稳定。

6. 讨论

总之，我们总结了我们系统的优点和局限性。

6.1 感知引擎的吸引人之处

作为一种从原始未处理数据中无监督地归纳一般规律的系统，感知引擎具有以下吸引人的特点：它（i）可解释，（ii）准确，以及（iii）数据高效。我们将逐一讨论这些特点。

6.1.1 可解释性

感知引擎生成了一个理论，一个用Datalog⊃⁻编写的明确程序，以理解其给定的输入。这个理论在三个层面上是可解释的。

首先，我们可以理解系统所使用的通用本体论：我们知道系统假设了哪些持久对象，这些持久对象的类型，以及可以应用于这些对象的谓词种类。例如，在Sokoban中，我们知道有三个对象：o1属于类型t1，o2和o3属于类型t2（见第5.2.3节）。合成的约束条件类似于类型判断，用于限制模型的集合。例如，约束条件∀Y : t2, ∃!C : cell, in2(Y, C)表明每个方块恰好被放置在一个单元格中。

其次，我们可以理解系统如何解释特定时间点的情况。例如，在Sokoban的图11中，在时间步t1，我们知道系统认为o1在o2的下方，o3位于右上角，且o2被o1向上推动。除了能够解释流畅的属性和关系外，我们还可以解释系统如何在每个时刻将原始感知输入与持久对象联系起来。例如，在图11中，我们可以看到20×20像素数组的子区域是如何对应于特定的持久对象的。

第三，我们可以理解系统所认为的普遍适用的通用动态（对所有对象和所有时间都成立）。引擎的设计满足了受康德启发的约束，即每当有某种变化发生时，必须存在一条通用的普遍规律来解释这种变化：不存在不可理解的变化。当我们检查合成的规律时，我们能够理解系统是如何认为属性随时间变化的。

我们可以看到，p3被用来表示一个方块被向南推动。现在我们可以理解以p3为头部的规则为：当执行向南的动作时，当人物X位于一个方块Y的上方时，那么Y就会被向下推动。

然而，必须承认，感知引擎生成的理论只能被一小部分人读懂——那些习惯阅读逻辑程序的人。当我们说一个系统是“可解释的”时，我们的意思是它对特定受众在特定情境下是可解释的。因此，尽管我们已经提供了证据表明该系统对某些人是可解释的，但仍有许多工作要做，以便为更广泛的受众提供易于理解的解释。

随着逻辑程序规模的增加以及发明的谓词数量的增加，程序的可解释性会越来越低[77]。然而，我们主张，逻辑程序比其过程式对应物更可解释，因为它们非常简洁。一个Datalog子句是一个强大的计算构造：子句中的每个量化变量相当于过程式语言中的一个for循环。在对程序验证任务的评估中，发现Datalog程序比其Java对应物短了多达两个数量级[78]。

6.1.2 准确性

感知引擎试图揭示隐藏在原始感官输入背后的自然法则结构。在我们的实验中，我们发现诱导出的理论作为一种预测模型非常准确，无论我们预测多远的未来时间步。例如，在“Seek Whence”（第5.1节）中，图5a中诱导出的理论使我们能够预测该序列的所有未来时间步，且预测的准确性不会随着时间推移而下降。

在Sokoban（第5.2节）中，学到的动态不仅在所有测试轨迹上100%正确，而且是可以被证明的100%正确。这些规律适用于所有Sokoban世界，无论其规模有多大，无论有多少个对象。据我们所知，我们的系统是第一个能够从非平凡游戏的原始视频中提取出一个明确的一阶自然法则模型，并且该模型被证明是正确的。

在噪声序列实验（第5.3节）中，诱导出的理论也是一种准确的预测模型。例如，在图19中，诱导出的理论使我们能够预测该序列的所有未来时间步，并且不会随着我们预测更远的未来而退化。

6.1.3 数据效率

神经网络能够在从原始输入中解决一些序列归纳智力任务时表现出色，但这需要大量的训练样本[79]。神经网络也能够从原始输入中学习Sokoban的动态，但这需要大量的训练回合[80]。

然而，这些模型以数据需求量大而闻名。与人类相比，人类往往能够从少量数据中学习概念[81]，而人工神经网络需要数千甚至数百万个样例才能达到人类水平的表现。相比之下，感知引擎要高效得多。虽然神经网络需要数百万条轨迹才能在Sokoban上达到合理的准确率[31]，但我们的系统能够从单条轨迹中学习出一个完全准确的模型。虽然神经网络需要数十万甚至数百万个样例才能在Raven渐进矩阵测试中达到人类水平的表现[79]，但我们的系统能够从单个序列中识别出模式。我们系统这种不寻常的数据效率归功于我们通过Datalog⊃⁻语言（定义2）和统一约束（定义5）注入的强（但与领域无关）归纳偏置。

能够从少量样本中学习出准确动态模型的系统对于基于模型的强化学习具有极其重要的价值。标准的无模型算法需要数百万个回合才能在一系列任务中达到人类水平的表现[31]。能够学习隐式模型的算法可以在数千个回合中解决相同任务[82]。然而，能够从少量样本中学习出准确动态模型的系统应该能够将该模型应用于规划，通过想象而不是现实体验来预见问题[83]，从而为极其样本高效的基于模型的强化学习打开大门。我们期待一个系统能够从少量轨迹中学习到ATARI游戏的动态，然后将该模型应用于规划，从而在第一次尝试时就能以合理的人类水平进行游戏。

6.1.4 总结

因此，我们可以看到，自神经网络诞生以来一直困扰着它们的许多问题，在转向结合低层次感知和高层次感知的混合神经符号架构时，要么得到了解决，要么得到了巧妙的处理。

感知引擎继承了归纳逻辑编程方法的传统优势，即数据高效、泛化能力强以及支持持续学习。然而，我们的系统有两个关键特点使其与标准ILP归纳逻辑编程方法有所不同。首先，它不需要人工标注的训练数据，而是能够处理无监督的感官输入序列。其次，它并不期望输入是以预处理的符号形式呈现，而是能够直接处理原始未加工的感官输入（例如，带噪声的像素）。

6.2 使其能够工作的原因

是什么使得感知引擎的架构能够满足上述的期望目标呢？我们认为有三个特点对其成功至关重要：（i）用于程序合成的目标语言——声明性逻辑编程语言，（ii）注入系统的强大归纳偏差，以及（iii）将二进制神经网络与符号程序合成相结合的混合架构。

6.2.1 声明性逻辑编程语言 Datalog⊃⁻

在设计程序合成系统时，一个关键决策是：目标语言应该采取什么形式？我们的目标语言Datalog⊃⁻有两个我们视为对系统成功至关重要的特点。

首先，该语言非常简洁。一个Datalog子句是一个强大的计算构造：子句中的每个量化变量相当于过程式语言中的一个for循环。在对程序验证任务的评估中，Datalog程序被发现比其Java对应物短了两个数量级。简洁性在程序合成中非常重要：考虑的程序搜索空间是bⁿ，其中b是平均分支因子，n是程序长度。因此，一个简洁的语言（其中n更短）对于搜索来说要容易得多。Datalog⊃⁻的简洁性是我们能够为非平凡领域合成理论的关键特征（见第5.1.1节、第5.2节和第5.3节的实验）。如果我们使用了一个不那么简洁的目标语言，我们就无法解决这些问题。

Datalog⊃⁻的第二个关键特点是该语言是声明性的。Datalog⊃⁻程序的组成部分是个别子句。每个子句可以单独被解释为对世界的一个独特判断。当然，一个子句的含义取决于它所嵌入的子句集合，但（在其嵌入上下文中）一个单独的子句仍然作为一个关于世界的特定主张具有独特的含义。

将Datalog的声明性可分解性与过程式语言对比：在一个命令式程序中，组成部分是过程，而不是子句，而一个过程不能被解释为具有真值条件的判断——过程只是一个完成某事的配方。Datalog⊃⁻的声明性可分解性对于第5.1.3节、第5.2.3节和第5.3.4节的解释至关重要。

Michalski非常清楚地意识到了声明性可分解性的重要性：

计算机归纳的结果应该是对给定实体的符号描述，这些描述在语义和结构上应与人类专家观察相同实体时可能产生的描述相似。这些描述的组成部分应该是可理解的单一“信息块”，可以直接用自然语言进行解释，并且应该以一种综合的方式关联定量和定性概念。

6.2.2 我们的归纳偏差是数据高效学习的关键

在我们的每一次实验中，感知引擎都被证明比神经网络基线显著更数据高效。这种数据效率只有在向系统注入显著的归纳偏差时才可能实现。这种归纳偏差涉及三个方面。

首先，归纳偏差体现在Datalog⊃⁻语言中允许的子句形式。系统被允许产生的唯一规则是对所有对象和所有时间进行量化的通用规则。系统根本无法制定仅适用于某个特定个体或仅适用于某个特定时间的规则。换句话说，系统注定要进行泛化。这种归纳偏差来自康德。他认为所有判断都是普遍的（适用于所有对象）。在康德的认知架构中，不存在特定的判断。我们的系统尊重这一康德式的限制。尽管我们的系统只能构造全称量化的规则，但它能够构建复杂的理论，以区别对待不同情况。然而，公式（12）中的简洁性先验意味着，在其他条件相同的情况下，我们更倾向于描述长度更短的理论。

第二种归纳偏差是引入了持久对象。系统被迫将短暂感官数据的瞬时变化重新解释为一组持久对象的再现，这些对象的属性会随时间变化。同样，这种归纳偏差也是受到康德的启发。

第三种归纳偏差是关于可接受理论的统一性条件（定义5）。这些包括空间统一性、概念统一性、静态统一性和时间统一性。这些约束条件同样受到康德在《纯粹理性批判》中讨论的启发。

当然，对归纳偏差的标准反对意见是，尽管它有助于系统在某些领域高效学习，但同样的偏差也会阻碍系统在其他领域的有效学习。根据这种反对意见，归纳偏差必须是特定领域的偏差，只能在某些领域帮助性能提升，而在其他领域则会阻碍性能。我们不接受这种观点。我们注入的归纳偏差旨在成为适用于所有我们能够理解的领域的最大通用偏差。我们所做的通用假设——世界由持久对象组成，对象的变化必须由通用的解释性规则涵盖，等等——并不是特定领域的见解，而是关于我们能够理解的任何情境的通用见解。

6.2.3 我们的混合神经符号架构对于从原始数据中学习显式理论至关重要

我们的混合架构使神经网络和符号程序合成方法能够各自发挥其优势。人们常常指出，人工神经网络和归纳逻辑编程在机器学习中具有互补的优势和劣势：神经网络对噪声和模糊数据具有鲁棒性，但数据效率低下且难以解释。相比之下，归纳逻辑编程方法在机器学习中数据效率高且提供可解释的模型，但难以处理噪声数据，更不用说模糊数据了。我们的混合架构试图结合两者的优点，使用神经网络将噪声模糊的原始输入映射为离散概念，并使用程序合成从少量数据中生成可解释的模型。

由于整体架构将二进制神经网络和无监督程序合成系统表示为一个单一的ASP程序，因此允许信息双向流动：既包括自下而上的方向，也包括自上而下的方向。由于神经网络的权重和感知引擎的规则是通过一个单一的SAT问题共同找到的，因此一方面的考虑能够影响另一方面。在自下而上的方向上，用于低层次感知的二进制神经网络的考虑能够影响用于高层次感知的符号系统形成的规则。在自上而下的方向上，符号系统形成的规则的考虑能够影响神经网络产生的类型化方式。

6.3 局限性与进一步工作

我们指出三种类型的局限性：（i）Datalog⊃⁻语言的表达能力限制，（ii）程序合成系统的性能限制，以及（iii）系统整体在提供有用的人类可读解释方面的局限性。

6.3.1 Datalog⊃⁻的表达能力限制

感知引擎生成的理论是用Datalog⊃⁻表达的。因此，这种目标语言的表达能力限制了可以形成的理论类型以及可以理解的领域类型。

使用Datalog⊃⁻的一个根本限制是，它要求底层动态能够表示为在离散概念上操作的规则。尽管系统能够处理原始的、带噪声的、连续的感官输入，但它假设系统的底层动态可以用在离散概念上操作的规则来表示。有许多领域的底层动态是离散的，而表面输出是噪声的和连续的，例如Raven渐进矩阵、拼图游戏和ATARI视频游戏。但在底层动态最好用连续值建模的领域中，我们的系统会遇到困难，例如流体动力学模型。在这种情况下，我们的系统能做到的最好结果是找到一个粗糙近似真实连续动态的离散模型。扩展Datalog⊃⁻以表示连续变化将是一个庞大且雄心勃勃的项目。

Datalog⊃⁻的另一个主要限制是它假设因果规则是严格、普遍且无例外的。当前的表示中没有为可废止的因果规则（在正常情况下，其他条件相同，a导致b）或非确定性因果规则（a导致b或c）留下空间。在未来的工作中，我们计划通过合成稳定模型语义下的正常逻辑程序或合成析取规则来实现非确定性因果规则。

6.3.2 程序合成系统的性能限制

在我们的方法中，理解感官输入意味着找到一个能够解释该输入的理论。而找到一个理论意味着在逻辑程序的空间中进行搜索。这是一个庞大且艰巨的任务。例如，感知引擎在标准的4核Unix桌面计算机上处理一个由17个20×20像素数组组成的单个Sokoban轨迹时，需要占用5GB的RAM并运行48小时。不可否认，这是一个计算成本高昂的过程。

我们希望扩展我们的方法，以便能够从原始像素中学习ATARI游戏的动态。但这一目标将面临挑战，因为像Pacman这样的游戏在各个维度上都比我们的Sokoban测试案例复杂得多：它要求我们增加像素数量、颜色数量、时间步数、轨迹数量、对象数量以及动态的复杂性。

我们系统扩展困难的主要原因是它使用了一个最大化的SAT求解器来搜索逻辑程序的空间。找到一个带有弱约束条件的ASP程序的最优解属于Σ²P复杂度；但这种复杂度是基于基原子的数量，而我们ASP程序的基原子数量是与我们正在合成的Datalog⊃⁻程序长度呈指数关系的。

我们正在考虑多种不同的方法来提高系统的性能，以便扩展到更复杂的问题，例如ATARI。一种选择是专注于优化ASP表示，例如通过使用ASP的HEX扩展来减少基底大小[90]。另一种选择是考虑完全不同的逻辑程序合成方法，例如使用神经网络来引导在逻辑程序空间中的搜索[91, 92]。

我们对将感知引擎扩展到更高水平以诱导ATARI、3D模拟和其他复杂世界的稳健因果模型充满期待。但我们认为，这将需要大量的进一步研究。

6.3.3 感知引擎作为解释系统的局限性

在第5.1.3节、第5.2.3节和第5.3.4节中，我们尝试展示感知引擎是如何解释一个特定问题的。通过展示代表每个时刻的基原子，以及展示在所有时刻都成立的Datalog⊃⁻规则，我们试图揭示它“所想”的内容，解释它为何会做出这样的预测。

这些解释或许对于特定的受众——能够理解逻辑程序的技术人员——是可接受的。但不同的受众有不同的需求和能力。要使这些解释对更广泛的受众易于理解，还需要做大量的工作。

在未来的工作中，我们还希望实证评估所提供的解释的有效性，通过测试机器的解释是否能够帮助人类理解该领域。在最近的一篇论文中，Muggleton等人[93]表明，当人类受试者被提供一个归纳逻辑编程（ILP）系统的输出，并能够阅读和理解这些结果时，他们在任务中的表现显著提高。我们希望在“Seek Whence”任务中用感知引擎进行类似的实验。我们计划向一部分受试者提供引擎生成的理论，看看他们是否能够利用该理论更准确地预测序列的延续。