图模式作为迁移学习、推理与规划的抽象表示|图式|智能体|新论文

分享至

图模式作为迁移学习、推理与规划的抽象表示

Graph schemas as abstractions for transfer learning, inference, and planning

arXiv preprint arXiv:2302.07350

摘要

将潜在结构从一个环境或问题迁移到另一个环境或问题，是人类和动物用极少数据实现泛化的一种机制。受认知和神经生物学洞见的启发，我们提出 图模式 作为迁移学习的一种抽象机制。图模式始于 潜在图学习 ，其中感知混淆的观察通过上下文信息在潜在空间中被消歧。潜在图学习也正作为一种新的海马体计算模型涌现，用于解释地图学习和传递推理。我们的洞见是，潜在图可以被视为一种灵活的模板——即 模式（schema） ——它建模概念和行为，具有将潜在节点组绑定到特定观察或具体实例的槽位。通过将学习到的潜在图（模式）视为先验知识，新环境可以被快速学习为模式的组合及其新学到的绑定。我们在两个先前发表的具有挑战性的任务上评估了图模式： 记忆与规划游戏 和 单次StreetLearn ，这些任务旨在测试在新环境中的快速任务解决能力。图模式可以用比先前基线少得多的回合数进行学习，并且能够在这些任务的变体中用少数几步进行建模和规划。我们还展示了在具有广泛感知混淆和尺度变化的更具挑战性的2D和3D环境中学习、匹配和重用图模式，并展示了不同模式如何被组合以建模更大更复杂的环境。总之，我们的主要贡献是一个统一的系统，受认知科学启发并扎根于认知科学，该系统通过 地图归纳 和组合使用模式促进新环境的快速迁移学习，并处理感知混淆问题。

1. 引言

在新情境中发现并使用恰当的抽象，能够实现高效的迁移学习以及快速的推理和规划。人类擅长这种能力，这被认为是智能背后的关键因素，也是当前人工智能系统的一个根本性局限（Shanahan和Mitchell, 2022）。模式（schemas）——即可重用的概念或行为的结构化表征——已被提出作为一种编码抽象的强大方式（Mitchell, 2021; Tenenbaum等, 2011）。拥有一个能够发现并重用先前学习到的模式以在新情境中行为和规划的计算模型，对人工智能而言将是至关重要的。

实验证据表明，多种动物具备这种能力（Farzanfar等, 2023）。大鼠和小鼠如果能够重用过去的模式，往往能够更快地学习新环境（Tse等, 2007; Zhou等, 2021），并且猕猴海马体细胞编码空间模式（Baraduc等, 2019）。海马体和前额叶皮层（PFC）中的神经回路涉及模式学习、识别、更新和维持，这些过程被认为是记忆巩固的基础（Gilboa和Marlatte, 2017; Preston和Eichenbaum, 2013; Samborska等, 2022）。如果新经验符合现有模式，则可以在单次试验中被学习。基于这些证据，Kumaran等（2016）提出了一个更新的互补学习系统理论，但据我们所知，迄今为止还没有关于利用模式重用实现这种快速学习的明确演示。

结构化关系表征已被提出作为海马体中的一种共同机制，它将空间和非空间任务及记忆整合到原始认知地图观点中（Eichenbaum和Cohen, 2014; Stachenfeld等, 2017）。最近的几项研究将认知地图建模为高阶潜在图结构，并展示了对海马体所涉及的多种功能的泛化（George等, 2021; Raju等, 2022; Sharma等, 2021; Whittington等, 2020, 2021）。我们采用其中一种认知地图模型，即克隆结构认知图（CSCG）（George等, 2021），并将其扩展以使用图模式提供抽象的具体计算模型。我们模型的期望是一个统一系统，该系统通过使用模式促进新环境的学习，处理感知混淆（Whitehead和Ballard, 1991），并通过地图归纳（Sharma等, 2021）和模式组合实现泛化。

我们的设定是一个在环境中导航的智能体，该环境被建模为有向图。智能体观察其当前节点的发射（输出），并通过带标签动作沿边遍历到新节点。多个节点可能发射相同的观察（即它们是混淆的（Lajoie等, 2019; Whitehead和Ballard, 1991）），因此智能体无法直接观察状态。这可以被视为离散时间部分可观察马尔可夫决策过程（POMDP）。当智能体在新环境中导航时，我们的目标是学习底层的潜在图（即地图归纳，Sharma等（2021）），并通过重用先前学到的图拓扑或图模式来快速实现这一目标。我们选择CSCG模型来构建图模式，因为它已被证明能够在高度混淆的环境中使用图学习问题的平滑概率参数化来学习高阶图（George等, 2021）。我们扩展该模型以描述学到的图如何作为模式被重用于迁移学习、快速推理和规划，从而在新情境中通过快速学习观察绑定并在线发现最佳模式来实现行为。

2. 相关工作

关于在新环境中快速迁移到新任务的研究关注了不同方面，从探索到建模和规划。最近的一些工作主要在强化学习（RL）框架下完成，不同的RL方法关注这些方面中的一个或多个。

元强化学习（Meta-RL） 无模型元强化学习方法关注将探索策略泛化到新任务和环境变化，而不进行显式的模型学习。有些研究显示了对已知环境中新任务的泛化，但无法泛化到新环境，也不处理混淆问题（Rakelly等, 2019; Wang等, 2016）。循环无模型RL已显示出对某些环境变化和POMDP设置的泛化能力（Ni等, 2021）。这些变化是生成环境的参数，目标是能够学习一个泛化到这些参数变化的探索策略。这些方法不重用过去环境的显式知识来建模新环境，也不处理已知环境的组合（Packer等, 2018）。更近的研究添加了具有注意力头的情景记忆，以选择性关注和重用存储的记忆，从而在少样本设置中快速适应新环境中的任务（例如情景规划网络）（Lampinen等, 2021; Ritter等, 2020）。这些模型仅在训练数十亿步后才能匹配最优规划。此外，这些方法都不处理混淆问题，也不显式构建环境模型并在其上进行规划。Gupta等（2017）表明，在空间环境中使用显式模型构建（建图）和通过规划进行导航可以处理部分可观察性，并优于不具备此能力的方法，但这项研究没有重用这些模型来快速学习新环境。

基于模型的强化学习（Model based RL） 基于模型的RL工作学习环境的显式模型（Gregor等, 2019），有些甚至在POMDP设置下（Igl等, 2018），可以迁移到同一环境中的新任务，但无法迁移到新环境。一些研究使用子目标或路标发现与重用的版本来泛化到新任务（Eysenbach等, 2019; Kipf等, 2019; Zhang等, 2021）。然而，这些方法不解决部分可观察性问题，更重要的是，其泛化仅限于相同环境。半参数拓扑记忆是一种将基于路标的导航扩展到泛化到新环境的方法（Savinov等, 2018）。该方法训练网络估计不同位置观察之间的连通性，并使用此在新环境中构建观察图。该方法确实能泛化到新环境，但其性能随混淆增加而显著下降。此外，构建图时使用了人工生成的探索路径。

我们在模式匹配和重用方面的工作与在不同情境中寻找图之间的对应关系相关。Crouse等（2021）提出了结构映射的第一个神经网络方法。但这种方法仅限于匹配问题，没有机制来解决或学习新结构，或使用部分匹配的模式进行规划。另一系列相关工作专注于解决受瑞文渐进矩阵启发的简化关系任务（Kerg等, 2022; Webb等, 2021）。主要思想是在训练期间将抽象关系与感官观察分离，学习观察映射以解决具有相同关系但新映射的新任务，但这在确定性和简化设置中进行。

本文的主要贡献是一个统一系统，该系统（i）通过地图归纳和组合使用模式促进新环境的快速迁移学习，（ii）处理感知混淆，（iii）直接从动作和观察构建环境的显式潜在图模型，（iv）支持规划和推理，以及（v）受认知和神经科学启发并扎根于认知和神经科学。我们的模型是第一个在单一系统中结合所有这些方面的模型。

3. 方法 3.1. 问题设定

考虑一个在有向图 G 中导航的智能体。当智能体访问图中的节点时，该节点会发出一个观测值。然而，多个节点可能发出相同的观测值（即它们是混淆的），因此仅凭观测值不足以区分智能体在图中的具体位置。此外，动作的结果并非确定性的——在同一节点执行相同的动作可能导致智能体导航到不同的节点。从一个节点出发的出边标有通过该边所需的动作，以及在该动作下通过该边的概率。从一个节点出发、具有相同动作标签的所有出边的概率之和为 1。我们使用图 G 来建模智能体的环境。

3.2. 模型

克隆结构认知图（CSCGs）由 Dedieu 等人 (2019)；George 等人 (2021) 提出，旨在从动作-观测对序列中恢复（近似）图 G 。为此，他们使用分类隐变量来建模智能体在每个时间步所处的图节点。这使得我们可以为给定动作条件下的观测序列构建一个图模型。在此，我们采用他们模型的条件版本，并将其扩展至连续观测值：

3.3. 迁移学习的图式

例如，在房间导航设置中，一个图式模拟了智能体在房间内的位置和朝向、动作如何移动智能体，以及地板或门在房间内多个位置可能看起来相同的知识。通过使用 EM，我们展示了图式如何通过快速绑定，在新的、具有匹配拓扑和发射结构的环境中实现快速模型学习（图 1F）。可以使用匹配的图式进行推理，以主动规划和追求目标。我们还可以通过比较观测在不同图式下的似然，来检测到另一个已知图式的转换，或进入未知区域。

图式也可以作为构建块，用于快速学习由匹配拓扑组成的新环境。这包括学习转移和发射，但在合适的地方复用已知的图式（参见补充材料 §B.5 和补充算法 2）。

4. 结果

我们展示了两组实验的结果：（i）用于评估快速适应的标准基准测试，这些环境不存在感知混淆；（ii）更具挑战性的设置，即存在大量感知混淆的环境。

4.1. 在新环境中的快速适应与任务解决

我们首先在 Ritter 等人 (2020) 提出的两个基准测试上评估我们的模型，这两个基准测试用于评估新环境中的快速适应和任务解决能力：记忆与规划游戏（MPG）和单次学习的 StreetLearn。

4.1.1. 记忆与规划游戏

在 MPG 中，智能体可以在一个 4×4 的网格上导航，观察符号，其任务是在该网格中指定的目标位置收集奖励（图 2A）。所有网格位置都有唯一的符号，并且符号与位置的映射关系在每个回合（持续 100 步）结束后会重新随机排列。详见补充材料 §B.1。这个设置使我们能够评估我们的模型在真实图结构恢复和图式复用方面的表现，因为图结构在各个回合中是保持不变的。智能体需要通过探索来收集观测值，并将它们快速绑定到图式上，从而通过最优导航最大化奖励。

4.1.2. 单次学习的 StreetLearn

单次学习的 StreetLearn 是 StreetLearn 任务（Mirowski et al., 2019）的一个具有挑战性的变体，它在各个回合之间改变连接结构，以评估快速任务解决能力（图 2D）。在每个回合中，智能体被放置在城市的一个新街区，任务是通过导航到达由目标街景图像指定的目标位置并收集奖励。收集一个奖励后，智能体会在新位置重新生成，并指定一个新的目标。与 MPG 不同，这里的转移图在每个回合都会改变。我们评估了我们的模型在单个回合内快速学习、并最优地导航到目标以最大化奖励的能力。需要注意的是，在此设置中没有图式复用：我们为每个回合学习一个新模型。这展示了在没有任何预先训练的情况下，在少量步骤内快速学习，并利用学习到的模型进行有效规划的能力。

CSCG 在单次学习的 StreetLearn 中匹配最优规划。对于 CSCG 智能体，我们采用了一种带有硬编码探索策略的“探索与利用”策略。在探索期间，智能体在遇到目标并收集奖励的同时，会对其遇到的每个观测执行每个动作进行导航，并利用这些经验来学习一个 CSCG。这是一种引导式探索，旨在覆盖转移图中的每一条可能的边。探索之后，智能体利用 CSCG 进行规划并收集奖励（详见补充材料 §B.2）。在 100 个回合中，平均奖励 ± 标准误为 21.7 ± 3.7，低于 EPN（28.7），因为我们的探索策略并非最优（图 2E）。由于本工作未考虑最优探索问题，我们比较了探索之后在学习到的模型上的规划性能。探索后，我们的智能体到达目标平均需要 4.8 ± 0.03 步，这与最优值（Ritter et al., 2020）相匹配（图 2F）。需要注意的是，由于每个回合的图都会改变，在此设置中我们没有跨回合迁移任何学习。在具有可复用图结构的城市中，例如曼哈顿的网格布局，CSCG 图式可以从复用中受益。我们将在接下来的实验中，在具有大量混淆观测的房间导航这一更困难的设置中，详细评估这种图式复用。

4.2. 高度混淆环境中的图式匹配与迁移学习

在下一组实验中，我们评估了在观测值不同、有时大小也与训练环境不同的新环境中进行图式匹配和迁移学习的效果。在这些实验中，我们使用了比上述基准测试更具挑战性的设置，包括更大的2D和3D模拟环境以及大量的混淆（Beattie et al., 2016）。请注意，尽管我们使用空间导航作为实验平台，但我们并未利用任何关于空间（欧几里得或其他）的假设，而是将其建模为一个图导航问题。对于2D和3D环境，我们都使用了不依赖3D感知的简单智能体观测模型，因此我们的结果与具体的3D空间设置无关。

我们从一组具有不同形状和拓扑结构、且存在大量混淆的环境开始。类似于一个大的空旷场地，这些环境内部的观测在感知上是混淆的（Lajoie et al., 2019; Whitehead and Ballard, 1991），见图1D。在2D情况下，混淆是由构造产生的；在3D情况下，混淆则是聚类的结果。我们首先按照第3.3节的描述，在训练房间中学习图式（图1D）。我们在具有相似布局但观测值全新且大小变化的测试房间上评估图式匹配。在一个新的测试房间中，智能体进行随机游走，并根据在所执行的动作下、不同已学习图式下的观测序列的似然进行评估（图1E）。需要注意的是，这首先需要从随机游走期间收集的数据中学习新的发射矩阵，并为每个图式计算其似然。具有最佳似然的图式被认为是匹配的图式。我们在随机游走期间的多个时间点评估不同图式的似然。详细信息和以下实验使用的参数请参见补充材料 §B.3。

CSCG 图式在新环境中快速学习匹配的绑定。为了证明这一点，我们使用了具有6种不同布局的3D环境（Beattie et al., 2016）。智能体可以使用3个离散的以自我为中心的动作（向前移动、向左转、向右转）进行导航，观测值是对应于智能体视角的RGB图像（图1A, B）。此设置中的观测空间庞大且复杂，这证明了模型对此类用例的适用性。我们遵循§3.2和补充材料 §A.3中描述的连续观测流程，来学习训练环境的模型（使用随机游走训练后学习到的图见图S1）。我们评估了在具有相同布局但墙壁、地板颜色和环境光照不同（这对应于全新的RGB观测）的测试环境中的快速学习能力，智能体在这些房间中导航时使用补充材料 §A.4中描述的流程。图3A显示了通过负对数似然评估的，在测试房间中成功快速匹配正确图式的结果（完整结果见补充材料图S2）。在所有六个测试环境中，正确的图式都被识别出来，通常是在环境中的1,000步以内，所有情况均在2,000步以内识别出来，相比之下，没有图式复用的情况下学习需要大约50,000步。

为了测试对大小变化的迁移能力，我们使用了五种不同布局（圆柱形、矩形、带孔正方形、环面和U形）的2D房间，每种布局有三种不同的大小（小、中、大）（图S3）。我们使用50,000步的随机游走为这些房间的中等版本学习图式。在具有新观测映射的测试房间中，智能体进行随机游走，同时我们每5步学习新的发射并评估这些观测在所有图式下的似然。详见附录B.3.2。图S3显示了所有测试房间在所有图式下的负对数似然。通过复用克隆结构，我们能够在所有情况下在95步内正确匹配图式，展示了在大小和观测值变化的新环境中快速匹配和适应的能力（附录图S4显示了不使用克隆结构的结果）。我们使用二值化MNIST数据集的十个数字样本作为房间布局，重现了这些结果，因为它们提供了非我们设计的、各种有趣的形状和拓扑结构（结果见补充材料 §B.3.3）。

图式匹配在由多个图式组合而成的环境中同样有效。我们在由成对的MNIST数字房间组成的新测试环境中证明了这一点，并展示了单个数字的在线图式匹配。详细信息和结果请参见补充材料 §B.5。

4.3. 利用图式图组合性的新环境快速学习

图式也可用于有效学习和导航由已知图式组成的更大环境。我们通过匹配图式并学习它们之间的转移结构来实现这一点。图3B展示了一个由四个较小的3D房间组成的示例性3D模拟环境。智能体在此环境中行走，并在远少于不使用图式学习所需的步数内，学习到组合模型（包括联合转移和发射）。图3B还显示了具有所有潜在连接的先验模型，以及在两种不同行走长度后学习到的模型。模型质量通过在10,000步测试行走上的负对数似然来衡量，这些模型分别是在不同长度的行走后，使用和不使用图式进行训练得到的。使用图式，我们能够在不到10,000步内学习到一个完美的环境模型，而从头开始学习即使在30,000步后效果也明显更差。学习算法和实验细节见补充材料 §B.5。这种通过组合和复用先前学习到的图式进行学习的能力，使得能够快速适应新环境，并且随着经验的积累，这种适应能力只会变得更强。

4.4. 新环境中的快速规划与导航

快速的图式匹配与绑定使得在经验有限的新环境中进行规划成为可能。我们首先在图4A中引入的四房间3D环境的一个新变体中展示这种能力。在这个演示中，智能体首先在测试环境中行走，然后被要求找到返回其起始位置的最短路径。我们使用手动指定的初始行走，以便在最少的步数内覆盖环境的较大部分。在这种情况下，图式——即先前为四房间组合学习到的组合图式（图3）——是预先已知的。智能体利用初始行走中的观测值来学习新的发射绑定，并解码其在模型中的当前位置和目标位置。然后，智能体使用此模型规划到目标的最短路径（图4B）。请注意，规划的路线穿过了环境中尚未访问的部分。

在执行计划时，如果智能体在考虑了新的观测后估计尚未到达目标，则可能存在图式不匹配或估计的发射矩阵不准确的情况。当这种情况发生时，智能体可以利用执行计划过程中获得的新经验更新模型后，重新进行规划。这个过程不断迭代，直到智能体在解码了初始随机游走和所有后续重新规划步骤的观测后，确信自己已达到目标。在一个旨在测试这种能力的实验中，我们根据距离目标位置的曼哈顿距离以及所需的重新规划次数，系统评估了在2D环境中对图式不匹配的这种鲁棒性。图4B显示了一个示例图式的结果。即使存在大小和结构变化，我们也能成功导航，并且随着图式与测试房间之间差异的增加，性能会逐渐下降。到达目标所需的规划尝试次数也平滑增加。添加自转移概率的对角平滑项（见补充材料 §B.6）对于泛化到大小变化至关重要。如图4B所示，没有这种平滑，在测试房间的较大尺寸变体中，智能体永远无法到达目标（另一个房间布局的结果见补充材料 §B.6）。

5. 讨论与未来工作

学习能够快速绑定到共享相同底层结构的环境观测的抽象表征，是假设中人类和动物进行迁移学习的机制 (Kumaran et al., 2016; Tse et al., 2007; Zhou et al., 2021)。我们提出了一个具体的抽象表征和快速绑定的计算模型，该模型使用图式图从混淆的观测序列中学习高阶结构，并利用一个槽绑定机制来迁移这些图式，从而快速学习新环境的模型。CSCG 图式学习图结构所需的回合数远少于深度强化学习智能体，并在 MPG 和单次学习的 StreetLearn 任务中匹配了最优规划。在高度混淆的环境中，CSCG 图式在不同大小的新房间中找到了匹配的图式绑定。在组合房间中，当智能体穿过对应于不同图式的房间时，我们能够匹配正确的图式。我们展示了在形状和大小与匹配图式有所不同的房间中，通过走向目标的过程中重新规划和更新模型，成功实现了目标导向的规划。更重要的是，已知的图式可以被组合起来，以快速学习新颖的环境和新的、更大的图式。这种能力具有自我引导的特性，并且只会随着经验的积累而变得更强。在我们当前工作的基础上，有许多清晰的潜在未来工作方向，我们在下文列出其中一些。

从经验中学习图式。在这项工作中，我们独立且明确地学习了图式。但在现实世界中，可能无法获取属于不同图式的区分化经验。从连续的经验流中学习可重用的图式 (Farzanfar et al., 2023) 可能是一个有趣的未来工作方向。

图式与记忆。我们丢弃了先前从过去经验中学到的发射，并学习新的绑定。然而，在某些情况下，先前学到的发射是直接适用的，因此，如果保留这些发射，当存在匹配时，可能能够实现更快的零样本适应。这可以看作是保留特定记忆与使用抽象图式之间的区别。

图式维护。我们在这项工作中的图式是固定的。然而，用新的经验来更新图式是可能的。事实上，儿童最初倾向于感知和记忆符合他们现有图式的经验，之后才发展出灵活性 (Piaget and Cook, 1952)。类似地，我们可以根据新的经验更新图式，甚至让图式本身变得灵活，以封装相关的抽象概念，但仍然受到规则的约束，以允许一致的推理。

主动探索。我们使用了随机或已知的最优探索策略来学习和绑定图式。但图式提供了关于未来观测的、以动作条件为转移的信念。通过选择能够最优地区分不同图式并寻求学习它们之间连接的动作，我们有可能做得比随机探索好得多。类似地，为了学习新环境和图式，我们可以通过组合已知图式来引导探索策略 (Sharma et al., 2021)，甚至在探索过程中主动学习它们。

原文链接：https://arxiv.org/pdf/2302.07350

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.