学习认知图作为替代评估的结构化图形|em|序列|算法|克隆|鲁棒性|相似性|新论文

分享至

Learning cognitive maps as structured graphs for vicarious evaluation

学习认知图作为替代评估的结构化图形

https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

摘要

认知地图是环境中空间和概念关系的心理表征。这些地图对于灵活行为至关重要，因为它们允许我们进行替代性导航，但其底层的表征学习机制仍然未知。为了形成这些抽象地图，海马体必须学会在不同情境中适当地分离或合并混叠观测，以实现泛化、高效规划和处理不确定性。本文介绍了一种特定的高阶图结构——克隆结构化认知图（CSCG）——它通过为不同情境形成观测的不同克隆作为表征来解决这些问题。CSCG可以使用一种新型概率序列模型进行高效学习，该模型本身对不确定性具有鲁棒性。我们表明，CSCG可以解释多种认知地图现象，例如从混叠感觉流中发现空间关系、在不连续经验片段之间进行传递推理、形成可迁移的结构知识，以及在新环境中寻找捷径。通过为不同情境学习不同的克隆，CSCG解释了迷宫导航中观察到的分裂细胞的出现和位置细胞的路径特异性编码，以及跑步实验中观察到的事件特异性分级表征。此外，CSCG的学习和推理动态为多种位置细胞重映射现象提供了连贯的解释。通过将混叠观测提升到隐藏空间，CSCG揭示了潜在的模块化结构，然后用于层次化抽象和规划。总之，使用CSCG进行学习和推理为理解海马功能提供了一个简单的统一框架，并可能成为人工智能中形成关系抽象的一条途径。

引言

替代性试错（Vicarious trial and error）[1]，即通过心理时间旅行评估未来的能力，是智力的一个标志。为了做到这一点，智能体需要在体验周围环境时，从感官信息流中学习心理模型，即“认知地图”（cognitive maps）[2, 3] [4]。学习这些心理抽象之所以复杂，是因为感官观察经常是混叠（aliased）的。取决于上下文，相同的事件可能有不同的解释，而不同的事件可能意味着相同的事情 [5]。因此，认知地图的计算理论应该：(1) 提出机制来解释情境和位置特定的表征是如何从混叠的感官或认知事件中产生的，以及 (2) 描述表征结构如何支持巩固、知识迁移以及灵活和分层的规划。大多数开发此类理论的尝试，包括将海马体建模为记忆索引、关系记忆空间、快速事件记忆器，以及模式分离和模式完成的系统级模型，都未能在一个共同的框架下调和海马体多样的功能属性 [6–8]。最近的模型试图利用后继表征理论（successor representation theory）[9–11] 并假设这些细胞是图的高效表征 [12]，来调和位置细胞和网格细胞的表征属性。不幸的是，这两个模型在描述学习完环境后如何进行灵活规划方面都有所欠缺，并且无法解释几个关键的实验观察结果，例如空间和非空间环境中的位置细胞重映射（remapping）[13, 14]，以及某些位置细胞编码通往目标的路线 [15, 16] 而其他细胞编码目标值 [17, 18] 这一事实。

一个行为中的智能体经常遇到看起来瞬间相似的外部情境，但根据上下文需要不同的行动策略。在这些情况下，感官观察应该被情境化为不同的状态。在其他时候，看起来不同的感官观察可能需要合并到同一个状态，因为那些上下文都导致相同的结果。一般来说，为了从序列观察中形成世界的灵活模型，智能体需要拥有一个表征结构和学习算法，允许根据适当的情况对上下文进行弹性的拆分和合并 [5, 19]。此外，表征结构应该允许动态规划和处理不确定性。

在这里，我们提出了一种特定的高阶图——克隆结构化认知图（clone-structured cognitive graph, CSCG）——它将观测映射到该观测的不同“克隆”上，作为一种解决这些问题的表征结构。我们要证明这种结构可以表示为概率序列模型的扩展，并且可以被高效地学习。CSCG 可以解释多种认知地图现象，例如从混叠的感官流中发现空间关系、在不连续的经验片段之间进行传递推理、可迁移的结构知识，以及在新环境中寻找捷径。CSCG 为不同上下文创建不同克隆的能力解释了分裂细胞（splitter cells）[15] 的出现和路线特异性编码（route-specific encoding）[20]，我们使用神经生理学中常见的多种实验设置证明了这一点。在重复跑圈任务（lap-running task）[21] 中，CSCG 学习特定圈数的神经元，并表现出对迷宫扰动具有鲁棒性的事件特异性反应，这与神经生理学观察结果相似。CSCG 还可以学习分离共享观测的多个环境，然后根据上下文相似性检索它们。值得注意的是，克隆结构学习和推理的动力学为老鼠从一个环境移动到另一个环境时观察到的不同活动重映射现象提供了一个连贯的解释。通过将混叠的观测提升到隐藏空间，CSCG 揭示了潜在的模块化，随后用于分层抽象和规划。

克隆结构化认知图作为认知地图的模型

CSCG 背后的核心思想是动态马尔可夫编码（dynamic Markov coding）[22]，这是一种通过拆分，或者说克隆，观测状态来表示高阶序列的方法。例如，一个表示事件序列 A − C − E
和 B − C − D 的一阶马尔可夫链，会给序列 A − C − D
分配高概率（图 1a）。相比之下，动态马尔可夫编码通过将代表事件 C 的状态拆分为多个副本（每个传入连接对应一个副本）来构建高阶模型，并通过学习进一步特化它们的传出连接。这种状态克隆机制允许对高阶依赖进行稀疏表示，并已在各个领域被发现 [22–25]。

通过克隆，相同的自下而上的感官输入由多个状态来表示，这些状态在对感官输入的选择性上互为副本，但专门针对特定的时间上下文，从而能够在没有破坏性干扰的情况下高效存储大量高阶和随机序列。然而，学习动态马尔可夫编码具有挑战性，因为克隆依赖于一种贪婪启发式方法，这会导致严重的次优性——穿插有零阶或一阶片段的序列将导致克隆状态的不受控增长。虽然文献 [25] 将克隆思想纳入了生物学习规则中，但由于缺乏概率模型和连贯的全局损失函数，阻碍了其发现高阶序列和灵活表征上下文的能力。一种有效的学习方法应当拆分克隆以发现高阶状态，并在有助于泛化时灵活地合并它们。

我们要之前的工作 [26] 表明，动态马尔可夫编码的许多训练缺陷可以通过克隆隐马尔可夫模型（cloned hidden Markov models）来克服——这是一种过完备隐马尔可夫模型（HMM）的稀疏限制 [27]。在克隆 HMM 中，每个状态的最大克隆数量是预先分配的，这强制执行了一个容量瓶颈。使用期望最大化（EM）算法进行学习，能够找出如何适当地利用这种容量来拆分或合并不同的上下文，从而高效地利用克隆来表示不同的上下文。此外，克隆 HMM 在一个严格的概率框架中表示动态马尔可夫编码的克隆机制，该框架能够处理学习和推理过程中的噪声和不确定性。

HMM 和克隆 HMM 都假设观测数据是由一个服从马尔可夫性质的隐藏过程生成的。也就是说，给定当前状态和所有过去状态，未来状态的条件概率分布仅取决于当前状态，而与任何过去状态无关。对于 HMM，观测状态和隐藏状态的联合分布由以下方程给出：

神经生物学回路

转移矩阵也可以被视为一个有向图，其中神经元构成图的节点，轴突分支构成有向边。互为克隆的一组神经元从观测值接收相同的“自下而上”的输入（蓝色箭头）。克隆神经元的输出是其横向输入的加权和，再乘以自下而上的输入，这对应于 HMM 推理中的前向传递消息 [30]。

任何特定时刻的证据可能是不确定的（“软证据”），表现为观测神经元群体上的分级激活。对于特定的观测值，从观测值到其所有克隆的直接自下而上连接激活了该观测值所属的不同序列，然后这些激活根据每个克隆在其横向连接上接收到的特定上下文支持进行调节。克隆神经元群体以与其概率成正比的方式，表征了在任何时刻活跃的不同上下文的概率。图 1e展示了这些活动如何针对从 t = 0
到 t = 3
的噪声输入序列 A → ( B , E ) → ( A , D ) → E进行传播，该序列对应于真实序列 A → B → D → E 。激活用不同深浅的红色表示，较浅的色调表示较弱的激活。在每个时刻，激活的横向输入被高亮显示，这些对应于上一时间步激活的克隆。通过正确整合上下文和噪声输入，克隆 HMM 的克隆激活过滤掉噪声以代表真实的输入序列。图 1f展示了序列如何从回路中被“重放”（采样）。

像边缘推断或 MAP（最大后验概率）推断这样的查询可以在神经回路中实现为前向和后向扫描，类似于图 1中的可视化，这与早期工作中探索的消息传递推理的神经实现类似 [28, 30, 31]。用于学习的 EM 算法可以很好地由神经生物学机制——脉冲时序依赖可塑性（STDP）[32]——来近似。

CSCG：动作增强的克隆 HMM

我们的动作增强模型允许智能体学习在给定状态下哪些动作是可行的，相比之下，动作条件化模型 [33] 仅根据动作预测未来的观测值。

CSCG 内的规划

规划被视为推理 [34]，并利用生物合理的消息传递算法 [28] 来实现。目标既可以被指定为期望的观测值，也可以被指定为该观测值的特定克隆。随后，通过固定（clamping）当前克隆和目标，并推断出达到这些观测值所需的中间观测和动作序列来完成规划。通过在图模型中运行前向传递并确定每一步目标的可行性，很容易确定我们需要将目标设定在未来多远的地方。后向传递随后将返回所需的动作序列。重要的是，由于图模型本质上是概率性的，它能够处理带有不确定结果的噪声观测和动作。

结果

我们进行了多项实验来测试 CSCG 对认知地图的建模能力。我们具体测试了以下已知功能特性：在混叠和离散的感官体验下通过随机游走学习空间地图、可迁移的结构知识、寻找捷径、支持层次化规划，以及生理学发现，例如位置细胞的重映射（remapping）和路线特异性编码。

从混叠序列观测中涌现空间地图

从纯粹序列化的随机游走观测中（这些观测无法唯一识别空间中的位置），CSCG 可以学习到底层的空间地图，这是一种与人类和动物相似的能力。图 2a展示了一个 2D 房间，其中每个位置都关联着感官观测值。该房间有 48 个独特的位置，但只有 4 种独特的感官输入（表示为颜色），一个进行随机游走的智能体观测到了这些感官输入的序列。一阶序列模型会严重欠拟合，而纯粹的序列记忆也无法学习到房间的结构，因为相同的序列几乎从不重复。相比之下，CSCG 完美地发现了房间的底层 2D 图（图 2b）。随着独特随机放置的观测数量增加，学习变得更加容易（见补充结果）。

值得注意的是，即使大多数观测是混叠的，CSCG 也能学习空间拓扑，就像在一个大空房间中那样，只有在靠近墙壁时才会产生独特的观测，如图 2c所示。观测之间的高度相关性和严重的混叠使得这成为一个具有挑战性的学习问题。尽管如此，CSCG 仍能完美学习 6 × 8
房间的拓扑结构（图 2d）。随着房间变大，这种能力会有所下降，但下降是平缓的（graceful degradation）。例如， 9 × 11
房间的周边被很好地建模，但 CSCG 无法区分中间的几个位置（见补充结果）。

传递推理：不连续的经验可以被拼接成一个连贯的整体

传递推理（Transitive inference），即推断未在同一时间经历的项目或事件之间关系的能力，归因于认知地图 [7]。例子包括从知道 A > B
和 B > C
中意识到 A > C
，或者根据不同行程中体验到的地标及其相对位置推断在城市中导航的新方法 [35]。

我们在一个旨在探究传递推理多个方面的具有挑战性的问题上测试了 CSCG，发现它可以将不连续的序列经验片段拼接成一个连贯的整体。实验设置由重叠的房间组成（图 2e），每个房间都有像前一个实验那样的混叠观测。此外，第一个房间有一个额外的部分，它与两个房间之间的重叠部分完全相同。这种设计允许测试仅按顺序独家体验第一个房间或第二个房间的智能体，是否能正确弄清楚房间及其重叠部分之间的关系。大状态空间、混叠观测、嵌套关系和二维传递性的结合，使得该问题设置比以前的尝试 [36] 显著更难。我们通过在每个房间执行两次单独的随机游走，收集了两组独立的动作-观测对序列，并在两个序列上训练了一个单一的 CSCG。训练结果可视化于图 2f。学习到的转移矩阵（显示为图）已将两个房间的兼容区域拼接在一起，创建了一个单一的、更大的空间地图，该地图与两个序列都一致，同时在可能的情况下重用克隆。第一个房间中令人困惑的额外补丁保持正确地未合并状态，并且位于第一个房间中的正确相对位置，尽管看起来与重叠区域完全相同。

发现正确的潜在全局地图使 CSCG 能够进行传递性概括。虽然智能体从未经历过一条从房间 1 独有区域通往房间 2 独有区域的路径，但它可以利用学习到的地图在组合空间中的任意两个位置之间进行替代性导航（vicariously navigate）。就像在之前的实验中一样，学习是纯粹关系性的：模型中不对欧几里得几何或 2D 或 3D 地图做任何假设。

有趣的是，绘制克隆随时间的激活情况显示，当智能体首次穿越重叠区域时（图 2g中的轨迹 X），对应于重叠区域和相同的混淆区域的克隆都被激活（图 2h），表明智能体不确定其在迷宫中的位置。这也表明智能体对认知地图的信念分裂为两种可能的现实（见补充视频 1），因为在没有额外上下文的情况下，重叠区域和混淆区域完全相同。走出重叠区域为智能体提供了足够的上下文来解决歧义。随后，当智能体探索混淆区域时（图 2g中的轨迹 Y），对应于该区域的克隆变得更加活跃，而对应于重叠区域的克隆不再活跃。当智能体返回重叠区域以遵循其最初遵循的相同序列（轨迹 X）时，克隆活动反映智能体不再在重叠区域和混淆区域之间感到困惑。

学习到的图形成可重用的结构以探索相似环境

在一个房间中学习到的通用空间结构可以被利用作为图式 [37]，用于在新颖房间中探索、规划和寻找捷径，这很像基于海马体的导航的能力 [38]。

为了测试这一点，我们首先基于来自随机游走的混叠观测在房间 1 上训练了 CSCG。如前所述，CSCG 完美地学习了房间的图结构。接下来，我们将智能体置于一个陌生的房间 2 中（图 3a）。我们保持 CSCG 的转移矩阵固定，并将发射矩阵重新初始化为随机值。当智能体在新房间中行走时，发射矩阵通过 EM 算法进行更新。即使没有访问新房间中的所有位置，CSCG 也能够通过从未访问过的位置在已访问的位置之间进行捷径行走（图 3b）。在沿着周边进行如图 3a所示的短暂遍历后，我们查询以找到从结束状态到起始状态的最短路径。CSCG 返回了正确的动作序列，尽管它显然无法预测路径上的观测值。有趣的是，维特比解码（Viterbi decoding）[39] 揭示的隐藏状态与你在房间 1 中对同一路径进行维特比解码所得到的隐藏状态相同。对 CSCG 查询从房间左下角到起始位置的最短路径，揭示了图 3b中蓝色箭头指示的路径。该解是从房间 1 获得的图的 Dijkstra 最短路径。此外，如果我们“阻断”该路径，我们会得到另一个在 Dijkstra 算法方面也是最优的解（图 3c）。即使只具有对新房间的部分知识，智能体也可以通过重用来自熟悉房间的 CSCG 转移图，替代性地评估到达目的地所需采取的动作数量和类型。

当重用来自旧房间的转移矩阵时，即使智能体使用随机游走进行探索，新房间也能被非常快地学习：当房间中的所有位置都被访问至少一次时，新房间就被完全学习了（图 3d-f）。这些图表显示了所探索房间的比例以及预测下一个符号的平均准确率作为随机游走步数函数的变化情况。

路径和时间顺序的表征

当观测到的统计数据有此需求时，CSCG 会学习路径并表征时间顺序，例如当观测值对应于动物反复行走的典型路线时。例如，考虑图 4a中显示的 T 型迷宫，它以“8”字形模式被穿越，要么从右侧（蓝色路径），要么从左侧（红色路径）。结果，这两条路径共享同一段。有趣的是，CSCG 为这个共享段学习了单独的克隆（图 4b），并且类似于文献 [15] 中的观测结果，这个重叠段中克隆的活动将指示大鼠是要向左转还是向右转（图 4c）。值得注意的是，CSCG 学习灵活高阶序列的能力独立于模态（modality）[4]。特别是，输入可以对应于空间观测、气味、字符序列或来自任何其他现象的观测 [26]。CSCG 将学习生成过程底层图结构的近似，这与文献 [2] 设想的认知地图的作用紧密对应。我们在图 4e中展示了为图 4d所示的具有共享路径的迷宫学习到的 CSCG。

神经生理学实验已经显示了海马体中“分裂细胞”（splitter cells）的出现 [15]。这些细胞代表通往目标的路径而不是物理位置，并且是在大鼠反复穿越相同的连续路线（相对于随机游走）时出现的 [20]。图 4f展示了一个迷宫，其中智能体可以穿越两条不同的路线（由品红色和绿色线指示）以到达相同的目的地。这两条路线都包含一些区域，在这些区域中智能体遵循的确切路径是随机的，正如指示从每个单元格可能的移动的箭头所示。迷宫中的观测值用数字标记，并且像以前一样，相同的观测值可以在迷宫的许多部分被感知（即存在混叠）。此外，这两条路线相交并共享一个公共段。在这些路径上训练的 CSCG 能够通过为每条路线使用不同的克隆来表征这两条路线，这类似于在类似实验中位置细胞表现出的路线依赖性。我们观察到，当穿越每条路线时，不相交的克隆子集将被激活。图 4g显示，当以起始状态为条件时，在学习到的 CSCG 中采样将总是产生与这两条路线一致的路径。通过可视化由 CSCG 转移矩阵定义的图，我们看到这两条路线是用两条不同的链来表示的（图 4g）。对于一阶模型，当到达共享段时，关于前面段的所有上下文都将丢失，模型将对未来路径做出不正确的预测。另一方面，CSCG 能够捕捉路径的历史，因此能够正确地建模路线及其独特的起始状态。

在 CSCG 中学习高阶序列还可以解释最近发现的现象，如组块细胞（chunking cells）和事件特异性表征（ESR）[21]，即位置细胞的激活信号结合了同一迷宫中不同圈数的位置和圈数信息。图 5a展示了一个类似于文献 [21] 中实验的设置，其中大鼠在获得奖励前在环形矩形跑道上跑四圈。暴露于相同序列的 CSCG 学会了区分各圈，并预测第 4 圈结束时的奖励。为了实现奖励而进行的规划恢复了正确的动作序列，随后我们执行该序列以记录不同圈中克隆的激活情况。可视化每个克隆的信念传播（无论是以观测为条件还是以动作为条件），产生了一种类序列的激活模式，其中每个感官观测都有一个克隆处于激活状态，因此迷宫周围的不同圈数由不同的克隆编码（图 5b）。类似于海马体中的神经元（其发放率显示在图 5c[21] 中），克隆在不同圈中显示出分级激活。当一个观测在其特定的圈中出现时，克隆对该观测的激活达到最大，但当该观测在其他圈中出现时则显示较弱的激活，这是 ESR 的特征。这是由于平滑处理和推理动力学而在 CSCG 中自然发生的，如图 5e所示。Sun 及其同事报告称，尽管延长了迷宫，海马体中的神经元仍然对每一圈做出独特的反应。我们通过在一个维度上拉长迷宫，引入重复的或混叠的感官观测，来模拟这一实验（图 5d）。同样，与较小的迷宫一样，我们观察到克隆在每一圈上都是独特激活的，并将每一圈解析为独立的情境事件（图 5d）。在这个特定的例子中，该迷宫的认知地图是一个观测链（见图 5e），它将每一圈分割成独特的情境事件。通过这样做，智能体能够基于相同的局部观测来识别它处于哪一圈。ESR 对迷宫延伸的鲁棒性也可以通过平滑 CSCG 中的推理来解释——重复的观测被解释为上一时间步的噪声，而从当前观测重新规划则恢复了正确的动作序列。

学习多张地图并解释重映射

重映射（Remapping）是指海马体位置细胞活动响应物理环境变化而重组的现象。重映射可以是全局的或部分的 [19, 41–44]，这取决于海马体如何分离、存储和检索针对多个可能相似或不同环境的地图 [13, 41]。

与海马体类似 [19]，CSCG 可以学习从高度相似的环境输入中分离出多张地图，在记忆中同时表征这些地图，然后利用上下文相似性来检索适当的地图以驱动行为。在图 6a中，我们展示了 5 个不同的 5 × 5 房间，它们都共享相同的 25 个观测值，但在空间中的排列方式不同。我们从这些迷宫中的随机游走序列中学习单个 CSCG，其中游走在不同房间之间以不规则的间隔切换，且未提供任何关于迷宫身份或切换时间的监督。

尽管所有观测值在迷宫之间是共享的，CSCG 学会了为不同的房间形成不同的克隆。图6ai绘制了智能体在从第一个到最后一个房间的每个房间中经历 50 步随机游走序列时关于其所在地图的信念，表明尽管瞬时观测是模糊的，迷宫身份仍体现在群体响应中。

我们进行了一系列实验，以评估迷宫之间的相似性、每个迷宫内的可预测性、学习量以及噪声和不确定性的量如何影响神经响应重组的程度。这些实验使用了两组环境——迷宫和房间。房间是前面描述的 5x5 房间（图 6a），迷宫由 5 种不同的形状组成（图 6b），由 6 种不同的观测值构成（4 个不同的角落，以及垂直或水平的臂）。由于随机游走的分支因子较低，与房间相比，迷宫具有更好的迷宫内可预测性，而且与不同房间之间的相似性相比，迷宫彼此之间更相似。对于每一组，我们训练了一个 CSCG，并评估了重映射如何随训练量和不确定性而变化（见图 6a i-iv和图 6b i-iv）。

我们的结果表明，全局重映射、部分重映射和速率重映射可以使用 CSCG 来解释：当同一模型中表示多张地图时，它们是使用克隆结构的学习和推理动力学的表现。我们通过改变训练量和不确定性，能够重现不同的重映射效果。图 6a-b中的行 (ii) 到 (iv) 显示了两个 CSCG 的神经响应，这两个 CSCG 学会了表征相应的房间和迷宫。一列中的所有神经轨迹对应于同一个随机游走，其中智能体在每个房间/迷宫中采取 50 步，从第一个到最后一个。当 CSCG 经过充分训练直到 EM 算法收敛时，来自不同迷宫的神经响应重叠最少，产生类似于全局重映射的效果（图 6aiii和biii）[41]。如果 CSCG 经过部分训练，克隆仅部分分离——虽然许多克隆仍然专属于特定的迷宫或房间，但也有大量克隆在多个迷宫/房间中活跃（图 6aii和bii），对应于部分重映射的效果 [13, 42]。在充分训练的模型中，更多的平滑处理，或反映不确定性的软证据，会产生类似于速率重映射的神经响应 [13, 44]（图 6aiv和biv）：在全训练情况下发放的所有神经元在这种情况下仍然发放，但发放率降低。发生这种情况是因为不确定性和平滑处理导致表征相同观测值的克隆之间更多地共享证据。

房间（迷宫）之间的相似性，以及每个房间（迷宫）内的可预测性程度，也会影响重映射的动力学。这可以通过比较图 6a, b中房间的轨迹与迷宫的轨迹来观察。在图 6bi中，由于迷宫中更严格的时间上下文，每个迷宫内的信念比房间中的更稳定 [19]。房间中流动的时间上下文会产生信念的更渐进的变形 [45]。不同迷宫之间的结构相似性导致在进入新迷宫后出现更长的瞬态期，导致信念的非瞬时切换 [45]。这也反映在图 6bii-iv中，其中多个迷宫中的克隆在切换点活跃（绿色条）。

综上所述，我们的实验展示了决定海马网络如何在预先建立的表征之间突然切换或从一种表征逐渐漂移到另一种表征，从而产生各种重映射效果的条件和机制。

社区检测与分层规划

人类以分层的方式表征计划 [46]。替代性评估（Vicarious evaluations）涉及模拟通往目标的路径，而分层计算通过减少搜索空间使这些模拟变得可行（tractable）[47]。为了实现分层规划，学习机制应该能够从序列观测数据中恢复底层的层级结构。

通过学习克隆转移图，CSCG 将观测提升到隐藏空间，从而能够发现观测中可能不明显的图模块化结构。社区检测算法（Community detection algorithms）[48] 随后可以对图进行划分以形成分层抽象 [6]，这对规划和推理很有用。像 CSCG 中的规划和推理一样，社区检测也可以使用消息传递算法（message-passing algorithms）[49] 来实现，这使它们具有生物合理性（biologically plausible）[28]。

我们通过模拟智能体在两个迷宫中的运动，测试了 CSCG 学习分层图的能力。第一个迷宫是一个具有三个社群（communities）的模块化图，其中观测值并非节点独有的（图 7a），这与早期使用该图的研究 [6, 9] 形成对比，在那些研究中观测值直接标识了节点。由于观测的简并性（degeneracy），对 SR 矩阵进行社区检测或 MDS 无法揭示隐藏的社群（图 7b）。相比之下，在 CSCG 上进行社区检测从随机游走中训练得到的模型能轻易揭示正确的社群结构。第二个迷宫，如图 7d所示，共有 16 个房间排列成 4 × 4 的网格。每个房间都有混叠的观测值，并通过走廊（黑色方块）连接。这种混叠是全局的：瞬时观测无法识别房间、走廊或房间内的位置。此外，迷宫的结构使得存在四个“超房间”（hyper-rooms），使该迷宫成为一个三层层级结构。与前面的例子一样，在随机游走序列上训练 CSCG 学习了迷宫的完美模型。然后我们使用社区检测对 CSCG 的转移矩阵进行聚类（图 7e）。这种聚类揭示了克隆的分层分组（图 7f），以及被发现的社群之间的连接图。社群尊重房间边界：虽然有些房间被分成两个或三个社群，但没有一个社群跨越（straddled）多个房间。再次对此图应用社区检测揭示了四个超房间（图 7f），这是层级的最高层。为了使用这张地图从起始位置 S 导航到特定的最终目的地 F ，智能体首先必须确定目标位于这四个房间中的哪一个，然后在源社群和目标社群之间的社群图中规划路线（图 7h）。这样做可以显著减少低层图中的搜索空间，使得在分层 CSCG 学习到的图中进行规划比在原始图中直接规划更有效。我们实现了这种形式的分层规划，并发现我们总是能够在随机选择的起点和终点之间恢复一条高效的路径（详见补充方法）。

学习适当编码时间上下文的高阶图对于使用社区检测算法提取层级结构至关重要。那些在观测值上学习一阶连接性的方法，例如观测值上的后继表征（successor representations）[10]，将无法形成正确的表征，因为观测值通常存在严重的混叠（见补充图 3）。

当前关于认知地图如何从感官输入中学习以及如何用于规划的理论，一直未能调和大量的实验证据。在本文中，我们秉持这样一个强有力的假设：海马体执行一种单一的算法，学习一种序列的、关系的、与内容无关的结构，并展示了其有效性的证据 [4]。通过一系列实验，我们展示了 CSCG 如何存储、抽象和访问序列感官经验 [4, 50]。实现这一核心思想需要几个相互关联的进展：(1) 一种从序列观测中提取高阶图的学习机制，(2) 一种支持传递性的存储和表征结构，(3) 高效的上下文敏感和概率检索，(4) 以及支持高效规划的层级学习——这些是我们在本文中开发的技术。作为一个模型，CSCG 跨越了 Marr 层级的多个层面。其计算规范基于概率模型和最优推理，其算法实现利用了神经科学的见解 [24]。此外，其学习和推理的图模型及算法实现很容易转化为神经生物学实现，为我们考虑的所有实验现象提供了机制性解释。

CSCG 与 Tolman-Eichenbaum 机器（TEM）[33, 51] 有显著不同，后者是最近提出的关于海马体回路结构学习的模型。正如本工作所演示的，CSCG 可以解决 TEM 所考虑的任务以及其他任务。例如，与 TEM 不同，CSCG 可以规划以实现测试时选择的任意目标（见图 3b-c），并且原生地处理错误或模糊的观测（见补充材料中的检索和重映射）。CSCG 还允许高效的精确推理，这使得复杂的查询能够被快速且准确地回答。相比之下，TEM 的表征复杂性仅允许近似推理，并且需要更高的计算代价。例如，图 5a中的问题使用了 4 圈，每圈 12 步，在单个 CPU 核心上几秒钟内即可解决；而对于 TEM 可解决的等效问题，它需要简化为 3 圈，每圈 4 步。CSCG 原生是概率性的并处理不确定性和噪声，而当前的 TEM 实现则不然。最重要的是，CSCG 将观测提升到揭示模块化的潜在图的能力，通过使得抽象层级的形成成为可能，为其提供了优于 TEM 的强大优势，见图 7。

一种常用于海马体功能的理论是后继表征框架 [9, 10, 52]，它通过聚合给定策略下智能体未来位置的分布来表征当前状态。然而，这对表征施加了几个限制。首先，由于时间聚合，时间上的顺序丢失了。此外，后继表征不允许单独访问当前位置和未来位置，并且混淆了未来位置的顺序 [53]。相比之下，CSCG 提供对当前和预测未来的单独访问并保留顺序，这是有效规划的关键属性。其次，后继表征是策略的函数。文献 [9] 强调，当奖励改变时，价值函数可以很容易地重新计算，而无需重新计算后继表征。然而，当奖励改变时真正需要改变的是策略，这反过来要求重新计算后继表征。由于 CSCG 捕捉世界的动态，它们可以即时更新策略。在后继表征的特征向量中观察到的类网格细胞属性可能是所有采用转移矩阵的方法的一个属性（见补充结果），我们要怀疑这一属性本身可能没有任何行为相关性。最后，虽然后继表征可用于发现社群（communities），但它要求世界是完全可观测的且没有潜状态。相比之下，CSCG 有能力将混叠的观测拆分到不同的上下文中，以发现潜在图和社群。

CSCG 与图式网络（schema networks）[54] 有着有趣的联系。像图式网络一样，CSCG 编码关系知识。为不同的时间上下文创建不同的克隆，类似于用于解决状态混叠的合成项（synthetic items）概念 [55]。我们打算在未来的工作中探索这些联系。图式细胞（Schema cells）已在海马体中被观察到 [37]，CSCG 或许能够解释它们的出现和属性。此外，由于序列学习发生在许多其他脑区，例如顶叶皮层 [56] 和眶额皮层 [57]，这项工作的一个自然扩展将涉及学习高阶概念关系并将其应用于认知灵活性。目前的工作可以通过将其与主动推理框架（active inference framework）[58] 相结合来进一步扩展，该框架为结合探索和利用提供了指导原则。使用主动推理，在学习开始时，智能体将由探索驱动，因为其世界模型非常不确定，并且随着其对世界知识的增加，将缓慢增加利用的量。尽管主动推理到目前为止一直用于简单得多的模型，这些模型无法解决当前工作中提出的实验，但 CSCG 的概率公式兼容于使用模型参数上的分层先验来表示模型的确定性，为未来研究提供了一条途径。

与 [50] 一致，CSCG 表征无内容指针（content-free pointers）的序列：每个指针可以指代来自不同模态的感觉事件的联结。来自网格细胞（grid cells）的输出，即路径整合信号，被视为仅仅是另一种感官模态。网格细胞输出提供均匀空间的周期性平铺，这对于在其他感官线索缺失时学习和导航地图是有利的。类似地，将来自视觉图模型 [59] 的快照编码为此序列器的输入，可能使得学习视觉空间概念和视觉例程 [60] 成为可能，并建模海马体对视觉皮层的双向影响 [61]。我们相信这些想法是未来探索的有前景的路径。虽然超出当前工作的范围，海马体重放（hippocampal replay）[62] 是一个可能使用 CSCG 解释的现象。我们相关的工作 [63] 表明，一种快速记忆并逐渐泛化的算法对于学习 CSCG 表征是可能的。从序列的休息时间重放中学习可以帮助此类算法更好地巩固和泛化。推理时间重放可以被解释为对通往多个目标的轨迹的搜索及其替代性评估。

阐明认知地图如何在海马体中表征，如何从经验流中获取，以及如何利用它们进行预测和规划，不仅对于理解大脑的内部运作至关重要，而且为开发具有人工通用智能的智能体提供了关键见解。我们在本文中介绍的 CSCG 模型，为这些问题中的每一个提供了合理的答案。我们期望该模型在神经科学和人工智能中都有益，作为一种从多模态序列数据中产生易于解释和操纵的显式表征的方法。

原文链接：https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.