What Is a Cognitive Map?
Organizing Knowledge for Flexible Behavior
什么是认知地图? 为灵活的行为组织知识
https://www.cell.com/neuron/pdf/S0896-6273(18)30856-0.pdf
《What Is a Cognitive Map? Organizing Knowledge for Flexible Behavior一文探讨了“认知地图”这一概念,即大脑中一种抽象的知识组织方式,它不仅限于空间导航,而是支持跨领域的灵活行为。文章回顾了海马及其相关脑区(如内嗅皮层)中的神经元(如位置细胞、网格细胞)如何编码空间信息,并提出这些机制可能是更普遍的知识表征形式的一部分。
作者指出,认知地图的核心在于其结构性知识的抽象与泛化能力 ,能够通过有限的经验进行推理、规划和泛化到新情境。这种结构不仅支持空间导航,也参与社会关系、时间序列、因果推理等多种非空间任务。人工神经网络的研究表明,具备类似生物神经机制的系统可以学习类似的“地图样”表征,并展现出灵活决策能力。
总结来说,本文强调认知地图是一种通用的、结构化的知识表征机制 ,它使个体能够在复杂、多变的环境中实现高效学习与适应性行为。
有人提出,认知地图(cognitive map)编码了世界中实体之间的关系,从而支持灵活的行为。然而,关于这种系统的神经证据主要来自于对空间导航的研究。近期研究描述了空间行为与非空间行为之间在神经层面的相似性,这重新激发了人们对跨多个领域知识系统化组织概念的兴趣。我们回顾了实验证据和理论框架,它们指出了统一这些看似截然不同功能的原则。这些原则描述了如何学习和使用抽象、可泛化的知识,并表明在空间情境下观察到的地图样表征(map-like representations)可能是能够组织各种类型知识的一般编码机制的一个实例。我们强调,拥有这些原则的人工智能体表现出灵活的行为,并能学习大脑中观察到的地图样表征。最后,我们推测这些原则可能有助于理解人类认知所具有的极端泛化、抽象和推理能力。
引言
在过去二十多年中,计算神经科学和行为神经科学家在精心控制的重复性实验情境下,找到了控制行为的神经信号的形式化解释(例如:Behrens 等,2007;Daw 等,2006;O’Doherty 等,2004;Platt 和 Glimcher,1999;Schultz 等,1997)。在某些情况下,这些模型能够以极其精确的方式预测神经元活动(Cohen 等,2012;Gold 和 Shadlen,2007;Schultz 等,1997),当结合强大的计算资源时,相关算法在训练人工智能体方面取得了巨大成功,甚至在像 Atari(Mnih 等,2015)和围棋(Silver 等,2016)这样多样化的游戏中达到了超越人类的水平。
然而,在这些模型所能解释的行为类型与人类行为所表现出的高度复杂推理之间,存在着显著的差距。人类和动物的行为具有灵活性。我们可以通过利用过去成功的行动来做出选择,也可以基于仅略微相关的经验进行决策;我们能够想象完全新颖选择所带来的后果。我们可以从经验中抽象出重要的特征,并将其推广到新的情境中。
Tolman 在观察大鼠在复杂迷宫中的灵活推理时,清晰地阐述了这些差异。它们能够在没有奖励的情况下学习迷宫的丰富细节,并为未来的行为带来益处。例如,在未获得奖励的情况下接触过迷宫后,大鼠会采取捷径去获取奖励(Tolman 和 Honzik,1930),或在原有路径被阻断时找到新的路线(Tolman 等,1946)。这些行为促使 Tolman 提出了“认知地图”这一术语,指的是一个丰富的内部世界模型,它能解释事件之间的关系并预测行为的后果。
对 Tolman 来说,这种认知地图是一种涵盖所有行为领域的系统性知识组织方式(Tolman,1948)。然而,它在认知神经科学领域最大的影响却体现在空间行为的研究上(O’Keefe 和 Nadel,1978),或许是因为“地图”这个词的字面意义为神经活动提供了明确的预测。即使是 Tolman 本人也无法想象,“地图样表征”在海马-内侧嗅皮层系统的单个神经元活动中被反映得如此精确(图1)。其中最著名的是那些在地图中特定位置活跃的神经元。“海马中的‘位置’细胞”通常只在一个空间位置激活(O’Keefe 和 Nadel,1978);“网格细胞”位于内侧嗅皮层,它们在多个等距排列于三角形网格上的位置场中放电(Hafting 等,2005),因此能够表示不同空间位置之间的向量关系和距离(Bush 等,2015;Stemmler 等,2015)。此外,还有许多不那么知名但同样令人惊叹的细胞,它们揭示了“知识”是如何在地图中组织起来的(Grieves 和 Jeffery,2017),比如条带细胞(Krupic 等,2012)、编码边界向量关系的细胞(Solstad 等,2008)、编码物体(Høydal 等,2018)、奖励(Gauthier 和 Tank,2018)和目标(Sarel 等,2017)的细胞;此外还有编码当前头朝向的细胞(Taube 等,1990),以及编码其他个体在地图中位置的细胞(Danjo 等,2018;Omer 等,2018)。
这些空间细胞似乎具有专门的功能表征,每种都在理解和导航二维世界中扮演重要角色。值得注意的是,包含这些细胞的大脑结构在更广泛的认知地图过程中也起着关键作用,如泛化、推理、想象、社会认知和记忆(Hassabis 等,2007;van der Meer 等,2012;Ólafsdóttir 等,2015;Tavares 等,2015)。因此,如何理解这些细胞可能帮助我们组织 Tolman 所设想的复杂、高维、非空间性的认知地图,是一个挑战。
在本文的视角下,我们将探讨此类系统所需的计算机制,并尝试理解它们如何与海马形成区和腹侧前额叶皮层中的细胞反应及机制相关联。我们强调强化学习研究与空间导航研究之间出现的计算相似性,这使得“认知地图”的抽象概念得以用数学形式化,从而描述一般性的行为问题——包括空间和非空间的问题——并为关于神经表征的老问题提供新的见解。接着,我们提出这些形式化思想如何可以扩展,以解释强有力的推理和结构性知识泛化能力,这些正是人类灵活行为的基础。我们认为,认知地图可以从与感官表征分离的抽象关系的一般模式中构建出来,因此可以在不同的感官环境中进行泛化。这些抽象表征可被视为描述关系知识的基础集合。新的认知问题则可以被视为在这个关系基础中的推理过程。最后,我们推测,这种观点有助于理解一系列心理现象,从图式和泛化,到计划和选择。
为灵活学习组织结构性知识
当 Tolman 观察大鼠在迷宫中奔跑时,心理学的另一位先驱 Harlow 正在让人类和非人灵长类动物在两个刺激之间做出选择以寻找奖励。从一个有奖励的刺激与一个无奖励的刺激中进行辨别本不需要任何复杂的认知或灵活性——动物只需重复选择被奖励的选项即可——但 Harlow 注意到了一些有趣的现象。随着受试者在任务中经历越来越多(每次使用不同的刺激),他们学习新辨别的能力变得越来越强(见图2A和2B)。除了学会哪个刺激更好之外,受试者还在学习某种关于如何执行辨别任务的抽象知识。他将这种抽象知识称为“学习集”(learning set)(Harlow, 1949)。
在本节及接下来的部分中,我们将论证获取这样的“学习集”需要一种对任务结构的抽象表征,这种表征能够编码任务事件之间的关系。这类表征使得可以从遥远的观察中进行推理,并将信息泛化到具有相似结构的不同任务中。我们还将论证网格细胞的活动就是空间领域中此类表征的一个例子:网格细胞编码由于所有二维空间的共同结构而产生的空间导航中的统计规律性。
要获得这样的“学习集”,你需要学习不同刺激之间的抽象关系,例如:“如果一个刺激受到奖励,另一个就没有奖励”,或者“被奖励的刺激可能在若干次试验后发生变化”。这一学习过程的一部分包括学习有关任务如何运作的基本知识。例如,你必须知道你现在获得奖励的原因是你刚刚选择的那个刺激,而不是三轮之前选择的刺激,也不是走廊里刚打开的那扇门。
当猕猴的腹侧前额叶皮层(vPFC)(包括眶额叶和腹外侧前额叶皮层)受到损伤时,这种能力就会消失(Rudebeck 和 Murray, 2011;Walton 等,2010)。动物不再将每一次奖励归因于导致它的那个特定选择,而是将其归因于最近一系列选择的模糊平均值。在 vPFC 受损后,原本了解任务结构的猕猴现在只能通过平滑的时间相关性来学习(Walton 等,2010;见图2C和2D)。虽然这种策略在稳定的环境中可以有效运行,但在需要行为灵活性的情况下(例如奖励条件发生改变时),会导致灾难性的表现。
这些 vPFC 的特性并非猕猴大脑所独有。在人类中,当大脑其他区域的奖励信号未能反映任务细节时,vPFC 的 fMRI 信号却能准确反映任务的具体条件(Jocham 等,2016)。在啮齿类动物中,如果对眶额皮层(OFC)进行单侧损伤,同侧的多巴胺神经元仍会报告真实的奖励预测误差,但其预测已不再反映是哪一个选择导致了奖励(Takahashi 等,2011)。
那么,“对问题结构的表征”意味着什么?更形式化地思考这些问题有助于我们加深理解(Wilson 等,2014)。在强化学习中,这类行为控制问题可以被建模为寻找一个能够在长期最大化累积奖励的策略。该问题由状态 s 和状态之间的概率转移 P(s' | s, a) 来刻画,这些转移可能由动作 a 所控制。策略 π 决定在每个状态下选择每个动作的概率;即 π = P(a | s)。若用 r 表示当前状态下获得的即时奖励,Vπ 表示在某个策略下未来可预见范围内预期的累积奖励,γ 表示对近期奖励赋予更高权重的折扣因子,则经过一定的数学推导后,我们的目标就变成了寻找使价值最大化的策略(如下方程):
在这个框架中,表示问题结构的任务是由状态定义 s 和状态转移 P(s' | s, a) 来承担的(见方框2)。它们分别描述了任务是如何被划分为不同元素的——例如,“刚刚看到某个特定刺激”这一状态——以及一个元素如何导致另一个元素。
Wilson 及其同事表明,上述提到的信用分配缺陷,以及其他在腹侧前额叶损伤后常见的多种缺陷,都可以由一个仅从即时感官观察中学习、而无法将奖励归因于抽象状态(例如“我刚刚选择了刺激A”,见图2E)的强化学习智能体所预测。因此人们认为,眶额皮层(OFC)的活动必须编码个体在潜在(latent)或未被观察到的状态空间中的当前“位置”。事实上,当人类执行一个具有明确定义状态空间的复杂任务时,这种确切的信息可以从 OFC 的 fMRI 信号中解码出来(Schuck 等,2016)。
然而,要解释“学习集”的效应,状态表征必须不仅仅是标记当前状态那么简单。首先,它必须编码这个状态与世界上其他状态之间的关系(例如,动物可以知道如果一个状态没有获得奖励,那么另一个状态很可能有奖励;或者如果配偶的钱包在桌子上,那么他们更可能是在花园而不是酒吧)。其次,它必须以一种能够在任务的不同感官表现形式之间泛化的方式来编码状态。
Harlow 的实验以及(Walton 等,2010)中 OFC 相关任务的一个关键特征是:每次任务使用的都是不同的刺激,但动物的表现仍然在不断进步。事实上,当猴子被要求在两种果汁 A 和 B 之间做出经济选择时,OFC 神经元会编码丰富的价值和任务相关变量(Padoa-Schioppa 和 Assad,2006),而当这两种果汁被替换为另外两种果汁 C 和 D 时,相同的神经元会对新果汁编码完全相同的变量(Xie 和 Padoa-Schioppa,2016;见图3C和3D)。实际上,对邻近的腹外侧前额叶皮层(vlPFC)进行损伤会导致在不同刺激集之间泛化知识能力上的特定缺陷(Rygula 等,2010)。
泛化空间表征
到目前为止,我们已经论证了在学习任务中,腹侧前额叶皮层(vPFC)的表征具有三个重要的计算特性:(1) 它们编码任务状态空间中的“位置”;(2) 其对“位置”的表征嵌入了不同状态之间的结构知识;(3) 它可以在具有相同统计结构但感官事件不同的任务之间进行泛化。
OFC 活动的这三个特征与内嗅皮层细胞在空间领域中的关键计算特性非常相似。网格细胞以编码空间任务中的“位置”而闻名。它们通过一种隐含了所有位置之间空间关系知识的表征方式来实现这一点,这种表征允许远距离推理(Bush 等,2015;Stemmler 等,2015)(进一步令人信服的证据见下一部分),并且这种结构性编码可以泛化到不同的感官环境之中。
为了理解这个最后一点,我们可以考虑海马“重映射”实验中发生的情况,在这类实验中动物被放置在两个不同的盒子中(例如,墙壁颜色不同)。在这些实验中,当感官环境改变时,海马的位置细胞会发生“重映射”(Bostock 等,1991;Leutgeb 等,2005)。在一个环境中相邻的位置细胞在另一个环境中通常不再是邻居。相比之下,除了刚体变换之外,网格细胞在不同环境之间并不会发生重映射。在同一模块中,一个环境中的相位邻居在另一个环境中仍然是相位邻居(Fyhn 等,2007;见图3A)。因此,内嗅皮层对“位置”的表征嵌入了所有环境中二维空间中普遍存在的结构关系信息。同样地,内嗅皮层中的物体向量细胞会在任何出现在环境中的物体上激活(Høydal 等,2018),而海马中类似的细胞只对部分物体有反应(Deshmukh 和 Knierim,2013;见图3B)。
考虑到这些关系,有趣的是,“学习集”的缺陷可以通过切断穹窿(即断开前额叶皮层与海马之间的连接)(M’Harzi 等,1987)或通过额颞叶分离(fronto-temporal disconnection)(Browning 等,2007)来实现。类似地,OFC 与海马之间的相互作用似乎对于人类和啮齿类动物正确更新任务表征非常重要(Boorman 等,2016;Wikenheiser 等,2017)。因此,理解这些更广泛形式的行为如何与我们在空间导航任务中熟悉的空间表征相关联,是非常有趣的。
这些关系可能不仅仅是理论上的。最近的研究表明,将强化学习问题置于连续但非空间的领域中时,位置细胞和网格细胞的作用可能比物理空间编码更为广泛。这些研究显示,在与位置细胞和网格细胞相同的脑区中,无论是通过 fMRI 还是直接记录,都观察到了以类似于空间信息编码方式编码非空间信息的细胞活动。
在人类中,可以通过手术期间直接记录内嗅细胞活动(Jacobs 等,2013),或者通过 fMRI 间接记录(Doeller 等,2010),来观测虚拟现实导航过程中类似网格细胞的活动。虽然 fMRI 无法直接获取单个细胞的活动,但网格模式的六边形对称性在 fMRI 信号中留下了显著的痕迹。当受试者在虚拟现实环境中移动时,fMRI 活动会随着运动方向呈现出六重振荡(Doeller 等,2010;见图4A和4B)。
值得注意的是,这种模式不仅在受试者在虚拟空间中导航时出现,而且当他们参与一个具有与空间相同统计结构(二维连续组织)的非空间操作任务时也能观察到(Constantinescu 等,2016)。在这个任务中,受试者不是在空间中移动,而是观看一只卡通鸟在两个维度上变化(脖子和腿的长度)。他们的任务是预测这些鸟何时会变成几个与不同奖励相关的目标鸟之一。鸟外观的即时变化描述了一个由脖子和腿长度定义的二维概念空间中的向量,而“网格样编码”则是通过观察 fMRI 活动中随该向量变化的六重振荡推断出来的。这种模式可以在内嗅皮层中观察到,也可以在包括腹侧额叶皮层在内的其他脑区中观察到(Constantinescu 等,2016;见图4C)。
相比之下,在海马中,细胞会对特定的抽象刺激做出反应,例如 Jennifer Aniston(Quiroga 等,2005),因此其编码方式类似于空间领域中的位置细胞。
同样地,对于啮齿类动物来说,“按住杠杆直到音调频率升高,然后在目标频率释放以获得奖励”的任务显然不是一个空间任务,但它具有与空间类似的拓扑结构——在一个操作箱中,一个频率自然地过渡到下一个频率,就像在线性轨道上一个位置过渡到下一个位置一样。当啮齿类动物执行这一任务时(Aronov 等,2017),海马细胞表现出类似位置细胞的放电场,但对应的是不同频率而不是位置;内嗅皮层细胞(包括三分之一的空间网格细胞)则在不同频率上表现出多个不同的放电场。这些多场放电模式暗示了网格细胞在线性轨道上的放电模式(Yoon 等,2016;见图4D和4E),尽管尚未建立直接对应关系。此外,网格细胞还会编码非人灵长类(Killian 和 Buffalo,2018)和人类灵长类(Julian 等,2018;Nau 等,2018)注视图像时的注视位置。
因此有证据表明,位置细胞和网格细胞的活动模式既不局限于空间导航,也不仅限于人类的海马形成区(另见 Jacobs 等,2013 和 方框1)。相反,它们可能反映了空间所固有的二维拓扑结构,并也适用于其他领域。这些结果表明,位置细胞和网格细胞在空间认知中的作用,可能是海马及其连接区域中更一般性编码机制的一个具体实例。
在统一框架下整合空间与非空间编码
为了更正式地理解这意味着什么,回到上一节(以及方框2)中提出的强化学习(RL)框架是有帮助的。由于 RL 是一个通用框架,它不仅限于解释操作性任务,同样也可以为理解空间导航问题提供新的视角(Gustafson 和 Daw,2011)。
例如,考虑一只老鼠在线性轨道上奔跑的情况。使用 RL 框架,我们可以通过将状态(s)定义为轨道上的不同位置来表达这个任务(见图5A)。老鼠从一个状态移动到另一个状态的概率取决于它的策略,由公式给出;如果运动是通过扩散进行的(即图上的随机游走),那么同样的这个公式就告诉我们环境在不同状态之间的转移概率矩阵 T。这个矩阵有效地告诉我们哪些状态是相邻的,因此在线性轨道上,它封装了问题空间的一维拓扑结构(见图5A)。
这是一个非常有用的矩阵。如果你正在规划未来,并想知道下一时间步你可能处于哪个状态,你可以简单地将你的当前状态向量 s 乘以 T 得到 Ts;在两个时间步后,你的状态概率分布将是 T2s,三个时间步后则是 T3s,依此类推(见图5A)。
这种对未来状态的思考方式就是“基于模型的强化学习”的一个例子:一个了解状态和状态转移(因此拥有世界“模型”)的智能体可以逐步模拟未来,并决定哪一种未来是最好的选择(Daw 等,2005,2011;Sutton 和 Barto,1998)。
虽然有大量证据表明在空间任务的选择点上确实存在这种类型的未来预测(Doll 等,2015;Johnson 和 Redish,2007),但这种方式与我们通常如何思考大多数导航问题是截然不同的。在导航问题中,智能体不是逐一地规划邻近的位置,而是能够利用二维空间的欧几里得特性,推导出连接远距离点的局部向量。
在 RL 的状态空间中是否也能做出类似的推理呢?不深入数学细节地说,存在一组向量,通过简单的线性组合就可以计算出所有的 n 步转移矩阵。这些向量就是 T 的特征向量 (见图5A)。这些向量线性地编码了所有可能的未来,并且从中可以很容易地计算任意两个状态之间的距离,而无需昂贵的逐步骤模拟(Baram 等,2018;Stachenfeld 等,2017)。
对于连续世界来说,这些特征向量具有周期性;而在二维世界中,它们则表现出类似网格的性质(Dordek 等,2016;Stachenfeld 等,2017;见图5B)。
值得注意的是,由于位置细胞在二维世界中索引的是重叠的状态,这些特征向量同时也是位置细胞活动的主要成分(Dordek 等,2016;Stachenfeld 等,2017)。训练用于预测位置的循环神经网络也报告了定性相似的表征(Cueva 和 Wei,2018)。因此,“特征向量编码”或“网格编码”也可以被认为是一种以信息高效的方式捕捉位置细胞群体中变异性的编码方式。
在对优化过程引入某些约束条件之后,一个训练用来根据自我运动输入预测位置细胞(和头方向细胞)活动的循环神经网络,在探索开放空间时会自然发展出六边形网格状的单元。这些单元在大量属性上与生物意义上的网格细胞相匹配,并在网络倒数第二层中自然成为其偏好的表征方式(见图5B;Banino 等,2018)。
尽管采用了不同的架构和优化过程,这突出表明了网格状放电模式是从状态转移结构的统计规律中自然产生的。通过在更复杂的环境中使用这些细胞,智能体可以解决需要向量导航的导航问题(例如找到从未走过的捷径)(Banino 等,2018;见图5C),这表明这种类网格的基础结构对于产生复杂行为是有用的。
到目前为止,我们一直在考虑如何在一个结构良好但行为随机的世界中表示可能的未来体验。事实上,由于状态转移依赖于选择,当动物在行为上展现出统计规律性时(例如,动物倾向于接近食物来源),预期的转移概率矩阵 T 也会随之改变。这种策略依赖性可以被用来做出一些仅从空间角度难以立即察觉的关于海马表征的预测。
要做到这一点,就需要重新理解位置细胞的表征。一旦动物熟悉了某个环境,位置细胞不再仅仅编码它现在所处的位置,而是可能编码它对未来即将到达位置的最佳估计。显然,这是一种有助于控制行为的表征方式,因为它使动物能够快速评估哪些局部选择通向有利的未来。
在强化学习中,这被称为“后继表征”(successor representation)(Dayan,1993),因为它预测了预期的后续状态。如果我们假设位置细胞编码的是这些“后继状态”而非当前位置,那么就可以解释许多看似互不相关的位置细胞文献中的发现,例如位置场倾向于缓慢地朝向单向线性轨道起点延伸,或在奖励位置周围高密度聚集的现象(Stachenfeld 等,2017;见图5D)。
这一通用框架在一定程度上解释了为什么位置细胞和网格细胞的表征不仅存在于空间情境中,同时也暗示它们不应仅限于连续性环境。尽管这仍然是一个正在进行研究的课题,但已有初步证据表明这一方向将是富有成果的。
在人类中,海马(Garvert 等,2017;Schapiro 等,2013;Stachenfeld 等,2017)和内嗅皮层(Garvert 等,2017)的 fMRI 相似性测量结果显示,这些脑区对离散状态空间中的统计转移关系具有敏感性,即使受试者并未意识到这些转移并非随机。通过分析这些表征,研究人员可以直接从神经数据中重建出状态距离矩阵,这些矩阵与真实的状态间转移或后继距离非常相似(见图5E)。
在操作性任务中,人类的行为并不是在线模拟所有可能的转移路径,而是有证据表明其依赖于预先编译的、符合“后继表征”(或“特征向量表征”)的转移距离(Momennejad 等,2017a),而这些预先编译的距离依赖于海马和腹侧额叶皮层在非任务期间(离线)的活动(Momennejad 等,2017b)。同样地,在啮齿类动物的操作性任务中,无论是对海马还是眶额皮层的干预,都会阻止动物利用状态转移结构来指导它们的下一个选择(Miller 等,2017,2018)。
推理、抽象与任务的因子化表征
因此,在强化学习任务或空间环境中,对状态之间关系的巧妙表征可以实现灵活的推理。但是,大脑在每次遇到新问题时是如何获得这样一种表征的呢?在本节中,我们认为结构性知识可以从其感官输入中抽象出来,因此可以泛化到新的环境、状态空间和任务中。我们主张,某些结构性表征是许多需要灵活推理和快速学习的任务所普遍需要的。
正如前面所讨论的,动物在空间领域中经常进行这样的推理。例如,理解动物为何能够选择一条从未走过的捷径的一种方式是:二维空间的统计结构对可能的状态转移施加了强有力的限制。当动物在一个空间环境中移动时,它采样了其中一些状态和转移,并利用这种先验的结构性知识填补了许多它未曾见过但由问题的二维性质所暗示的状态和转移。
那么,在自然界中是否存在其他类似的情境,也受到类似的约束?是否存在人类和动物可以在毫无先前经验的情况下做出结构性推理的非空间情境?
要找到这样的例子,我们不必在拓扑复杂性或神经解剖结构上走得太远。如果动物被分别训练为在刺激 A 和 B 之间选择 A,在 B 和 C 之间选择 B,那么它们会在首次面对 A 和 C 时推断出应该选择 A——这一现象被称为传递性推理 (transitive inference)(Burt, 1911;Dusek 和 Eichenbaum, 1997;von Fersen 等, 1991;McGonigle 和 Chalmers, 1977;见图6A)。在灵长类动物中,这类序列可以很长(例如 ABCDEFG),并且可以灵活地重新配置——例如,通过呈现关键连接来“缝合”整个序列(Treichler 和 Van Tilburg, 1996)。
同样地,动物也可以将时间上分离的不同事件整合成一个线性时间表征,并利用这个表征进行因果推理。例如,在“感觉预训练范式”(sensory preconditioning paradigm)中,动物首先被训练为 A 导致 B,之后又被训练为 B 导致奖励(Jones 等, 2012)。当随后要求它们在 A 和一个对照刺激之间做选择时,它们会选择 A ——也就是那个隐含通往奖励路径的刺激。
虽然这两个任务都可以通过更简单的联想机制来解决,但在传递性推理的情况下,有大量证据强烈表明动物实际上是依赖于对线性结构的抽象知识(Gazes 等, 2012;Jensen 等, 2015, 2017;Lazareva 和 Wasserman, 2012)。至于感觉预训练任务,动物中的机制尚无定论,但任何曾成功从《低俗小说》或《杀死比尔》那零散、交错、甚至时间倒置的片段中理清剧情的读者,都会知道人类的答案是什么(见图6E)。
值得注意的是,无论是传递性推理还是感觉预训练任务,都需要海马(Dusek 和 Eichenbaum, 1997;Gilboa 等, 2014;Wikenheiser 和 Schoenbaum, 2016)、内嗅皮层(Buckmaster 等, 2004)以及腹侧前额叶皮层(Jones 等, 2012;Koscik 和 Tranel, 2012)的参与。例如,对这些脑区中的任何一个进行干预,都会保留动物在 A 与 B 或 B 与 C 之间做出偏好选择的能力,但却会消除其对 A 胜于 C 的偏好(即使 A 被奖励的次数远远多于 C)(见图6B)。
经验之间的共性
为什么大脑要学习一般的结构性表征,而不是为每个任务单独构建一种表征呢?要想使这种策略有用,世界上必须存在可以被利用的规律性。而事实上确实如此;在每一个抽象层次上,世界都充满了重复和自相似性(见图6)。
我们可以对各种事物进行知识泛化:关于物体和具体实体——如果你在一个湖里发现了鱼,那么去其他湖泊里寻找鱼也是值得的;关于状态转移结构——多个房间通常都从同一条走廊通出;关于物体与转移之间的关系——如果你看到电影中一个悲伤的情节,那很可能剧情已经过半。物体之间的关系也存在重复——如果两个人在 Facebook 上是朋友,他们在 Twitter 上很可能也关注着相似的人(见图6C和6D)。
关键在于,组织这些自我重复的结构本身也经常在自然界中反复出现(Kemp 和 Tenenbaum,2008)。例如,“树状结构”可以在家庭关系、谣言传播,甚至真正的树木中找到。“小世界”(small-world)和“无标度”(scale-free)特性也广泛存在于自然界的复杂系统之中(Watts 和 Strogatz,1998)。
因此,在整个生命过程中,学习者面对的是一个任务的分布(见图7A),而这个分布并非随机的,而是高度结构化的。每一个新任务都可以被以往任务所提供的丰富先验信息所约束。Harlow 所提出的“学习集”就是一个清晰且受控的例子。在 Harlow 的实验中,每次试验中被随机改变的是各个物体的身份,而保持不变的是物体与奖励之间的关系。
Harlow 对“学会学习”(learning to learn)的解释是:过去的经验推动了抽象结构的学习——例如,“两个物体中总有一个会被奖励”这一事实——而这种习得的表征使得未来的学习更加高效。
近年来人工神经网络的研究表明,只要有足够的经验,强大的、通用的结构性表征可以从简单的原则中自然涌现。在接下来的章节中,我们将重点介绍一些似乎特别相关的原则,这些原则与前额叶皮层和海马形成区中观察到的神经表征和解剖约束非常吻合。
从经验中学习结构
深度学习技术可以学习到与生物机制高度相似的任务表征(Mante 等,2013;Sussillo 等,2015;Yamins 和 DiCarlo,2016),并且有多种方法可以将这些技术用于学习结构性知识。这些方法统称为“元学习”(meta-learning)(Andrychowicz 等,2016;Finn 等,2017;Hochreiter 等,2001);其中一种与大脑功能有着诱人联系的方法被称为“元强化学习”(meta-reinforcement learning,meta-RL)(Wang 等,2018;见方框2)。
Meta-RL 使用一个循环神经网络(RNN)来解决强化学习问题(即最大化预期任务奖励),并通过奖励预测误差信号来训练该网络的权重(见图7B)。然而,关键的洞察在于:该网络不需要改变其权重就能对当前任务中的奖励和错误做出反应。这类反应可以被编码在网络的动力学中——因为 RNN 可以被证明能够实现任何算法(Siegelmann 和 Sontag,1995),所以只要经过适当训练,它也可以实现一个强化学习算法。网络的权重则通过训练来最大化多个不同任务下的总体奖励,其学习速率设置得非常缓慢,无法在单个任务内部进行快速学习,但适合在多个任务之间平均经验。
这样做的结果是,奖励预测误差信号驱动网络权重去编码各个任务之间的共性结构,而不是特定感官输入的信息。随后,网络可以通过其激活动力学利用这一结构,在每个任务中实现快速学习。例如,在 Harlow 的任务中,就像人类和非人灵长类动物一样,经过大量训练之后,该网络可以在仅一次试验中就学会解决问题(见图7C)。
在其他实验中,Wang 等人(2018)也发现,meta-RL 能够学习关于环境动态的抽象概念,这些概念独立于当前状态,并利用这些抽象概念更高效地从新经验中学习。
这一观察为强化学习神经科学中的一个引人入胜的难题提供了一个潜在的解决方案。
多巴胺信号传递的是一个奖励预测误差 ,通常被认为能够引发学习,但在前额叶皮层至少从时间尺度上看,它触发突触变化的速度是“错误的”——最快也要数十秒(Brzosko 等,2015;Otmakhova 和 Lisman,1996;Wang 等,2018;Yagishita 等,2014),而行为的变化却可以在几秒钟甚至更短时间内发生(例如动物获得奖励后立即改变其行为)。
Meta-RL 提出,多巴胺的作用并不是直接驱动学习,而是驱动学习算法本身 的变化;这个学习算法是在以前额叶皮层 为中心的循环神经回路中实现的。
与此一致的是,当 meta-RL 智能体被训练执行典型的奖励学习任务时,网络中的单个单元会自发地获得类似于猴子在相同任务中记录到的前额叶神经元的调谐特性。例如,在一项觅食任务中,Tsutsui 等人(2016)在猕猴的前额叶中发现了多种类型的神经元,有的主要编码价值,有的编码先前的动作,有的编码奖励,还有的编码动作与奖励的交互作用。当用 meta-RL 来执行相同任务时,人工网络中的各个单元也自发地获得了对这些变量的调谐特性,并且其分布与猴子神经元非常相似(Tsutsui 等,2016;见图7D)。
因子分解与约束——结构性知识应该如何表征?
当然,也可以以一种隐式的方式 来表征对象之间的关系——将其编码在对象表征之间的突触权重中。例如,在感觉预训练任务中,我们可以很容易地想象这样一种情形:形成对象 A 表征的神经元与编码对象 B 的神经元之间形成了新的突触连接。事实上,大脑中很可能确实存在这样的机制(例如 Grewe 等,2017)。
然而,为了使一种结构性抽象(如传递性推理和感觉预训练中的线性顺序,或物理空间与鸟类变化空间的二维布局)能够从一个任务泛化到另一个任务,它的表征必须是显式的 ——即与当前特定任务的感官属性相分离,并且应该以一种可以对任何新的感官环境施加约束的形式存在(见方框2)。
要从数学上强制实现这种表征,一种方法是要求表征具有因子分解性 (factorize),也就是说,某个任务事件的活动概率分布应为两个独立分布的乘积,这两个分布分别定义了任务中感官因素和结构因素的贡献。数学表达式如下:
其中的概率,例如,可以定义在表征中每个神经元的发放(r)上。因子分解 有助于学习,因为它极大地降低了需要学习的表征的维度,并允许在训练数据之外进行极端形式的泛化。例如,如果你想预测你的女儿会对一个蓝色杯子做出什么反应,你可以从所有蓝色物体(而不仅仅是杯子)中学习“蓝色”的分布,也可以从各种颜色的杯子中学习“杯子”的分布(而不仅仅是蓝色杯子)。利用这两个独立的分布,你就可以预测那些你从未经历过的组合情况(见图8B)。
同样地,如果一条线的表征与其组成元素的表征是分离(因子分解)的,那么这种表征就可以在许多不同的任务中被学习并推广到新任务中。
当我们考虑海马形成区及其输入来源中的细胞表征时,这些考虑变得非常有趣(Manns 和 Eichenbaum,2006;见图8C)。在比海马活动多一个或少数几个突触连接的脑区中,表征被分离 (因子分解)为:内侧区域负责结构性表征(空间或情境),外侧区域负责感官性表征(物体)。相比之下,真正的海马则包含物体与结构的联合表征 (conjunctive representations)。只有当某个特定物体出现在某个特定位置时,细胞才会激活,而单独出现物体或位置本身并不会激活这些细胞(Komorowski 等,2009;Wood 等,1999)。
因子分解表征与联合表征之间的这一区别,在“重映射实验”中最能体现出来(见图3)——空间结构保持不变,但感官输入发生了变化。因此,海马的位置细胞(而非内嗅皮层的网格细胞)失去了其相关结构(即发生“重映射”)。
虽然这种联合式的海马表征足以完整地表示当前的情境(对记忆来说非常重要),但大脑皮层中那些总结这些情境统计规律的区域(McClelland 等,1995),则是以一种因子分解、数据高效的方式进行的,这些信息可以在海马中结合在一起,从而表征那些从未实际经历过的场景。
通过在神经网络中建模这样一个因子分解系统,我们可以研究结构性表征的特性(Whittington 等,2018)。就像我们之前讨论过的啮齿类动物一样,当被赋予预测二维随机游走中下一个感官事件的任务时,该网络可以从二维空间结构的知识中受益;例如,它可以知道(推断):如果我向上、向左、向下、再向右移动,我会回到原来的位置。这使得即使是从全新的方向进入同一个状态,也能正确预测感官事件——知道结构就等于知道自己在空间中的位置。
要做到这一点,网络必须学会一种因子分解的结构表征。然后,这种结构性表征可以与感官事件通过联合编码相结合,在不同房间的不同位置形成不同的记忆。所学到的结构性表征包括周期性细胞(类似于网格细胞)(见图8E,顶部),也包括类似条带细胞和边界向量细胞的单元。
由于相同的感官事件可能在不同房间的不同位置发生,所以特定感官事件与结构性表征之间的联合关系在不同房间中也可能位于不同的位置。因此,这些联合单元自然会表现出类似“重映射”的现象(见图8E,底部),类似于在不同环境中位置细胞的放电模式。
因此,至少可以说,构成海马形成区丰富空间表征的一些细胞类型,可以用能够泛化到任意非空间问题的结构性原则来解释。
结构性基础与海马“细胞动物园”
我们已经论证了任务中重复出现的结构性约束应被明确地嵌入神经编码之中,而内嗅皮层细胞正是这种表征的一个例子。对于简单的任务(如反转学习或物体辨别),大脑可以精确地表征从一个状态到另一个状态的转移关系,但一旦这种结构发生任何变化,这种策略就会失效。
例如,如果你是一只喜鹊,一个闪亮物体的出现会极大地改变所有任务中的转移统计特性。更通俗地说,尽管边界在不同环境中对状态转移的影响是相同的,但它们可能在状态空间的不同区域中起作用。
解决这一问题的一种方法是将内嗅皮层细胞看作是一个描述当前转移结构的基函数集合 (basis set)(见方框2),这样不同的细胞活动组合就可以代表不同环境下的不同结构性约束(类似于初级视觉皮层中的细胞代表了一个用于描述自然图像像素分布的基础;Olshausen 和 Field,1996)。这些基函数将捕捉任务之间的共同特征,其中最稳定的那些特征会被最强地表征出来(例如网格细胞所具有的平移不变性和尺度不变性),但也存在一些次要的特征表征,它们对结构的影响较弱(例如边界向量细胞和物体向量细胞,它们可能反映了动物倾向于接近物体或沿着边界奔跑时所引起的转移概率变化)。
事实上,最近的证据表明,许多难以归类为典型可解释细胞类型的内嗅细胞的活动,仍然可以线性预测与任务相关的行为变量(Hardcastle 等,2017)。
当开始一个新的任务时,内嗅皮层中的循环神经网络可能会对该任务的结构做出初步猜测,然后由海马形成联合编码和记忆。随着任务经验的积累,可以推断出更合适的基函数权重,从而更准确地近似任务结构(Barry 等,2012)。
这种解释与网格细胞网络中明显的吸引子动力学是一致的(Burak 和 Fiete,2009),因为网格细胞嵌入了在空间任务中最普遍存在的关系。考虑到已知海马在灵长类动物行为中也发挥着重要作用,而这些行为的统计结构明显不同于空间任务(例如社会性任务),因此其他类型的统计特征也可能以类似的方式深深嵌入神经系统之中。
哪些应由进化构建,哪些应由环境学习?
对结构的学习与对约束的假设是高度互补的。一个结构越抽象(即离观察越远),它就越难被学习(Raghu 等,2016),但这样的抽象可以很容易地通过进化硬编码实现。例如,大脑皮层代码中将物体之间的关系进行因子分解的做法,立刻赋予了这样一个抽象原则:“不同的物体对可能具有共同的关系”。
仅靠元学习来获得这样一种抽象偏见是非常困难的,因为要构造出足够多样化的任务分布,使得这个原则成为所有任务唯一的共性是非常具有挑战性的。事实上,现代机器学习技术正在探索如何将这些抽象偏见硬编码进人工神经网络。例如,《星际争霸II》(一款设定在银河系遥远区域的多人实时战略游戏)目前最先进的AI成果,正是通过添加了一个关系网络组件而实现的,该组件正好利用了这一原则(Zambaldi 等,2018)。
相比之下,元学习更适合用于发现那些难以直接编程、并且可能是任务家族中意想不到特性的复杂偏见。
这两种优势可以很好地结合在一起。以抽象的架构偏见为起点,可以使其他更具体或更复杂的偏见更容易通过元学习获得(Zambaldi 等,2018),并有助于更通用的结构性表征的出现。事实上,如前所述因子分解网络(Whittington 等,2018)中所学到的表征就是一组基函数(正如 Banino 等,2018 中所发现的那样),它们可以泛化到不同大小的环境中。然而,没有任何归纳偏见的纯元学习,可能需要更广泛的任务分布才能学习到这种可泛化的表征。
因此,进化应该提供有助于泛化结构学习的架构性偏见。
目前尚不清楚大脑中观察到的偏见——比如对关系结构的信念——有多少是完全硬编码的,又有多少是通过早期生活经验习得的。当然,自然任务中广泛适用的一些结构性约束(例如二维地图、顺序线和层级结构)可能在进化时间尺度上就被选择出来,并因此被硬编码进皮层连接之中。这种观点或许可以解释网格细胞模块沿内嗅皮层背-腹轴的精确解剖排列(Brun 等,2008)。
对认知地图的意义
在本文的最后部分,我们希望采取一种更具推测性的立场,探讨我们上述讨论的结构性抽象可能对 Tolman 所设想的“知识的系统性组织”产生哪些影响。
这种组织显然远远超出了结构性抽象的表征范畴,但它确实限制了具体对象与行为是如何被组合在一起的。这些结构性约束不仅允许我们将对象配置成有意义的当前或未来事件,还为我们从稀疏的观察中进行学习提供了强有力的泛化手段。
推理式规划
在机器学习(Kocsis 和 Szepesvári,2006;Silver 等,2016;Sutton 和 Barto,1998)和神经科学研究(Daw 等,2005,2011)中,人们通常假设“规划未来”包括在一个可能状态的树状结构中搜索,并找出最佳路径。然而,这一过程的成本极高,在大多数现实情境下几乎不可能实现。因此,一种替代方法是估算那些与你当前状态直接相邻、或延伸一定深度的状态的缓存价值(Huys 等,2015;Keramati 等,2016)。
然而,一旦拥有了结构性知识,就有可能以类似“在传递性推理线中表征物体”的方式,将规划过程构建进表征之中。此时,规划过程变成了一个推理任务:判断哪些元素应该出现在这条线上的哪个位置。这个推理过程进一步受到领域特定的关系结构知识的约束。
当一位实验室负责人(PI)在规划实验室建设时,他不会穷举所有可能的安排方式,而是知道应该先聘请理论研究者,再聘请实验研究者,以避免实验资源的浪费;然后再聘请数据科学家,以避免其无所事事。通过这种关系性知识对不同对象(博士后!)的表征加以限制,可能的未来选择数量就被大大减少了。
如果类似的结构知识(A 依赖于 B)曾在之前的规划中使用过,例如建造房屋(地基、墙壁、窗户),那么要构建新计划所需的一切就是:让对象的表征包含有关此结构知识适用于哪些其他对象的信息。这样,新的计划就可以从旧计划中泛化(推断)出来。
这一想法是对心理学中已有观点的扩展,即认为对象的表征应包含该对象所能“提供”(afford)的行为可能性(Gibson,1966)。例如,“苹果”这个词的表征可能包含了吃它所需的面部动作以及抓握它所需的手部姿势。这种方式将无限可能的行为缩减为仅少数几个基于当前可用对象的合理行为。
然而,当这些表征与结构性和关系性知识结合在一起时,它们就能对可能的长期未来产生巨大的限制,并能强有力地推广到全新的情境中。尽管目前在这方面的实验证据还很少,但值得注意的是,现有的证据主要集中在海马和腹内侧前额叶皮层上。这两个脑区在重建性记忆和创造性想象过程中都会被激活(Buckner 和 Carroll,2007),而如果没有这两个区域,人们就无法构建出想象中的未来场景(Hassabis 等,2007)。
事实上,当受试者想象一种他们从未体验过、但由已知成分构成的新食物的味道(例如茶冻)时,这两个脑区都显示出细胞集合对这些成分同时活跃的证据(Barron 等,2013)。
上述例子展示了结合不同结构性表征(如线性顺序和依赖关系)的力量,以及相同结构性表征在不同领域之间泛化的潜力。这一逻辑的精神实质类似于关于人类视觉理解组合性的讨论:已知的元素可以组合成新的对象,并且无需先前经验即可立刻理解(Lake 等,2015,2017)。
然而,这一类比也突出了前面章节中强调的一个结构性编码特征的重要性:为了让结构在组合性规划中发挥类似于对象在组合性视觉中所起的作用,它们不能仅仅编码在对象表征之间的突触权重中。它们必须像其所作用的对象一样,被显式地表征 。
事实上,对象与结构之间的界限模糊,正是人类认知能力的一个强大特征,使我们能够对结构和关系进行推理。例如,“婚姻”既可以是一个具体的事件,也可以是一种组织我们社会知识的结构,还可以是一组对未来行为施加深刻限制的规则。
基于结构推理的泛化学习
因此,未来是可以被推断 (或泛化 )出来的,而不一定需要详细规划。由此可推知,在结构性知识的约束下,稀疏的观察 也能引发深刻的学习效果 。
当有关奥地利贵族穿越比利牛斯山脉的消息传到法国国王路易十四耳中时,他能够利用相同的结构关系(A 依赖于 B——在这里,婚礼依赖于宾客)推断出西班牙帝国与神圣罗马帝国之间可能存在的结盟意图。随后他计划在凡尔赛宫扣留即将出嫁的新娘(据推测,这一决定源自将同样的关系应用于“新娘”而非“宾客”),从而引发了西班牙王位继承战争(至少根据 BBC 的解读;BBC,2018)。通过用关系性知识作为框架来过滤经验,即使数据极少,也可以做出精确的推理(Lake 等,2015)。
然而,如果结构和关系是以显式方式 表征的,那么就有可能在高度抽象的层面上进行推理 。例如,观看父母鼓励孩子勇敢面对新情境的社会性体验,甚至可以在人物或动物被替换为抽象图形的情况下被复制(Heider 和 Simmel,1944)。屏幕上两个三角形之间的动态关系就足以让我们推断出“父母”和“孩子”的角色,以及各自背后的动机和情绪。
正如前面所描述的非空间性网格细胞一样,一个原本是为了描述某一情境下行为而进化或习得的结构(尽管更为复杂和动态),可以被泛化到完全不同的领域。虽然乍看之下,从三角形之间推断社会动态,或者从二维鸟的变化中得出结论似乎令人费解,但很明显,这种在不同情境之间建立结构性类比的能力对学习具有深远影响。
例如,曾经因为戴了自行车头盔而幸免于难的经历,可能会让你在下次坐船时更愿意穿救生衣,或者在下次使用电脑时更倾向于购买家庭保险。在现代人工智能研究中,研究人员正大力探索能够实现“持续学习”(continual learning)的学习规则——即那些使网络在学习新任务的同时不会遗忘旧任务的学习机制(Kirkpatrick 等,2017;Zenke 等,2017)。在我们看来,结构性抽象与推理 正是这项努力中的关键组成部分。
结论
要成为一名认知神经科学家,需要一种特别强烈的选择性注意力 。当一个受试者走进实验室,阅读一连串复杂的指示,并毫不费力地将其转化为一系列复杂的未来事件和行为,然后心甘情愿地进入一台重达13吨的“铁盒子”(核磁共振仪),仅仅因为一个陌生人告诉他那是安全的——在这样的情境下,若你还能冷静地选择去研究当他收到差额仅为15便士 的报酬时的神经活动,那真的需要极不寻常的自制力。
同样地,当野生动物在野外能够构建出复杂的洞穴网络或形成复杂的社会联盟时,若你还能专注地去研究它们如何在一个1平方米的空旷场地中导航,或者在数月训练之后是否更偏好某个刺激而非另一个,这也需要相似程度的专注力。
然而,这种选择性的关注是富有成果的,因为它使得实验能够在某种理论框架下进行,从而以形式化的方式彼此建立、层层推进。
我们设想,描述更复杂、更灵活行为的新形式化理论(formalisms)的兴起,也将以类似方式为这一更广泛的行为领域提供一个有益的实验框架,并进一步推动人工智能与生物智能研究者之间令人振奋的合作复兴。
https://www.cell.com/neuron/pdf/S0896-6273(18)30856-0.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.