Schema-based active inference supports rapid generalization ofexperience and frontal cortical coding of abstract structure
图式主动推理:经验快速迁移与额叶抽象编码
https://arxiv.org/pdf/2601.18946
https://github.com/toonvdm/grounding-schemas
![]()
摘要
图式——捕捉经验间共性的抽象关系结构——被认为是人类和动物能够快速泛化知识、将新经验重新绑定到现有结构以及在不同情境下灵活适应行为的基础。尽管它们在认知中处于核心地位,但支持图式形成和使用的计算原理和神经机制仍然难以捉摸。在此,我们介绍了基于图式的层级主动推理(S-HAI),这是一个将预测处理和主动推理与基于图式的机制相结合的新型计算框架。在 S-HAI 中,高层生成模型编码抽象任务结构,而低层模型编码空间导航,两个层级通过一个将抽象目标映射到物理位置的接地似然相连接。通过一系列模拟,我们表明 S-HAI 复现了空间导航任务中快速基于图式泛化的关键行为特征,包括将抽象图式灵活重映射到新情境的能力、解决目标歧义以及平衡新颖映射的复用与顺应。关键的是,S-HAI 还复现了在依赖图式的导航和决策任务期间啮齿动物内侧前额叶皮层中报道的显著神经编码,包括任务不变的目标进展细胞、目标身份细胞和目标与空间联合细胞,以及低层的类位置编码。综上所述,这些结果提供了基于图式的学习和推理的机制性解释,连接了行为、神经数据和理论。更广泛地说,我们的发现表明,图式形成和泛化可能源于跨皮层和海马回路层级实施的预测处理原则,从而实现经验的泛化。
关键词:图式;层级主动推理;预测处理;前额叶皮层;海马
1 引言
人类和其他动物展现出非凡的能力,能够凭借极少的新经验将其知识快速泛化至新颖环境。这种能力仍是当前人工系统和人工智能系统无法比拟的,后者通常需要大量针对特定问题的数据集。
在认知科学中,长期以来人们假设一种特定的认知结构——图式(schemas)——可能支持将现有知识与技能泛化至新情境。图式通常被定义为关系性知识结构,用于捕捉多次经验中抽象出的共性。它们使个体能够在记忆中组织和解释经验,并泛化至具有潜在结构相似性但感官细节不同的新情境(Piaget, 1952; Bartlett, 1932)。关键洞见在于:图式通过经验形成,编码所推断的关系性任务结构,同时抽象掉低层(感官)细节。图式不仅将经验组织成丰富的关系集合,还作为模板,使新经验得以快速同化。此类学习——或称同化(assimilation)——仅需将新经验的低层感官细节映射到现有图式的抽象关系结构上,从而实现知识在新情境中的快速(理想情况下为单次)复用与泛化。因此,其速度显著快于经典试错或联想学习理论所强调的渐进式知识积累。此外,除了同化——将新信息纳入现有图式——还存在第二种过程,称为顺应(accommodation),即当新信息无法契合现有图式时,创建新图式或修改既有图式。Piaget(1952) famously 指出,同化与顺应的双重过程是学习与发展的基础。
这些源于认知科学的思想自人工智能早期便颇具影响力,激发了大量理论构建与实现图式(或相关结构,如框架或脚本)的努力,尤其在但不局限于符号人工智能传统中(Minsky, 1986; Schank and Abelson, 2013; Hummel and Holyoak, 1997)。多年来,多种理论观点认为,将现有图式与任务表征重映射至新任务,是抽象、结构推断与类比推理的核心,这一机制见于多个认知领域,从目标导向导航到规则学习与叙事理解(Chollet, 2019; Mitchell, 2021; Hofstadter, 1999; Tenenbaum et al., 2011; Roy, 2005; Pezzulo, 2009; Niv, 2019; Schuck et al., 2016; Bein and Niv, 2025; Bähner et al., 2025; Collin et al., 2025; Goudar et al., 2023; Beukers et al., 2024; Yang et al., 2019; Sandbrink and Summerfield, 2024)。
然而,设计能够有效学习图式并将其泛化至新经验的计算模型仍是一项重大挑战。关键难点包括:识别用于形成图式的底层关系结构、以支持快速重绑定至新情境的形式对其进行编码,以及设计 enabling 现有图式与新问题之间快速映射的机制。尽管已有进展,但关于基于图式的学习与推理——尤其在复杂动态环境中——的全面计算解释仍难以捉摸。尽管如此,神经科学已开始为这些挑战提供宝贵洞见。
在神经科学领域,多项研究探讨了图式在啮齿类与灵长类动物中的作用。这些研究揭示,三个相互连接的脑结构——海马、内嗅皮层与前额叶皮层——可能在基于图式的快速学习与系统巩固中发挥关键作用(Farzanfar et al., 2023)。例如,Tse 等人(2007)表明,大鼠仅需单次学习 episode 即可将新信息整合进现有联想图式,并观察到海马活动的相应变化。这支持了如下观点:当新信息与先前获得的关系结构一致时,图式可促进快速学习。其他研究显示,随着图式习得,海马表征变得更为抽象与有组织,这体现在静息与睡眠期间的海马重放与再激活模式中(McKenzie et al., 2014)。除海马之外,内嗅皮层的网格细胞也被认为参与认知地图形成与图式学习(Neupane et al., 2024)。在空间导航过程中,网格细胞提供空间的周期性、低维表征,被认为支持路径积分与类地图计算(Hafting et al., 2005)。近期研究提示,网格样编码可能超越物理空间,支持抽象认知地图,包括任务空间与关系结构(Buzsáki and Moser, 2013; Bellmund et al., 2018; Viganò et al., 2023; Bottini and Doeller, 2020; Dong and Fiete, 2024)。这些研究表明,内嗅皮层的网格细胞可能作为稳定、可复用的坐标系统,将由海马介导的任务特异性细节锚定于抽象关系支架之上,以组织图式知识。
最后,多项研究指出,前额叶皮层——可能通过与海马的交互——在形成认知地图与图式联想、将新信息整合入现有图式,以及判断启用同化或顺应过程方面发挥关键作用(Gilboa and Marlatte, 2017; Zeithamova et al., 2012; Van Kesteren et al., 2012; Giuliano et al., 2021; Bonasia et al., 2018; Baldassano et al., 2018; Basu et al., 2021; Manakov et al., 2025; Schuck et al., 2016; Wang and Hayden, 2021; Vaidya and Badre, 2022; Tang et al., 2023)。El-Gaby 等人(2024)提供了一个尤为突出的图式学习与泛化实例:他们证明啮齿类动物内侧前额叶皮层参与学习序列任务(ABCD 任务,要求按正确顺序到达四个目标位置)的抽象结构,并在目标位置变化但序列保持不变的新环境中复用该结构。基于图式的快速学习的一个关键行为指标是:大鼠在发现位置 D 后迅速移向位置 A。在神经元层面,这种能力由多种细胞类型支持,这些细胞对抽象目标、物理位置及其他任务相关信息的不同组合敏感。
这些及其他研究促成了一个趋同的计算视角,其核心洞见是:在图式形成过程中,关系结构独立于感官细节被表征;关系结构中的每个状态随后通过可快速学习的联想链接绑定至特定经验。这一观点已在一系列聚焦海马与内嗅皮层的计算模型中提出(Whittington et al., 2020, 2018, 2025; Chandra et al., 2025)。在此视角下,内嗅皮层的网格细胞系统提供关系支架,而个体经验在海马中编码;内嗅网格系统与海马位置细胞及联合细胞的交互,可能允许在结构化表征空间内快速编码新经验,从而促进同化与顺应过程。另一种基于克隆结构因果图(CSCG)的相关计算解释已在海马的图式与重绑定研究中发展起来(George et al., 2021; Guntupalli et al., 2023; Swaminathan et al., 2023; Raju et al., 2024)。在此视角下,迷宫认知地图的潜在结构可通过与特定观测解耦而被抽象,并作为图式复用以加速其他迷宫中的学习。相同机制也可用于学习算法的抽象结构与语言的模板结构(Swaminathan et al., 2023),其中推理时可塑性解决了在动态绑定潜在结构至新输入的同时召回适当图式的问题。近期建模工作将这些思想扩展至前额叶皮层的神经活动,但未探讨图式如何在空间导航过程中被学习与部署(El-Gaby et al., 2024)。
尽管具有价值,这些研究仍遗留若干重要问题未解,包括:抽象图式如何在目标导向导航与规划过程中形成并利用;它们如何扩展至更具挑战性的情境——其中需从头创建多个图式或现有图式与新问题间的多种映射,以捕捉 Piaget(1952)所称同化与顺应的动态过程;以及它们如何与前额叶皮层的神经处理相关联,如 ABCD 任务中所见(El-Gaby et al., 2024)。
尽管先前关于 CSCG 的工作已探讨从部分可观测感官输入中学习空间作为潜在结构的问题(Raju et al., 2024),且 CSCG 图式(Guntupalli et al., 2023; Swaminathan et al., 2023)解决了利用图式迁移已习得的空间或算法结构的问题,但它们未解决在同一空间环境中迁移多个已习得任务结构的问题。要在部分可观测设定下实现这一点,需学习新的任务结构图式,该图式利用先前已习得的空间结构的潜在状态。
在本研究中,我们开发并验证了一种新型基于图式的层级主动推理(S-HAI)模型,以应对这些挑战。下一节中,我们首先介绍实验任务(ABCD 与 ABCB,第 2.1 节)及解决这些任务的基于图式的层级主动推理(S-HAI)智能体(第 2.2 节)。随后,我们呈现四项模拟,评估 S-HAI 智能体是否展现出经验报道的基于图式的推理与学习的行为及神经(前额叶)特征。第一项模拟表明,S-HAI 智能体中的基于图式推理使其能在 El-Gaby 等人(2024)的 ABCD 任务中实现快速泛化(第 2.3 节)。第二项模拟展示了基于图式推理在更具挑战性的 ABCB 任务中的有效性,该任务中两个目标可占据同一位置,类似于空间交替任务(Jadhav et al., 2012)(第 2.4 节)。第三项模拟表明,S-HAI 智能体具备增量式在线学习能力,并能在关于如何将抽象图式映射至当前迷宫的多种假设间进行选择(第 2.5 节)。最后,第四项模拟表明,S-HAI 智能体在学习 ABCD 任务过程中涌现的神经表征,展现了啮齿类动物内侧前额叶皮层(mFC)中图式处理的关键神经特征(El-Gaby et al., 2024)。
2 结果
2.1 实验任务:ABCD 和 ABCB 任务
我们采用来评估模型的主要实验任务是 El-Gaby 等人(2024)的 ABCD 任务。在此任务中,啮齿动物(或人工智能体)通过在迷宫上按正确顺序访问四个目标位置来获取奖励(图 1b)。迷宫由排列成 3 × 3 网格的九个井(wells)组成,每个井由九个瓦片(tiles)组成,这些瓦片通过单瓦片走廊连接。智能体获得奖励后,新奖励被放置在序列中下一个井的中心。四个目标位置在不同块(blocks)之间有所不同,每个块包含多次试验。例如,在块 1 中,四个目标位于迷宫位置:“左上”、“上中”、“下中”和“中左”,而在块 2 中,它们位于位置:“上中”、“左下”、“左上”和“右上”。关键在于,底层(ABCD)结构在整个实验过程中保持不变:啮齿动物必须始终按正确顺序循环遍历四个目标位置(例如,A, B, C, D, A, ...)。可变感官细节与稳定关系结构之间的区别使得 ABCD 任务成为基于图式推理的自然试验台。
![]()
我们还解决了一个更具挑战性的变体,即 ABCB 任务,其中两个目标(B 目标)占据相同的空间位置(图 1c)。此设置类似于啮齿动物中常用的空间交替任务(Jadhav 等人,2012),并且比 ABCD 任务要求更高,因为在 B 处,动物必须记住它们是从 A 还是从 C 到达的,以便正确选择下一个目标,C 或 A。
2.2 基于图式的层级主动推理(S-HAI)
我们使用一种新型基于图式的层级主动推理(S-HAI)智能体来解决 ABCD 和 ABCB 任务,该智能体包含两个层级,实现为两个相互连接的部分可观测马尔可夫决策过程(POMDPs)。图 1a 提供了 S-HAI 及其三个组成部分的示意图:处理空间导航的第 1 层;处理基于图式推理的第 2 层;以及接地似然(grounding likelihood),它指定了编码在图式中的抽象目标与迷宫中特定位置之间的概率映射。参见第 4 节了解 S-HAI 智能体的形式化规范。
在较低层级(第 1 层),S-HAI 智能体处理“导航空间”中的空间导航,即图 1b 中描绘的网格世界。在此层级,智能体观察其当前访问的瓦片颜色,并可以使用四种动作(“上”、“下”、“左”和“右”)导航网格。用于导航的转移模型参数是通过离线训练获得的,模拟了在相应的啮齿动物研究中,动物在图式学习之前已经了解环境的事实(参见第 4 节)。预览我们的模拟结果,我们发现训练后,模型正确恢复了 105 个位置之间的转移动态(图 1d,图 1a 中的插图“第 1 层”)。
在较高层级(第 2 层),智能体在“任务空间”中执行基于图式的学习和推理。ABCD 任务中的基于图式学习等同于学习目标之间的抽象转移模型,代表通过依次访问四个抽象目标 A、B、C 和 D,然后再次 A ,来获得奖励的事实。基于图式的推理等同于基于第 1 层潜在状态的观察以及奖励的有无来推断智能体在任务空间中的当前位置(例如,当前目标是否已实现),然后——如果当前目标已实现——为第 1 层选择下一个导航目标。第 1 层目标被指定为对未来状态的意图,这触发模型将每个状态与归纳成本(inductive cost)相关联(Friston 等人,2023)。根据潜在动态,该成本与相对于预期目标状态的距离成正比(参见第 4 节公式 (5))。在我们的模拟中,我们实现在线和离线图式学习。预览我们的结果,我们发现在两种情况下,S-HAI 智能体都正确学习了一个独特的可泛化图式,捕捉四个目标之间的循环转移,适用于块 1 和块 2(图 1e,图 1a 中的插图“第 2 层”)。相比之下,未经图式学习的替代智能体(HAI)捕获了两个块的不同转移(图 1f)。最后,我们发现增强了区分具有相同位置目标能力的 S-HAI 智能体(S-HAI-2C)正确推断了 ABCB 任务的可泛化图式(图 1f)。
关键在于,S-HAI 智能体还包括一个接地似然:任务空间中代表目标之间转移的抽象图式(即 A、B、C 和 D)与导航空间中目标的具体位置(即迷宫中可以找到奖励的位置)之间的概率映射。学习接地似然是实现基于图式泛化的关键:它使智能体能够将其抽象图式(例如 ABCD)快速映射到每个新颖的目标空间配置(即每个块),而不是在每次试验中从头重新学习正确的动作和目标序列。在我们的模拟中,我们实现了接地似然的在线学习,以及第 2 层图式的在线和离线变体。此外,我们引入了一个接地似然的混合模型,允许 S-HAI 智能体灵活推断其现有接地似然中哪一个在当前迷宫中最有用,或在需要时创建一个新的。预览我们的结果,我们发现在所有情况下(在线或离线,有或无混合),接地似然允许 S-HAI 智能体优于在相同甚至更大数据集上训练但没有图式学习的替代模型。学习接地似然类似于学习图式的发射矩阵,如(Guntupalli 等人,2023)和(Swaminathan 等人,2023)中所述。
2.3 ABCD 任务:基于图式的层级主动推理允许快速泛化到具有相同抽象结构的新问题
在此模拟中,我们测试图式学习是否使 S-HAI 智能体能够将 ABCD 任务泛化到具有相同序列结构但特定目标位置不同的试验块。遵循 El-Gaby 等人(2024)的实验设置,每个块运行直到智能体在环境中完成 10,000 步。包含四次连续奖励的试验平均可在 32 ± 7.15 步(μ ± σ)内完成,这是跨越 40 个块计算得出的。
我们比较了 S-HAI 智能体的两种变体——一种离线学习图式(S-HAI K),一种在线学习图式(S-HAI L)——以及一个没有图式的标准层级主动推理(HAI)智能体和一个随机选择目标的基线智能体(Random)。为了保持一致性,在此及后续模拟中,所有智能体共享相同的层级架构。此外,负责空间导航的第 1 层模型(图 1d)是离线学习的,且在所有智能体中相同。智能体之间的唯一差异出现在第 2 层。
在离线基于图式的智能体(S-HAI K)中,第 2 层图式使用仅从第一个块收集的通过随机游走生成的数据(50,000 步)进行离线训练("K"表示图式是已知的)。图 1e 可视化了第 2 层学习到的图式,它代表了四个目标 A、B、C 和 D 之间的循环。接地似然在每个块开始时随机初始化,并在任务期间在线学习。相比之下,在在线基于图式的智能体(S-HAI L)中,第 2 层图式和接地似然都在线训练("L"表示图式是在线学习的)。参数随机初始化并使用共轭更新进行更新,接地似然在每个块后重置。
在没有图式的层级主动推理(HAI)智能体中,第 2 层使用克隆结构图(CSCG)(George 等人,2021)实现,接地似然是单位矩阵。智能体表示为 HAI-i,索引 i 表示智能体接受训练的任务数量;训练在第一个 i 任务的序列上离线进行,每个任务 10,000 交互步。参见图 1f 了解 HAI-2 智能体(在两个块上训练)在第 2 层学习到的目标之间的转移动态。注意,与学习独特序列图式的 S-HAI 智能体不同,HAI-2 智能体为每个块学习独特的子循环。当 HAI-i 智能体在更多块上训练时,它倾向于学习多个特定于块的子循环(此处未显示,但类似于(Van de Maele 等人,2024)中报告的内容)。
最后,在基线(随机)层级主动推理模型中,第 2 层随机选择一个子目标供智能体导航。参见第 4 节了解本模拟中使用的智能体的形式化解释。
图 2a 显示了 ABCD 任务的模拟结果,报告了跨越 40 个块的平均奖励率(在 250 步上平滑),相对于最优性能归一化。实线表示跨块的平均值,阴影区域表示标准误。每个块在智能体达到 10,000 次与环境交互时结束。正如预期,没有图式的 HAI 智能体(在一半(20)或所有(40)块上离线训练;HAI-20 和 HAI-40)优于随机基线,性能随着训练块数量的增加而提高。然而,在一半块上训练的 HAI-20 智能体显示出对训练集之外的新块的泛化能力有限。
![]()
相比之下,基于图式的 S-HAI 智能体稳健地泛化到未见过的任务。离线智能体(S-HAI K)迅速收敛到接近最优的奖励水平,表明从单个训练块学习的图式可以泛化到 39 个新块。在线智能体(S-HAI L)也达到了接近最优的性能,表明可泛化的图式可以有效地在线学习,无需先前的离线训练。此外,两个 S-HAI 智能体每次试验所需的步数更少(图 2c),并且比 HAI-20 智能体和随机基线积累了更多奖励(图 2d)。此外,S-HAI 智能体比训练更广泛的 HAI-40 智能体更快达到最大归一化奖励(图 2a)。为了确保观察到的行为不反映较低层的不完美学习,我们还在简化环境中复制了我们的结果(3 × 3 网格,具有独特观察;见附录 A.3)。
基于图式泛化的一个关键驱动因素是,S-HAI K 和 S-HAI L 都在每个块中在线学习新的接地似然,将抽象图式观察(o2t)映射到具体空间状态(s1t)。图 2b 显示了两个接地似然的示例,为了清晰起见,仅显示了对应于奖励位置的高级状态(完整的接地似然包括 210 个高级状态:105 个位置与奖励存在状态的组合)。图式和接地似然在块内被快速获取,如 S-HAI L 性能随经验快速改进所示,反映在到子目标的相对距离减少上(图 2e)。
综上所述,我们发现基于图式的 S-HAI 智能体通过在物理位置快速接地抽象的、图式编码的目标,成功解决了诸如 ABCD 之类的结构化任务,这些物理位置跨块变化。值得注意的是,这些基于图式的智能体比仅在一半块上训练的 HAI-20 智能体表现效率高得多,并且比 HAI-40 智能体更快达到最大奖励,尽管后者在所有块配置上进行了广泛的离线训练。
2.4 ABCB 任务:增强克隆图的基于图式层级主动推理可解决目标混叠问题
在此模拟中,我们考虑 ABCD 任务的一个更具挑战性的变体,其中包含目标之间的交替模式(Jadhav 等人,2012)。在此,第二个和第四个目标(均表示为 B)占据相同的空间位置;这就是该任务被称为 ABCB 的原因。
使此任务更困难的是它需要空间记忆:当智能体在位置 B 观察到奖励时,它必须决定是移向 C 目标还是 A 目标。标准类 HMM 架构(如第一次模拟中 HAI 智能体所使用的)难以应对此任务,因为它们混淆了 B 目标的两个实例。为解决这一限制,我们赋予 HAI 智能体的第 2 层一个更具表达力的克隆结构认知图(CSCG)机制(George 等人,2021),该机制通过允许每个状态有多个克隆来扩展 HMM。我们将结果智能体称为 S-HAI-2C K。此处,"2C K"表示第 2 层是一个具有两个克隆的 CSCG,使用来自第一个块的随机游走(10,000 步)离线训练,我们发现这足以学习 ABCB 图式(图 1g)。此外,我们包含一个在线学习克隆结构第 1 层参数的变体,称为 S-HAI-2C L。
与第一次模拟一样,接地似然在每个任务开始时随机初始化,并在任务期间在线学习。参见第 4 节了解 S-HAI-2C K 智能体的形式化规范。
图 2f 显示了 ABCB 任务 40 个块中随时间获得的平均奖励。结果显示,带有克隆的基于图式智能体(S-HAI-2C K, S-HAI-2C L)达到了接近最优的性能,优于没有克隆的两个智能体(S-HAI K, S-HAI L),后者在 B 目标的歧义上表现挣扎。
同样值得注意的是,对于 ABCB 任务,在最初的块中,每次试验的相对距离(图 2j)比后期试验下降得更慢,表明在后期阶段,智能体已经学习了图式中的抽象任务结构,只需推断接地似然。
图 2g 显示了 S-HAI-2C K 智能体学习的两个块的接地似然。在第 2 层,接地似然 P (s1t |o2t ) 与观察似然 P (o2t |s1t ) 相结合。与图 2b 不同,两个不同的任务状态(对应于目标 B 的第一次和第二次出现)映射到相同的空间位置(块 1 中的位置 2 和块 2 中的位置 7)。最后,如图 2h 和 2f 所示,S-HAI-2C K 智能体每次试验所需的步数更少,并比其非克隆对应物获得更高的奖励。
综上所述,这些发现表明,用基于克隆的机制(George 等人,2021)增强 S-HAI 模型,使其能够学习在具有混叠目标的任务中有效泛化的图式。
2.5 带有混合模型的基于图式推理支持接地似然的增量学习与复用
在之前的模拟中,我们考察了智能体如何使用单个接地似然将空间状态重新映射到任务状态,该似然在每个块重新训练。然而,在现实场景中,动物(和人工智能体)可能需要自主识别问题块何时发生变化(Behrens 等人,2007; Friston 等人,2016b; Proietti 等人,2025)。此外,它们可能多次遇到相同的块,在这种情况下从头重新学习将是低效的。
为解决这一挑战,我们实现了 S-HAI 智能体的非参数扩展,称为 S-HAI MoGL 智能体,它维护接地似然的混合,该混合使用截断狄利克雷过程随时间扩展(第 4 节)。S-HAI MoGL 智能体维护对混合的信念,该信念在每个块开始时重置为均匀先验,并为每次试验选择最可能的接地似然。这种非参数方法允许智能体在遇到新问题时灵活创建新的接地似然,同时在遇到以前见过的问题时复用现有的接地似然。与之前的模拟一样,非参数智能体实现在线学习(S-HAI L MoGL)和离线学习(S-HAI K MoGL)。参见第 4 节了解 S-HAI MoGL 智能体的形式化解释。
为了测试接地似然的混合,我们在第一次模拟中使用的 ABCD 任务中测试了 S-HAI L MoGL 和 S-HAI K MoGL 智能体,其中智能体面对 40 个不同的问题块。我们的结果显示,在完成第一个块后,S-HAI MoGL 智能体学习单个接地似然,显示在图 3a 左侧。随着智能体遇到新块,混合模型扩展,导致针对不同块产生多个不同的接地似然;例如,图 3a 右侧显示了五个块后学习到的混合组件。
![]()
图 3b 比较了 ABCD 任务中带有(S-HAI MoGL K 和 S-HAI MoGL L)和不带有(S-HAI K 和 S-HAI L)接地似然混合的基于图式智能体的性能。没有混合的 S-HAI K 和 S-HAI L 智能体的结果与图 2a 所示相同。我们的结果显示,引入接地似然的混合影响了 S-HAI MoGL 智能体学习每个任务的速度。最初,S-HAI MoGL 智能体——必须推断哪个接地似然适用于当前问题,并在某些情况下创建一个新的——比在每个新块重新训练单个似然的基于图式智能体学习得更慢。然而,这种较慢的起步随时间得到补偿:随着 S-HAI MoGL 智能体在块内积累关于接地似然的知识,它可以跨问题复用该知识,最终达到无混合智能体的性能。
最后,为了进一步考察接地似然混合的好处,我们考虑了 ABCD 任务的一个变体,其中智能体可以多次遇到相同的块。在此变体中,组成实验的 40 个块仅是之前模拟中使用的最初 20 个块的随机样本,因此某些块可能重复两次或更多。图 3c 显示了结果。带有接地似然混合的基于图式智能体(S-HAI MoGL)和带有单个接地似然的智能体(S-HAI)最终都达到了相同的最优性能。然而,配备混合模型的智能体学习得更快,因为它可以立即将先前获得的组件应用于它已经遇到的任务。此模拟表明,在图式与其可应用的问题之间维护多个显式映射,在可以复用先前知识的任务中提供了明显优势。
图 3d 提供了更详细的视图,展示 S-HAI MoGL 智能体如何在具有重复环境的 ABCD 任务期间积累和组织接地似然的混合。该面板显示了智能体随时间对所选混合组件(即接地似然)的信念。在大多数情况下,智能体为每个块分配唯一的接地似然,反映了对块的成功区分。底部面板显示了混合模型下观察的期望对数似然(公式 (13) 中的第一个因子)。当此量低于阈值(显示为虚线红线)时,新的接地似然被添加到混合中。这通常发生在新块的开始,当观察令人惊讶且与先前期望不一致时——这与经验发现一致,即片段(episode)之间的边界通常对应于高惊喜时刻(Zacks, 2020)。当遇到智能体先前观察过的块时,这种情况不会发生。在没有重复环境的 ABCD 任务中,智能体一致地为每个遇到的块创建新的混合组件(见补充材料)。
2.6 基于图式的层级主动推理复现了啮齿动物内侧前额叶皮层中的“目标进展细胞”及其他图式关键特征
在此模拟中,我们旨在评估基于图式的(S-HAI)智能体在图式学习期间涌现了何种内部表征,以及它们如何与执行 ABCD 任务的啮齿动物内侧前额叶皮层(mPFC)中报道的神经编码相关联(El-Gaby 等人,2024)。根据贝叶斯脑假说,神经元不仅仅是对刺激做出反应而放电;相反,它们的激活编码了关于环境中相关数量的概率信念(Doya, 2007; Parr 等人,2022)。为了模拟神经活动,我们将神经元解释为代表关于特定状态、目标或转移的信念。我们将模拟聚焦于图 4a 中描绘的四个 ABCD 问题。这使我们能够观察哪些神经信念随着智能体执行问题而演变,哪些保持不变或跨问题实例变化,以及它们如何映射到啮齿动物 mPFC 中报道的神经激活。
![]()
ABCD 研究(El-Gaby 等人,2024)的一个关键发现是,啮齿动物 mPFC 编码了大量细胞群,这些细胞 tuned 于目标相关、空间及其他类型任务相关信息的各种组合。其中,最频繁的是“目标进展细胞”,即主要 tuned 于朝向抽象目标的进展(例如,早期、中期和晚期阶段)的细胞,独立于目标身份或物理距离。这由以下事实证明:这些细胞的放电发生在接近任何目标时,并根据目标位置的空间分布而拉伸或收缩;参见(El-Gaby 等人,2024)中的图 2c。
在我们的模型中,当考虑智能体在其当前位置期望下的归纳成本信念时,追踪朝向目标进展的神经激活自然涌现。在规划期间,与每个状态相关的归纳成本反映了该状态距离偏好状态有多远(详见方法)。图 4b 显示了我们模型中的模拟神经活动,其中期望归纳成本在连续步骤上归一化,揭示该值随着智能体接近目标而增加。值得注意的是,无论目标是哪个,智能体的目标期望在接近下一个目标时一致攀升。例如,在序列开始时,其期望归纳成本最初很高(早期进展,紫色节点),然后随着其移向目标 C 而增加,经过中期期望(绿色节点),然后达到高期望(黄色节点)。这种模式对应于不同“目标进展细胞”群体的参与,这些群体 tuned 于朝向任何目标的进展的早期、中期或晚期阶段。
图 4c 进一步说明了模拟的“目标进展细胞”群体,其中它们的激活绘制在块 1 期间的迷宫布局之上。智能体的轨迹显示为彩色点(添加少量噪声以避免点重叠)。在第三个面板中,可以观察到 C 和 D 之间的两条不同轨迹。点像以前一样颜色编码,表明沿着每条轨迹(例如,第一个面板中从 A 到 B),不同的“目标进展细胞”群体依次激活:首先是 tuned 于中期目标期望的细胞(绿色),然后是 tuned 于高目标期望的细胞(黄色),最后是在目标位置收集奖励后 tuned 于低目标期望的细胞(紫色)。重要的是,这种攀升模式跨不同轨迹一致涌现,独立于特定目标目的地,而这些细胞的放电野根据目标之间的物理距离灵活地拉伸或收缩。
(El-Gaby 等人,2024)报道的第二类显著细胞编码对特定抽象目标(A、B、C 或 D)的追求,独立于其在迷宫中的物理位置(参见(El-Gaby 等人,2024)中的图 2d)。在我们的模型中,具有此属性的神经激活在考虑智能体第 2 层关于当前任务阶段(即,移向 A、B、C 或 D)的(先验)信念时自然涌现,这反映了智能体关于下一个奖励将在何处获得的期望。图 4d 通过绘制四个块期间智能体的轨迹说明了这一点,颜色指示当前关于任务阶段的信念。对应于每个阶段的激活(例如,从 A 移向 B 时为蓝色,从 B 移向 C 时为橙色,从 C 移向 D 时为绿色,从 D 移向 A 时为紫色)沿轨迹保持恒定,直到达到目标,无论采取何种路径。关键在于,即使目标占据不同的空间位置,这种编码模式也跨块泛化,从而证明了目标选择性但空间不变的表征——镜像了实证发现。
(El-Gaby 等人,2024)识别的第三类显著细胞编码关于特定抽象目标(A、B、C 或 D)及其在迷宫中空间位置的联合信息。在我们的模型中,这种目标和位置调谐的激活在接地似然内自然涌现。这在图 4e 中说明,其中每组彩色点对应于接地似然的一个条目,该条目将给定空间位置映射到任务状态。这种机制产生独特的激活模式:仅当空间位置和任务状态都重合时,激活才相同(或高度相似),否则它们不同。例如,任务 1 和 4 中位置 A 的激活模式是相同的,而任务 1 和 2 中位置 A 的模式是不同的——镜像了实证发现。
最后,除了支持第 2 层任务空间导航的神经编码——可能与前额叶皮层机制相关——我们的模型还解释了支持第 1 层物理空间导航的神经编码,可能与海马结构中的空间映射和导航相关(Nyberg 等人,2022)。图 4f 显示了第 1 层空间激活,其编码智能体在环境中的位置。无论任务实例如何,每个空间位置对应一个独特的激活模式。例如,右下角位置一致激活相同的神经元,类似于海马位置细胞(O'Keefe 和 Dostrovsky, 1971)。这表明第 1 层神经元提供了独立于当前任务的稳定空间表征,使模型能够保持一致的位置信息,而第 2 层表征捕捉任务特定和导向目标的信息。
3 讨论
心理学、神经科学和人工智能中传统的 learning 观点强调经验的渐进积累。与经典学习理论并存的是,长期以来人们假设人类和其他动物能够形成图式——即编码事件间结构关系同时抽象掉感官细节的数据结构——并通过快速将新经验重新绑定到现有图式来快速复用它们,从而将知识泛化到新情境(Piaget, 1952; Bartlett, 1932)。越来越多的文献(最近在 Farzanfar 等人,2023 中综述)支持这一观点:高级认知能力,如快速泛化和跨情境的知识抽象,依赖于基于图式的机制,可能涉及海马、内嗅皮层和前额叶皮层。
本研究介绍了一种新颖的计算方法——基于图式的层级主动推理(S-HAI)——解决了从经验形成图式及其快速泛化到新情境的问题。该模型建立在层级预测处理和主动推理理论之上(Parr 等人,2022; Van de Maele 等人,2024; Pezzulo 等人,2018; Butz 等人,2025; Pezzulo 等人,2018; Smith 等人,2022; Lanillos 等人,2021; Matsumoto 和 Tani, 2020; Friston 等人,2021; Taniguchi 等人,2022; Isomura 和 Friston, 2018),并用基于图式的机制扩展了它们。S-HAI 是层级组织的:高层(第 2 层)负责抽象任务空间中的图式学习和导航,而低层(第 1 层)编码空间信息并支持物理空间中的导航。关键在于,两个层级通过我们模型独特的机制连接,即接地似然,它将图式中的抽象目标代码映射到物理位置。此映射的快速学习使智能体能够灵活地将同一图式泛化到新颖的目标配置。
通过一系列模拟,我们验证了基于图式的 S-HAI 智能体复现需要快速泛化任务中的行为发现的能力,以及执行此类任务的啮齿动物内侧前额叶皮层中报道的神经发现。我们的结果显示,在学习了一类具有相同结构的导航问题的图式后——即需要循环访问四个目标位置以获得奖励的问题,如 ABCD 任务(El-Gaby 等人,2024)——S-HAI 智能体表现出对新颖问题的快速在线泛化,其中关系结构保持不变但四个目标的空间位置发生变化。值得注意的是,基于图式的智能体优于在所有问题上离线训练的智能体,展示了基于图式的学习在新情境中的优势。我们的模拟还表明,相同方法可以泛化到更具挑战性的任务,其中多个目标可以共享同一位置(ABCB 任务),类似于空间交替任务(Jadhav 等人,2012),并且 S-HAI 智能体可以在线学习并在抽象图式与具体问题之间的似然映射混合中进行选择,展示了决定何时复用现有映射或创建新映射的能力——捕捉了至少由(Piaget, 1952)构想的同化(将新经验纳入现有关系结构)和顺应(新关系结构)过程的基本特征。最后且重要的是,S-HAI 模型复现了在执行 ABCD 任务的啮齿动物内侧前额叶皮层中识别出的图式关键神经特征(El-Gaby 等人,2024),最显著地捕捉了目标进展细胞的活动,同时也反映了其他对目标、空间和任务相关信息组合敏感的细胞的异质编码。
综上所述,这些结果确立了 S-HAI 作为一个全面的计算框架,证明了基于图式的学习和推理的有效性,捕捉了快速泛化、灵活问题解决以及新经验同化和顺应的行为和神经特征。重要的是,S-HAI 提供了关于抽象关系知识如何被表征、映射到特定情境并增量更新的机制性解释,基于预测处理和层级主动推理的原则(Parr 等人,2022)。这表明,在建模感知、行动和决策方面成功的相同预测处理原则,也可能 underlying 大脑中的图式形成、关系知识的灵活复用和泛化。
通过提供基于图式的学习和推理的机制模型,我们的框架也产生了可以在未来实验中测试的新颖实证预测。其中一个预测涉及在执行 ABCB 任务的动物中可能观察到的行为和神经表征(图 2f)。我们的模拟表明,正确解决此任务需要一种机制(基于克隆或类似机制),能够区分同一目标的不同实例(例如,目标 B)。这反过来应该产生特定的行为模式和第 2 层神经表征,包括当同一目标被遇到两次时的单独表征(参见图 1g)。另一个关键预测涉及在 ABCD 任务期间啮齿动物内侧前额叶皮层中报道的神经活动模式的功能角色(El-Gaby 等人,2024)。我们的模型将不同的神经元群体——tuned 于目标进展、目标身份以及目标身份与空间位置结合——映射到不同的计算过程,即:目标期望、关于当前任务阶段的信念以及接地似然。因此,扰动这些神经元应该产生可解离的效果。例如,破坏编码关于当前任务阶段信念的神经元应损害动物正确推断其下一个目标的能力,而破坏编码接地似然的神经元应损害动物将任务阶段灵活链接到空间表征的能力。这些预测仍有待在未来实验中测试。
当前的 S-HAI 智能体有几个局限性,可以在未来研究中解决。首先,虽然我们的模型考虑了多个接地似然,但它目前只实现了一个图式。S-HAI 框架允许从维护接地似然混合直接扩展到也维护多个图式的混合,从而提供对(Piaget, 1952)设想的同化和顺应过程更全面的解释。其次,模型主要关注基于扩展隐马尔可夫模型(HMMs)的概率生成模型的前额叶皮层中的图式学习和推理。这种方法允许复现前额叶皮层中图式神经编码的一些关键方面,但不能捕捉其全部复杂性。未来研究可以探索 HMMs 的生物学现实实现(Kappel 等人,2014)并更系统地调查这些模型与前额叶皮层神经计算之间的映射。此外,未来工作可能扩展 S-HAI 以提供系统级模型,解决前额叶皮层之外的基于图式的过程,涵盖其他相关脑区如海马和内嗅皮层。最后,未来工作可以调查基于图式的机制如何被复用以支持抽象概念空间中的导航。近期研究表明,大脑可能依赖共享的计算机制进行物理和概念领域的映射和导航,海马 - 内嗅系统发挥核心作用(Buzsáki 和 Moser, 2013; Bellmund 等人,2018; Viganò 等人,2023; Bottini 和 Doeller, 2020; Dong 和 Fiete, 2024)。理解图式形成和基于图式的推理如何有助于构建和导航此类抽象认知地图,可以为解释跨空间和非空间领域的灵活认知提供统一框架。
4 方法
我们的方法建立在主动推理之上,这是一个框架,其中智能体通过更新信念(感知)、选择动作(策略评估)和适应模型参数(学习)来最小化变分自由能(Parr 等人,2022; Smith 等人,2022)。我们通过引入一个生成模型来扩展该范式,该模型能够表示并在多个环境中复用抽象图式——即任务动态的结构化、可泛化表征。该图式捕捉的是任务的抽象结构,例如存在四个不同位置的奖励(如(El-Gaby 等人,2024)的 ABCD 任务)或交替位置的三个奖励(如(Jadhav 等人,2012)的空间交替任务),而不是学习任务中奖励位置的具体序列(Van de Maele 等人,2024)。在各种任务实例中,该图式随后可以概率性地映射到特定于环境的状态。这对应于一个非常快速的学习过程,因为智能体只需要学习一个新的映射(我们称之为接地似然),从抽象图式状态到特定于环境的位置。因此,图式的使用允许智能体在不同任务实例之间快速泛化和转移高层知识。
在本节中,我们首先简要回顾主动推理的功能,然后说明新型基于图式的(S-HAI)智能体的结构。
4.1 主动推理
主动推理是一个框架,它根据信息论泛函的最小化来描述生物体中的认知过程和大脑动态:变分自由能(Parr 等人,2022)。主动推理智能体被赋予一个生成模型:一个概率模型,编码关于隐藏状态、动作和随后观察结果之间因果关系的内部信念。注意,这不同于世界中产生结果的真实物理过程(称为生成过程)。由于智能体受计算限制,对于大状态空间,后验推断变得难以处理。因此,智能体使用近似(变分)推断,通过最小化其变分自由能,即惊喜的上界,定义为:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 基于图式的层级主动推理智能体的形式化描述
主动推理智能体被赋予一个生成模型,该模型本质上定义并约束了其知识和能力。在本研究中,我们提出了一种新型的层级生成模型,允许智能体进行基于图式的学习和推理,例如在 (El-Gaby 等人,2024) 的 ABCD 任务中所见,其中智能体在空间中导航以到达四个目标的序列。
图 5a 展示了基于图式的层级主动推理(S-HAI)的生成模型,使用了贝叶斯网络的形式化方法(另见图 1a 了解更非形式化的示意图)。它包含两个层级。底层(第 1 层)在最精细的时间尺度上运行,处理智能体的空间定位和导航。在此层级,智能体接收其位置的直接观察并通过移动行动。自上而下的目标被设定为对智能体需要到达的底层未来状态的偏好。
![]()
高层(第 2 层)实施基于图式的推理和学习。与第 1 层相比,图式在较慢的时间尺度上运行,并捕捉抽象任务结构,整合关于奖励的信息以及包含底层推断状态的自下而上消息。该层的动态建模了提供奖励观察的目标状态之间的状态转移 (Friston 等人,2024)。例如,在 ABCD 任务中,图式捕捉了一个抽象的动作序列以循环移动到下一个目标(从 A 到 B,C,D,然后再回到 A,等等)。
该层级生成模型包含两个耦合的部分可观测马尔可夫决策过程(POMDPs),每层一个,它们通过自上而下和自下而上的消息传递进行交互 (Van de Maele 等人,2024; Catal 等人,2021)。每一层都维护其生成模型,对于通用层 i ,联合分布分解为:
![]()
![]()
![]()
通过这种层级耦合,接地似然介导了第 2 层的抽象图式如何指定第 1 层的具体目标,从而使智能体能够跨环境泛化任务结构。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2.2 接地似然混合
当存在多个任务或环境时,单个接地似然可能会显得脆弱。为了支持更丰富的泛化和知识保留,我们引入了接地似然混合(Mixture of Grounding Likelihoods, MoGL),其中智能体维护一组接地似然,并推断在每一个时间步哪一个是激活的。
形式上,低层状态是从接地似然的混合中采样的:
![]()
![]()
![]()
关键在于,我们将此混合模型建模为一个非参数模型,该模型可以通过添加聚类(Stoianov 等人,2022; Heins 等人,2025)来扩展混合,即针对观察到的地图的特定接地似然。形式上,这被建模为一个截断的棍棒折断先验(truncated stick-breaking prior),如果所选地图的期望对数似然(公式 (13) 中标记)低于预选阈值,则该先验会扩展混合模型(Heins 等人,2025),这意味着当前正在使用的接地似然中没有一个能很好地解释数据。
4.2.3 克隆结构因果图
克隆结构因果图(Clone-structured causal graphs, CSCG)(George 等人,2021)是隐马尔可夫模型(HMM)的一个特例,其中观察似然将观察确定性地映射到大量称为“克隆”的状态;相反,状态推断完全由模型的动态驱动。克隆图的优势在于,即使观察可能是相同的,该模型也能将它们消歧为不同的状态。这种方法已在具有混叠观察的导航(George 等人,2021)和交替任务的层级模型(Van de Maele 等人,2024)中被证明是有效的;此外,CSCG 与海马体中认知地图形成的神经数据高度一致(Sun 等人,2025)。注意,具有单个克隆的克隆图会简化为标准的(动作增强的)HMM。
CSCG 使用 HMM 的期望最大化(EM)算法(Baum-Welch 算法)进行学习,该算法最大化证据下界(ELBO)(George 等人,2021)。在 E 步中,通过平滑(即前向 - 后向算法)估计状态上的后验。然后,M 步根据这个访问状态序列选择转移模型的最优参数。训练后,使用 Viterbi 解码对模型进行剪枝。此处,对于每个时间步,选择最大似然状态,并使用这些最大似然状态估计转移模型参数。
我们还在第 2.4 节中实现了一种在线学习 CSCG 的机制。与主动推理中的标准参数学习(其中随着动作的执行和观察的到来,对状态的信念被滤波)不同,克隆图对状态上的信念进行平滑,并将消歧信息传播回其他“克隆”状态。这提供了对各个状态的更好估计,然后可用于更新转移参数上的狄利克雷分布。对于学习图式(即第 2 层转移),我们使用 10 个观察的滑动窗口,并在每个观察到来时更新参数。
我们在本研究的三个部分使用了 CSCG 框架。首先,我们使用它来学习环境中空间位置的认知地图。克隆结构允许在高度模糊的观察中(105 个不同位置中的 6 种瓷砖颜色)发现结构。其次,我们在模拟 1 中使用它来开发没有图式的 HAI-i 智能体的第 2 层,以解决 ABCD 任务。在这种情况下,CSCG 初始化的克隆数量 i 等于要学习的块的数量(20 或 40),以确保智能体有足够的容量学习所有这些块。最后,我们在模拟 2 中使用 CSCG 框架来开发解决 ABCB 任务的基于图式的 S-HAI-2C 智能体的第 2 层。在这种情况下,CSCG 用 2 个克隆初始化。为了在离散时间主动推理中使用它们,我们需要按照 Van de Maele 等人(2023)中所述将 CSCG 映射到 POMDP。
https://github.com/toonvdm/grounding-schemas
原文链接:https://arxiv.org/pdf/2601.18946
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.