反事实推理：模型规划的主动学习|算法|轨迹|变分|显式|贝叶斯|智能体|新论文

分享至

SophisticatedLearning: A novel algorithm for active learning duringmodel-based planning

精妙学习：面向基于模型规划的主动学习新算法

https://arxiv.org/pdf/2308.08029

https://github.com/sgrimbly/Sophisticated-Learning

摘要

我们引入了复杂学习（SL），这是一种“规划以学习”算法，它将主动参数学习嵌入到主动推理的复杂推理（SI）树搜索框架内部。与优化关于隐藏状态信念的 SI 不同，SL 还在每个模拟分支内更新关于模型参数的信念，从而能够进行反事实推理，即关于未来观测将如何改善后续规划的推理。我们将 SL 与贝叶斯自适应强化学习（BARL）智能体以及其父算法 SI 进行了比较。利用一个生物启发的季节性觅食任务（其中资源在 10×10 网格上概率性地发生转移），我们设计了实验，迫使智能体在概率性奖励获取与信息收集之间取得平衡。在快速学习至关重要的早期试验中，SL 智能体的平均生存时间比 SI 长 8.2%，比贝叶斯自适应强化学习长 35%。虽然 SL 和 SI 表现出相当的收敛性能，但 SL 达到收敛的速度比 SI 快 40%。此外，在改变的环境配置中，SL 表现出优于其他算法的稳健性能。我们的结果表明，将主动学习纳入多步规划实质性地改善了根本不确定性下的决策，并加强了主动推理在建模生物相关行为方面更广泛的效用。

引言
在生物和人工系统中，决策都涉及一个基本的权衡：是利用当前的行为策略，还是探索更好策略的可能性。这一困境通过动物觅食范式得以说明，其中利用当前食物来源与探索潜在更丰富替代品之间的选择，关键性地基于环境线索和过往经验（Charnov, 1976, Stephens and Krebs, 1986, Webb et al., 2025）。在此背景下，寻求信息以优化行为策略是适应性智能的重要组成部分，使生物体和人工智能代理都能够减少关于其环境的不确定性。对这种寻求信息驱动力的系统研究可追溯到早期关于好奇心的心理学研究。例如，Berlyne (1966) 引入了不同形式好奇心之间的区别，并将这一更广泛的概念确立为知识获取的基本动机。他的工作表明，生物体表现出解决不确定性和收集信息的先天驱动力，在某些情况下独立于初级奖励。

现在关于这一普遍主题有许多研究线索。例如，新兴的一系列工作已开始揭示与探索行为相关的神经机制，展示了大脑如何赋予信息价值并据此指导动作选择（Gottlieb et al., 2013, Zajkowski et al., 2017, Chakroun et al., 2020, Tomov et al., 2020, Chou et al., 2024）。当前关于强化学习（RL）算法的工作也调查了几种鼓励信息寻求的方法，从简单的启发式方法（例如，将未访问状态初始化为高值）到基于置信上限（UCB）、Thompson 采样和其他贝叶斯原理的更复杂方法（Jaksch et al., 2010, Houthooft et al., 2016, Bellemare et al., 2016, Pathak et al., 2017, Russo et al., 2018）。在此基础上，内在动机系统已被证明能成功指导人工和生物代理的探索和学习，特别是在发育期间（Oudeyer and Smith, 2009）。其他主动学习方法已在别处被综述（Settles, 2009），每种方法都表明代理最优地应被驱动去推断和采样自那些能最有效解决不确定性的数据源。这与关于最优实验设计的工作密切相关（MacKay, 1992），后者借鉴信息论原理以获得信息量最大的观测。

主动推理（ActInf）是一个最近提出的用于建模不确定性下决策的框架。该框架的一个区分特征是，解决不确定性的驱动力作为其价值函数的内在特征出现，而这又是从一组生物启发的第一原理推导出来的。 ActInf 与其他著名框架（如 RL）共享许多关键特征，但在重要方面也有所不同。首先，它在马尔可夫决策过程中内在假设部分可观测性，并通过变分自由能最小化采用变分推断方法来近似状态推断中的贝叶斯最优性。其次，其目标函数，期望自由能（EFE；在数学形式体系中表示为 G），本身源自变分原理，并自然导致寻求奖励的行为和定向探索（例如，偏好具有最大结果不确定性的选择）。概念上，EFE 量化了与未来状态和观测相关的预期“惊喜”或不确定性，条件是偏好和特定的行动过程。因此，最小化 EFE 驱动代理选择预期能减少关于世界的不确定性（即产生信息）的动作，同时也将代理移动到与其偏好一致的状态（在 2.1 节中更正式地定义）。如前所述，这一公式的一个关键优势是，探索自然地从底层的推断过程中出现，而不是需要对价值函数进行进一步添加。这使得 ActInf 代理能够通过优先处理既最大化未来目标达成（与偏好一致）又最小化关于状态和模型参数不确定性的动作，从而有效地导航不确定环境。

近年来，ActInf 已在基准机器学习环境中与传统决策模型进行了比较（Friston, 2009, Sajid et al., 2021, Fountas et al., 2020a, Tschantz et al., 2020, Millidge, 2021）。尽管其在这些环境中的表现依赖于上下文，但总体上与其他算法大致相当。这种重叠部分产生是因为 ActInf 背后的核心动机——最大化奖励和最小化不确定性——在概念上与其他基于代理的机器学习框架中发现的动机相似。换句话说，虽然实现方式不同，特别是在如何在单一目标函数内统一认知和工具性指令方面，但底层的驱动力并非独一无二。与此一致，Sajid 等人（2021）表明，当移除探索驱动力时，ActInf 与贝叶斯 RL 一致。更一般地说，当置于受益于认知驱动力和基于模型的规划相结合的部分可观测环境中时，RL 和其他基于代理的方法倾向于收敛到相似的解决方案。沿着这些思路，Chou 等人（2025）最近表明，复杂度匹配的 RL 和 ActInf 模型以相似的准确性解释了 3 臂老虎机任务上的实证选择行为。然而，贝叶斯模型选择一致地偏爱 ActInf 作为行为提供最多证据的模型。

虽然很有前景，但当前 ActInf 实现中的某些局限性激发了努力提高其性能和可扩展性的工作。特别是，与其当前变分推断（即消息传递）和策略选择方法相关的计算成本在大多数现实世界应用中将是难以承受的。这导致了将 ActInf 与其他方法整合的努力，包括深度学习架构（Çatal et al., 2020）、蒙特卡洛树搜索（MCTS）（Fountas et al., 2020a）和策略梯度方法（Millidge, 2021）。

另一个局限性是标准 ActInf 对于大于一的策略深度无法实现贝尔曼最优性（Da Costa et al., 2023）2。为了解决这个问题，最近开发了一种“复杂推理”（SI）算法。该算法是贝尔曼最优的，并通过递归树搜索解决多步规划任务（Da Costa et al., 2023）2。然而，SI 尚未与其他算法进行严格比较，并且有明确的进一步发展方向，特别是关于作为更广泛框架核心的主动学习驱动力。

在本文中，我们基于先前工作以实现两个主要目标。首先，我们将 SI 与其他旨在解决类似问题的领先算法进行比较，包括贝叶斯自适应 RL（BARL）和代表性的置信上限（UCB）启发式方法（Agrawal, 1995）。其次，我们引入并评估了 SI 的一个扩展，该扩展结合了主动学习，我们称之为复杂学习（SL）。

为了展示 SL 提供的独特规划过程和优势，我们在一个新颖的、生物启发的环境中将其性能与上述算法进行比较，该环境旨在支持多种定向探索策略。结果通过突出每种算法的优势和弱点提供了新颖的见解。如第 4 节所示，SL 显著优于所有其他测试算法，并且无论是否添加 UCB，SL 和 SI 都比 BARL 取得更好的结果。

背景
在本节中，我们将更彻底地将我们的方法置于先前工作的更广阔背景中。我们首先考察主动推理（ActInf）模型的理论基础，重点关注它们与既定决策框架的关系。随后，我们探讨复杂推理（SI）作为标准 ActInf 的关键扩展，并讨论其与主动学习和贝叶斯自适应强化学习（BARL）的关系。这为我们提出的新算法（SL）奠定了基础，该算法结合了上述每种先前方法的见解。

2.1. 形式体系与符号

我们首先建立 ActInf 和 BARL 共同的基础形式体系。每个框架都在部分可观测马尔可夫决策过程（POMDPs）内运作，其中智能体必须推断隐藏状态，更新其信念，并选择动作以优化其目标。虽然这些方法在几个方面有所不同，但它们都依赖于代表环境动态的生成模型。

POMDP 与生成模型结构。在强化学习（RL）中，POMDP 为不确定性下的决策提供了一个形式框架，其中智能体必须通过观测来推断和推理隐藏状态。该框架传统上被定义为一个元组：

该生成模型的结构导出了以下的联合概率：

其中模型参数和初始状态的先验被显式表示，且智能体关于动作的先验被编码为 p(E)。

信念更新与参数学习。鉴于此结构，智能体维护一个关于状态的信念分布，该分布随着新观测的接收而递归更新。直观上讲，此更新结合了当前观测的似然与基于前一状态估计的预测。在贝叶斯框架下，此信念更新遵循：

这种关于状态的近似后验分布 q(st) 代表了智能体基于其过往经验对隐藏状态的最佳估计。在平均场近似下，这些关于状态的后验信念遵循一种计算上更易处理的形式：

其中 σ 表示 softmax 函数。

除了状态推断之外，智能体可能还需要学习转移模型 B 和/或观测模型 A，它们通常被视为潜在变量。为此，智能体维持并更新两种类型的信念：关于隐藏状态的信念和关于模型参数的信念。关于状态的信念使用形式为 q(st) = Cat(st) 的分类分布来表示，而关于观测和转移模型参数的信念则使用狄利克雷分布来表示，

上述形式体系确立了智能体如何维持和更新关于其环境的结构化信念。该框架中的贝叶斯更新既是 ActInf 也是 BARL 的基础。然而，这两个框架在如何利用这些信念来指导行为方面存在分歧。

ActInf 将决策构建为自由能最小化，即选择能够最小化期望自由能（EFE）的动作。这一目标内在地平衡了目标导向行为与信息寻求，在单一的变分原理内统一了探索与利用。

相比之下，BARL 将规划构建为信念 MDP（belief-MDP）中的推断，其中智能体对环境的不确定性被视为增强状态空间的一部分。探索通常通过显式机制（例如 UCB 方法）来实现，以平衡探索与利用之间的权衡。

在接下来的章节中，我们将详细考察这些方法。我们首先探讨 ActInf 如何扩展变分推断以纳入未来观测和策略选择。随后，我们将讨论 BARL 如何构建和求解信念空间 MDP，以处理环境动态中的认知不确定性。

2.2. 主动推理与期望自由能

主动推理（ActInf），在文献中有时被称为标准或普通主动推理，提出具有概率状态 - 观测映射环境中的智能体通过最小化两个相关量来完成感知、学习和动作选择：变分自由能（F）和期望自由能（G）（Friston et al., 2011, 2012）。变分自由能（VFE）等价于变分推断中的负证据下界（ELBO）：

直观上讲，这一公式平衡了两个关键因素：(i) 减少关于状态的不确定性（认知价值）和 (ii) 寻求偏好的观测（实用价值，以关于观测的固定先验形式编码；见下文）。需要注意的是，存在替代公式，例如预期未来的自由能（Free Energy of the Expected Future）（Millidge et al., 2021），其在信息寻求行为的具体含义上有所不同。这强调了 EFE 并非一个唯一定义的目标，而是一族具有不同解释和计算性质的泛函。最近的工作也表明，这些公式不一定等价（Champion et al., 2024）。我们将回顾重点放在 EFE 的标准公式上。

重要的是要注意，公式 10 的第一行几乎等同于公式 9 中的 F。区别在于观测已被包含在期望之内。因此，G 计算的是预期未来观测的变分自由能。在 POMDP 中，这些预期观测依赖于未来状态，而状态之间的转移依赖于所选策略。因此，智能体选择那些预期能将环境转移到会产生最小化 G 的观测的状态的动作。

公式 10 中的分解明确了 EFE 如何驱动动作选择。为了便于阐述，我们将首先解析公式 10 第二行中的第二项，该项通常被称为实用项（Smith et al., 2022）。如上所述，该项驱动智能体去寻找它偏好的或发现最有奖励的观测。这源于 ActInf 内一种独特的目标导向选择方法，其中先验 ln p(o) 被用来编码相对偏好（即，具有更高“概率”的观测被视为更有奖励）。为了使这一点更明确，它有时被显示为 ln p(o|C)，其中 C 对这一固定偏好集进行参数化，并且明显区别于策略下的预期观测 p(o|π)。在其他条件相同的情况下，智能体因此可以被认为是在寻找一个策略，该策略预期能最小化其目标（靶标）分布与给定其策略的状态 - 观测对预测之间的差异。这可以被视为智能体在考虑：“这个策略会带我进入最有可能产生我想接收的观测的状态吗？”

公式 10 第二行中的第一项，即认知价值，反而量化了智能体在给定策略下预期能关于状态学习多少。更高的认知价值对应于预期会导致更大不确定性减少的策略，自然导致探索。ActInf 的一个有趣特征是，该项自然地从自由能公式中推导出来。虽然这类似于 RL 中的定向探索项（Mann and Choe, 2013），但它不需要作为标准价值函数之外的单独添加项。还要注意，这更具体地说是一种状态探索形式（Schwartenbeck et al., 2019）。换句话说，它驱动智能体减少关于状态的不确定性。这与主动学习不同，后者反而驱动智能体更新关于模型参数的信念（有时称为参数探索；下文将进一步讨论）。后一种探索形式更类似于标准 RL 中使用的形式（例如，采取动作来学习奖励概率），主要是因为 RL 更常用于完全可观测的环境（即 MDP 而不是 POMDP）。

为了支持主动学习和参数探索（当生成模型参数未知时），EFE 也可以扩展为考虑关于参数的信念。例如，当应用于定义似然函数的参数 θ 时，这将产生：

在此，出现了一个新项，通常被称为新颖性（novelty），它衡量了在策略下由预期观测导致的关于模型参数信念的变化。高新颖性表明，预期观测将显著修正智能体关于其环境中隐藏状态如何生成观测的信念，从而驱动参数探索。在实践中，这鼓励智能体从环境中未被充分探索的部分进行采样，使其在功能上类似于强化学习（RL）中鼓励多样化经验采样的内在动机机制。

如上所述，离散设置中关于参数的信念通常由狄利克雷分布（Dirichlet distributions）表示，允许智能体通过浓度参数计数 α 来编码不确定性。该分布由下式给出：

总之，EFE 泛函通过偏好那些预期能同时最大化奖励（偏好观测）并增加对状态和模型参数置信度的策略，来驱动适应性行为。这些驱动力中的每一个都由预期奖励的大小以及关于当前状态和环境统计量的相对不确定性自然且动态地加权。在实践中，这些分量也可以通过单独的常数独立加权，以提供行为上的额外灵活性，或更好地解释人类或其他动物研究中个体差异的来源（Chou et al., 2025）。

虽然 ActInf 为适应性行为提供了一个原则性框架，但实际实现面临显著的计算挑战。如上所述，一个关键问题是需要提前评估整个预定义的动作序列（策略），随着规划视界的增加和可能决策序列的增长，由于可能策略的组合爆炸，这变得不可行。在复杂环境中更新状态信念时，变分消息传递的高计算成本，以及对手工构建的生成模型的依赖（这对现实世界任务来说可能很难指定），进一步加剧了这一问题。这些可扩展性问题激发了对 ActInf 的各种扩展，包括基于深度学习的近似（Catal et al., 2020）、蒙特卡洛方法（Fountas et al., 2020b）和策略梯度技术（Millidge, 2019）。一个特别相关的扩展是上述的 SI 算法（Friston et al., 2021），它使用递归树搜索重新构建了 EFE 目标，以消除对穷举策略枚举的需求。SI 通过将未来信息反向传播通过分层规划结构来动态优化策略，使其成为在实时决策中扩展 ActInf 的一种有前途的方法。我们现在更深入地探讨 SI。

2.3. 复杂推理

SI 算法扩展了 ActInf，通过将预定义的可能策略集替换为递归信念传播，来解决规划中的关键可扩展性挑战。换句话说，与预先评估所有可能动作序列的标准 ActInf 不同，SI 通过树搜索过程动态构建策略，该过程增量地传播和评估关于未来状态和观测的信念。这种递归方法将 EFE 最小化问题重新构建为类贝尔曼方程（Bellman, 1958），明确地将状态推断以动作和观测为条件，而不是整个策略。给定时间步 t 的动作 u t
（为清晰起见省略模型参数推断），EFE 的递归公式则为：

这种分解揭示了 SI 的两个关键方面。前三项捕捉了动作的局部认知价值和实用价值，量化了当前时间步的预期信息增益和预期奖励。相比之下，第四项递归地在随后的时间步传播未来的 EFE，使智能体能够评估其动作的长期后果。由于 SI 通过扩展高概率信念轨迹来迭代构建搜索树，这可以与特定的剪枝机制相结合，在保持标准 ActInf 中的主要目标函数的同时，使深度规划在计算上变得可行。

为了管理计算复杂性，SI 应用了两个关键的剪枝机制。首先，如果转移到未来信念状态的先验概率低于预定义的阈值（例如，原始公式中 p = 0.16
），则对该分支进行剪枝，确保低概率轨迹不消耗资源。其次，那些 EFE 高于替代方案（即相对价值较低）超过预定义阈值的分支会在搜索过程的早期被丢弃，减少了完全评估次优路径的需求。通过以这种方式迭代剪枝无信息或次优的动作序列，SI 避免了穷举的策略枚举，同时仍然捕捉长程依赖性。这允许智能体选择性地探索那些可能产生高认知或实用价值的策略。这些剪枝机制并非 SI 独有，已被作为解决方案应用于标准 ActInf 和其他算法中。然而，与递归树搜索方法相结合，它们提供了优于原始 ActInf 公式的有用优势。目前，这种方法在很大程度上尚未针对其他类似算法进行测试。

从心理学角度解读，SI 使智能体能够参与关于未来信念和观测的分层反事实推理。智能体隐式地考虑以下序列：

这种迭代的信念更新过程似乎捕捉到了心理模拟和前瞻性规划的现象学，其中决策是基于未来不同时间点的想象后果进行评估的。

图 1 说明了这一过程：每个分支对应一个候选动作序列，而信念传播则完善了智能体关于未来状态和观测的预期。

2.4. 其他扩展

值得注意的是，最近的研究也探索了对标准 ActInf 和 SI 的各种扩展。例如，Paul 等人（2023）提出将动态规划技术应用于 EFE 泛函，以提高计算效率。他们还研究了智能体如何通过对稀疏目标分布应用 Z-learning（Todorov, 2006）来学习关于状态的密集偏好——代表合意性。这种方法使智能体能够开发超出预定义奖励结构的适应性目标表示。它还允许智能体采用分层规划视角，其中状态偏好动态出现，而不是被明确分配。概念上，这与直观的启发式方法一致，例如： “这个状态将使我更接近我的目标；因此，我通常偏好这个状态胜过前一个状态。” 然而，学习偏好（相对于基于动作的价值函数）仍然是 ActInf 中一个未被充分探索的领域，为适应性和高效决策提供了新的可能性。

2.5. 贝叶斯自适应强化学习

虽然 ActInf 通过 EFE 最小化的视角构建决策，但在 RL 内已经描述了一种处理 POMDP 中不确定性的替代贝叶斯方法。具体而言，贝叶斯自适应强化学习（BARL）框架通过结合关于模型不确定性的显式贝叶斯推理，直接扩展了经典的 RL 方法，将智能体关于环境动态的信念视为增强状态空间的一部分。基于第 2.1 节建立的形式体系，BARL 还通过维持和更新关于模型参数的信念，提供了一种原则性的探索方法。与从 EFE 最小化推导信息寻求行为的 ActInf 不同，BARL 在信念空间构建了一个扩展的 MDP，允许标准优化技术自然地平衡探索和利用。这种方法已被证明在智能体必须在最大化预期奖励的同时学习环境动态的场景中特别有效（Ross et al., 2007）。

理论基础。BARL 方法位于更广泛的贝叶斯机器学习领域内。迄今为止，该领域已开展了大量工作，产生了多种在执行未知变量推断时结合先验信息的有效方法（Ghavamzadeh et al., 2015）。这些方法通常应用于涉及不确定性的问题，其中新信息与先验信念相结合，以形成关于一个或多个未知因素的后验信念。与此特别相关的是，这些方法在导航与 ActInf 假设的相同形式的 POMDP 方面已被证明是有效的（Poupart and Vlassis, 2008）。

BARL 要么针对解空间的不确定性（无模型），要么针对参数空间的不确定性（基于模型）来构建 POMDP。在贝叶斯框架内构建此类问题的一个显著优势是，它有效地规避了探索与利用之间的权衡问题。这是由于贝叶斯方法具有将关于状态/参数/解的不确定性表示为信念状态的能力，而这些信念状态随后可用于识别最优解（Ghavamzadeh et al., 2015）。然而，这种方法的一个缺点是其对初始先验的敏感性，这些先验完全决定了任务开始时的信念状态（Guez et al., 2012）。因此，BARL 的一个integral（不可或缺的）且通常困难的方面是有效先验信息的设计和整合。

在此，已经求取了关于信念 b 的 θ 的期望（即，对其进行了边缘化），因此 θ 不会出现在结果概率密度中。因此，相对于信念 b ，模型实际上是已知的，并且不需要对 θ 进行探索。信念本身在接收到数据（在本例中，是关于转移的数据）时进行更新：

随着模型随后被构建为已知的（关于 b ），该问题可以被公式化为一个马尔可夫决策过程（MDP），并且可以使用贝尔曼方程来确定每个状态 - 信念对的最优价值函数。

值得注意的是，虽然这在数学上精确地表示了 POMDP 内的信念状态，但收敛性仅相对于智能体的初始先验得到保证（Katt et al., 2018）。然而，尽管存在这一局限性，该框架在实践中已显示出良好的收敛特性（Ross et al., 2007, Vargo and Cogill, 2015, Katt et al., 2018）。

实现考量。虽然存在多种选择，但我们在下文模拟中考虑的特定 BARL 算法使用了在线更新，这与 Paquet 等人（2005）的方法一致。具体而言，该版本的算法按顺序处理数据，随着新信息的出现增量地更新其信念并调整其策略，而不是要求一次性提供整个数据集。规划结构（搜索算法）与 SI 算法中使用的完全相同，区别仅在于奖励函数的构建方式。一般来说，对于这些递归算法，搜索完全等同于对从初始信念状态可达的状态子集进行的定向价值迭代方法。

在算法上，此处考虑的 BARL 方法也模拟了对上述超状态的搜索，这些超状态隐式地包含了智能体关于模型参数的不确定性。这意味着浓度参数更新是在前向树搜索（规划器）的每个递归步骤执行的，而不是仅在每个真实时间步之后执行。有关更详细的伪代码，请参阅附录中的算法 3。重要的是，前向树搜索期间的浓度参数更新不会延续到下一个真实时间步——它们仅存在于递归规划的上下文中。与 SI 一样，贝叶斯自适应方法也对状态和动作实施剪枝。

探索动机的可比性。如上所述，BARL 中的信息寻求隐式地源于最大化奖励的驱动力。虽然这种效应也存在于 SI 中，但 ActInf 内的 EFE 目标还包含新颖性项，这提供了一个独立于预期奖励的进一步探索驱动力（即一种内在好奇心）。为了与 SI 具有更大的可比性，BARL 也可以补充一个显式的定向探索项。为此，我们在下文展示的一些模拟中，向 BARL 添加了一个常用的定向探索项——置信上限（UCB）。在此，UCB 采取一种算法启发式的形式，该启发式编码了智能体直到当前时间点已经转移到的状态的计数。这可以通过添加到奖励函数中的一个表达式来表示，如下所示：

方法
3.1. 复杂学习
我们现在详细说明 SL 算法的构建，该算法将 SI 与来自主动学习和贝叶斯自适应 RL 的见解相结合。回想一下，SI 在其递归树搜索中包含了第 2.3 节所示 EFE 分解中的前两项（即，分别驱动状态探索和奖励寻求），但它没有包含第三项（新颖性）项，该项用于激励参数探索。 SL 算法是专门构建的，旨在通过结合这一额外功能建立在 SI 之上，允许智能体参与潜在参数更新的模拟。这具体允许智能体前瞻性地推理不同的未来动作预期将如何完善其模型参数——从而提高其在动态环境中学习的能力。

SL 统一了 SI 和贝叶斯自适应方法，利用了它们各自的优势。如下所示（第 4 节），SI 和 BARL 在需要复杂适应性学习的场景中都表现出相对较差的性能。虽然 SI 尚未在此类环境中得到广泛测试（Friston et al., 2021），但有充分文献记载，针对 POMDP 的 BARL 方法高度依赖于明确指定的先验信念以促进有效学习（Ross et al., 2007, Katt et al., 2018）。这一局限性通常限制了它们在高度不确定、非平稳设置中的适用性，这与此处呈现的结果一致。

通过在递归树搜索本身内传播参数更新，类似于贝叶斯自适应方法，SL 使智能体能够预测其信念将如何随时间演变，而不是将它们视为静态的。这允许智能体选择动作不仅是为了即时目标优化，也是为了最大化其未来学习潜力。实际上，SL 赋予智能体对其自身认知进步进行反事实推理的能力，从而做出主动自我改进的决策，加速模型收敛和适应性。

更详细地说，SL 算法在每个模拟时间步后更新浓度参数计数，方式与 BARL 中相同。这些更新后的浓度参数随后被向前传播，并用于构建（通过归一化）转移和/或似然函数，这些函数用于递归搜索的后续步骤。因此，SL 算法可以考虑如果采取一个动作序列而不是另一个动作序列，模型参数将如何沿着其前向树搜索发生变化。这很重要，因为它更充分地代表了一种模拟，即如果智能体采取一组特定的动作，并在这样做之后在每个真实时间步更新其模型参数，实际实时轨迹将如何展开。请注意，以这种方式模拟状态和模型参数如何变化必然基于智能体关于状态和模型参数的先验信念，这可能导致关于环境的错误和有偏假设。然而，尽管如此，此类技术已显示出良好的收敛特性（Ross et al., 2007）。

除了这种反事实搜索方法外，SL 还实现了一个“后向平滑”功能——这一特征之前在 SI 的原始展示中（在更有限的范围内）曾被提出（Friston et al., 2021）。该后向平滑功能从当前评估的时间步回溯，以调整其在先前时间步上关于状态的后验信念。这在学习情况下特别有用，因为它允许将观测回顾性地分配给状态的后验，从而可能导致对相关狄利克雷浓度参数计数的更准确更新。重要的是，该后向平滑功能在智能体规划视界内的每个评估的未来时间步以及每个真实时间步均被实施。

总之，SL 与原始 SI 方案之间有两个关键区别。第一个是通过前瞻性模拟传播参数学习的加入。第二个是在此前向搜索的每一步对参数学习进行的模拟后向平滑。从心理学角度来看，因此可以将 SL 智能体的推理视为如下：

如果我采取一个动作，接收一个观测，并转移到一个新状态，那么我将如何更新我关于此时间步及先前时间步的状态的后验信念？基于这些后验更新，那么我将如何改变我当前的模型？

这种多层次反事实思维的方法被证明特别有益，尤其是在智能体需要学习似然函数而状态转移函数已知的情况下，如下文我们的主要算法比较中所描述（第 3.3.2 节）。

虽然通过向后平滑来细化过去状态后验的原则存在于其他推断方案中，但 SL 的独特优势在于其在前向规划内对此过程的主动整合。具体而言，SL 内的搜索机制评估和优先选择动作不仅基于即时结果，还基于将通过后续后向平滑实现的关于参数的预期信息增益。因此，它更高度重视那些导向特定状态的轨迹，从这些状态进行的向后推断将对过去信念产生更精确且信息量更大的更新，进而更新模型参数本身。如下文我们将展示的，这种通过对后向平滑实现的未来认知细化的战略强调，有助于更准确地修正历史信念，进而支持稳健的未来决策并加速不确定环境中的学习。

3.2. 觅食网格世界环境

为了评估 SL、SI 和 BARL 的相对性能，我们设计了一个具有挑战性的网格世界环境，以测试多步规划，其中战略探索对于最大化长期奖励至关重要。虽然其他环境也曾被用于比较 ActInf 与不同的机器学习算法（Sajid et al., 2021, Millidge, 2021），但它们通常将探索或模型学习等特定行为孤立开来。我们的环境整合了这些需求，要求智能体在预测世界的概率性变化的同时，动态地平衡探索、参数学习和奖励优化。这一设计的动机源于常见的生物学挑战：管理不同且不断增长的需求（例如，饥饿、口渴），避免关键的生存阈值，以及定位那些可用性随时间变化的资源，这需要认知性觅食。

3.2.1. 环境细节与智能体模型

该环境是一个 10×10 的网格，包含三种非消耗性资源，名义上标记为食物、水和睡眠（见图 3）。在每个时间步，智能体可以向上、向下、向左、向右移动，或留在原地。位置转移是确定性的，且为智能体所知。

这个环境带来的核心挑战在于其部分可观测的性质。资源的位置依赖于隐藏的背景状态，这些状态随时间概率性地变化。出于概念目的，我们将这些背景状态标记为季节（即春、夏、秋、冬）。智能体无法直接观测季节状态。然而，它可以通过访问一个特定的线索位置（我们称之为 Hill 状态）来暂时揭示当前季节（即，仿佛提供了环境的概览）。然而，访问 Hill 状态本身并不揭示资源位置。因此，智能体仍然需要通过探索来学习季节与资源位置之间的映射。这种设置创造了一个明确的探索 - 利用困境，其中智能体需要在以下之间进行选择：1) 探索新位置以寻找资源，2) 访问 Hill 以减少关于当前季节的不确定性，或 3) 利用当前信念并移向之前观测到资源的位置。智能体的状态空间被正式定义为：

在此，
是内部状态，用于追踪自上次获取每种资源以来经过的时间步。这些充当了随时间增长的稳态需求，其中每种资源水平都被智能体确切地知晓 3 3。形式上，智能体拥有两种观测模态。第一种涉及网格状态内的资源，有四种可能的结果：空（Empty）、食物（Food）、水（Water）或睡眠（Sleep）。第二种模态提供关于背景（context）的信息。也就是说，如果在 Hill 状态，智能体观测到当前的背景（例如，Winter），而所有其他网格位置则提供无信息的“无背景”（No Context）观测。

3.2.2. 动态多目标偏好

如上所述，该环境中的偏好不是静态的；它们由一个动态的、多目标的奖励函数决定，该函数反映了智能体当前的内部资源需求（算法 1）。对给定资源的偏好随着自上次获取以来时间的增长而增加。如果任何资源计时器超过了预定义的限制，智能体将遭受巨大的惩罚，且该回合（trial）结束。在某种程度上，这一结果可以被视为智能体的“死亡”（尽管，如下所述，为了评估目的，学习被允许在回合之间延续）。这种受稳态调节启发的结构，迫使智能体平衡多个相互竞争的目标以确保生存，这一设计遵循了强化学习中的经典方法（Sutton and Barto, 2018）。

智能体的动态偏好结构是本任务的一个关键特征。与具有静态或仅时间依赖偏好的典型 ActInf 实现不同（Tschantz et al., 2020, Sajid et al., 2021, Friston et al., 2021, Smith et al., 2022），在此处，智能体的偏好是其自身策略的函数。即，智能体采取的动作决定了其未来的内部状态，而这些状态反过来定义了其未来的偏好。这产生了一种循环依赖，其中智能体需要识别出一个策略，该策略能最好地满足由该策略本身所引发的偏好。

3.2.3. 说明性任务示例

该环境的设计使得减少不确定性的策略具有细微差别且非平凡。虽然现有关于认知行为的大部分工作都集中在老虎机任务上（Averbeck, 2015, Marković et al., 2021），但我们的环境反而允许长期序列规划。例如，智能体可以通过两种不同的方式推断当前背景：直接方式，即访问 Hill；或间接方式，即访问一个在特定背景下已知存在资源的位置。观测到该资源证实了背景，而其缺失则暗示背景已经改变。举例说明，考虑图 5 中的场景。在此示例中，季节之间的转移概率是已知的，但每个季节中网格位置与资源之间的映射（即似然函数）需要被学习。在 t = 0 时，此模拟假设智能体位于 Hill 状态并观测到背景是 Winter。它还假设智能体此前已通过经验学习到 Food 在 Winter 时很可能位于网格位置 2。

因此，智能体移动两个时间步以到达位置 2。如果每个时间步季节保持为 Winter 的概率是 0.95，那么到达时它仍然是 Winter 的概率将是 0.95 × 0.95 = 0.9025 。因此，智能体相当确信季节保持稳定。然而，当智能体到达位置 2 时，它发现食物缺席。这使得智能体能够确信地推断季节已经改变。由于智能体知道季节之间的转移概率，它在更新信念时也可以推理最可能的背景转移（例如，单次转移到 Spring 与双重转移到 Summer）。此示例强调了最优行为如何要求智能体依赖其世界模型来指导信念更新，并引导动作选择朝向探索或寻求奖励的选择。

3.3. 实验设置与细节

对于我们下面的主要模拟，Hill 状态被设置在位置 55（网格中心），以确保从网格中的所有点来看，它通常都在智能体的规划视界（搜索深度）内。资源位置也是启发式选择的，在每个季节内固定，以确保兴趣点大多在彼此合理的搜索深度内，并能有效地促进学习。具体而言，取决于季节，食物、水和睡眠分别被放置在以下位置：春 = 71, 73, 64；夏 = 43, 33, 44；秋 = 57, 48, 49；冬 = 78, 67, 59。季节背景转移保持稳定的概率为 0.95，或以 0.05 的概率转移到相邻背景。初始背景在每次试验开始时被均匀采样，智能体在第一个时间步对背景具有均匀信念。需要注意的是，虽然我们专注于此处描述的具体配置以进行详细说明，但每种算法也在其他几种配置（即资源位置的选择）上进行了测试，以确保我们结果的泛化性。这些进一步验证性分析的结果提供在附录第 6.3 节。

每次试验开始时，智能体位于固定的初始位置（状态 51）。食物、水和睡眠的生存阈值分别设置为 22、20 和 25 个时间步，低于此值智能体将死亡（结束试验）。这些时间步限制是启发式选择的，以允许智能体有足够的时间学习模型，同时也模仿了不同资源在真实生物体中以不同速率消耗的事实。这些限制也防止了选择那些虽然智能但对我们旨在回答的问题有问题的行为（例如，如果时间太长，智能体将简单地在一个位置等待整个时间，直到季节返回到已知资源存在的地方）。偏好结构根据这些资源计时器为观测分配值，将空状态评分为 -1，并根据经过的消耗时间对资源状态进行正面评分。一旦超过任何资源阈值，所有观测的偏好统一转变为巨大的负惩罚（-500）。

我们将一次试验定义为智能体在环境中的一次单次“运行”。每次试验要么在资源耗尽（智能体死亡）时终止，要么在指定的最大时间步数（在我们的实验中为 100）时终止。多次试验依次进行，其中给定试验中的任何学习都被延续到下一次试验的开始。我们将这些试验序列中的每一个称为一次评估。与通常在每次完整试验后更新参数值的实现不同（Friston et al., 2021），我们的实现在每个时间步后执行这些更新。这对于智能体解决此环境提出的问题来说是必要的。因此，此处所有算法都以动态的、“在线”方式运行。

3.3.1. 搜索启发式与视界深度分析

作为性能的基线表征，我们首先在一个环境所有元素均已知的设置中分析了 SI 和 BARL——即，模型具备关于季节之间转移概率、资源位置以及每个季节中每个资源位置的完整知识。需要注意的是，由于在此设置中模型参数是固定的且不需要学习，SL 退化为 SI，如果在此设置中测试将不会提供额外的见解。 BARL 也退化为标准贝叶斯 RL。为了获得进一步的见解，在已知环境内的模拟也在不同的规划视界（从 1 到 9 步）下以及使用三种不同的树搜索启发式方法进行。这使我们能够在不需要模型学习时识别理论上最优的深度和搜索策略。具体而言，我们在以下条件下评估了 SI：(i) 带有记忆化的深度限制递归搜索，(ii) 蒙特卡洛 rollout（带有随机动作选择），以及 (iii) 一种混合方案，该方案对前 h 步应用带有记忆化的递归树搜索，对剩余 m 步应用蒙特卡洛 rollout（其中 h + m = 6）。虽然记忆化通过缓存先前访问过的状态配置的估计值来加速推断，但它有时也可能引入不准确的缓存值。蒙特卡洛方法通过从每个叶节点抽取独立的 rollout（在这些评估中为 100 次）来帮助避免这种偏差，但代价是更大的计算成本。混合方法通过权衡这些属性，在搜索早期重用精确的子树，同时在视界深处依赖无偏的 rollout。需要注意的是，这种混合方法类似于部分可观测蒙特卡洛规划方法（Silver and Veness, 2010）。

3.3.2. 主要算法比较

在完成上述基线性能表征后，我们的主要分析将 SL 与 SI 和 BARL（包括有和没有 UCB 的情况）进行了比较。在此，我们专注于似然（即每个背景内的资源位置）需要被学习且季节之间的转移概率已知的情况。智能体在每次试验中生存的时间步数，以及这在每次评估中的试验之间如何变化，被作为我们的主要性能指标。性能比较最初是在每次评估 200 次连续试验下进行的。选择这个长度是作为一个计算上合理的上限，允许足够的探索。这些模拟是使用固定的 9 步视界和带有记忆化的全深度树搜索进行的。这一选择部分基于前一节描述的分析的初步结果（结果见 4.1），结果表明性能直到这个视界都在持续改善。我们也主要感兴趣于在搜索策略选择的限制最小化的情况下算法之间的比较。

为了提供性能的可泛化表征，我们对这些试验序列进行了 500 次评估（带有 500 个随机种子）。跟随收敛分析之后，这表明平均性能结果通常在 100 次试验左右稳定，评估被减少到 120 次试验。选择这个较短的试验数量是因为它仍然捕捉到了收敛后的核心学习动态，同时显著减少了模拟的计算需求。这允许将这些更广泛分析的种子增加到 2000 个，以确保更大的统计置信度并对每种算法显示的行为模式进行彻底探索。

为了更好地量化算法性能，我们拟合了线性混合效应模型（LMEs），使用试验、算法及其交互作用作为生存时间的预测因子： Survival ∼ T rial + Algorithm + T rial × Algorithm + (1|Id) 为了评估早期学习动态，我们分别为两个关键试验区间运行了这些 LME：一个爬坡阶段（试验 1–20）和一个主动学习阶段（试验 21–60）。这些模型允许我们估计学习率（斜率）和性能水平（基于估计边际均值 [EMMs]）。作为一个辅助特征，为了更好地理解学习如何在实验期间被塑造，我们通过 KL 散度分析测量了 SL 的模型偏离或符合真实环境的程度。

随后在不同网格配置上进行了额外的实验（附录第 6.3 节），以更彻底地比较四种算法中的每一种（SL, SI, 以及有和没有 UCB 的 BARL）。这些评估每次都在 200 次试验上进行，以保持与我们主要模拟中初始较长运行的一致性，并为评估不同算法方法的性能提供可比较的基础。对于这些多算法比较，每种条件使用了 200 个种子，被选为计算资源与在不同配置（即按季节变化的资源位置）之间需要可靠比较数据之间的实际平衡。

结果
下文我们将展示两个主要实验的结果，以及对主要行为模式和底层机制的分析。

4.1. 搜索启发式与视界深度分析

图 6 展示了在似然和转移概率均已知的情况下（即，作为对每种算法最大性能水平的评估），不同规划视界和搜索启发式方法下的模拟结果。研究结果表明，在视界为 5 及以上时，非记忆化方法优于记忆化方法，因为它避免了使用可能不准确的缓存值，尽管其计算成本显著更高（在视界为 5 时，大约是记忆化条件的 28 倍）。混合搜索方法在较短视域下表现出更好的性能。然而，其相对低效的样本使用使其在计算上可行性较低。

一个有趣的观察是，BARL 表现出比 SI 更好的性能，最显著的差异出现在早期试验中。这最可能是由 SI 在 EFE 内使用认知价值项驱动的，该项鼓励更频繁地移动到 Hill。虽然这在学习期间可能是有益的，但当环境完全已知时（如在这些模拟中），它可能会削弱奖励最大化行为。

4.2. 模型不确定性下的相对性能

图 7 展示了在我们需要学习似然模型的主要模拟中，120 次试验的平均生存曲线。这些结果突显了算法之间学习轨迹的明显差异。最值得注意的是，SL 的性能提升速度比其他每种算法都快，并在后期试验中保持了轻微但一致的优势。

4.3. 其他行为模式

对两种 ActInf 算法（SI 和 SL）的单次试验模拟也揭示了有趣的行为模式以及对偏好精度选择的依赖性。由于这种精度有效地降低了 EFE 中的探索驱动力，我们发现它控制了智能体在 Hill 状态花费的总时间步数（即，解决不确定性）。对于这些单次试验模拟，我们还检查了资源位置已知但季节转移未知的情况，因为我们发现它们提供了关于参数依赖性的额外见解。例如，图 13 (C) 展示了一个偏好精度较高 ( c = 1 )、似然函数已知但转移函数未知的情况。在这种情况下，SI 和 SL 智能体尽管缺乏关于当前背景的信息，最初都忽略了 Hill，并试图通过访问它们知道与特定背景相关联的资源位置来推断当前季节（因为拥有精确的似然模型）。这是因为与智能体的偏好相比，认知项具有比例上较低的影响。因此，这些智能体的行为是由满足其多目标偏好的驱动力驱动的，而不是以对其关于隐藏状态的信念进行大幅后验更新的形式寻求信息。这与 ActInf 文献中先前描述的经典风险寻求行为一致（Smith et al., 2022）。对于 SI 算法，无论偏好精度如何，当省略认知项时，都观察到了类似的行为。

回想一下，当环境的完整知识（转移和似然函数）可用时，所有算法都表现出更大的性能相似性。在单次试验水平上分析时，每个算法通常最初会移动到 Hill，然后再前往资源位置（如前所述，SL 这样做更频繁，因为它有额外的认知驱动力）。这突显了 ActInf 和 BARL 之间的核心相似性。也就是说，这两种方法相对于其先验信念都是贝叶斯最优的，这意味着，给定一个初始信念状态和一种计算额外信念状态子集价值的机制（例如，在这些实现中，从初始信念状态可达直到某个视界的所有信念状态），每个智能体都将最优地计算这些信念状态中每一个的价值。给定一个确定性的和贪婪的策略构建过程，随后将选择一个最大化期望值的最优策略。主要的区别随后出现在需要主动学习来解决环境内偶然事件的不确定性时。

另一个重要的考虑因素是，每种算法计算信念状态价值的准确性完全取决于初始信念状态。因此，如果初始信念状态不准确，后续信念状态的计算和评估也将不准确。因此，在转移模型已知但初始背景未知的模拟中，智能体知道转移是相对静态的（95% 的机会保持在同一背景，5% 的机会转移到下一个背景），因此通常将访问 Hill 视为最优——因为它是能最精确地更新其关于当前季节信念的状态。由于这些智能体实施的反事实轨迹规划的性质，它们搜索直到设定的规划视界的所有可能信念轨迹，从而提前计算出对于 Hill 状态提供的任何观测的最优后续动作集。规划轨迹随后计算出 Hill 将提供精确的背景信息，并且对于 Hill 可能提供的每个观测，计算出从该时间点开始的最优轨迹。因此，与那些不包含 Hill 的信念轨迹相比，这些信念轨迹具有高精度。

如上简要所述，一些初步的探索性分析也显示了行为模式受到达每种资源的时间限制影响的有趣方式。例如，如果与上述主要模拟相比增加这些时间限制（即，30 个时间步未到达资源），所有智能体最初都会忽略 Hill 并简单地猜测背景。这是因为智能体不相信它会遭受达到时间限制的惩罚。因此，通过猜测背景，它损失很小，即使其猜测是错误的。在这些场景中，智能体通常最初会根据对背景的猜测向资源移动，只有当它认为后续猜测会有更高几率导致死亡时，才会移动到 Hill。在数学上，这是由于智能体精确地遵循它认为将在期望中产生最大回报的动作，正如所有贝叶斯最优算法的情况一样。

综合来看，上述分析突显了固定参数（即偏好精度、初始信念状态、预期资源时间限制、规划视界）以特定方式影响决策的方式。这开启了在未来研究中使用此类模型来捕捉（并从机制上解释）人类认知和行为中的个体差异，以及潜在其生物学基础的可能性。因此，这代表了未来一个重要的研究方向。

4.4. 总结

本节中展示的实验结果清晰地揭示了 SL、SI 和 BARL 在不同程度环境不确定性下的比较性能和适应性。在我们新颖的测试环境中，SL 在各种条件下始终优于 SI 和 BARL，特别是在那些需要长期规划并考虑信息价值的版本中。在 BARL 中加入 UCB 风格的探索奖励提高了其适应性，但仍不如 SL 所展示的内在认知和新颖性驱动的探索有效。也就是说，虽然 UCB 项实现了更定向的似然学习，但它并未完全复制基于 ActInf 的方法中固有的结构化、分层搜索机制和状态探索驱动力。树搜索深度和记忆化显著影响了性能权衡，尤其是对于 SI。虽然更深的树搜索改善了长期规划，但计算成本呈非线性增加。记忆化似乎通过缓存中间搜索结果提供了一个实用的解决方案，但其高内存需求在大规模应用中需要仔细管理。

本研究旨在 (1) 比较复杂推理（SI）与贝叶斯自适应强化学习方法（BARL）的性能，以及 (2) 引入并评估复杂学习（SL），这是 SI 的一个扩展，将主动学习整合到递归规划中。我们的模拟在一个新颖的、生物启发的网格世界任务中进行，提供了关于这些算法的行为和比较优势及弱点的关键见解。

5.1. 主要发现与总体贡献

在所有需要模型学习的模拟中，SL 均优于 SI 和 BARL（无论是否有促进定向探索的置信上限 [UCB] 启发式方法）。在此，性能通过每次试验生存的时间步数来衡量，这内在依赖于智能体学习准确模型的能力。由于任务固有的难度，观察到了试验间的方差，但平均而言，SL 表现出卓越的性能。这反映了它基于预期未来观测战略性地重新访问状态的新颖能力，在多个未来时间步上平衡探索和利用。

与专注于最大化预期累积奖励的 BARL 算法不同，SL 利用预期信息增益来指导行为。特别是，SL 智能体使用前瞻性策略，模拟未来观测将如何更新其关于早期状态和状态 - 结果映射的信念。出现了一个显著的模式：一旦发现资源，SL 智能体经常重新访问一个能消除当前背景歧义的状态（Hill）。这种行为体现了 SL 跨时间链接观测以改善其背景理解的能力，这是其他算法所不具备的特征。

从心理学角度解读这一机制，采用此算法的智能体可能会参与以下思维过程：我现在发现了一个存有食物资源的状态。我不确定此时我处于什么季节，但如果我从这里移动并访问 Hill 状态，它会告诉我我处于什么季节。然后，鉴于我的转移模型，我将能够逆向推导并回顾性地推断出当我在食物位置时我最可能处于什么季节。虽然不是最精确的，但访问 Hill 将允许我比移动到某些其他状态更精确地做到这一点，那些状态不会改善我关于我处于什么背景的知识。这反过来将允许我为该特定的食物位置分配一个背景，我可以在未来利用它。

这突显了 SL 预测未来观测将如何更新关于过去的后验信念的能力，从而优化朝向改善背景理解的状态的探索。通过这种方式，SL 提供了一种更战略性、更细致的定向探索形式，不仅关注访问新状态，还关注那些预期能改善关于过去奖励的当前信念的状态。

5.2. 探索策略：SI 与 SL 与 RL

与上述描述一致，SL 相对于 SI 的优势因此似乎归因于其向后反事实推理的能力——预测未来观测在细化过去信念方面的益处。虽然 SI 通过更经典形式的定向探索（例如，寻求未访问状态）表现出强大的性能，但它缺乏利用关于未来观测如何能被战略性地用于更新先前观测的背景理解的信念的能力。

尽管 SL 和 SI 之间的性能差异相对较小，但它们探索策略的共同要素导致其相对于 BARL 具有更大的性能优势。向 BARL 添加基于 UCB 的定向探索也并未改善其相对性能。相反，这导致了对具有低认知可供性（epistemic affordances）的状态的过度探索。这最终降低了效率，因为 Hill 状态在其认知评估中并未被赋予与任何其他未访问状态不同的权重。这些发现突显了 UCB 中关于状态 - 结果映射的内在好奇心、SI 中关于当前背景状态的进一步好奇心，以及 SL 所展示的战略性、目标导向的探索之间的差异。

5.3. 次优性能的机制

尽管相对于比较智能体，SL 表现出高性能，但它仍然经常无法收敛到最优策略，导致试验序列间的性能方差很高。理解这些失败突显了在不确定性下学习的核心挑战，但也阐明了可能不那么具有普遍性且取决于所考虑的具体环境和实现的问题。在我们的一些补充分析中（14），我们观察到一个常见的失败模式源于 SL 中的早期认知承诺。特别是，虽然 SL 智能体使用递归规划来向前投射信念更新，但这种机制的可靠性仅取决于所接收的证据。在学习早期，背景与资源位置之间的错误关联（例如，来自低概率观测）可能会根深蒂固，因为狄利克雷计数会累积以支持错误的似然。一旦错误的模型得到强力强化，智能体倾向于坚持糟糕的策略——例如，移向一个预期存在但实际上缺席的资源。因为在这种情况下智能体自身的模型可能具有误导性，且生存窗口有限，这些轨迹通常排除了学习更准确模型的机会。这种自我确认偏差的形式在稀疏奖励或高惩罚环境中尤为成问题，如此处测试的环境。

这种效应在附录图 14 中可见，其中第 3 季节的信念分布随时间推移偏离了真实的 Sleep 资源位置。模型非但没有改善，反而由于不准确推断与适应不良行为之间的强化循环而退化。值得注意的是，这个问题并非由于规划深度不足，而是由于未得到纠正的错误参数学习。这一点的另一个有趣方面源于 SL 中使用的后向平滑机制（见第 3.1 节和附录 6.1.3）。该机制旨在根据新观测修正来自早期时间步的状态后验信念。原则上，这应该允许智能体遗忘和/或纠正过去的推断并改善参数学习，即使在接收到延迟证据之后。然而，图 14 中显示的 divergence 模式表明，这些机制并不总是足够的。一旦建立了强烈但错误的信念，即使是递归平滑也可能无法将其消除，特别是在反馈模棱两可的情况下。然而，应该注意的是，这种失败模式并非 SL 特有的内在问题，而是反映了先验、环境结构和所选超参数（例如，学习率、规划深度、初始狄利克雷计数）之间的交互，这种交互可能存在于任何贝叶斯智能体中。智能体的初始不确定性、信念更新的速率以及跨背景的风险不对称性都塑造了学习轨迹。 SL 像任何贝叶斯学习者一样，对其初始条件很敏感。因此，这些观察到的失败——虽然具有启发性——不应被过度解读为 SL 算法本身的重大局限性。

事实上，当为智能体提供正确的生成模型时（第 4.1 节），性能显著改善，证实了准确的信念是适应性行为的主要瓶颈。此外，图 14 中显示的每个背景下学习的 KL 散度测量表明，某些资源或季节更难学习，这很可能是由于它们的统计特性或位置不可达性。未来的工作可以探索元推断（meta-inference）机制——使智能体能够表示和修正其对自己信念的置信度——或者探索使用其他遗忘策略，例如在预测观测与实际观测之间持续不匹配时进行“信念重置”。

5.4. 局限性与未来方向

虽然 SL 在这个特定环境中表现出明显的优势，但应考虑几个注意事项。首先，选择网格世界环境是为了测试 SL 的预期优势；因此，需要未来的研究来确定 SL 的优势在多大程度上泛化到其他环境。在这里，我们预计 SL 将在需要深度规划和战略探索的任务中表现出色，但其在各种更传统的 RL 风格基准测试中的相对性能仍然不确定。

另一个考虑因素涉及参数值的优化。例如，SL 中偏好精度的最优值可能因任务而异。对于不同问题，可能需要一些调整来平衡 EFE 中的认知项和新颖性项。这种对参数化的敏感性将是在不同环境中应用 SL 时的一个重要实际因素。

进一步的局限性涉及计算效率。像其他 ActInf 算法一样，SL 依赖于递归树搜索，这在现实世界环境中可能会变得计算昂贵。将 SL 扩展到此类领域可能需要整合其他启发式方法、更高效的剪枝技术或其他机器学习近似。因此，未来的研究应专注于开发在保持 SL 战略优势的同时增强其可扩展性的方法。

结论在本研究中，我们使用了一个具有挑战性的、动态的环境，该环境需要复杂的规划和战略性的信息寻求，以比较主动推理和贝叶斯强化学习算法。我们首先表明，主动推理框架内最近的一种“复杂推理”算法在此环境中优于贝叶斯强化学习（无论是否添加了常见的定向探索项）。其次，我们提出并测试了一种新颖的“复杂学习”算法——结合了来自复杂推理和贝叶斯强化学习的见解——并展示了它可能提供的进一步优势。该算法表现出比任何其他测试算法更高的性能。它还表现出性质上不同的、战略性的行为模式，其中它收集信息以改善其对过去观测的理解。复杂学习所采用的相关向后推理策略代表了模拟智能代理行为的一个新颖进展。

这些有希望的结果表明，复杂学习可能为机器学习和认知科学提供新的见解。未来的工作应评估从该算法中出现的策略在其他机器学习背景下的泛化性，并调查它是否可能捕捉到在动物和人类行为中观察到的独特模式，从而为认知和计算神经科学的持续研究做出贡献。

https://github.com/sgrimbly/Sophisticated-Learning

原文链接：https://arxiv.org/pdf/2308.08029

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.