认知引导的前后探索 Epistemically-guided forward-backward exploration|算法|解耦|贝叶斯|互信息|神经网络|深度思考模型

分享至

Epistemically-guided forward-backward exploration

认知引导的前后探索

https://arxiv.org/pdf/2507.05477

关键词：无监督强化学习，探索，零样本，认知不确定性，集成

概括：

零样本强化学习（zero-shot RL）的目标是提供一种算法，使其能够根据与环境的交互数据，恢复出所有可能奖励函数下的最优策略。显然，我们能否很好地恢复这些最优策略，高度依赖于用于学习这些策略的数据质量。到目前为止，大多数算法都依赖于解耦的探索策略来收集数据，以学习所有最优策略的通用化表征。本文的核心观点是，探索策略不应与零样本算法完全解耦，而应致力于减少算法对其表征的认知不确定性。我们将零样本强化学习中的探索问题表述为对所学价值函数的认知不确定性最小化，并在一种广为人知的算法——前向-后向（FB）表征中实现了这一思想。关键的是，在多个实证场景中，采用最大化FB表征累积认知不确定性的探索策略，显著提升了算法的样本效率。这使得我们能够以更少的数据快速学习到性能良好的策略，优于其他探索方法。

贡献

本文将零样本强化学习的探索问题表述为对特定占用测度表示的后验分布进行不确定性最小化。与以往工作的主要区别在于，先前工作采用完全离策略的探索算法来采集数据，而本文则在无监督强化学习设置中，将数据收集过程中的模型不确定性纳入考虑。上下文：所使用的占用测度表示为 FB 表示（Touati & Ollivier, 2021），该表示编码了所有最优策略。我们使用集成方法对该后验分布进行近似。关键之处在于，由于非唯一性，FB 表示无法简单地通过集成分歧来建模 FB 的后验不确定性——必须采用单一的 B 表示才能获得有意义的不确定性概念。此外，F 不确定性被投影为更具实用价值的、针对特定潜策略条件 z 的 Q 函数不确定性。
我们提出了一种针对前向-后向（FB）表示的高效探索算法，该算法可视为不确定性采样（Lewis & Gale, 1994）的一种变体。上下文：该算法通过采样后验均值贪婪策略 Tz（针对特定状态 s 在预测后验分布中具有最高不确定性）并在环境中执行。尽管该探索策略简单且未考虑所有策略 Tz（z ∈ Z）之间不确定性降低的相关性，但在 FB 表示中却出奇地高效。
在连续控制环境中对所提出的探索方法进行了实验验证，实验基于 DeepMind Control Suite（Tassa et al., 2018）的在线学习设置，并在多个环境中评估了针对不同奖励函数的零样本性能。上下文：在无监督强化学习设置中不存在利用的概念，因此采集数据时无需平衡探索-利用权衡。该设置与单任务在线学习有本质区别，后者通常需要平衡内在探索信号或噪声与外在任务奖励。

摘要

在缺乏具体奖励信号的情况下，零样本强化学习对于提取最优策略、实现对未来任务场景的快速适应至关重要。前后向表征（FB）作为一种有前景的方法，通过策略占据测度的分解，在无奖励条件下学习最优策略。然而，到目前为止，FB方法以及许多类似的零样本强化学习算法都与探索问题相分离，通常依赖其他探索算法来进行数据收集。我们认为，为了实现更高效的学习，应从根本上利用FB表征来指导探索过程。基于这一目标，我们设计了自然源于FB表征的探索策略，这些策略能够最小化FB表征的后验方差，从而降低其认知不确定性。我们通过实验表明，与其它探索方法相比，这种基于原则的探索策略显著改善了FB算法的样本复杂度。代码见

https://sites.google.com/view/fbee-url。

1 引言
强化学习（RL）提供了一种框架，能够在给定奖励函数的情况下，从次优数据中获取最优或近似最优的策略。然而，我们不可能穷举所有未来可能遇到的感兴趣奖励，因此大多数强化学习方法依赖于固定的奖励进行训练，这限制了所学策略在新任务上的泛化能力。零样本强化学习（Zero-shot RL）旨在弥补这一差距，通过学习所有可能奖励函数下的最优策略，使得智能体在测试时只需极少的额外计算，即可推断出针对任意给定奖励函数的最优策略。

为解决这一问题，已有多种零样本强化学习方法被提出。最早的方法是表格形式下的后继表征（Successor Representation, SR）（Dayan, 1993），随后被扩展到使用函数逼近的连续状态空间（Barreto et al., 2017）。SR的局限在于需要假设奖励与某个特征映射之间存在线性关系，而该特征映射必须由用户预先手工设计。这种方法难以有效处理通用奖励或目标导向的强化学习任务。例如，在目标导向的设定中，它需要为每个可能的目标状态引入一个特征，在连续空间中这就需要无限多个特征。为此，已有若干框架被提出以高效学习此类特征映射（Hansen et al., 2019; Liu & Abbeel, 2021; Wu et al., 2018）。最近的研究提出了前后向（Forward-Backward, FB）表征（Touati & Ollivier, 2021），其目标是将策略的占据分布分解为当前状态的前向表征（F）和目标状态的后向表征（B）。由于SR具有线性特性，我们可以通过对采样奖励进行线性回归来推断最优策略；而FB则通过蒙特卡洛积分估计来推断最优策略，当占据分布的分解学习得足够好时，FB能够为任意给定的奖励函数提供最优策略表征 z。在FB和SR框架中，一个关键环节是学习所有策略的准确占据分布（或称“后继测度”），而这需要观察大量的环境状态转移。

到目前为止，该问题通常通过使用与零样本算法解耦的探索策略来解决（Touati & Ollivier, 2021; Touati et al., 2022），这些探索策略大多基于内在探索奖励进行训练（Eysenbach et al., 2018a; Burda et al., 2018; Lee et al., 2019; Liu & Abbeel, 2021; Pathak et al., 2017; 2019）。与本工作相关的是，Chen et al. (2017) 提出使用Q值的集成差异作为内在奖励以实现高效探索。此外，集成差异也被用于动力学模型中以指导探索（Pathak et al., 2017）。事实上，此后许多研究成功地将此类方法用于探索，并将其与“认知不确定性”（epistemic uncertainty）的概念联系起来（Vlastelica et al., 2021; Sukhija et al., 2023; Sancaktar et al., 2022）。尽管这些方法在某些场景下实现了成功的探索，但其主要缺点是探索奖励不依赖于任务奖励，因此探索可能集中在与任务无关的环境区域上（Chen et al., 2017）。

本工作的核心问题是：在无监督强化学习的背景下，我们应如何最有效地与环境交互，以高效地学习所有最优策略？我们的目标是收集那些对零样本强化学习算法所编码的最优策略占据测度最具信息量的样本，换句话说，我们希望最小化对占据测度的认知不确定性。为此，我们采用已学习的FB占据分布分解方法（Touati & Ollivier, 2021），该方法同时提供了最优策略的表征空间。受Lakshminarayanan等（2017）的启发，我们通过使用一组F表征的集成模型来建模F表征的后验预测不确定性，因此集成之间的差异即为对F的不确定性度量。由于FB表征的机制，这种不确定性自然转化为对特定策略πz（由奖励嵌入z参数化）的价值函数Qπz(s, a)的预测不确定性，这是一种更有用的不确定性度量。受贝叶斯实验设计思想的启发，我们提出一种探索算法：该算法采样那些相对于Qπz后验均值为贪婪策略、但具有最高不确定性的策略。这可以看作是不确定性采样（uncertainty sampling）的一种变体（Lewis & Gale, 1994）。我们的实验评估表明，采用这种不确定性概念，即使使用简单的探索算法，也能显著改善FB方法的样本复杂度。

总之，本文提出了一种基于认知不确定性引导的方法，用于高效学习前后向表征，该方法（i）在无监督强化学习中展现出零样本泛化能力，（ii）相比其他探索方法在样本效率上有所提升，（iii）在多个基准测试中的表现优于当前的FB方法。

2 相关工作

无监督强化学习。零样本（无监督）强化学习框架可追溯到后继表征（successor representation）的概念（Dayan, 1993），该方法依赖于推断所有策略的折扣占据测度。对此的一种直接扩展是后继特征（successor features）（Barreto et al., 2017），其中假设存在一个特征映射，能够将奖励相对于表征z线性化，其主要局限在于该映射需要预先指定。因此，已有许多扩展工作致力于学习该特征映射（Hansen et al., 2019; Laskin et al., 2022）。与此正交的是，一些研究尝试以在线（Eysenbach et al., 2018a）或离线方式推断多样化技能，大多通过优化互信息目标来实现。相比之下，前后向表征（forward-backward representations）假设占据测度具有某种分解形式，其中z编码了特定奖励下的最优价值函数。这一思想可追溯至Blier et al. (2021)，后续研究已证明其在深度强化学习基准上的有效性（Touati & Ollivier, 2021; Touati et al., 2022; Pirotta et al., 2024; Tirinzoni et al., 2025），并处理了FB的离线估计问题（Jeen et al., 2023）。与后继特征不同，目前尚无对如何更高效地学习FB表征的探索方法进行系统分析。本文旨在填补这一空白。其他研究方向，如无监督目标条件强化学习，侧重于发现广泛的目标并学习相应的目标到达策略，从而获得多样化的学习行为（Mendonca et al., 2021; Pitis et al., 2020; Bagaria & Konidaris, 2019）。

强化学习中的探索。Lee et al. (2019) 试图通过推断策略的状态边际分布，并将其匹配到用户定义的目标分布来解决探索问题。Osband et al. (2016) 提出使用Q值集成进行探索，方法是均匀采样一个Q函数，然后遵循与之关联的策略进行探索。若干研究已通过集成方法将经典的上置信界（UCB）探索策略扩展到深度强化学习（Chen et al., 2017; Lee et al., 2021），其中Lee et al. (2021) 进一步提出通过基于集成差异进行降权，以考虑Q目标值的误差。Sukhija et al. (2024) 使用ε-贪婪策略，并结合带有互信息项的动力学模型的玻尔兹曼策略。Metelli et al. (2019) 通过使用Wasserstein重心V构建TD更新，来传播Q值的不确定性；他们提出了多种策略推断变体（均值估计、粒子采样）。我们的工作属于基于集成的探索技术范畴，但应用于零样本强化学习的背景下。

深度贝叶斯推断。探索问题与主动学习（active learning）密切相关（Chaloner & Verdinelli, 1995; Settles, 2009），在统计学文献中也称作实验设计（experimental design）。产生强理论保证的主动学习方法通常基于信息论准则来选择查询数据点（Krause et al., 2008; Settles, 2009; Hanneke et al., 2014）。这些方法近年来已推广至深度学习领域。由于对神经网络进行精确的贝叶斯推断在计算上不可行，人们已开发出多种近似方法（Mackay, 1992; Neal, 2012）。Gal et al. (2017); Chen et al. (2017) 提出了比贝叶斯神经网络更高效的计算方法，例如使用蒙特卡洛dropout来近似模型参数的后验分布（Gal et al., 2017），或更接近我们工作的神经网络集成方法（Osband et al., 2016; Chen et al., 2017; Lakshminarayanan et al., 2017），用于量化预测不确定性。若干近期研究进一步利用此类不确定性估计，实现对视觉或动作模型的主动微调（Hübotter et al., 2024; Bagatella et al., 2024）。

无监督技能发现（USD）。USD的目标是从内在奖励中提取与任务无关的行为。大多数现有的USD方法利用互信息（MI）作为内在奖励，以学习多样化且可区分的技能。Eysenbach et al. (2018b); Laskin et al. (2022) 通过学习的判别器以无模型方式最大化技能与状态之间互信息的下界，而Sharma et al. (2020) 则学习状态转移动力学。为了增强状态空间覆盖的探索，Strouse et al. (2022) 提出了通过判别器集成实现的乐观探索。另一类研究用Wasserstein依赖度量（WDM）替代MI目标。METRA Park et al. (2024) 及其变体（Park et al., 2022; 2023; Rho et al., 2024）在学习的潜在空间中最大化有向距离，从而获得覆盖状态空间的技能。此外，通过利用Fenchel对偶性，研究者们进一步构建了离线任务正则化的USD算法（Vlastelica et al., 2024; Kolev et al., 2025）。与零样本强化学习不同，这些方法大多在推理阶段需要额外计算，例如通过技能微调（Eysenbach et al., 2018b）或MPC规划（Sharma et al., 2020）。

3. 背景

3.1 贝叶斯强化学习

4 前后向表征中的后验不确定性

在无监督强化学习（unsupervised RL）背景下，准确估计所有策略的后继测度（successor measure）至关重要。给定前后向（FB）表征参数 Θ = (θ, φ) 的先验分布，我们的任务是随着新数据的收集，不断更新参数的后验分布。借鉴先前成功利用集成方法来近似 Q∗ 后验分布的工作（Osband et al., 2016; Chen et al., 2017），我们对FB表征也采用类似的方法。关键在于，Chen et al. (2017) 提出使用标准的单步时序差分（TD）误差独立训练解耦的Q网络，以在给定数据 D 的情况下近似后验分布。FB表征将占据测度 M 分解为 F 和 B 两部分，因此我们自然可能倾向于分别构建 F 和 B 的后验分布。然而，这种方法可能会引发问题，尤其是在使用集成方法时，因为FB表征具有非唯一性（具体细节见 Blier et al. (2021)）。这一点很容易理解：若将 F 和 B 函数视为矩阵，假设存在一个旋转矩阵 R，则有 M = FᵀRR⁻¹B = ̃Fᵀ̃B，即 ̃F 和 ̃B 编码了相同的占据测度集合，但其表征空间发生了旋转。为了解决这一问题，我们通过固定 B，仅对 F 建模其后验分布。

沿用 Chen et al. (2017) 的方法，我们对 F 采用一种朴素的后验更新方式：对于第 k 个集成成员（k ∈ [0, ..., K−1]），我们在一个包含 b 个采样转移的批次上最小化经验前后向损失，该批次包括状态-动作-下一状态三元组 (sᵢ, aᵢ, sᵢ₊₁)（i 从 0 到 b−1）、独立采样的未来状态 (s′ᵢ)（i 从 0 到 b−1）以及奖励嵌入 zᵢ。

5 针对FB表征的认知探索

尽管我们已经通过公式（7）中经验预测Q后验分布的方差，定义了后验不确定性的概念，但如何最佳地设计一种探索策略来收集数据以改进FB表征，仍然不明确。为了设计这样的算法，我们借鉴了贝叶斯实验设计（Chaloner & Verdinelli, 1995; MacKay, 1992）的思想。主动探索的一个自然目标是最大化F与观测到的转移数据Di之间的互信息，该互信息量化了在观测条件下F的熵的减少量。在某些设定下，预测后验方差被证明与信息增益成正比（MacKay, 1992），因此可以作为探索的合理指导。

通常，我们希望定义一个探索策略πE，使其将已有数据集D1:n−1扩展为D1:n，使得新收集的数据Dn能够为所有{πz}z∈Z对应的Fπz提供最大程度的信息。为此，我们采取的方法是：在给定状态s和动作a的情况下，选择在预测方差意义上最不确定的πz，这可以看作是不确定性采样（uncertainty sampling）的一种变体。

6 实验

我们的实验部分旨在通过实证回答以下问题：
i) 在在线无监督强化学习中，FBEEQ 是否表现出与原始 FB 方法相似的零样本泛化能力？
ii) FBEEQ 中基于认知不确定性的探索是否相比其他探索方法带来了样本效率的提升？
iii) 相比在动作空间中探索，对奖励嵌入 z 的探索效果如何？
iv) 在一次探索过程中，应以多高的频率更新所选择的奖励嵌入 zE？

环境：我们在 DeepMind Control Suite (DMC)（Tassa 等，2018）的 5 个领域中共 15 个下游任务上对 FBEEQ 进行基准测试（见图 3）。各领域和任务的详细信息见附录 A。

基线方法：我们将 FBEEQ 与几种在线无监督强化学习的基线方法进行比较。第一个基线是原始的 FB 方法（Touati & Ollivier, 2021），该方法通过均匀采样随机奖励嵌入 z 进行无导向的探索。我们还与一种简单的 RANDOM 策略进行比较，该策略在动作空间中进行随机探索。此外，我们还与 FB-RND（Touati 等，2022）进行比较，该方法通过使用纯粹的探索方法 RND（Burda 等，2018）将探索策略与 FB 表征的学习过程解耦。值得注意的是，RND 提取的探索奖励与任何 FB 表征的估计无关。在此设定下，我们可以利用无监督强化学习基准（Unsupervised Reinforcement Learning Benchmark, Laskin 等，2021）中预先收集的探索数据集，从而实现 FB 表征的完全离线训练。我们还实现了本方法的两个变体：

FBEEQ-POLICY ：通过梯度下降优化公式（8）中的目标函数，显式地学习一个从状态空间到奖励嵌入空间的探索策略 πθ: S → Z；
FBEEQ-SAMPLING：通过零阶优化近似求解公式（8）中的最大化问题。

由于篇幅限制，FBEEQ-POLICY 的结果被移至附录 D.3 节。最后，我们实现了一个消融实验 FBEEQ-EPISODE，用于研究优化“最不确定奖励嵌入 zE”的持续时间的影响。在 FBEEQ-EPISODE 中，我们仅在每个训练回合开始时计算一次 zE（通过公式（8）），而默认实现则每 100 个交互步长更新一次（频率高 10 倍）。我们对原始 FB 方法（FB-EPISODE）和我们的方法（FBEEQ-EPISODE）均实施了该消融实验。

结果：我们在 DMC 的 5 个领域共 15 个任务上，每 10 万次探索步评估一次 FBEEQ 的零样本性能。在评估时，给定一个任务奖励函数 r(s, a)，智能体使用奖励表征 zR = E(s,a)∼D [r(s, a)B(s, a)] 执行 1000 步环境交互。实际中，我们通过对当前回放缓冲区中的样本重新标注并取平均来计算该期望。奖励函数被限制在 [0,1] 区间内，因此每个任务的最大累积回报为 1000。图 4 展示了各领域任务平均的零样本得分曲线。每个任务的零样本得分见图 7。

如图 4 所示，FBEEQ 在渐近性能上达到或超过了原始 FB 方法，从而回答了问题 i)。更重要的是，我们观察到在所有环境中，FBEEQ 在所有领域均显著优于 FB，表现出更高的样本效率，实证验证了本工作的核心目标——驱动高效探索，从而回答了问题 ii)。我们注意到，在较简单的任务（如 cheetah）中，FB 与 FBEEQ 的性能差距较小，这表明在奖励嵌入空间中进行随机探索仍是一种相当有效的策略。我们将在未来工作中进一步深入研究这一现象。这自然引出了问题 iii) 的回答：我们通过实验表明，在奖励嵌入空间中随机探索比在动作空间中探索具有更高的样本效率。这一点可通过 RANDOM 策略在所有领域中的低性能得到验证。

最后是问题 iv)，我们评估了在探索过程中更新 zE 的频率影响。我们观察到，对于所有方法，更新频率越高，性能越好，尽管这种差异在 hopper 和 maze 任务中尤为明显。对于 FBEEQ，这可能有多种原因。我们对 F 的后验更新不同于理论上更严谨的方法（例如 Metelli 等（2019）提出的通过 Wasserstein 重心进行 TD 更新来传播不确定性的方法），可能会导致短视行为。然而在实践中，类似算法的实用实现（Metelli 等，2019）也采用了与我们相同的方式。我们的假设是：由于我们每个集成成员都基于其独立的目标网络进行更新，每个成员通过 TD 估计提供了时间上延展且一致的价值不确定性估计，从而传播了不确定性并缓解了短视行为。Osband 等（2016）也观察到了类似现象。

图 5：Maze 实验中某个 FB 检查点的 CoVar[Fπz | s, a, z] 的迹与 Var[Qπz | s, a, z] 的回归散点图。

另一个假设是：我们的探索策略 πE 并不能保证选择出能最大化所有 z 上 Q 的累积后验不确定性的 zE，而是选择了一个贪心地最大化该不确定性的 z。然而，我们通过实验证明，该方法相比其他探索替代方案带来了显著的样本效率提升，这一分析留待未来工作进一步探讨。

6.1 F-不确定性与Q-不确定性

7. 结论

原文链接：https://arxiv.org/pdf/2507.05477

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.