合并符号与神经策略学习的强化学习框架|算法|鲁棒性|智能体|神经网络|云计算费用

分享至

BlendRL: A Framework for Merging Symbolic and Neural Policies (ICLR 2025)

BlendRL：合并符号与神经策略学习的框架

https://arxiv.org/pdf/2410.11689

https://github.com/ml-research/blendrl

摘要

人类能够同时利用符号推理和直觉反应。相比之下，强化学习策略通常被编码在神经网络等不透明系统中，或者依赖于预定义符号和规则的符号系统中。这种割裂的方法严重限制了智能体的能力，因为它们往往缺乏神经智能体的灵活低级反应能力或符号智能体的可解释推理能力。为了克服这一挑战，我们提出了BlendRL，这是一个神经符号强化学习框架，能够在使用逻辑和神经策略混合的强化学习智能体中和谐地整合这两种范式。我们通过实验证明，BlendRL智能体在标准的Atari环境中表现优于神经和符号基线智能体，并展示了它们对环境变化的鲁棒性。此外，我们分析了神经策略和符号策略之间的互动，说明了它们的混合使用如何帮助智能体克服彼此的局限性。

1引言

为了解决复杂问题，人类运用两种基本的思维方式：（1）用于即时反应和运动控制的本能反应，以及（2）使用明确可识别概念的抽象推理。这两种人类智能的方面通常被称为系统1和系统2（卡尼曼，2011）。尽管我们的推理系统需要符号来构建可解释的决策规则，但本能反应并不依赖这种归纳偏差，不过缺乏透明性。在具有挑战性的强化学习环境中，例如“袋鼠”（Kangaroo）场景，智能体的目标是到达其幼崽（位于顶部），幼崽被猴子抓走，需要将猴子击打出路；或者在“海洋探险”（Seaquest）场景中，智能体控制一艘潜水艇，需要收集游泳的潜水员，同时不能耗尽氧气（参见图1）。开发能够有效利用这两种信息处理系统的智能体一直是一个持续的挑战（Lake等人，2017；Mao等人，2019；Kautz，2022）。主要困难不仅在于使这两种系统都具备高级能力，还在于无缝整合这些系统，使它们能够协同互动，从而在不牺牲透明度的情况下最大化性能。

深度神经网络已证明能够在广泛的任务中有效学习策略，而无需依赖任何关于任务的先验知识（Mnih等人，2015；Schulman等人，2017；Badia等人，2020；Bhatt等人，2024）。然而，这些“黑箱”策略可能会利用人类观察者难以察觉的捷径（Locatello等人，2020；Liu & Borisyuk，2024）。例如，在简单的Atari乒乓球游戏中，深度智能体倾向于依赖对手的位置而非球的位置（Delfosse等人，2024d），这表明深度学习系统倾向于利用捷径学习机会，而这些机会在稍作修改的环境中无法泛化。

为了增强推理能力，符号推理已被整合到一些方法中，例如基于逻辑的策略（Jiang & Luo，2019；Kimura等人，2021；Cao等人，2022；Delfosse等人，2023a）或基于程序的框架（Sun等人，2020；Verma等人，2018；Lyu等人，2019；Cappart等人，2021；Kohler等人，2024）。这些方法提供了透明性、可修订性、更好的泛化能力以及课程学习的潜力。然而，它们通常依赖于特定的人类归纳偏差，这些偏差对于解决任务是必要的，因此需要专家提供基本概念或潜在的逻辑规则。此外，涉及微妙动作的低级反应在这些框架中很难甚至无法编码。这一限制突显了符号系统在学习能力方面的局限性。因此，一个重要的问题出现了：我们如何构建能够利用神经和符号建模优势的智能体？目前结合这些系统的方法通常采用自上而下（即顺序）的方法：使用深思熟虑的系统（例如规划器）提供慢速的高级推理来选择反应系统（例如深度强化学习），后者提供快速的低级反应（Kokel等人，2021）。然而，这种顺序方法并不总是适用，例如，自动驾驶汽车可以在低密度高速公路上重新计算其计划，但在交通拥堵时则必须快速反应，而无需重新规划。能够根据上下文选择神经或符号建模的智能体是必要的。

我们提出了BlendRL，这是一个并行整合神经和基于逻辑的策略学习的框架。BlendRL智能体学习基于逻辑的可解释推理以及低级控制，通过一个混合函数将它们结合起来，该函数利用混合状态表示。它们可以利用高级推理（例如路径规划），这受益于符号（或以对象为中心）的状态表示，以及低级反应，用于精细的控制技能（例如射击敌人），使用基于像素的状态表示。尽管其神经部分的可解释性较低，但它帮助智能体适应那些符号表示不足的情况。BlendRL通过明确建模这两种信息处理系统来提供混合策略，并使用深度神经网络和可微逻辑推理器（Evans & Grefenstette，2018；Shindo等人，2023；2024b）的组合来选择其动作。此外，我们为BlendRL智能体提出了一个基于优势演员-评论家（A2C）的学习算法，该算法结合了近端策略优化（PPO）和策略正则化，并对训练有素的智能体的神经和符号组件之间的相互作用进行了分析。总体而言，我们做出了以下贡献：（i）我们提出了BlendRL，以联合且同时训练符号和神经策略。（ii）为了在所提出的框架上高效学习，我们在混合状态表示上调整了PPO演员-评论家算法。此外，我们提出了一种正则化方法来平衡神经和符号策略，提供既是透明推理器又是准确反应器的智能体。（iii）我们通过实验表明，BlendRL智能体在需要进行高级推理和低级反应的环境中优于神经和最先进的神经符号基线。此外，我们展示了BlendRL智能体对环境变化的鲁棒性。（iv）我们深入分析了神经和符号策略之间的相互作用，揭示了混合表示和策略如何帮助智能体克服彼此的局限性。

我们首先提供必要的背景知识，然后介绍我们的BlendRL方法用于策略推理和学习。我们在三个复杂的Atari游戏中对BlendRL进行了实验评估，将其性能与纯神经和逻辑基线进行了比较。在此之后，我们讨论了相关工作，然后总结。我们的代码和资源是公开可用的。

2 背景

在正式介绍我们的BlendRL方法之前，让我们先介绍必要的背景知识。

可微前向推理 是一种基于数据的一阶逻辑（FOL）推理方法（Russell & Norvig，2010）。在前向推理中，给定一组事实和规则，通过将规则应用于事实来推导出新事实。可微前向推理是前向推理的可微实现，利用基于张量的可微操作（Evans & Grefenstette，2018；Shindo等人，2023）或基于图的方法（Shindo等人，2024b）。这种方法可以通过将动作编码为规则的形式（其中规则头定义动作，规则体指定其条件），高效地应用于强化学习任务。为了学习每条规则的重要性或真值，可以将它们与可学习的规则权重相关联。因此，假设可以以规则的形式表示，并从数据中学习。

3 BLENDRL

BlendRL通过结合符号策略和神经策略，整合了抽象推理和本能反应。如图2所示，神经策略处理子符号（即基于像素的）表示以计算动作分布，而推理模块则在符号状态上使用可微推理。这些动作分布随后被混合以获得最终的动作分布。我们首先描述每种策略类型以及混合模块的内部工作原理。接下来，我们讨论如何利用预训练大型语言模型（LLMs）中封装的常识来获取符号概念及其评估函数。最后，我们描述了如何调整PPO演员-评论家算法以对BlendRL模块进行端到端训练。让我们首先正式介绍状态表示。

3.1 混合状态表示

BlendRL智能体使用两种不同的状态表示：（i）基于像素的表示和（ii）以对象为中心的表示，这些表示可以通过对象发现模型提取（Redmon等人，2016；Lin等人，2020；Delfosse等人，2023b；Zhao等人，2023）。基于像素的表示通常由环境提供的原始图像堆叠而成，输入到深度卷积网络，如Mnih等人（2015）所介绍。我们考虑的符号（以对象为中心）表示由对象列表组成，包含属性（例如位置、方向、颜色等），允许在结构化表示上进行逻辑推理（Zadaianchuk等人，2021；Liu等人，2021；Yoon等人，2023；Wüst等人，2024；Stammer等人，2024b）。

3.2 混合神经符号策略

利用这两种状态表示，BlendRL智能体通过聚合其神经策略和逻辑策略的概率来计算动作选择的概率。

这些规则是透明的，例如 [R1] 可以被解释为“如果氧气耗尽则选择向上”。规则体中的原子“empty”是一个状态谓词，其真值水平可以从以对象为中心的状态中计算得出。每个状态谓词都与一个（可微的）函数相关联，称为评估函数，用于计算其真值或置信度。

例如，“empty（为空）”可以映射到一个函数，比如 sigmoid((x - α)/γ)，它将实际的氧气值
（来自以对象为中心的状态）转换为一个范围在 [0, 1] 之间的真值分数。第二条规则 [R2] 表示相同的选择动作 UP，但其动机是为了收集潜水员。第三条规则 [R3] 如果潜水员在游戏玩家的左侧，则选择另一个动作（LEFT）。在评估每个状态谓词的评估函数之后，我们执行可微前向推理（Shindo 等人，2023）以根据状态原子推导出由动作规则定义的动作原子。前向推理涉及从观察到的状态推断出所有可推导的知识（即动作的规则头原子）。这一过程使我们能够获得符号策略中定义的所有动作的置信度（作为概率）。与 NUDGE 策略（Delfosse 等人，2023a）不同，BlendRL 使用大型语言模型（LLM）生成动作规则及其必要元素（谓词及其评估函数），如第 3.3 节所述。我们还将内存高效的基于消息传递的前向推理器（Shindo 等人，2024b）整合进来，以克服传统符号策略可能相关的内存瓶颈。NUDGE 和其他常见逻辑策略的内存消耗与关系和实体的数量呈二次方关系，这极大地限制了它们的可扩展性。相比之下，BlendRL 的符号策略呈线性扩展，适合更复杂环境的可扩展训练并行化。

图 3 描述了混合模块的整体过程。它根据符号状态计算神经策略和逻辑策略的分布，基于由 LLM 生成的混合规则。在袋鼠环境中训练的智能体的混合加权规则集显示在右上角。它编码了当周围有猴子或致命的投掷椰子时，应选择神经模块（以便躲避椰子或调整位置以最佳方式击打猴子）的事实。当周围没有东西时，它可以安全地依赖其逻辑策略（显示在它上面），这使它能够在袋鼠环境中导航。

3.3 LLM生成的逻辑策略

BlendRL利用语言模型（LLMs）根据思维链原则（Wei等人，2022；Kojima等人，2022）生成符号程序以进行精确推理：

（i）它使用任务上下文和可检测对象的描述及实现来创建状态谓词，

（ii）它制定动作规则，以生成的谓词的合取作为规则体，

（iii）它生成谓词的评估函数（即它们的Python实现函数）。

对于步骤（ii）和（iii），我们采用了少样本提示方法，向LLM提供了一个从NUDGE策略（Delfosse等人，2023a）中获得的示例逻辑规则集。这避免了需要专家提供逻辑规则集、使用的逻辑谓词及其实现，从而允许用户有效地用自然语言引入归纳偏差（更多细节见附录A.3和A.4）。

图4展示了一个在“袋鼠”任务上训练的BlendRL的逻辑模块的一个子集。与之相关的LLM生成规则的权重已被调整以最大化性能。

3.4 优化

我们使用近端策略优化（PPO）演员-评论家算法来训练BlendRL智能体，并且采用混合价值函数。我们通过同时使用视觉状态和以对象为中心的状态来计算价值，从而构建混合评论家。

混合价值函数。由于价值函数是对预期回报的近似，我们没有使用逻辑来编码它。然而，BlendRL整合了一个混合价值函数，它同时使用子符号x 和符号（或以对象为中心的 z 状态表示。给定状态 s = (x, z) ，价值定义为：

4 实验

我们概述了BlendRL相较于纯神经或纯符号方法的优势，并通过额外的实验研究了BlendRL对环境变化的鲁棒性。此外，我们还考察了神经和符号组件之间的相互作用，并证明了BlendRL能够生成可靠的解释。我们具体旨在回答以下研究问题：

（Q1）BlendRL智能体是否能够克服符号智能体和神经智能体的不足？

（Q2）BlendRL是否能够为其动作选择生成神经和符号两种解释？

（Q3）BlendRL智能体是否对环境变化具有鲁棒性？

（Q4）神经模块和符号模块如何相互作用以最大化BlendRL智能体的整体性能？

现在，让我们为BlendRL学习高效且易于理解的策略的能力提供实证证据，即使在没有提供解决任务所需的所有必要先验知识的情况下。

4.1 实验设置

环境。我们在Atari学习环境（Bellemare等人，2013）中评估BlendRL，这是强化学习（尤其是关系推理任务）最流行的基准。为了提高资源效率，我们使用了（Delfosse等人，2024b）的对象中心提取模块。具体来说，在“袋鼠”环境中，智能体需要到达并攀爬梯子，以到达被囚禁的小袋鼠，同时击打试图阻止它的猴子。在“海洋探险”中，智能体需要营救潜水员，同时射击鲨鱼和敌方潜艇，并且在氧气耗尽前浮出水面。最后，在“大金刚”中，智能体需要到达顶部的公主，同时躲避大金刚扔过来的木桶。更多细节见附录A.7。为了进一步测试BlendRL克服解决任务所需概念潜在缺失的能力，我们在为生成策略规则的LLM提供的提示中省略了游戏的某些部分。具体来说，我们省略了“袋鼠”中智能体可以击打猴子、“海洋探险”中可以射击敌人以及“大金刚”中可以跳过木桶的事实。为了测试鲁棒性并分离智能体的不同能力，我们使用了HackAtari（Delfosse等人，2024a），它允许定制环境（例如移除敌人）。对于这些消融研究，我们将在论文的相关部分提供修改的使用细节。

基线。我们将BlendRL与纯神经PPO智能体进行比较。两种智能体类型都集成了用于Atari环境的经典卷积神经网络（CNN）。此外，我们还评估了NUDGE，它使用预训练的神经PPO智能体来搜索可行的策略规则（Delfosse等人，2023a），这是在Atari任务中表现最佳的逻辑智能体。我们训练每种类型的智能体，直到它们都收敛到稳定的每集回报（即对于“袋鼠”和“大金刚”训练1.5万集，对于“海洋探险”训练2.5万集）。更多细节见附录A.6。

4.2 结果与分析

与神经智能体和神经符号智能体的比较（Q1）。图5展示了BlendRL、NUDGE和NeuralPPO智能体在各种Atari环境中的每集回报。BlendRL在所有测试场景中均超过了基于逻辑的最先进的NUDGE基线（Delfosse等人，2023a）。在“袋鼠”环境中，由于敌人数量相对较少，需要较少的直觉动作，NUDGE表现尚可，尽管其击打猴子和躲避投掷的椰子的能力较弱。然而，在其他充满更多威胁的环境中，神经策略对于精确控制至关重要，NUDGE则明显落后。此外，纯神经PPO智能体常常陷入次优策略。例如，在“海洋探险”中，不收集潜水员而浮出水面会导致负奖励。因此，神经PPO智能体专注于射击鲨鱼以获取奖励，但从未补充氧气。相比之下，BlendRL能够有效地选择其逻辑模块以在需要时收集潜水员并浮出水面，并选择其神经模块以高效地对准敌人并射击它们。总体而言，BlendRL在不同环境中显著优于两种基线，这突显了神经符号混合策略在高效整合神经和符号方法进行策略学习方面的有效性。

BlendRL智能体具有可解释性和可解释能力（Q2）。BlendRL的符号策略易于解释，因为它们由一组透明的符号加权规则组成，如图4中“袋鼠”的示例所示。可解释的混合模块在需要精细控制的情况下优先选择神经智能体（例如躲避迎面而来的致命椰子或准确地将自己定位在猴子旁边并击打它）。相反，当没有即时危险时，逻辑模块被使用，例如作为路径规划的代理。其他环境的逻辑规则见附录A.4

BlendRL对环境变化具有鲁棒性（Q3）。

深度智能体通常会在训练过程中“死记硬背”虚假的相关性，因此即使在简单的Atari游戏中，也无法泛化到未见过的环境中（Farebrother等人，2018；Delfosse等人，2024a）。我们使用了HackAtari环境的变体，以禁用“袋鼠”和“海洋探险”中的敌人，以及“大金刚”中的木桶。我们还使用了一个修改过的“袋鼠”环境，其中梯子的位置被重新安置。

如预期的那样，我们的BlendRL智能体仍然能够在这些更安全的环境版本中完成任务（从而获得奖励）（参见表1）。BlendRL智能体确实依赖于其基于逻辑的策略和混合模块中整合的知识，仅依赖其神经模块进行精确的控制技能（例如瞄准和射击/击打），我们将在下面进一步展示这一点。

每个模块在每一步的使用情况。此外，BlendRL的智能体可以通过训练调整它们选择每个组件的程度，如图的右侧所示。由于“海洋探险”是一个逐步发展的环境，智能体最初面对的敌人较少（因此主要依赖其逻辑模块来收集潜水员），然后逐渐进入更多敌人出现的状态（参见图10），BlendRL智能体最初主要依赖其逻辑模块（蓝色），然后逐渐将其偏好转移到其神经模块（红色），以精确地射击敌人。这些结果证明了BlendRL在神经符号混合表示上的策略推理和学习的有效性，从而增强了整体性能。我们在附录A.8中进一步比较了神经和逻辑混合模块，强调基于逻辑的混合模块可以有效利用两种策略，从而实现更好的性能。

总体而言，我们的实验评估展示了BlendRL智能体在多个需要推理和反应能力的Atari环境中的学习能力。我们证明了它们优于常用的神经PPO基线，以及最先进的逻辑智能体NUDGE。我们进一步证明了它们能够泛化到与训练环境略有不同的未见场景，并且它们能够高效地在两种模块类型之间切换，以获得既能产生解释又能量化每个符号属性和每个像素区域影响的策略。

5 相关工作

关系强化学习（Relational RL）（Dzeroski等人，2001；Kersting等人，2004；Kersting & Driessens，2008；Lang等人，2012；Hazra & Raedt，2023）通过整合逻辑表示和概率推理来解决关系领域中的强化学习任务。BlendRL通过将可微逻辑编程与深度神经策略相结合，扩展了这一方法。神经逻辑强化学习（NLRL）框架（Jiang & Luo，2019）首次将可微归纳逻辑编程（∂ILP）（Evans & Grefenstette，2018）引入强化学习领域。∂ILP 使用基于梯度的优化从示例中学习泛化的逻辑规则。NUDGE（Delfosse等人，2023a）通过引入神经引导的符号抽象扩展了这种方法，利用对∂ILP的广泛研究（Shindo等人，2021b；a）来学习复杂程序。INSIGHT（Luo等人，2024）是另一个神经符号框架，它联合学习结构化状态和符号策略，并生成文本解释。与这些仅依赖符号策略表示的方法不同，BlendRL整合了神经和符号策略，并联合训练它们。

规划与强化学习的结合已被探索以实现策略学习中的深思熟虑。例如，RePReL（Kokel等人，2021）使用规划器分解多智能体规划任务，然后为每个智能体使用强化学习解决子任务。在这些框架中，用于长期（缓慢）推理的规划器通常是独立组件。相比之下，BlendRL在相同级别上计算符号和神经策略，允许它们联合学习，从而增强整体性能。此外，规划器通常用于基于模型的强化学习中，以生成假设性经验，从而改进价值估计（Sutton，1991；Kaiser等人，2019）。相比之下，BlendRL直接将其符号推理模块整合到其策略中，使其能够与神经模块进行联合学习。

此外，BlendRL与使用LLMs进行程序生成的先前工作相关。例如，LLMs已被应用于生成概率程序（Wong等人，2023）、答案集程序（Ishay等人，2023；Yang等人，2023）、可微逻辑程序（Shindo等人，2024a）以及用于视觉推理的程序（Surís等人，2023；Stanić等人，2024）。我们的符号策略表示受到情境演算（Reiter，2001）的启发，这是一种描述逻辑中状态和动作的成熟框架。

6 结论

在本研究中，我们介绍了BlendRL，这是一个开创性的框架，它将符号策略和神经策略整合用于强化学习。BlendRL利用神经网络进行反应性动作，并使用可微逻辑推理器进行高级推理，通过一个混合模块无缝地将它们结合起来，该模块管理两种策略类型的分布。我们还为BlendRL智能体开发了一种学习算法，该算法在基于像素和以对象为中心的状态上混合了状态价值函数，并包括一种正则化方法以增强逻辑和神经策略的有效性。

我们的实证评估表明，BlendRL智能体在流行的Atari环境中显著优于纯神经智能体和最先进的神经符号基线。此外，这些智能体对环境变化表现出鲁棒性，并能够生成清晰、可解释的解释，涵盖各种推理类型，有效解决了纯神经策略的局限性。我们对符号和神经策略表示之间相互作用的全面分析突显了它们协同提升整体性能的潜力。

原文链接：https://arxiv.org/pdf/2410.11689

https://github.com/ml-research/blendrl

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.