罗格斯大学与Adobe突破：AI智能体实现探索与利用平衡|算法|正则化

分享至

这项由罗格斯大学的徐武江等研究人员与Adobe公司合作完成的研究发表于2025年9月，论文编号为arXiv:2509.22576v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下教会一个孩子学习新技能的过程。当孩子学习骑自行车时，最初他们需要大胆尝试各种方法来保持平衡，这就是"探索"。但如果孩子一直胡乱尝试而从不专注于有效的技巧，他们永远学不会骑车。同样，如果他们过早地固执于某种错误方法，也会陷入困境。关键在于找到探索新方法和利用已知有效方法之间的完美平衡点。

这个看似简单的平衡问题，在人工智能领域却是一个巨大挑战，特别是在训练大型语言模型（如ChatGPT这样的AI助手）执行复杂的多步骤任务时。罗格斯大学的研究团队发现了一个前所未有的问题：当AI智能体需要完成那些需要30多步操作才能获得反馈的复杂任务时，传统的训练方法会遭遇一种被他们称为"探索-利用级联失效"的致命陷阱。

这个问题就像一个恶性循环的多米诺骨牌效应。首先，由于任务反馈极其稀少（就像学生做了一整套复杂的数学题，只有在最后才知道答案对错），AI智能体在早期会过度激进地尝试各种策略，这种盲目探索实际上让它陷入了糟糕的行为模式。接着，这些早期的错误决策会像病毒一样传播到后续步骤，导致AI智能体在任务后期变得极度不稳定，无法形成连贯的策略。

为了解决这个根本性难题，研究团队开发了一套名为"熵正则化策略优化"（EPO）的创新框架。这套方法就像为AI智能体配备了一个智能的"学习教练"，能够在训练过程中精确控制探索和利用的平衡。

一、探索-利用级联失效：AI智能体训练中的致命陷阱

当我们深入了解这个问题的本质时，可以用一个生动的比喻来理解。假设你正在教导一个学生解决一道需要30个步骤的超级复杂数学题，而且只有在完成所有步骤后才能知道答案是否正确。传统的教学方法会遇到什么问题呢？

在这种极端稀缺反馈的环境中，学生（AI智能体）面临着一个残酷的现实：每一步都充满不确定性，没有即时的对错提示。研究团队发现，这种情况下会出现两个阶段的灾难性失效。

第一阶段是"过度早期探索"。由于缺乏及时反馈，AI智能体会变得极度焦虑，开始疯狂尝试各种可能的解法，就像一个迷路的人在十字路口随机选择方向。这种看似积极的探索实际上是有害的，因为它导致AI智能体在关键的早期步骤中做出大量错误决策，为后续步骤奠定了糟糕的基础。

第二阶段是"不确定性传播"。早期步骤中积累的错误和混乱会像滚雪球一样越滚越大，传播到任务的后期阶段。AI智能体发现自己陷入了一个混沌状态：既无法回到正确轨道，也无法从错误中学习，因为它不知道到底是哪一步出了问题。这就像多米诺骨牌效应，一旦第一张牌倒下，整个系统就会崩溃。

研究团队通过大量实验发现，这种级联失效在两个具有代表性的AI测试环境中都表现得淋漓尽致。在ScienceWorld环境中（这是一个模拟科学实验的文本世界，AI需要进行假设验证和结构化探索），传统方法训练的AI智能体的表现极不稳定，熵值（可以理解为"混乱程度"）剧烈波动，奖励曲线平缓甚至停滞。在ALFWorld环境中（这是一个家庭任务模拟环境，包含4639个需要多步决策的家庭任务），情况同样糟糕。

更令人困扰的是，这种失效模式在传统的强化学习方法中是系统性的。无论是PPO（近端策略优化）还是GRPO（群体相对策略优化）这些广泛使用的算法，都无法有效应对这种独特的挑战。传统的熵正则化方法（用来鼓励AI保持探索精神的技术）在这种多步稀疏奖励环境中不仅失效，甚至会加剧问题。

这个发现的重要性不容小觑。随着AI智能体在现实世界中承担越来越复杂的任务——从自动化软件开发到科学研究辅助——解决这种级联失效问题变得至关重要。如果AI智能体无法在复杂的多步任务中稳定学习，它们就无法真正胜任那些需要长期规划和连贯策略的重要工作。

二、EPO框架：为AI智能体配备智能学习教练

面对这个棘手的问题，研究团队没有选择修修补补的方案，而是从根本上重新思考了AI智能体的学习机制。他们开发的EPO框架就像为AI智能体配备了一个经验丰富的学习教练，这个教练具有三项核心技能，能够精确指导AI在复杂任务中的学习过程。

首先是"轨迹感知的熵正则化"技术。传统方法只关注AI在单个步骤中的表现，就像只看学生做单道题的情况。但EPO方法会观察AI在整个任务序列中的表现模式，就像一个好教练会关注学生完成整套练习的节奏和连贯性。这种方法计算的不是某一步的混乱程度，而是整个任务过程中的熵值分布，确保AI智能体在保持必要探索精神的同时，不会在任何阶段过度发散。

具体来说，这个技术会追踪AI智能体在每个回合中所有步骤的熵值，然后在整个训练批次中取平均值。这就像教练不仅关注学生在某一次练习中的表现，还会分析学生在一段时间内的整体学习模式。通过这种方式，EPO能够捕捉到多步任务中独特的时间依赖关系，避免早期步骤的混乱影响后续决策。

第二个关键技术是"熵平滑正则化器"。这个机制的作用就像一个智能的稳定器，防止AI智能体在学习过程中出现剧烈的策略波动。研究团队维护一个"熵历史窗口"，记录AI智能体在之前训练步骤中的平均熵值。然后，他们设置了一个可接受的熵值范围，当AI智能体的当前行为超出这个范围时，系统会施加温和的约束。

这种方法的巧妙之处在于它的自适应性。就像一个好教练会根据学生的历史表现调整训练强度，EPO系统会根据AI智能体的学习历史动态调整约束程度。如果AI智能体历史上表现稳定，系统会给予更多探索自由；如果历史上波动较大，系统会增强稳定性约束。这种平衡确保了AI既不会过度保守（错失学习机会），也不会过度激进（陷入混乱状态）。

第三个核心技术是"自适应阶段权重调整"。这个机制认识到AI智能体在不同训练阶段有不同的需求，就像学生在学习的不同阶段需要不同的指导策略。EPO框架采用了一个精心设计的动态系数调整机制，在训练初期鼓励适度的保守探索，在中期实现探索与利用的平衡，在后期强化稳定性以确保收敛。

这个权重调整遵循一个指数调度公式，能够平滑地在不同训练阶段之间过渡。在训练早期，系统会优先防止AI智能体陷入错误的行为模式；在训练中期，系统会平衡探索和利用，让AI既能学习新策略又能巩固有效方法；在训练后期，系统会增强稳定性约束，确保AI能够收敛到一个稳定且有效的策略。

这三个技术的协同作用创造了一个理论上有保障的框架。研究团队证明，EPO能够确保熵方差单调递减，同时保持策略优化的收敛性。这意味着AI智能体的行为会随着训练进展变得越来越稳定和可预测，而不会出现传统方法中常见的性能倒退或策略崩溃。

更重要的是，EPO框架具有很好的通用性，可以与现有的各种强化学习算法（如PPO、GRPO等）无缝集成，为它们提供多步稀疏奖励环境下的稳定性保障。这种设计哲学确保了EPO不是一个孤立的解决方案，而是一个可以广泛应用的增强框架。

三、实验验证：从不可训练到平稳收敛的华丽转身

为了验证EPO框架的有效性，研究团队选择了两个极具挑战性的测试环境，这两个环境就像AI智能体的"地狱级训练场"，专门用来考验它们在复杂多步任务中的学习能力。

ScienceWorld环境模拟了一个小学科学实验室，AI智能体需要在这个文本描述的虚拟世界中完成各种科学任务。这些任务要求AI进行系统性的假设检验、因果推理和结构化探索，涵盖物理学（如测试材料导电性、操控物态变化）、化学（如识别酸碱性质、观察化学反应）和生命科学（如根据特征分类生物）等多个领域。每个任务都需要30多个步骤才能完成，而且只有在最终完成时才能获得成功或失败的反馈。

ALFWorld环境则是一个模拟家庭环境，包含4639个不同的家庭任务实例，分为六个主要类别。AI智能体需要理解高层次的自然语言指令，并将其分解为一系列低层次的行动序列。这些任务包括简单的物品放置（如"把杯子放进咖啡机"）、涉及多个物体的复杂操作（如同时处理两个物品）、需要改变物体状态的任务（如使用电器加热或冷却物品、用水槽清洁物品）以及更复杂的组合任务。成功完成这些任务需要多步骤规划、空间感知和语言理解能力的完美结合。

实验结果令人震撼。在ScienceWorld环境中，传统的PPO方法与EPO增强版本的对比简直是天壤之别。原始PPO在训练过程中表现极不稳定，熵值剧烈波动，训练奖励长期停滞在较低水平，成功率始终无法突破40%的瓶颈。相比之下，PPO配合EPO后仿佛获得了新生，不仅实现了平稳的训练动态，更在最终性能上取得了惊人的152%提升。更令人印象深刻的是，EPO版本在训练过程中展现出了优雅的收敛特性，熵值平稳下降，奖励曲线呈现健康的上升趋势。

在ALFWorld环境中，虽然提升幅度相对温和，但EPO的效果同样显著。GRPO算法在引入EPO后，在分布内任务上获得了19.8%的性能提升，更重要的是，在分布外任务（即AI未曾见过的任务变体）上也展现出了更强的泛化能力。这表明EPO不仅能帮助AI在已知任务上表现更好，还能增强它们处理新情况的能力。

为了更深入地理解EPO的工作机制，研究团队进行了详细的消融研究。他们发现熵平滑正则化器在ScienceWorld这样的极端稀疏奖励环境中起到了关键作用。当移除这个组件时，AI智能体的学习过程会严重延迟，奖励曲线在前40个训练步骤中几乎没有改善，最终性能也会显著下降。这个发现证实了研究团队的理论分析：在极端稀疏的反馈环境中，传统的探索-利用策略会导致病理性的振荡，而熵平滑机制能够有效打破这种恶性循环。

研究团队还比较了EPO与其他现有方法的性能。相比于基于优势塑形的熵方法（EA），EPO展现出了明显的优势。EA方法虽然在基础PPO的基础上有所改进，但最终只能达到0.5-0.6的成功率平台期，而EPO能够达到接近1.0的近乎完美成功率。这种差异的根本原因在于两种方法对梯度信号的处理方式不同：EA使用分离的熵项作为间接内在奖励，无法为策略提供明确的探索指导，而EPO将熵直接整合到策略损失中，能够提供明确的梯度信号指导AI向更具探索性的行为发展。

更有趣的是，研究团队发现了一个反直觉的现象：在多步稀疏奖励环境中，随时间衰减的熵系数调度策略实际上是有害的。传统智慧认为应该在训练初期鼓励探索，在后期转向利用，但实验结果显示这种方法会过早抑制关键的早期探索，导致AI陷入次优策略。EPO的成功在于它认识到了多步环境中的时间依赖性：早期步骤的决策会根本性地影响后续步骤的可能性，因此需要在整个训练过程中维持一致且稳健的探索压力。

四、理论保障：EPO成功背后的数学基础

EPO框架的成功不仅体现在实验结果上，更重要的是它建立在坚实的理论基础之上。研究团队为EPO提供了严格的数学分析，证明了该方法能够在保证收敛性的同时实现更好的性能边界。

EPO的理论核心在于重新定义了策略优化的目标函数。传统的强化学习方法通常只考虑最大化期望回报和标准熵正则化，但EPO引入了一个额外的"平滑项"，这个项能够有效控制策略熵的历史波动。研究团队证明，这种设计能够在三个关键方面提供理论保障。

首先是单调递减的熵方差保证。EPO框架确保AI智能体的行为随着训练进展变得越来越稳定，熵方差会单调下降。这个性质至关重要，因为它意味着AI不会在训练后期出现性能倒退或策略崩溃的情况。数学上，这通过动态系数βk的巧妙设计实现，该系数能够在训练过程中自适应调整正则化强度。

其次是改进的性能边界。相比于标准的最大熵强化学习，EPO能够提供更紧的性能上界。具体来说，EPO的次优性边界包含一个负的"偏差修正项"，当最优策略表现出稳定的低方差熵而当前策略出现熵违规时，这个修正项能够有效抵消标准熵偏差的负面影响。这意味着EPO在理论上能够比传统方法更接近最优性能。

第三是收敛性保证。研究团队证明，EPO在满足标准假设条件下能够收敛到稳定的策略。这个收敛性分析考虑了多步环境的特殊性质，包括状态之间的时间依赖性和稀疏奖励的影响。关键洞察是EPO的平滑正则化器能够提供足够的"阻尼"效应，防止策略在优化过程中出现有害的振荡。

EPO的理论优势还体现在它对探索-利用权衡的精准控制上。传统方法往往采用启发式的平衡策略，缺乏理论指导。EPO通过历史熵窗口的设计，能够根据智能体的学习历史动态调整探索强度。当智能体历史表现稳定时，系统会适当放宽约束以鼓励进一步探索；当检测到不稳定性时，系统会增强约束以促进收敛。

研究团队还分析了EPO在不同算法框架下的兼容性。他们证明EPO是一个通用的增强框架，可以与现有的各种策略优化算法（如PPO、GRPO等）无缝集成，为它们提供多步稀疏奖励环境下的稳定性保障。这种通用性来源于EPO的模块化设计：它不改变底层算法的核心逻辑，而是在损失函数层面提供额外的正则化约束。

更深层次的理论贡献在于EPO对多步环境特殊性质的刻画。研究团队指出，多步稀疏奖励环境具有独特的"级联效应"：早期步骤的错误决策会通过状态转移传播到后续步骤，造成复合性的性能损失。EPO通过轨迹级别的熵计算和历史感知的约束设计，能够有效缓解这种级联效应。

这些理论分析不仅为EPO的有效性提供了数学证明，也为未来的相关研究提供了重要指导。它们揭示了多步稀疏奖励环境中探索-利用权衡的本质特征，为设计更好的AI智能体学习算法奠定了理论基础。

五、模型研究：深入解析EPO的核心机制

为了更深入地理解EPO框架的工作原理，研究团队进行了一系列精心设计的模型研究，这些研究就像用显微镜观察EPO内部机制的运作方式，揭示了为什么这个方法在多步稀疏奖励环境中如此有效。

第一个重要发现涉及熵正则化的时间调度策略。传统观念认为，AI智能体的训练应该遵循"先探索后利用"的原则，即在训练初期使用高熵系数鼓励探索，然后逐渐降低熵系数转向利用已知的好策略。但研究团队的实验结果彻底颠覆了这种常识。

他们比较了两种方法：一种是保持一致熵正则化系数的EPO-Base，另一种是采用衰减调度的EPO-Decay。结果令人震惊：衰减策略在所有指标上都表现更差。更深入的分析揭示了原因：衰减调度虽然成功降低了训练后期的策略熵，但它过早地抑制了关键的早期探索。在多步环境中，早期步骤的探索不足会导致AI智能体陷入次优的行为模式，即使后期策略变得更加确定性，也无法挽回早期的错误。

这个发现揭示了多步环境的一个重要特征：由于强烈的时间依赖性，早期步骤的决策会根本性地影响后续可能的行为空间。如果AI在早期就限制了探索，它可能永远无法发现真正有效的策略路径。相比之下，EPO通过维持一致的探索压力，确保AI在整个训练过程中都能够访问完整的策略空间。

第二个重要研究关注EPO与基于优势塑形的熵方法（EA）的比较。EA方法通过修改优势函数来间接鼓励高熵行为，而EPO直接在策略损失中集成熵项。实验结果显示，虽然EA在基础PPO上有所改进，但EPO的效果远超EA，最终成功率接近完美的1.0，而EA只能达到0.5-0.6的平台期。

这种差异的根本原因在于梯度信号的处理方式。EA使用分离的熵项作为内在奖励，策略网络无法接收到明确的熵增长信号。换句话说，AI知道高熵行为能获得额外奖励，但不知道如何具体增加熵。相比之下，EPO直接提供梯度信号?θLH(θ)，明确指导策略向更具探索性的方向发展。

此外，EA的硬剪切机制可能导致训练不稳定性，其短视特性只考虑瞬时熵而忽略历史模式。EPO的平滑正则化器则提供了更加温和且具有时间感知的约束，能够根据历史表现动态调整约束强度。

研究团队还发现了一个重要的洞察：在LLM智能体场景中，直接修改策略损失可能会严重损害模型的推理能力。由于LLM在预训练期间没有接触过智能体特定的任务，激进的熵正则化可能会破坏模型学习到的表示和推理路径。EPO通过使用历史熵窗口的时间平滑方法，保持了LLM固有推理能力的完整性，同时提供探索指导。这种解耦的正则化方法维护了价值信号的完整性和预训练知识，从而实现更稳健和有效的学习。

第三个模型研究关注动态系数βk的作用。研究团队比较了使用动态βk的完整EPO和使用固定β的简化版本。结果显示，虽然两种方法的最终性能相似，但动态βk能够显著加速早期训练进展并减少训练方差。

动态系数的作用机制可以理解为一个自适应的"学习教练"。在训练初期，当AI智能体还在探索基础策略时，βk较小，系统给予更多探索自由。随着训练进展，βk逐渐增大，系统开始更强调稳定性。这种渐进式的约束调整避免了突然的策略变化，确保了平滑的学习轨迹。

通过这些深入的模型研究，研究团队不仅验证了EPO各个组件的有效性，还揭示了多步稀疏奖励环境中学习的本质特征。这些发现为未来设计更好的AI智能体学习算法提供了重要指导原则：保持一致的探索压力、提供直接的梯度信号、采用时间感知的约束机制，以及保护预训练知识的完整性。

说到底，这项研究为AI智能体在复杂现实任务中的应用铺平了道路。在过去，训练AI完成需要几十步操作的复杂任务几乎是不可能的，因为传统方法会让AI陷入混乱的探索-利用循环。现在，EPO框架提供了一个优雅的解决方案，让AI能够在保持必要探索精神的同时，稳定地学习和改进。

这个突破的意义远超学术范畴。随着AI智能体开始承担更多现实世界的复杂任务——从自动化软件开发到科学研究辅助，从复杂的工业流程控制到多步骤的决策支持——EPO框架提供的稳定学习能力将成为关键的使能技术。它不仅解决了一个特定的技术问题，更是为AI智能体走向真正的实用化奠定了坚实基础。

研究团队已经将EPO的代码开源，让更多研究者和开发者能够受益于这一创新。随着更多团队开始采用和改进这个框架，我们有理由期待AI智能体在处理复杂多步任务方面将迎来新的突破。对于那些关注AI技术发展的读者，这项研究标志着我们向更智能、更可靠的AI助手又迈进了重要一步。

Q&A

Q1：什么是探索-利用级联失效？为什么这个问题这么严重？

A：探索-利用级联失效是AI智能体在学习复杂多步任务时遇到的一种系统性失效模式。就像学生做30步的数学题只能在最后知道对错一样，AI在缺乏即时反馈的情况下会先是盲目尝试各种方法（过度探索），然后这些早期错误会像病毒一样传播到后续步骤，导致整个学习过程崩溃。这个问题严重是因为它让AI无法完成那些需要长期规划的重要任务。

Q2：EPO框架是如何解决这个问题的？

A：EPO框架就像给AI配备了一个智能学习教练，通过三个关键技术解决问题：首先是观察AI在整个任务序列中的表现模式而不只看单步；其次是维护一个"熵历史窗口"来防止AI行为出现剧烈波动；最后是根据训练阶段动态调整探索和利用的平衡。这样AI既不会过度保守错失学习机会，也不会过度激进陷入混乱状态。

Q3：EPO框架的实际效果有多好？能应用到哪些场景？

A：实验结果非常惊人，在ScienceWorld环境中EPO实现了152%的性能提升，在ALFWorld环境中也有19.8%的提升，将原本不可训练的场景转变为平稳收敛的优化问题。EPO可以与现有的各种AI训练算法无缝集成，适用于自动化软件开发、科学研究辅助、复杂工业流程控制等需要多步决策的现实任务。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.