Thermodynamics of Reinforcement Learning Curricula
强化学习课程的热力学
https://arxiv.org/pdf/2603.12324
![]()
![]()
摘要
统计力学与机器学习之间的联系已被反复证明是富有成效的,为优化、泛化与表示学习提供了深刻见解。在本研究中,我们延续这一传统,利用非平衡热力学的成果来形式化强化学习(RL)中的课程学习。具体而言,我们提出了一种用于RL的几何框架,将奖励参数解释为任务流形上的坐标。我们表明,通过最小化超额热力学功,最优课程对应于该任务空间中的测地线。作为该框架的一个应用,我们提供了一种算法“MEW”(最小超额功),用于推导最大熵RL中温度退火的有理论依据的调度方案。
1 引言
现代强化学习(RL)系统很少在单一、静态的任务上进行训练。相反,通过课程学习、温度退火、奖励塑形以及其他非平稳目标,智能体通常会接触一系列相关任务。然而,关于任务应如何变化的指导原则仍然缺乏深入理解。一种简单实用的方法是随时间对任务(即奖励函数)参数进行线性插值。这种选择隐含地假设了任务空间是平坦且各向同性的。在本研究中,我们假设这一假设是错误的,并旨在证明由智能体及其学习动力学所诱导出的非平凡几何结构的存在。具体而言,我们采用一种基于统计力学的方法来研究参数化奖励函数空间,揭示出一种自然度量,该度量量化了适应新任务所涉及的难度或“摩擦”。更具体地说,我们引入了一个摩擦张量,该张量在非平衡统计力学(NESM)中量化了控制系统所需的代价,使得最优参数协议对应于由该摩擦张量所诱导的几何空间中的测地线。通过将RL映射到该框架上,我们获得了一个关于课程最优性的有理论依据的假设,且该假设在实验上易于处理:最优奖励参数调度方案最小化了来自摩擦张量的路径依赖超额成本,并遵循诱导任务空间中的测地线。这一几何图景有望统一RL中的几种现象,例如基于势函数的奖励塑形、模拟退火以及特征坍塌。在本研究中,我们专注于线性奖励函数参数化,并推导出一维任务调度的闭式表达式,从而提出了一种可直接应用于深度RL的熵温度退火新方法。
2 背景
2.1 统计力学
在非平衡物理系统的控制中,出现了与强化学习(RL)中“课程”类似的概念。在统计力学框架下,系统动力学依赖于随时间变化的外部控制参数(例如温度、耦合强度、场强、势阱位置等)。当这些参数的变化无限缓慢时(即在课程步骤之间允许策略完全收敛),系统保持在近平衡状态,且此变化所需的外部功仅取决于端点。然而,当参数以有限速率变化时,系统保持在非平衡状态,并产生额外的、路径依赖的耗散,该耗散被量化为“超额功”(Jarzynski, 2008)。线性响应理论的一个核心结果表明,该超额功可关于参数变化速率进行二次近似(Sivak & Crooks, 2012)。该框架已在一系列经典与量子控制问题的建模中得到成功应用。
在本研究中,我们证明RL中的任务插值具有类似的几何结构:奖励参数的变化会引发瞬态次优性与学习低效性,而这种适应过程的主导阶(leading-order)成本可由任务空间上的一个度量来刻画,该度量由长期的、策略诱导的相关性所定义。历史上,统计力学与机器学习之间的此类联系已被证明极具价值,为优化、泛化与表示学习提供了深刻见解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的贡献延续了这一传统,即利用非平衡热力学来形式化强化学习中的课程学习与任务插值。
2.2 最大熵强化学习
![]()
重要的是,该目标在轨迹上诱导了一个玻尔兹曼分布:最优策略为具有较大累积奖励的轨迹分配更高的概率 (Levine, 2018)。因此,来自统计力学的许多高级概念,如自由能、温度和涨落,在MaxEnt RL中允许存在直接的类比。该表述构成了现代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理论框架(如线性可解MDP (Todorov, 2006) 及其扩展 (Arriojas et al., 2023))的基础。
在本研究中,MaxEnt RL在与非平衡热力学的物理图像连接中扮演两个角色:首先,它提供了轨迹上清晰的概率结构,使得闭式分析成为可能。其次,它允许将奖励参数的动态变化解释为底层分布的受控形变,使得将课程解释为"非平衡驱动协议"变得精确。
3 课程学习的热力学框架
![]()
对于这种参数化,我们将任务调度,或课程(curricula), λ ( t ) ,定义为任务空间中连接两个奖励函数的(二阶可微)路径。于是核心问题变为:应当如何选择 λ ( t ) 以最小化适应的总成本?
我们现在简要概述用于解决此问题的框架,更多细节见附录 A。在此框架中,为了形式化适应成本,我们追踪随着任务参数的变化,智能体可实现的期望累积奖励是如何变化的。沿着一个课程 λ ( t ) ,总变化可以进行精确分解:一部分贡献来自对外部奖励函数的修改,另一部分贡献源于策略本身的适应。沿着课程对这一分解进行积分,会产生一个路径依赖的“超额功”(excess work),它仅在准静态极限(quasistatic limit)下消失。将这一超额功解释为适应的累积成本,我们将其最小化作为最优课程设计的目标。重要的是,如果我们在准静态机制(quasistatic regime)下工作,使得任务参数相对于策略诱导的马尔可夫链的混合时间(mixing time)变化缓慢,那么线性响应理论适用。因此,我们可以如下近似超额功(Sivak & Crooks, 2012):
关键在于,通过上述摩擦张量来近似超额功,我们能够将“学习难度”这一抽象概念转化为可测量的几何量。这使我们能够超越启发式的奖励参数调整,转而预测智能体将在何处遇到困难,从而使学习过程更加透明。
![]()
通常情况下,这些方程无法解析求解,因此我们诉诸数值方法和简化设置以进一步洞察所得解。方程 3 的解产生的最优课程会在度量较大(对应于代价高昂的适应)的方向上减速,而在度量较小的地方加速(视觉示例见图 1)。
![]()
![]()
3.1 案例研究:线性奖励参数化
![]()
4 温度退火
![]()
![]()
我们在图2中通过实验检验了这一策略。具体而言,我们将MEW应用于高维的Humanoid-v5 MuJoCo任务(Todorov et al., 2012)。根据图2,我们可以看到MEW在该任务中优于Haarnoja等人(2018b)的标准方法。通过检查两种方法的温度调度,我们可以看到标准协议(来自Haarnoja等人(2018b))最初会快速降低温度,导致产生一个近乎确定性的策略,而随着温度随后升高,该策略必须进行调整。另一方面,我们的调度是单调的,并且在每一步都根据适应的相对成本进行调整,从而允许策略系统地适应摩擦的固定增量。我们的方法产生的协议在多次运行间也具有显著更高的一致性,如图2中的阴影区域所示(实验细节和更多结果见附录B)。
![]()
5 讨论
在本研究中,我们引入了一种基于超额功最小化的课程学习几何框架,为任务空间赋予了一种伪黎曼结构,从而定义并指导最优课程。在此过程中,我们验证了我们的假设:最优奖励参数调度方案最小化了源于摩擦张量的路径依赖超额成本,并遵循诱导任务空间中的测地线。所得框架可直接适用于深度强化学习设置,如图2所示的一维温度退火实验所证实(另见附录B)。在此,我们发现标准的降温方法通过我们框架推导出的冷却调度得到了显著改善。更广泛地说,这些结果表明,强化学习中的某些经验不稳定性可能不仅应被理解为算法失败,而是作为在弯曲且动态演变的参数流形上过于激进地驱动高维非平衡系统所导致的后果。
5.1 未来工作
本研究引出了几个研究方向。在理论方面,阐明与标准遗憾(regret)定义的联系,并进一步利用诱导的几何结构(例如用于学习自适应特征或理解度量退化的作用),将扩展此处开发的工具。在算法方面,开发深度强化学习中摩擦张量的可扩展估计器仍是一项重要挑战。最后,在大规模持续学习与终身学习基准上进行实证验证,对于评估所提框架的预测能力至关重要。
原文链接: https://arxiv.org/pdf/2603.12324
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.