网易首页 > 网易号 > 正文 申请入驻

强化学习课程的热力学

0
分享至

Thermodynamics of Reinforcement Learning Curricula

强化学习课程的热力学

https://arxiv.org/pdf/2603.12324



摘要

统计力学与机器学习之间的联系已被反复证明是富有成效的,为优化、泛化与表示学习提供了深刻见解。在本研究中,我们延续这一传统,利用非平衡热力学的成果来形式化强化学习(RL)中的课程学习。具体而言,我们提出了一种用于RL的几何框架,将奖励参数解释为任务流形上的坐标。我们表明,通过最小化超额热力学功,最优课程对应于该任务空间中的测地线。作为该框架的一个应用,我们提供了一种算法“MEW”(最小超额功),用于推导最大熵RL中温度退火的有理论依据的调度方案。

1 引言

现代强化学习(RL)系统很少在单一、静态的任务上进行训练。相反,通过课程学习、温度退火、奖励塑形以及其他非平稳目标,智能体通常会接触一系列相关任务。然而,关于任务应如何变化的指导原则仍然缺乏深入理解。一种简单实用的方法是随时间对任务(即奖励函数)参数进行线性插值。这种选择隐含地假设了任务空间是平坦且各向同性的。在本研究中,我们假设这一假设是错误的,并旨在证明由智能体及其学习动力学所诱导出的非平凡几何结构的存在。具体而言,我们采用一种基于统计力学的方法来研究参数化奖励函数空间,揭示出一种自然度量,该度量量化了适应新任务所涉及的难度或“摩擦”。更具体地说,我们引入了一个摩擦张量,该张量在非平衡统计力学(NESM)中量化了控制系统所需的代价,使得最优参数协议对应于由该摩擦张量所诱导的几何空间中的测地线。通过将RL映射到该框架上,我们获得了一个关于课程最优性的有理论依据的假设,且该假设在实验上易于处理:最优奖励参数调度方案最小化了来自摩擦张量的路径依赖超额成本,并遵循诱导任务空间中的测地线。这一几何图景有望统一RL中的几种现象,例如基于势函数的奖励塑形、模拟退火以及特征坍塌。在本研究中,我们专注于线性奖励函数参数化,并推导出一维任务调度的闭式表达式,从而提出了一种可直接应用于深度RL的熵温度退火新方法。

2 背景

2.1 统计力学

在非平衡物理系统的控制中,出现了与强化学习(RL)中“课程”类似的概念。在统计力学框架下,系统动力学依赖于随时间变化的外部控制参数(例如温度、耦合强度、场强、势阱位置等)。当这些参数的变化无限缓慢时(即在课程步骤之间允许策略完全收敛),系统保持在近平衡状态,且此变化所需的外部功仅取决于端点。然而,当参数以有限速率变化时,系统保持在非平衡状态,并产生额外的、路径依赖的耗散,该耗散被量化为“超额功”(Jarzynski, 2008)。线性响应理论的一个核心结果表明,该超额功可关于参数变化速率进行二次近似(Sivak & Crooks, 2012)。该框架已在一系列经典与量子控制问题的建模中得到成功应用。

在本研究中,我们证明RL中的任务插值具有类似的几何结构:奖励参数的变化会引发瞬态次优性与学习低效性,而这种适应过程的主导阶(leading-order)成本可由任务空间上的一个度量来刻画,该度量由长期的、策略诱导的相关性所定义。历史上,统计力学与机器学习之间的此类联系已被证明极具价值,为优化、泛化与表示学习提供了深刻见解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的贡献延续了这一传统,即利用非平衡热力学来形式化强化学习中的课程学习与任务插值。

2.2 最大熵强化学习


重要的是,该目标在轨迹上诱导了一个玻尔兹曼分布:最优策略为具有较大累积奖励的轨迹分配更高的概率 (Levine, 2018)。因此,来自统计力学的许多高级概念,如自由能、温度和涨落,在MaxEnt RL中允许存在直接的类比。该表述构成了现代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理论框架(如线性可解MDP (Todorov, 2006) 及其扩展 (Arriojas et al., 2023))的基础。

在本研究中,MaxEnt RL在与非平衡热力学的物理图像连接中扮演两个角色:首先,它提供了轨迹上清晰的概率结构,使得闭式分析成为可能。其次,它允许将奖励参数的动态变化解释为底层分布的受控形变,使得将课程解释为"非平衡驱动协议"变得精确。

3 课程学习的热力学框架


对于这种参数化,我们将任务调度,或课程(curricula), λ ( t ) ,定义为任务空间中连接两个奖励函数的(二阶可微)路径。于是核心问题变为:应当如何选择 λ ( t ) 以最小化适应的总成本?

我们现在简要概述用于解决此问题的框架,更多细节见附录 A。在此框架中,为了形式化适应成本,我们追踪随着任务参数的变化,智能体可实现的期望累积奖励是如何变化的。沿着一个课程 λ ( t ) ,总变化可以进行精确分解:一部分贡献来自对外部奖励函数的修改,另一部分贡献源于策略本身的适应。沿着课程对这一分解进行积分,会产生一个路径依赖的“超额功”(excess work),它仅在准静态极限(quasistatic limit)下消失。将这一超额功解释为适应的累积成本,我们将其最小化作为最优课程设计的目标。重要的是,如果我们在准静态机制(quasistatic regime)下工作,使得任务参数相对于策略诱导的马尔可夫链的混合时间(mixing time)变化缓慢,那么线性响应理论适用。因此,我们可以如下近似超额功(Sivak & Crooks, 2012):

关键在于,通过上述摩擦张量来近似超额功,我们能够将“学习难度”这一抽象概念转化为可测量的几何量。这使我们能够超越启发式的奖励参数调整,转而预测智能体将在何处遇到困难,从而使学习过程更加透明。


通常情况下,这些方程无法解析求解,因此我们诉诸数值方法和简化设置以进一步洞察所得解。方程 3 的解产生的最优课程会在度量较大(对应于代价高昂的适应)的方向上减速,而在度量较小的地方加速(视觉示例见图 1)。



3.1 案例研究:线性奖励参数化


4 温度退火



我们在图2中通过实验检验了这一策略。具体而言,我们将MEW应用于高维的Humanoid-v5 MuJoCo任务(Todorov et al., 2012)。根据图2,我们可以看到MEW在该任务中优于Haarnoja等人(2018b)的标准方法。通过检查两种方法的温度调度,我们可以看到标准协议(来自Haarnoja等人(2018b))最初会快速降低温度,导致产生一个近乎确定性的策略,而随着温度随后升高,该策略必须进行调整。另一方面,我们的调度是单调的,并且在每一步都根据适应的相对成本进行调整,从而允许策略系统地适应摩擦的固定增量。我们的方法产生的协议在多次运行间也具有显著更高的一致性,如图2中的阴影区域所示(实验细节和更多结果见附录B)。


5 讨论

在本研究中,我们引入了一种基于超额功最小化的课程学习几何框架,为任务空间赋予了一种伪黎曼结构,从而定义并指导最优课程。在此过程中,我们验证了我们的假设:最优奖励参数调度方案最小化了源于摩擦张量的路径依赖超额成本,并遵循诱导任务空间中的测地线。所得框架可直接适用于深度强化学习设置,如图2所示的一维温度退火实验所证实(另见附录B)。在此,我们发现标准的降温方法通过我们框架推导出的冷却调度得到了显著改善。更广泛地说,这些结果表明,强化学习中的某些经验不稳定性可能不仅应被理解为算法失败,而是作为在弯曲且动态演变的参数流形上过于激进地驱动高维非平衡系统所导致的后果。

5.1 未来工作

本研究引出了几个研究方向。在理论方面,阐明与标准遗憾(regret)定义的联系,并进一步利用诱导的几何结构(例如用于学习自适应特征或理解度量退化的作用),将扩展此处开发的工具。在算法方面,开发深度强化学习中摩擦张量的可扩展估计器仍是一项重要挑战。最后,在大规模持续学习与终身学习基准上进行实证验证,对于评估所提框架的预测能力至关重要。

原文链接: https://arxiv.org/pdf/2603.12324

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026斯诺克世锦赛:中国选手占1/3,转播权怎么分?

2026斯诺克世锦赛:中国选手占1/3,转播权怎么分?

竞技风云录
2026-04-20 20:01:20
震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

火山詩话
2026-04-21 10:13:36
女子21万全款购车后发现该车为“展车”,4S店称“工作失误” 当地市监部门已介入

女子21万全款购车后发现该车为“展车”,4S店称“工作失误” 当地市监部门已介入

红星新闻
2026-04-21 14:51:54
霍尔木兹海峡出入口已被伊朗封锁!停火协议到期不足11小时,特朗普:不想延长,没那么多时间了;伊朗:已为战事重燃做好准备

霍尔木兹海峡出入口已被伊朗封锁!停火协议到期不足11小时,特朗普:不想延长,没那么多时间了;伊朗:已为战事重燃做好准备

每日经济新闻
2026-04-21 21:28:11
年仅39岁!蓝天救援队员陈延寿搜救时遇难

年仅39岁!蓝天救援队员陈延寿搜救时遇难

新民晚报
2026-04-21 15:00:21
注意!6月1日起大医院不再随意接诊,看病不按规矩可能白跑

注意!6月1日起大医院不再随意接诊,看病不按规矩可能白跑

夜深爱杂谈
2026-04-21 07:45:20
库明加登老鹰海报扎心科尔!美媒曝主帅信任差距大:还晒分数对比

库明加登老鹰海报扎心科尔!美媒曝主帅信任差距大:还晒分数对比

颜小白的篮球梦
2026-04-21 15:40:44
越来越清晰:只剩革命卫队问题还没解决,未来会被内外联合绞杀吗

越来越清晰:只剩革命卫队问题还没解决,未来会被内外联合绞杀吗

民间胡扯老哥
2026-04-21 05:45:15
连车企的名字都不敢报道,这样的新闻有什么意义

连车企的名字都不敢报道,这样的新闻有什么意义

林中木白
2026-04-21 15:51:28
美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

澎湃新闻
2026-04-21 15:36:26
105岁才能取本金“随用随取”成空话 保险公司算欺诈吗?法院判了

105岁才能取本金“随用随取”成空话 保险公司算欺诈吗?法院判了

环球网资讯
2026-04-21 15:08:47
特朗普称预计停火到期后将继续轰炸伊朗

特朗普称预计停火到期后将继续轰炸伊朗

财联社
2026-04-21 21:50:07
美国开始退钱了:涉33万企业1650亿美元,多数涉及中国

美国开始退钱了:涉33万企业1650亿美元,多数涉及中国

观察者网
2026-04-21 10:56:03
伊朗籍中国货轮!在公海被美军扣押后,不到24小时,中方表态

伊朗籍中国货轮!在公海被美军扣押后,不到24小时,中方表态

离离言几许
2026-04-20 22:15:30
柬埔寨国王在京手术,洪森携子看望:感谢中方

柬埔寨国王在京手术,洪森携子看望:感谢中方

观察者网
2026-04-21 18:34:24
电梯安装违规操作致3人坠亡,事故调查报告公布

电梯安装违规操作致3人坠亡,事故调查报告公布

极目新闻
2026-04-21 11:25:37
亏惨了!车管所正式提醒,2026 新规后只买交强加三者险行不通

亏惨了!车管所正式提醒,2026 新规后只买交强加三者险行不通

夜深爱杂谈
2026-04-21 07:42:53
苹果在印度养了9年,三哥终于下刀收割了!380亿天价罚单来了

苹果在印度养了9年,三哥终于下刀收割了!380亿天价罚单来了

阿晪美食
2026-04-21 15:56:15
绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

阿七说史
2026-04-20 15:10:26
港媒曝张曼玉“五官彻底分离”,61岁生图惹争议,俩部位面目全非

港媒曝张曼玉“五官彻底分离”,61岁生图惹争议,俩部位面目全非

冷紫葉
2026-04-20 17:12:17
2026-04-21 21:59:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1364文章数 18关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

媒体:急于摆脱对华稀土依赖 美企28亿美元在巴西抢矿

头条要闻

媒体:急于摆脱对华稀土依赖 美企28亿美元在巴西抢矿

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

本地
房产
艺术
时尚
公开课

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

房产要闻

年薪40-50万!海南地产圈还在猛招人

艺术要闻

任伯年写竹,真带劲

浪姐七年,被这位姐姐掀桌了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版