网易首页 > 网易号 > 正文 申请入驻

能量模型的最小耗散学习

0
分享至

Minimal-Dissipation Learning for Energy-Based Models

能量模型的最小耗散学习

https://arxiv.org/pdf/2510.03137v1

论文《Minimal-Dissipation Learning for Energy-Based Models》提出了一种新的学习范式,将持久链能量基模型(EBM)的训练过程与热力学联系起来,目标是以最小的能量耗散(excess work)来训练模型

本文重点概述如下:

  • 理论联系:论文建立了持久链 EBM 近似最大似然估计(MLE)目标的偏差与过阻尼朗之万动力学系统的热力学过量功(能量耗散)之间的精确联系。
  • 最小耗散学习(MDL):研究探讨了在有限时间内以最小过量功(即最小能量耗散)训练 EBM 的可能性,并将这种最小化能量耗散的学习过程称为“最小耗散学习”。
  • 理论可行性:研究发现,具有恒定方差的高斯能量函数可以通过仅控制学习率来实现最小过量功训练。这证明了在有限时间内以最小耗散训练持久链 EBM 是可能的,并为计算所需的能量提供了一个下限。
  • 推广与应用:论文将这种最佳学习率排程推广到一般势能(general potentials),并发现它在 MLE 目标上引入了一种自然梯度流(natural gradient flow),这是一种已知的二阶优化方法。
  • 灵感来源:这项技术借鉴了统计物理学和热力学的原理,将其应用于机器学习领域,特别是生成模型。

总结来说,该论文的核心贡献在于从热力学角度重新审视 EBM 的训练过程,提出了一种潜在更高效、能量利用率更高的学习方法。


我们证明:持久链能量模型(energy-based model, EBM)的近似最大似然估计(maximum-likelihood estimation, MLE)目标函数所具有的偏差,恰好等于一个过阻尼朗之万(overdamped Langevin)动力系统的热力学过剩功(excess work)。进而,我们探讨了此类模型能否在有限时间内以最小过剩功(即最小能量耗散)完成训练的问题。我们发现:对于固定方差的高斯能量函数,仅通过调控学习率(learning rate)即可实现最小过剩功的训练。这表明:在有限时间内以最小耗散训练持久链EBM是可行的;同时,该结果也给出了此类计算所需能量的一个下限。我们将这种使过剩功最小化的学习过程称为最小耗散学习(minimal-dissipation learning)。随后,我们将最优学习率调度方案推广至一般势函数(general potentials)的情形,并发现该推广自然导出了MLE目标函数上的自然梯度流(natural gradient flow)——一种广为人知的二阶优化方法。

I. 引言

机器学习中的诸多成功技术往往借鉴了统计物理与热力学的思想。早期的例子包括霍普菲尔德网络(Hopfield network)[1] 和玻尔兹曼机(Boltzmann machine)[2–4],二者均属于一类更广泛的模型——能量模型(energy-based models, EBM)[5]。近期另一个体现机器学习对统计物理模仿的实例是去噪扩散概率模型(denoising diffusion probabilistic models, DDPM)[6–8],其灵感源自贾尔津斯基等式(Jarzynski equality)[9–11],并已成为图像生成建模领域的主流方法。

除提供启发之外,这些与统计物理的类比还促使人们计算与机器学习算法相关的热力学量(如熵产生),进而对计算所需的能量加以约束——正如数字计算中兰道尔原理(Landauer’s principle)[12] 所确立的那样。

为达到热力学所设定的计算能效极限,似乎有必要摒弃传统的数字冯·诺依曼架构,转而考虑非常规计算系统。近期已有若干研究[13, 14]提出,模拟(analog)计算机在运行EBM与DDPM时,其能效可比传统数字硬件高出数个数量级。真正的模拟随机过程(即非单纯模拟所得的过程)能够高效执行那些在数字计算中代价高昂的蒙特卡洛算法。利用系统内在的随机性来实现朗之万蒙特卡洛(Langevin Monte Carlo)算法的方法,被称为“热力学计算”(thermodynamic computing)[15, 16];这一范式引发了如下问题:运行此类机器学习算法所需的理论最小能量究竟是多少?

本文中,我们针对一类特定的生成模型,推导出其训练过程所需能量的下界:

持久链能量模型(persistent chain EBMs)[17, 18]。这类模型是通向去噪扩散概率模型(DDPM)发展的重要阶梯:其以卷积神经网络(convolutional neural networks)[19]作为能量函数,并借助朗之万蒙特卡洛(Langevin Monte Carlo)技术来估计训练目标。术语“持久链”特指训练过程中使用重放缓冲区(replay buffer),其中存储并持续更新蒙特卡洛样本。与其它EBM训练方法[2–4, 20–22]相比,这一关键差异使持久链EBM成为唯一具有收敛性的EBM[18]——即该模型所生成的样本服从由其能量函数所定义的吉布斯分布(Gibbs distribution)。

本文的第一项贡献在于:我们将持久链EBM[18]的训练过程与随机热力学(stochastic thermodynamics)[23–26]建立联系,并以一个实验上可实现的谐波势阱(harmonic trap)[27]作为引导性示例。近年来,已有若干重要洞见——无论是用于理解现有机器学习算法[22],抑或开发新算法[28–30]——均源自与随机热力学的类比。在本工作中,我们针对持久链EBM作出如下理想化假设:(i) 学习参数更新与蒙特卡洛样本更新在时间上均为连续;(ii) 样本平均是精确的(即无有限样本偏差)。我们的目标是揭示EBM学习动力学的一般规律。对于本文所呈现的每一个一般性结论,我们都以谐波势阱作为具体实例加以阐释,并将随机热力学中若干精确结果[27, 31]推广至EBM框架。

第二项贡献在于:我们识别出最大似然估计(MLE)训练目标中的偏差(bias)与热力学过剩功(excess work)之间的等价关系。该偏差源于使用蒙特卡洛算法对MLE目标进行近似估算;而我们将此偏差与过剩功之间的关联性,对于任意能量函数的持久链EBM均成立。因此,最小化该偏差等价于最小化过剩功——后者本身正是随机热力学中广受关注的核心目标之一[32]。

第三项贡献在于:我们构建了一个通过学习率调度来最小化过剩功的通用框架。虽然针对谐波势阱的最优控制协议(即最小化过剩功的模型参数时间参数化方案)已是已知结论[27, 31],但我们首次推导出适用于EBM训练中MLE梯度流的学习率调度方案,使得参数演化精确遵循这些最优热力学协议。我们将此类学习率调度称为最小耗散学习(minimal-dissipation learning)。参照文献[31, 33],我们进一步将谐波势阱情形下的最优调度推广至一般情形,并发现:这些最优调度自然诱导出MLE目标函数上的自然梯度流(natural gradient flow)——一种著名的二阶优化方法[34]。这为随机热力学与信息几何(information geometry)[33]之间建立起一种新的理论联系。

需特别指出:本文所使用的“过剩功”与“效率”等术语,对应于理想计算机(例如前述模拟硬件的理想化版本)在计算能效与功耗方面的理论下界。这些能量消耗的理论下界类似于数字计算机中的兰道尔极限[12],更确切地说,类似于有限时间控制协议的能量下界[35]。因此,本文提出的最优协议并不预期适用于数字计算机——后者仅通过离散化模拟朗之万系统;在此情形下,还需考虑额外计算开销;另一方面,由于模拟过程掌握系统的完整热力学信息,理论上甚至可将过剩功降至零[36]。尽管如此,我们的结果对数字计算仍具参考价值:所导出的学习轨迹在参数空间中构成自然梯度流,而已知在最大似然任务中,自然梯度流具有渐近Fisher有效性(asymptotically Fisher efficient)[37];因此,其可为设计更高效的EBM训练技术提供理论指导。

本文结构如下:
第II节回顾持久链EBM理论,并阐明随机热力学中的谐波势阱可被视作此类模型的一个特例;
第III节证明:用于训练持久链EBM的近似MLE目标所引入的偏差,可被严格等同于EBM训练过程的过剩功;进而,我们推导出最小化过剩功的学习率调度方案——分别涵盖参数演化在训练始末连续允许跃变两种情形;
第IV节将谐波势阱情形下得到的最优学习率调度予以推广,并严格证明其诱导自然梯度流。

II. 基于能量的模型



A. 马尔可夫链蒙特卡洛方法



这种方法对于一些实际应用来说是可行的,但由于需要长时间的演化(对应于长的MCMC链)来有效近似公式(7),因此在计算上极其昂贵。

减少从EBM采样所需的计算量的一种方法是运行非常短的MCMC链,并定期从先验分布或数据集的分布中重新初始化样本[17, 20, 21]。然而,已经证明[18],从这些模型中获得的样本在大量MCMC迭代的极限下不会收敛到数据分布,因此不是数据的真实EBM。实际上,模型 ,即朗之万动力学的平衡分布,与数据分布不匹配,即 。

因此,本文的重点在于持久链EBM[18],其中样本分布仅在训练开始时初始化一次,存储在重放缓冲区中,并在整个训练过程中更新。更具体地说,我们研究由公式(7)和(9)定义的动态。简单来说,由于公式(9)给出的MLE更新,能量模型回归到数据,而MCMC样本由于公式(7)给出的朗之万动力学而放松到模型分布。我们研究EBM的连续时间动态,在这种动态中,模型和样本是连续更新的,与离散时间动态形成对比,在离散时间动态中,模型和样本是依次更新的。然而,训练过程在时结束。请注意,这并不严格要求,正如我们在最小耗散学习的情况下下面所展示的。

B. 谐振子作为基于能量的模型

在这里,我们展示了一个一维的、过阻尼的朗之万系统,耦合到一个时间相关的谐振子,可以被视为一个持久链EBM。谐振子是随机热力学中常用的、可实验实现的例子[27],我们将在我们的分析中多次重新审视。谐振子的能量函数是二次的,我们将其表示为:





III. 最小耗散学习

由式(8)给出的对真实MLE梯度(式(5))的近似,其偏差源于样本分布演化历史的影响。该偏差可通过延长过程总时间予以缓解;然而,这种做法在实践中并不可取——例如,增加MCMC过程的步数将不可避免地带来额外的计算开销。

我们将该偏差定义为:


右侧第一项可被识别为一个随机动热力学系统所输出的 平均功率 ,该系统由文献[39]定义如下:




A. 最小化谐振子的能量耗散



  1. 连续协议

为了最小化过量功,我们将公式(26)的第二项视为 u 和 u˙ 的泛函,这可以通过欧拉-拉格朗日方程来最小化:


因此,当样本分布的质心 u 以恒定速度移动时,过量功被最小化:








  1. 不连续协议

在参考文献[27]中,已经证明通过允许协议 在其端点处不连续,可以比其类似连续协议的情况下进一步最小化过量功。




如果谐振子在平衡状态下初始化,并使用不连续协议进行训练,那么事先知道 的值并不是必需的。这表明,可以使用持久链EBM以最小的过量功学习未知的目标分布。

  1. 准静态协议




IV. 一般势函数下的学习率

本节中,我们将式(30)所给出的学习率调度方案推广至一般能量函数的情形;而对不连续协议(即式(34))的推广,留待未来研究。

等温过程中产生的过剩功,可按过程总时间作微扰展开计算,如文献[40, 41]中所示:


由于 g g 和 ζ ζ 均为对称且正定矩阵,因此 η η 也具有对称性和正定性。

以下定理表明:若采用式(53)所给出的学习率调度方案来训练持久链EBM,则参数将按照自然梯度流(natural gradient flow)进行优化——该方法在实际应用中已被证明有效[37]。


文献[42]指出:对于 对偶平坦的统计流形 (dually flat statistical manifolds),MLE目标的自然梯度流总能在 有限时间内收敛至全局最优解 。标准的对偶平坦统计流形包括 指数族 (exponential family)与 混合族 (mixture family)[33]。谐波势阱属于指数族,即由式(1)给出、且具有如下形式能量函数的玻尔兹曼分布集合:


其中 C C 和 F F 为任意函数。

此外,文献[42]还表明:对于对偶平坦流形,式(54)所描述的轨迹是关于费舍尔度量(Fisher metric)的陈氏-阿马里联络(Chentsov–Amari connection)下的测地线。这意味着,若要使式(54)的轨迹最小化过剩功,则它们也必须是关于热力学度量 ζ ζ 的列维-奇维塔联络(Levi–Civita connection)下的测地线。在接下来的章节中,我们将展示在谐波势阱的情形下,这两类测地线如何重合。

A. 谐波势阱的慢驱动协议





该式比式(28)更具一般性。事实上,由于式(63)并不满足式(27)的条件,因此在慢驱动近似(slow driving approximation)下,它并不能最小化总熵产生。然而,由于该协议从平衡态初始化,且不依赖于真实参数 的先验知识,因此可以认为是被真正“学习”到的。

图5展示了基于慢驱动协议式(63)的谐波势阱训练过程。值得注意的是,样本分布(以蓝色脊线图表示)的演化路径并非直线,而模型参数(以红色曲线标示)的轨迹则是直线。

对于慢驱动协议式(53),可利用式(24)计算其过剩功,结果为:



右侧第一项对应于式(29)中所述的连续协议(即最小熵产生协议)所产生的过剩功;第二项严格为负,因此会减小总过剩功。这意味着:慢驱动协议(slow driving protocol),至少在谐波势阱的情形下,始终比连续协议产生更少的过剩功

将式(64)与式(32)左右两侧分别取比值,可得:


对于 0 < μ τ < ∞,该比值恒大于1。因此,慢驱动协议所产生的过剩功 总是大于不连续(即最优)协议所产生的过剩功。图6展示了在所选参数下,每种协议对应的累积过剩功随时间变化的曲线图。


V. 讨论
通过随机热力学的视角审视持久链EBM[18],我们发现:MLE目标函数的偏差精确等于热力学中的过剩功。该过剩功(从而偏差)已知可由准静态过程(即样本分布始终接近平衡态的过程)实现最小化;然而,仅当时间趋于无穷时,过剩功才严格为零。对于此类过程的离散模拟而言,该极限对应于执行极大量的MCMC迭代步数,这在计算上是不现实的。

由此引出一个核心问题:是否有可能在有限时间内训练一个EBM,使其产生最小的过剩功?此外,为严格尊重MLE目标,我们假设唯一可调参数仅为学习率。我们证明:对于谐波势阱EBM,却可在有限时间内以最小过剩功完成训练。

进一步发现:若模型参数的演化协议要求全程连续,则无法真正学习到目标分布——因为这需要依赖于目标分布本身的精确初始条件;然而,若允许模型参数协议在初始与终了时刻存在不连续性(如文献[27]所述),且样本分布从平衡态初始化,则目标分布便可被成功学习。

此外,我们还将谐波势阱情形下的最小耗散学习率调度推广至一般能量势函数的情形。该推广基于文献[31]提出的热力学度量;尽管它确能在谐波势阱中最小化过剩功,但我们尚未确定其在更广泛分布类别中实现最小耗散的适用范围。一个引人注目的结果是:该调度方案自然诱导出MLE目标函数上的自然梯度流——一种广为人知的二阶优化方法[34]。至于究竟哪些分布类可在该学习率调度下实现最小耗散学习,我们留待未来研究解决。

最后需强调:本文所考虑的连续时间朗之万动力系统对应于理想化的热力学系统,其所产生的过剩功构成了任何物理实现设备(用于模拟该系统)所耗散能量的理论下界。对于离散化的朗之万动力学算法,热力学过剩功还须计入额外自由度(如存储记忆)的影响——这也是我们留待未来探索的一个研究方向。

原文链接: https://arxiv.org/pdf/2510.03137v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0-3遭横扫后,没想到向鹏这样评价张本智和:心态崩了,实力差距

0-3遭横扫后,没想到向鹏这样评价张本智和:心态崩了,实力差距

十点街球体育
2026-01-10 00:00:03
美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

世家宝
2026-01-07 11:59:10
伊朗,“不是委内瑞拉”

伊朗,“不是委内瑞拉”

中国新闻周刊
2026-01-09 08:52:33
不只是台湾!日本必须归还的中国领土,远比你想象的多

不只是台湾!日本必须归还的中国领土,远比你想象的多

优趣纪史记
2026-01-09 23:14:17
摩尔线程,你在打谁的脸?

摩尔线程,你在打谁的脸?

风风顺
2025-12-13 01:00:04
贺江川落马,在北京国企圈子里,妥妥是金字塔尖的大佬。

贺江川落马,在北京国企圈子里,妥妥是金字塔尖的大佬。

百态人间
2025-12-19 16:54:12
买红妹:我那“抛妻弃子”的前夫,与潘蔚再婚后,面相都变了!

买红妹:我那“抛妻弃子”的前夫,与潘蔚再婚后,面相都变了!

瓜汁橘长Dr
2025-12-31 18:03:17
图片报:多特认为小贝林厄姆体型相对偏壮,希望他减肌

图片报:多特认为小贝林厄姆体型相对偏壮,希望他减肌

懂球帝
2026-01-09 20:05:06
张本智和连克两大国乒猛将晋级8强,激情庆祝引关注

张本智和连克两大国乒猛将晋级8强,激情庆祝引关注

刘剮说体坛
2026-01-10 00:30:24
A股:刚刚,中央权威发布,重磅信号来袭,下周一将迎来新的变化

A股:刚刚,中央权威发布,重磅信号来袭,下周一将迎来新的变化

云鹏叙事
2026-01-10 00:00:05
这把是亏了!都灵退租国米23岁中场队员,实力不济太令人失望

这把是亏了!都灵退租国米23岁中场队员,实力不济太令人失望

里芃芃体育
2026-01-10 00:35:06
这回真被打疼了!新加坡做了20年美国“好朋友”,反手就被收割?

这回真被打疼了!新加坡做了20年美国“好朋友”,反手就被收割?

知识TNT
2026-01-09 14:10:05
乐高往积木里塞了个电脑,这是半世纪以来最大的一次进化|CES 2026

乐高往积木里塞了个电脑,这是半世纪以来最大的一次进化|CES 2026

爱范儿
2026-01-08 18:06:01
王石陪田朴珺理发力破婚变传闻!5岁女儿罕见露面,侧面像极爸爸

王石陪田朴珺理发力破婚变传闻!5岁女儿罕见露面,侧面像极爸爸

古希腊掌管松饼的神
2026-01-09 20:07:30
太讽刺!庞家无偿捐4700平米祖宅,院长双谎被戳穿,省多部门介入

太讽刺!庞家无偿捐4700平米祖宅,院长双谎被戳穿,省多部门介入

好贤观史记
2025-12-23 18:14:27
小姐姐紧身连体瑜伽裤一穿,长腿优势直接拉满,辣到让人心跳

小姐姐紧身连体瑜伽裤一穿,长腿优势直接拉满,辣到让人心跳

小乔古装汉服
2025-12-19 16:23:17
中国债市供给创下天量!

中国债市供给创下天量!

边际财经实验室
2026-01-09 10:44:58
于正怕是比吃苍蝇还难受!被他弃用的两个好苗子,如今红的发烫

于正怕是比吃苍蝇还难受!被他弃用的两个好苗子,如今红的发烫

小椰的奶奶
2026-01-09 09:46:17
美军没有政委,为什么能把军队管得服服帖帖?

美军没有政委,为什么能把军队管得服服帖帖?

扶苏聊历史
2026-01-06 15:25:46
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
2026-01-10 02:08:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1138文章数 18关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

佩特罗:“特朗普对我说已在策划军事行动”

头条要闻

佩特罗:“特朗普对我说已在策划军事行动”

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

艺术
亲子
教育
房产
家居

艺术要闻

扑面而来的激情:俄罗斯画家斯拉因斯基 大笔触绘画作品!

亲子要闻

“国学驯化”从娃娃抓起?

教育要闻

普通家庭和富裕家庭留学生的最大区别!

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

家居要闻

木色留白 演绎现代自由

无障碍浏览 进入关怀版