Intrinsic motivation as constrained entropy maximization
内在动机作为约束熵最大化
https://arxiv.org/pdf/2502.02962
摘要:
“内在动机”指的是智能系统内在地受到激励的能力,即由智能体架构本身的特性而非行为与奖励之间的学习关联所驱动。本文将主动推理、授权以及其他形式的内在动机视为约束最大熵推理的不同变体,提供了一种与现有框架互补的内在动机的一般性视角。进一步探讨了先前文献中注意到的自由能与授权之间的联系,并认为最大占用方法实际上包含了一个隐含的模型-证据约束。
关键词:内在动机;主动推理;授权;熵
1. 引言
在心理学中,“内在动机”指的是智能生物即使在没有特定的外部奖励信号的情况下,也会被激励去做某些事情(如探索、学习和成长)的倾向[1]。这种范式在机器学习中越来越受到关注,其中它被操作化为这样一种观点:行动策略可以根据智能体和智能体-环境互动的结构特征进行优化,而不是基于传统方法如强化学习,后者是基于临时的奖励函数来优化策略。
基于授权的内在动机的早期且日益有影响力的正式解释是,定义为连接智能体行动(执行器状态)与感官反馈(观察)的通道的能力[2,3]。对这一目标的一种解释是,授权的智能体“保持选择的开放性”,因为广泛的行动条件通道容量意味着智能体能够实现多种状态(观察是这些状态的代理)。
主动推理框架[4]有着类似的动机,并提供了一种贝叶斯方法,将一种普遍形式的内在动机(即好奇心或“认知驱动”)[5]与智能体特定的状态或结果的先验分布结合起来[6],这些分布模拟了稳态设定点,可以像明确的奖励一样发挥作用。正如下面讨论的,预期(变分)自由能(EFE)通过提供给定观察的策略的经验先验来指导这一框架中的策略选择。
最近,最大路径占用目标被提出作为内在动机的框架[7]。在这种观点下,智能体被激励去最大化未来行动-状态路径的占用,这可以通过行动分布的熵和随之而来的状态分布的熵来衡量,给定一个初始状态。这种更为激进的观点明确颠覆了可能自然的假设,即探索和好奇心的驱动力已经进化成为实现奖励的手段,实际上将奖励状态视为工具性价值,以促进未来的探索,即避免几乎没有或没有行动变化性(例如死亡)的吸收状态。
在机器学习的文献中,还有许多其他关于内在动机的正式处理方法,其中一些与刚刚讨论的密切相关,如人工好奇心的开创性工作(参见例如[8,9])和以贝叶斯惊讶为依据的处理方法[10,11]。在这里,主要关注的是主动推理和授权之间的关系,以及两者与最近被明确提出作为替代方案的最大占用之间的关系。
虽然[12]对这三个内在动机框架在玩具问题上的比较实证研究进行了研究,[13]考虑了主动推理可能如何与更广泛的内在动机方案正式相关,但关于这些框架之间的正式和概念关系的比较工作还相对较少。在这里,我强调这三种都可以被理解为约束熵最大化的变化,这是一个与自由能原理和主动推理有着深厚联系的原则[14]。我通过将授权目标本身明确地表述为一种变分推理的形式,来探索授权和主动推理之间的联系[15]。我还认为,占用最大化智能体表现出明显的目标导向行为的能力取决于在将整个系统分解为行动和状态时隐含的“生存本能”或模型-证据约束。这些考虑将局部约束下的熵最大化框架为智能和代理的核心,这一过程的特定方面,如授权、感知、好奇心和“生存意志”作为推论。
下面的第一部分详细地解开了上述三种内在动机框架(授权、主动推理和最大占用),无论是形式上还是概念上的动机,并阐述了它们与约束熵最大化的联系。第二部分仔细研究了这些理论之间的一些联系,然后提炼出一些一般性的结论。
2 内在动机的三种形式化解释
2.1. 赋权
直观来说,这个表达式衡量了实际联合分布与两个变量独立时的分布之间的差异,即这些变量相互携带了多少信息。尽管这一度量是对称的(即对 X 和 Y 来说是一样的),但它可以用条件概率从两个方向进行分解。由于联合密度可以分解为先验概率和条件密度,即 (P(X,Y) = P(X)P(Y|X) = P(Y)P(X|Y)),互信息也可以表示为条件密度 (P(Y|X)\) 到 (Y) 的边缘分布的期望 KL 散度。
给定一个固定的 (P(Y|X))(信道),信道容量C P(Y|X) 就是在可以选择 (P(X) 的情况下,互信息可以取到的最大值。
赋权目标正是这个信道容量,对应于连接从时间步 (t) 到 (T) 的行动与在时间步 (T) 的观察之间的信道。
直观上,互信息项(即在行动分布下预期的信息增益)衡量了结果的可控性(行动选择对这些结果的影响)以及可实现结果的多样性(即“保留多种选择”)[2]。这种可控性和多样性的结合是约束熵最大化的特征,这是许多内在动机框架中的一个常见主题[7, 16, 17],并且与 Ashby 的“必需多样性定律”[18]有关。
通过考虑互信息与熵的关系,可以更明确地表达赋权的“多样性”方面。任何互信息 I(X;Y)都可以用熵的几种方式来表示:
因此,赋能可以被视为在确保行为与观察结果可靠相关(即“理性”)的同时,最大化行为分布的熵 H[P(A)],即最小化 H[P(A|O)]。同时,它也可以被看作是在确保观察结果可控的情况下最大化观察结果的多样性,即最小化 H[P(O|A)]。
这一目标可以被看作是一个引导模型进化或选择的信号,正如在刚刚引用的工作中所提到的那样(即选择一个关于行为和结果的生成模型 (P(A)P(O|A)。在给定一个固定模型的情况下,智能体也可以选择策略(行为),以便通过寻找整体系统状态空间中(这里隐含地用观察结果表示外部状态)信道容量最高的位置来最大化时间依赖的赋能 ,因为 隐含地依赖于从 t 到 T 的状态。
在进一步考虑内在动机的其他处理方式之前,我们注意到在 [16] 中表明(在连续状态空间的背景下),通过改变行为和观察序列的长度以及行为与目标观察之间的时间间隔,对上述赋能目标进行推广,可以重新获得动态系统中各种现存的控制描述。对于当前目的而言,重要的是,一个仅在第一步采取行为的推广赋能目标对应于因果熵驱动的“踢动”(受控)版本 [17],这是一个更一般的框架,它用熵最大化来建模智能行为。
2.2 主动推理与期望自由能
在内在动机的研究方法中,基于贝叶斯推断的方法是最有前景的方法之一。过去十年左右的认知(神经)科学进展,使得贝叶斯推断这一概念在解释智能行为方面逐渐占据重要地位。这一范式涵盖了从具体的神经信息处理模型(如预测编码,它被用来解释感知推断)到更抽象和一般性的框架,其中最突出的是自由能原理。自由能原理是一种基于变分贝叶斯推断的自组织理论,而主动推理则从假设智能体选择未来期望最小化变分自由能的行为这一假设出发,推导出一种行为(即规划或策略选择)方案。
受主动推理控制的智能体实施了一种特定形式的规划即推理,从期望的结果(在这种情况下被视为为先验生成模型提供证据的观察结果)“反向推理”到最有可能实现这些结果的策略。简言之,这涉及到推断一个(变分)后验策略分布 ,其中每个策略的概率与其对应的模型证据成正比。然后,根据策略的贝叶斯模型平均,每个策略都涉及不同的行为条件状态转移概率,在每个时间步采样行为。
在主动推理框架中,驱动策略选择的核心量是期望自由能(EFE,方程中用 G表示),这是智能体根据其生成模型选择策略(行为序列)时预期产生的累积变分自由能。生成模型包括一个与状态无关的结果(观察 o)分布 P(o),这是智能体“偏好”看到的结果,可以被视为观察结果的边际似然,并模拟了内稳态系统为持续存在而必须保持在其中的特征吸引集。这可以被视为一种内在动机,因为它是“内置”在智能体中的,而不是通过学习获得的,尽管在实践中(即在计算模型中),它类似于一个临时奖励函数。然而,至关重要的是,EFE还实现了模型无关的归纳偏差,即行为将最小化未来的变分自由能,从而服务于更一般形式的内在动机。
2.3 最大占用原则
最大占用原则(Maximum Occupancy Principle,MOP)[7]将内在动机的主题推导至其逻辑终点,提出应该颠覆传统的理性主体观念——在这种观念中,好奇心和其他内在驱动力是为了服务于奖励最大化而进化的。相反,我们可以将奖励状态视为实现持续生存这一目标的手段,即为了探索(从而最大化占用)行为-状态路径空间。
从形式上讲,占用目标是通过状态条件策略分布 和转移动态 P(S'|S, A) 定义的,这些可以交替采样以生成行为-状态路径 t。然后,给定轨迹的奖励函数 被指定为:
在文献 [12] 中,通过实证研究展示了 MOP 智能体在积极探索状态和行为空间的同时,仍然表现出明显的目标导向行为。前者或许是可以预期的,鉴于其纯粹基于内在动机、最大化意外性的奖励函数,智能体会直接寻求那些导致不太可能的状态的不太可能的行为。可以推测,尽管缺乏明确的任务、奖励甚至偏好分布,MOP 智能体能够表现出目标导向行为的原因在于最大化长期路径占用的必要性,这平衡了在每个时间步贪婪最大化熵的倾向。这种为了长期增加熵而对短期熵最大化施加的隐含约束,让人联想到文献 [34] 中的论点,即复杂生命形式所具有的结构化、相对低熵的状态因其能够加速在整个宇宙中自由能的耗散而受到青睐。
3. 内在动机的统一视角
本节首先分析主动推理与赋能之间的关系,然后从最大占用的视角审视这两种方法。最后,讨论这些框架中的一些共同主题,并通过一种多尺度或无尺度的视角来综合这些观点,从而解决一些明显的二分法问题。
3.1 赋能与主动推理
最大化赋能目标与最小化期望自由能密切相关。最直接地,在没有约束(期望效用项)的情况下,上述描述的期望自由能简化为负信息增益,因此最小化期望自由能可以最大化状态与观察之间的互信息。
虽然最初的赋能目标隐含了隐藏状态对行为-感知通道 的调节,但主动推理目标只是将这一点明确化:在选择行为时,智能体实际上选择了可控状态的转移动态(在典型实现中,离散行为索引转移张量的切片),从而使这些状态对观察具有信息价值。因此,状态实际上是(概率性地)被选择以最大化行为与观察之间的互信息,这与赋能目标一致。
在文献(附录)中声称,“赋能是主动推理的一个特例,当我们可以忽略风险(即所有策略同等风险)时”。在这里,风险是以下期望自由能的另一种分解中出现的一个术语(见附录A的推导):
直观上,风险仅仅是期望负奖励的度量,在这种情况下,即预测结果与先验期望(即偏好)的结果有多不同。给定策略下状态到观察结果的似然映射的熵(“模糊性”)量化了如果追求该策略,智能体对结果的不确定性程度。因此,最小化期望自由能鼓励智能体选择使结果可预测的策略(行为),同时满足风险最小化的约束。
我们可以通过将文献 [2] 中描述的赋能目标视为变分推断过程的一部分来展开类似的论证。用主动推理中使用的符号表示,目标是最大化 ,其中是一系列控制状态 。这个目标可以用后验观察和策略分布的熵来表示,也可以表示为 KL 散度:
有趣的是,定义一个条件“能量”项为在给定策略的情况下,时间T处观察结果的负对数概率,那么互信息用熵表示的表达式可以通过改变符号并重新排列项,写成类似于自由能 的形式。
最大化 等价于最小化这个能量。第二行缺乏一个标准的(变分)自由能的形式,因为“能量”项仅仅是变分密度 的熵,而不是联合概率(生成模型)P(o, s)。然而,考虑到 可以分解为多个项,其中一些是生成模型的分布,我们得到了倒数第二行的表达式,它类似于一个带有额外熵项需要最小化的赫姆霍兹自由能:在这个目标下,智能体会寻求低能量(可预测的)观察结果,同时最大化策略的熵(“保留选择”),并且寻求最小化最终状态熵的策略,即寻找能够导致可控状态的路径。
最后(最后一行),的期望能量(在生成模型下的负对数概率)等同于上述期望自由能中的模糊性项(针对轨迹中的最终观察结果),而两个熵项可以合并为一个状态信息增益项。因此,仅从赋能目标(忽略额外的“偏好”约束)出发,我们可以推导出对认知价值(最小化模糊性)和控制(最大化状态信息增益)的双重驱动力。
主动推理智能体因此被“赋能”,它们在约束条件下最大化未来状态分布的熵,这些约束条件是这些状态或由此产生的观察结果必须是可控的。至关重要的是,在主动推理中,智能体还被约束最大化模型证据(或其可处理的下界,变分自由能)。事实上,后者(近似最大化模型证据)是自由能原理(FEP)和主动推理中的核心概念,其中(受约束的)熵最大化是从变分自由能最小化中推导出来的,而探索性行为的出现则归功于期望自由能目标中的分布匹配(KL散度)项。
3.2 约束最大占用率
乍一看,最大占用率目标似乎很难与前面讨论的目标(如赋能和主动推理)进行精确对比,因为它只涉及最大化(预期)熵,而没有约束条件。然而,上述描述的最大占用率目标足够通用,如果将 项设置为负值,它可以近似编码赋能目标。这会促使智能体选择能够最小化状态转移分布熵的行为,同时仍然最大化行为的熵。这显然与前面讨论的赋能目标密切相关,一旦考虑到状态和观察之间的区别(即,它会促使智能体在确保可控状态和观察结果的同时“保留选择”)。然而,尽管这种设置在实践中具有一定的意义,但它实际上偏离了最大占用率的核心理念。
在文献 [7] 中,从概念和实验的角度论证了最大占用率(MOP)智能体表现出比赋能或期望自由能(EFE)目标所控制的智能体更稳健的探索行为和更多样化的策略选择。然而,文献 [7] 和 [12] 中报告的实验涉及对状态空间的完全观测,因此 EFE 中的模糊性项并未发挥作用。此外,文献 [7] 中的实验默认使用 的设置,实际上仅最大化行为分布的熵。
由于这些原因,以下讨论将重点关注关于熵最大化和约束条件的概念性论证,而不是这些实验结果。从概念上讲,最大占用率目标可能比主动推理产生更多样化的行动,原因有二:(a) EFE 目标包含一个明确的“偏好”项,而 MOP 缺乏这一项,它会使行动偏向某些特定结果(从而降低行为-状态路径的熵);(b) 尽管 EFE 目标在每个时间步最大化状态转移分布的熵,但它没有一项用于最大化行为分布的熵。
行为(策略)熵的最大化似乎可以从赋能框架中推导出来。因此,鉴于上述等价性,主动推理也应该如此。文献 [7] 认为 EFE 确定性地选择单一策略。然而,在完整的变分推断处理(即规划即推理)的背景下,策略分布的熵也应在相关约束下最大化。
从概念上讲,π 是一个潜在变量,根据其他条件不变原则,其熵应在变分推断过程中最大化,就像变分密度 Q(s)(隐藏原因的分布)的熵被最大化一样。这一点在探索广义自由能(generalized free energy)的主动推理工作中得到了形式化的体现,广义自由能是一种在某些方面比 EFE 更简洁的期望变分自由能的表述。如文献 [15] 所示,该目标可以像变分推断中通常那样写成赫姆霍兹自由能的形式,在这种情况下,能量项是策略后验下的期望 EFE,策略分布的熵在最小化自由能时被明确最大化:
在文献 [7] 中,广义自由能被证明与赋能目标一致,但受到风险的约束。此外,上文中定义的“赋能的自由能” 也包含了策略熵这一项。因此,尽管仅关注期望自由能(EFE)无法完全体现这一点,主动推理(从广义上理解,包括最大熵策略推断)与最大占用率(MOP)的主要区别似乎在于是否存在明确的模型证据约束。
最大占用率的核心理念是,最大化路径占用是一种“内在价值”,而奖励则是从这种价值中衍生出来的。自由能原理(FEP)和主动推理的核心观点(我们已经看到它包含了赋能)是,最大化模型证据是一种“内在价值”,而奖励以及信息寻求行为都源自这一要求。乍一看,这些框架似乎难以调和,因为前者最大化意外性,而后者则最小化意外性(至少在感官观察方面)。
文献 [7] 的一个核心观点是,在存在吸收态以及通过某些行动路径可以(可预见地)避免这些吸收态的情况下,智能的、目标导向的行为会自然地从最大占用率(MOP)目标中涌现出来。人们可能会怀疑,在那些风险规避可能更为重要的、不太可预测的环境中,纯粹的 MOP 智能体是否能够取得同样的成功。然而,撇开这一点不谈,有充分的理由认为,如果没有隐含的模型证据约束,MOP 智能体不会产生丰富而智能的行为。
最大化占用率的智能体寻求控制只是为了生存,这一目标被认为优雅地源于对遥远未来最大化熵的渴望。然而,这一论点假设死亡对应于一个“吸收”状态,在实验中,这种状态被建模为在剩余时间内熵为零。在一个更符合物理现实的模型中,死亡将对应于智能体与环境边界的崩溃,因此对应于一个更高熵的状态(个体智能体的消解对应于一个无约束的最大熵状态,或者从物理角度来说,热平衡)。相关地,“生存本能”在主动推理智能体中通过偏离内稳态设定点(由生成模型或“偏好分布”定义)来体现,这些偏离在自由能中得分很高,因此是令人反感的。
因此,将缺乏行动可用性与低熵状态等同起来的观点,只有在那些忽略了智能体消解所引发的整个系统熵增加的玩具场景中才是合理的。除非 MOP 智能体拥有一个关于智能体与环境之间先验区别的内在概念,即一种“自我意识”,否则死亡对它们来说应该是有吸引力的。结果是,使得这些智能体能够产生目标导向行为的隐含约束,在一般情况下,并不仅仅是长期最大化熵,而且是存在一个具有行动库的智能体,这体现在将空间划分为行动和状态变量的划分中。实际上,这相当于主动推理和赋能中明确出现的“可控性”约束版本,因为智能体必须施加足够的控制以实现内稳态(即维持内部状态以对抗耗散力)。
3.3 模型证据与生存意志
尽管前面已经提出了相关论点,但最大占用率(MOP)所强调的探索与奖励之间的传统假设的反转仍然具有吸引力。熵最大化(尽管是在约束条件下)似乎是智能和生命的一个基本特征,它比任何特定的奖励寻求行为在不同生命形式中更为恒定。将未来路径占用(通过熵来衡量)视为等同于保持生命,是理解熵最大化在内在动机理论核心地位的一种方式。
然而,我们已经看到,为了重现复杂生物智能所具有的目标导向行为,必须在保持智能体存在(通过内部和外部状态之间的条件独立性来操作化)的约束下最大化熵。在简单模型中,这种条件独立性表现为行动与状态的划分。借鉴叔本华的观点,内在动机可以被简单地视为“生存意志”,即作为一个活着的(运动的、变化的)事物而持续存在的一种基本冲动,这种冲动根据局部约束(生成模型)的不同而呈现出不同的具体形式。这些约束塑造了熵产生的主要动机力量,使得条件独立结构得以维持。
在更简单的智能模型中,整个(智能体-环境)系统的相关划分被假设为固定不变的,但在更复杂的处理方式中,例如多尺度或无尺度的主动推理,模型结构本身可能会随着时间的推移而演变,通常是在较慢的时间尺度上。因此,我们可以在任何给定时刻将智能体的生命视为不仅寻求对当前参数化模型的观测证据,而且还要寻求对参数本身的证据,以及对超参数(或参数的先验,包括结构先验)的证据。这种结构演变可以用贝叶斯模型选择来理解。
从这个角度来看,无尺度的自我验证(即寻求模型证据)与最大占用率之间并不存在深刻的矛盾。一旦将约束(参数和模型结构)本身视为随机变量,自我验证的过程就被看作是完全由数据或观测驱动的。从这个角度来看,我们所处的宇宙(只要它被准确地建模为一个封闭系统)的一个特性是,数据生成过程的整体熵只能增加。从这个角度来说,最大熵推理是一种普遍的自我实现的预言,宇宙因此朝着热平衡的方向演变。因此,所有智能体确实在最长的时间尺度上最大化了占用率,尽管是以一种相当无私的方式,即它们为一个更大范围的宇宙最大熵模型收集证据,在这个模型中,智能体之间的边界(马尔可夫毯)及其相应的能量约束已经消失。
当然,熵被“为了自身”而最大化这一观点,并不排除在各种情境下将其解释为认知价值、好奇心等。前面的讨论表明,探索行为绝不仅仅是为确保高效用结果而进化出的机制,它至少与后者的倾向一样是智能体的基本方面,两者可能参与了一种循环因果关系的舞蹈。无论特定的生成模型如何,期望自由能函数中同时存在目标寻求和信息寻求的驱动力,指向了相同的结论。
4. 结论
在当代关于内在动机的理论中寻找共同主题,揭示了约束熵最大化作为描述生物系统动机的核心原则的必然性。在基本层面上,这一见解并不新颖,因为熵最大化长期以来一直被公认为是物理学(包括生命和智能的物理学)的一个关键原则,并且在几种内在动机的理论中明确发挥了作用。本文的主要目标是详细探讨三种在文献中被并列讨论的内在动机理论,尽管它们在表面上有所不同,但它们仍然可以被理解为这一普遍视角的不同变体。
原文链接:https://arxiv.org/pdf/2502.02962
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.