网易首页 > 网易号 > 正文 申请入驻

期望自由能从何而来

专家解读本次沙尘天气从何而来

0
分享至

期望自由能从何而来

Whence the Expected Free Energy?

https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy


期望自由能是主动推理理论中的一个核心量。所有主动推理智能体都被要求通过行动来最小化这个量,它分解为外在价值和内在价值项,这是主动推理智能体所展现的探索与利用平衡的关键。尽管其重要性不言而喻,但这个量的数学起源及其与变分自由能的关系仍不清楚。在这封信中,我们详细研究了EFE的起源,并表明它并不仅仅是“未来的自由能”。我们提出了一个泛函,我们认为它是VFE的自然延伸,但它会主动抑制探索行为,从而证明探索并非直接源于将自由能最小化到未来的过程。接着,我们发展了一个新的目标函数,即期望未来的自由能,它既拥有EFE的认知成分,又具有作为预测未来与期望未来之间散度的直观数学基础。

1 引言

自由能原理(Friston, 2010; Friston & Ao, 2012; Friston, Kilner, & Harrison, 2006)是理论神经科学中一个新兴的理论,它为自组织系统的动力学提供了一个统一的解释(Friston, 2019; Parr, Da Costa, & Friston, 2020)。该原理提出,此类系统可以被解释为体现了一个变分推理过程,该过程最小化一个单一的信息论目标:变分自由能。在理论神经科学中,自由能原理转化为对大脑功能的优雅解释(Friston, 2003, 2005, 2008a, 2008b; Friston, Trujillo-Barreto, & Daunizeau, 2008),它通过假定大脑的神经动力学执行变分推理,扩展了贝叶斯脑假说(Deneve, 2005; Doya, Ishii, Pouget, & Rao, 2007; Knill & Pouget, 2004)。在关于智能体所体现的密度形式的特定假设下,这一理论甚至可以向下转化为神经回路层面,形成一种生物学上合理的神经过程理论(Bastos et al., 2012; Friston, 2008a; Kanai, Komura, Shipp, & Friston, 2015; Shipp, 2016; Spratling,2008)。

随后,行动被纳入这一理论框架,被称为主动推理(Friston, 2011; Friston & Ao, 2012; Friston, Daunizeau, & Kiebel, 2009),其要求智能体采取行动以最小化关于行动的变分自由能(Buckley, Kim, McGregor, & Seth, 2017; Friston et al., 2006)。这将行动和感知视为自由能最小化这一同一指令的两个方面,从而产生了一个适用于各种连续时间任务的控制理论框架(Baltieri & Buckley, 2017, 2018; Calvo & Friston, 2017; Friston, Mattout, & Kilner, 2011; Millidge, 2019b)。

最近的研究扩展了这些想法,以解释对时间上延展的动作序列的推理(Friston & Ao, 2012; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2017; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2016; Friston et al., 2015; Tschantz, Seth, & Buckley, 2019)。在此,假设不是行动最小化瞬时的变分自由能,而是动作序列(或策略)最小化一个称为期望自由能的量随时间的累积和(Friston et al., 2015)。使用期望自由能的主动推理已被广泛应用于各种任务和应用中,从模拟人类和动物的选择行为(FitzGerald, Schwartenbeck, Moutoussis, Dolan, & Friston, 2015; Friston et al., 2015; Pezzulo, Cartoni, Rigoli, Pio-Lopez, & Friston, 2016),模拟视觉扫视和其他“认知觅食行为”(Friston, Lin, et al., 2017; Friston, Rosch, Parr, Price, & Bowman, 2018;Mirza, Adams, Mathys, & Friston, 2016; Parr & Friston, 2017a, 2018a),解决强化学习基准测试(Çatal, Verbelen, Nauta, De Boom, & Dhoedt, 2020; Millidge, 2019a, 2020; Tschantz, Baltieri, Seth, & Buckley, 2019; Ueltzhöffer, 2018; van de Laar & de Vries, 2019),到将精神疾病建模为异常推理的案例(Cullen, Davey, Friston, & Moran, 2018; Mirza, Adams, Parr, & Friston, 2019; Parr & Friston, 2018b)。与连续时间形式一样,主动推理也配备了一个具有变分更新方程的生物学上合理的过程理论,这些方程被认为与观察到的神经放电模式同构(Friston, FitzGerald, et al., 2017; Friston, Parr, & de Vries, 2017; Parr, Markovic, Kiebel, & Friston, 2019)。

期望自由能的一个关键特性是它可以分解为外在的、寻求价值的部分和内在的(认知的)、寻求信息的部分(Friston等人,2015)。后者通过鼓励探索环境的未知区域来要求主动推理智能体解决不确定性,这一特性已被广泛研究(Friston, FitzGerald,等人,2017a;Friston等人,2015;Schwartenbeck, FitzGerald, Dolan, & Friston,2013;Schwartenbeck等人,2019)。这一公式自然产生内在驱动力的事实被认为是相对于其他公式的一个优势,后者通常通过在其损失函数中添加特定的探索项来鼓励探索(Burda等人,2018;Mohamed & Rezende,2015;Oudeyer & Kaplan,2009;Pathak, Agrawal, Efros, & Darrell,2017)。

尽管期望自由能常被描述为自由能原理的一个直接扩展,可以解释前瞻性策略,并且通常以类似的数学形式表达(Da Costa等人,2020;Friston, FitzGerald,等人,2017;Friston等人,2015;Parr & Friston,2017b,2019),但其起源仍然模糊不清。期望自由能的最小化有时是通过遵循自由能原理的归谬法论证来推动的(Friston等人,2015;Parr & Friston,2019),即智能体被迫最小化变分自由能,因此它们唯一能采取行动的方式就是将其自由能最小化到未来。然而,由于未来是不确定的,它们必须最小化期望自由能。这一逻辑的核心是将变分自由能与期望自由能形式等同。

在这封信中,我们着手研究期望自由能的起源及其与变分自由能的关系。我们对这个问题提供了更广阔的视角,表明期望自由能并不是扩展变分自由能以解释以行动为条件的未来的唯一方法。我们推导出一个我们认为是变分自由能更自然类比的目标函数,称之为未来的自由能,并对这两个泛函进行了详细的并排比较。关键在于,我们表明未来的自由能会主动抑制寻求信息的行为,从而证明认知项并不一定仅仅通过将变分自由能扩展到未来而产生。接着,我们研究了期望自由能中认知项的起源,并表明期望自由能就是未来的自由能减去期望自由能中认知项的负值,这为两个泛函之间的关系提供了一个直接视角。

我们提出了一个在主动推理下进行行动选择的、数学上有原则的起点:期望未来与期望未来之间的散度,由此我们获得了一个新的泛函,即期望未来的自由能,它与广义自由能密切相关(Parr & Friston,2019)。这个泛函在真实生成模型和有偏生成模型之间的散度方面具有自然的解释;它允许对推理和策略选择使用相同的泛函,并且它自然地分解为外在价值项和认知行动项,从而在保持基于期望自由能的主动推理的吸引人的探索特性的同时,也拥有一个数学上有原则且直观解释的起点。

2 变分自由能

变分自由能是变分推理中的一个核心量,它构成了对数模型证据以及先验与后验之间的库尔贝克-莱布勒散度的可处理边界(Beal, 1998; Blei, Kucukelbir, & McAuliffe, 2017; Fox & Roberts, 2012; Wainwright & Jordan, 2008)。(关于变分自由能的深入动机及其在变分推理中的应用,请参见附录A。)

定义为时间t的变分自由能,记作Ft,由下式给出:





人们也可以将变分自由能论证为一种估计模型证据的技术。对数模型证据是贝叶斯推理中的一个关键量,但通常是难解的,意味着无法直接计算。直观地说,对数模型证据衡量了模型下数据的似然,从而直接提供了模型质量的度量。根据自由能原理,最小化负对数模型证据(或惊奇)是自组织系统的最终目标(Friston & Ao, 2012; Friston et al., 2006)。变分自由能提供了对数模型证据的上界。这可以通过关于近似后验对模型证据进行重要性采样并应用延森不等式来证明:


由于变分自由能是对数模型证据(或惊奇)的上界,随着变分自由能被最小化,它会成为对惊奇越来越准确的估计。为了理解变分自由能的特性,我们展示以下分解:


这种分解是实践中通常用于计算变分自由能的方法,并且具有直观的解释。具体来说,最小化负精度(从而最大化精度)确保了在变分后验所预测的状态 x t
下,观测具有尽可能高的似然;同时最小化复杂度项,即变分后验与先验之间的KL散度。因此,其目标是在最大化精度的同时,尽可能保持后验接近先验。实际上,复杂度项起到了隐式正则化的作用,降低了过度拟合任何特定观测的风险。


3 期望自由能

虽然如前所述的变分推理仅允许我们在给定观测的情况下对当前时刻进行推理,但可以将该形式体系扩展,以允许对未来行动或策略进行推理。


主动推理通过推断一个变分策略分布 Q ( π )
来进行,该分布最大化此有偏生成模型的证据。直观地说,这种方法颠覆了行动选择问题的常规思路。主动推理智能体不问“我有一些目标;我需要做什么来实现它?”,而是问:“假设我的目标已经实现,那么我所采取的最可能的行动会是什么?”

将变分自由能扩展到未来面临的另一个复杂性来自未来的观测。虽然智能体在进行规划问题时可以获取当前的观测(或数据),但它们还必须推理未知的未来观测。这通过对目标函数求关于从生成模型中抽取的预测观测 o τ
的期望来处理。

在主动推理框架中,目标是推断一个既关于隐藏状态也关于策略的变分分布,使其最大程度地拟合一个有偏的未来生成模型。该框架定义了待最小化的变分目标函数,即从时间 τ 到时间范围 T 的期望自由能,记作 G :





其中 σ(x) 是一个 softmax 函数。这意味着,为了推断最优策略分布,只需最小化未来每个时间步的期望自由能之和。推理过程通过使用生成模型展开预测的未来,计算这些未来的期望自由能,然后选择使期望自由能之和最小的策略来进行。由于在时间平均场假设下,轨迹分解为各时间步的和,因此在本文的其余部分,只需考虑单个时间步 τ 就足够了。

为了理解期望自由能,我们展示以下分解:


虽然期望自由能有许多种分解方式(全面概述见附录B),但方程3.1中展示的可能最为重要,因为它将期望自由能分解为外在的、目标导向的项(文献中有时也称为工具性价值)和内在的、寻求信息的项。⁵ 第一项要求智能体根据对未来信念,最大化期望观测 的似然。因此,它引导智能体采取行动以最大化其期望在未来发生的概率。这被称为外在价值项,因为它是期望自由能中体现智能体偏好的项。

方程3.1中的第二项是期望信息增益,通常被称为认知价值,因为它量化了通过访问特定状态所获得的信息量。由于信息增益为负值,最小化整体期望自由能就意味着最大化期望信息增益。这驱使智能体最大化其后验信念与先验信念之间的散度,从而促使智能体采取那些能最大程度地为其信念提供信息并减少不确定性的行动。正是外在价值项和内在价值项的结合,支撑了主动推理声称其对探索-利用困境拥有一个原则性方法的说法(Friston, FitzGerald, et al., 2017; Friston et al., 2015)。

通过最大化期望信息增益或“贝叶斯惊奇”(Itti & Baldi, 2009)来驱动探索行为的想法,在神经科学中已有讨论(Baldi & Itti, 2010; Ostwald et al., 2012),并且在强化学习中也被经常提出(Houthooft et al., 2016; Still & Precup, 2012; Sun, Gomez, & Schmidhuber, 2011; Tschantz, Millidge, Seth, & Buckley, 2020)。

4 期望自由能的起源

鉴于期望自由能在主动推理框架中的核心地位,探究这一量的起源和性质至关重要。期望自由能通常通过一个归谬法论证来推导(Friston et al., 2015; Parr & Friston, 2019)。⁶ 其逻辑如下:智能体拥有驱动行动选择的策略先验信念。根据自由能原理,有机体的所有状态,包括决定策略的状态,都必须改变以最小化自由能。因此,关于策略的唯一自洽的先验信念是,智能体将通过其策略选择过程在未来最小化自由能。如果智能体没有这样的先验信念,那么它就会选择那些不能在未来最小化自由能的策略,从而也就不是一个最小化自由能的智能体。这一逻辑需要一个定义良好的概念,即给定特定策略下未来状态和观测的自由能。主动推理文献隐含地假设期望自由能是符合这一概念的自然泛函(Friston, FitzGerald, et al., 2017; Friston et al., 2015)。在接下来的部分中,我们认为期望自由能实际上并不是唯一能够量化策略条件未来自由能这一概念的泛函,并且我们确实提出了一个不同的泛函——未来的自由能,我们认为它是变分自由能扩展到未来状态的一个更自然的延伸。

4.1 未来的自由能。我们认为,将自由能自然扩展到未来,必须拥有与变分自由能两个关键属性直接对应的部分:它必须可以表示为后验与生成模型之间的KL散度,使得最小化它能促使变分密度更好地逼近真实后验;并且它也必须为未来观测的对数模型证据提供边界。为对数模型证据(或惊奇)提供边界至关重要,因为惊奇是核心量,根据自由能原理,所有系统都被驱使去最小化它。如果扩展到未来的变分自由能不能为惊奇提供边界,那么最小化这种扩展形式就不一定能最小化惊奇,因此任何最小化这种扩展形式的智能体都将违反自由能原理。在此,我们提出一个我们声称满足这些要求的泛函:未来的自由能。

我们希望推导出在未来某个时间 τ 且以某个策略 π 为条件的变分自由能的表达式。换句话说,我们希望量化在给定某个行动序列的情况下,未来某个时间点将会出现的自由能。在此,我们通过保留与变分自由能(见方程2.1)相同的项,但将变分分布以我们关注的策略为条件,并为未来时间点 τ 重写,来推导未来自由能的一种形式,记作 FEF τ ( π )
。此外,由于未来的观测是未知的,我们必须像在期望自由能中那样,根据我们对未来观测的信念的期望来评估我们的自由能。因此我们定义:


由于该方程仅仅是变分后验与生成模型之间的KL散度,它满足第一个要求。接下来,我们通过展示一个关键分解来研究FEF的性质。与VFE类似,我们可以将FEF分解为能量项和熵项,或者精度项和复杂度项,这对应于EFE中的外在项和认知行动项:


然而,与期望自由能不同的是,这里的期望信息增益(复杂度)项是正的,而在期望自由能项中它是负的。由于目标函数(无论是期望自由能还是未来的自由能)是要被最小化的,我们可以看到,使用未来的自由能要求我们最小化信息增益,而期望自由能则要求我们最大化它(或最小化负的信息增益)。因此,一个基于未来自由能的智能体试图在最大化奖励的同时,尽可能少地进行探索。虽然这听起来令人惊讶,但实际上它直接类比于变分自由能中的复杂度项,后者要求在最大化观测似然的同时,尽可能保持后验接近先验。⁷

4.2 对期望模型证据的边界。接下来,我们展示未来的自由能如何可以作为满足第二个要求的期望模型证据的边界被推导出来。我们将期望模型证据定义为模型证据对未来未知状态的直接扩展。

从当前时间步 t 到某个时间范围 T 的轨迹的期望负对数模型证据为


关键的是,这是期望模型证据的上界,可以通过最小化FEF来收紧该上界。相比之下,再来看期望自由能,我们在下面看到,由于KL散度总是 ≥ 0,期望信息增益总是正的,因此期望自由能是期望模型证据的下界:


由于期望自由能旨在最小化负信息增益(从而最大化正信息增益),我们可以看到,最小化期望自由能实际上使其偏离期望模型证据更远。⁸

我们在附录D中进一步研究期望自由能及其作为边界的性质。此外,在附录E中,我们回顾了文献中试图将期望自由能推导为期望模型证据边界的其他尝试,并讨论了它们的不足之处。

4.3 期望自由能与未来的自由能。为了更深入地理解期望自由能与未来自由能之间的细微差别,我们对这两个泛函进行了详细的并排比较:


虽然这两种公式最初看起来可能非常相似,但关键的区别在于变分项。未来的自由能类似于变分自由能,衡量的是变分后验 Q ( x τ ∣ o τ ) 与生成模型 Q ( x τ ∣ π )
之间的差异。而期望自由能衡量的是变分先验与生成模型之间的差异。正是这种差异使得期望自由能并非变分自由能对未来时间步的直接扩展,并支撑了其独特的认知价值项。

我们现在证明,期望自由能和未来的自由能都可以分解为与外在价值相关的期望似然,以及与认知价值相关的变分后验与变分先验之间的期望KL散度。我们将未来自由能中的生成模型分解为(有偏的)似然和一个变分先验,并将期望自由能中的生成模型分解为近似后验和一个(有偏的)边缘分布:


然后,在未来的自由能和期望自由能中,都可以将变分先验和变分后验结合起来,形成认知项。关键在于,认知价值项在未来的自由能中是正的,而在期望自由能中是负的,这意味着未来的自由能惩罚认知行为,而期望自由能则促进认知行为:


方程4.2表明,FEF和EFE可以以类似的方式进行分解。我们注意到,FEF的外在价值项是一个似然,而EFE的则是一个边缘似然。然而,最重要的区别在于认知价值项的符号。由于优化FEF或EFE都需要最小化它们,最小化FEF要求我们最小化信息增益,而EFE则要求我们最大化它。因此,一个基于FEF的智能体试图在最大化其外在价值的同时,尽可能少地进行探索。那么一个关键问题就出现了:EFE中负的信息增益从何而来?

虽然期望信息增益项符号的这种差异可能暗示着这两个量之间存在某种深层联系,但在此我们提供一个关于此问题的实用主义视角。我们表明,得到EFE的一个可能途径就是,它仅仅是FEF减去期望信息增益。这意味着EFE的认知价值项并非源于与变分推理的某种联系,而是人为构造出来的:


虽然这个证明阐明了EFE和FEF之间的关系,但作为对EFE起源的解释,它在理论上并不能令人满意。EFE的很大一部分吸引力在于,它声称展示了认知价值是“自然地”从未来自由能最小化中产生的。相比之下,我们在这里已经表明,最小化未来自由能并不要求承诺探索行为。虽然这并不质疑使用信息增益项进行探索的有用性,也不质疑将EFE用作损失函数的有效性,但它确实对该目标的数学原理性提出了疑问。因此,我们无法直接理解,为什么自由能原理明确要求智能体必须最小化EFE,而不是其他某个自由能泛函。虽然这一事实起初可能令人担忧,但我们相信,它最终通过允许以有原则的方式扩展主动推理以包含其他目标函数,从而增强了该形式体系的能力(Biehl, Guckelsberger, Salge, Smith, & Polani, 2018)。在下一节中,我们提出一个替代EFE的目标函数,它产生相同的寻求信息的认知价值项,但以一种数学上有原则且直观的方式将其推导为期望未来与期望未来之间散度的边界。

5 期望未来的自由能

在本节中,我们提出一个新的目标泛函,称之为期望未来的自由能,它拥有与期望自由能相同的认知价值项,同时具有更自然、更直观的基础。我们从这样一个直觉出发:为了适应性地行动,智能体应该采取行动,以最小化它们预测将要发生的事情与它们期望发生的事情之间的差异。换句话说,对于智能体来说,适应性行动包括迫使现实按照其偏好展开。我们可以将这一目标在数学上表述为智能体对可能发生的事物的真实生成模型与其对期望发生的事物的有偏生成模型之间的KL散度:


期望未来的自由能可以解释为真实生成模型与有偏生成模型之间的散度,从而为最小化期望未来的自由能的智能体的目标提供了直观的理解。这个散度目标迫使智能体使有偏生成模型与真实生成模型保持一致。由于有偏生成模型的预测严重偏向于智能体的先验偏好,实现这种一致的唯一途径就是采取行动,使真实生成模型预测出符合有偏生成模型的期望结果。期望未来的自由能目标包含了标准的主动推理直觉,即智能体通过有偏推理来行动,以最大化有偏模型的精度。然而,维持两个独立的生成模型(一个有偏,一个真实)也有助于解决一个概念性难题:如果智能体所能访问的仅仅是一个有偏的生成模型,它如何能够对复杂的动态过程做出准确的后验推理和未来预测?直观上看,有偏模型也会使推理中那些对于方案正常运行至关重要的关键部分产生偏差。然而,通过同时维持一个真实生成模型(与当前时刻使用的相同,并通过与环境互动来学习)和一个有偏生成模型(通过系统地使真实模型的临时副本产生偏差而创建),我们巧妙地区分了对未来预测所需的真实推理成分和有偏推理成分。⁹

与期望自由能类似,期望未来的自由能目标可以分解为外在项和内在项。我们将其与期望自由能的分解直接进行比较:


首先要注意的是,在近似后验是正确的假设 Q ( x τ ∣ o τ ) ≈ p ( x τ ∣ o τ )
下,期望未来的自由能和期望自由能的内在价值项是相同的,因此最小化期望未来的自由能的智能体必然会展现出与最小化期望自由能的智能体相同的认知行为。然而,与期望自由能不同的是,期望未来的自由能还拥有作为某个理论相关量边界的强大自然主义基础。期望未来的自由能可以同时保持其信息最大化的指令和其理论基础,因为它源于最小化KL散度,而不是最大化对数模型证据。

与期望自由能的关键区别在于似然项。期望自由能简单地试图最大化期望观测的证据,而期望未来的自由能则最小化在真实生成模型下预测的观测的似然¹⁰ 与在有偏生成模型下观测的边缘似然之间的KL散度。这种差异实际上等效于从期望自由能中减去一个额外的真实生成模型期望似然熵项 H [ Q ( o τ ∣ x τ ) ] 。因此,外在价值项鼓励智能体选择其行动,使得其对状态的预测导致接近其偏好观测的观测,同时也试图移动到那些观测熵最大的状态,从而引导智能体移动到生成模型对可能结果不太确定的状态。实际上,除了期望自由能所缺乏的信息增益之外,期望未来的自由能还拥有另一个探索项。


由于期望未来的自由能和期望自由能在其内在价值项上是相同的,并且在外在项上有着深刻的相似性,我们相信期望未来的自由能可以作为许多主动推理智能体中期望自由能的一个相对直接的“即插即用式替代品”。此外,它比期望自由能具有更直观的基础,可以说是变分自由能向未来的更好延续,并且作为预测未来与期望未来之间散度的边界,拥有强大的自然主义基础。

6 讨论

我们认为,此刻有必要从各种自由能的繁杂细节中抽身出来,评估一下我们已经取得的成果。首先,我们已经证明,不可能直接从作为模型证据边界的变分推理目标中推导出认知价值。然而,从有偏生成模型与真实生成模型之间的散度出发,是可以推导出认知价值项的。为什么会这样,对其深入的直观理解是未来研究的一个有趣方向。将FEEF理解为期望未来与期望未来之间的散度,这一直觉也类似于强化学习问题的概率公式化表述(Attias, 2003; Kappen, 2005; Levine, 2018; Toussaint, 2009),后者通常试图最小化受控轨迹与最优轨迹之间的散度(Kappen, 2007; Theodorou & Todorov, 2012; Williams, Aldrich, & Theodorou, 2017)。这些方案也通过其包含熵项的目标函数获得了一定程度的(无向的)探索行为,而FEEF可以被视为将这些方案扩展到部分可观测环境的一种方式。精确理解主动推理和自由能原理在数学上如何与这类方案相关联,是未来另一个富有成果的研究方向。

直觉上,考虑到不确定性来源被正确量化,探索-利用困境的贝叶斯最优解应该直接源于将奖励最大化视为推理的公式化表述中。然而,在这封信中,我们已表明,仅仅通过平均场分解的时间步来量化状态和观测中的不确定性,不足以推导出这样一个解决困境的原则性方案,这一点从FEF抑制探索的行为可以看出。因此,我们相信,为了在主动学习的背景下推导出贝叶斯最优探索策略,使得我们必须选择那些现在能给我们最多信息以便将来用于最大化奖励的行动,这很可能既需要对多个相互连接的时间步进行建模,也需要涉及参数学习和更新规则的机制,并正确量化其中的不确定性。这超出了本信的范围,但却是未来一个非常有趣的研究方向。

FEEF与EFE的比较也引发了一个有趣的哲学问题,即关于主动推理形式体系中所采用的生成模型的数量和类型。对FEEF的一种解释是从两个生成模型的角度出发,但也可能存在其他解释,例如一个单一的无偏生成模型与一个期望状态和观测的简单密度之间的散度。同样重要的是要注意到,由于推理和规划需要不同的目标函数,EFE公式似乎也隐含地需要两个生成模型:未来状态的生成模型和未来中状态的生成模型(Friston et al., 2015)。虽然数学形式相对直接,但如何将数学对象转化为称为“生成模型”的本体论对象这一哲学问题尚不清楚,这方面的进展将有助于确定主动推理的哲学地位,甚至可能有助于其神经实现。

我们的结果对主动推理研究的影响是多方面的。我们所展示的内容中没有任何一点直接反对将EFE用作主动推理智能体的目标。然而,我们相信我们已经证明,EFE不一定是唯一甚至不是自然的目标函数。因此,我们遵循Biehl等人(2018)的观点,鼓励在主动推理中尝试不同的目标函数。我们特别相信我们的目标函数FEEF具有前景,因为它具有直观的解释、与EFE大致等价的项、直接使用两个生成模型而非仅一个单一有偏模型,并且与变分强化学习中使用的类似概率目标有紧密联系,同时保留了EFE关键的认知属性。此外,虽然在这封信中,我们主张将FEF而非EFE作为VFE向未来的直接扩展,但究竟哪一个泛函(如果有的话)实际上是自由能原理所要求的,这一逻辑要求仍然悬而未决。我们相信,阐明自由能原理对变分行动理论施加的确切约束,并更深入地理解各种自由能之间的关系,可能会揭示关于自组织系统中贝叶斯最优认知行动概念的深层问题。

最后,重要的是要注意,尽管在这封信中,我们只关注离散时间POMDP中的EFE和主动推理,但自由能原理最初的直觉和数学框架源于连续时间公式,与信息论和统计物理学的关注点 deeply interwoven(Friston, 2019; Friston & Ao, 2012; Friston et al., 2006; Parr et al., 2020)。因此,EFE、FEF和对数模型证据之间可能存在仅存在于连续时间极限中的深层联系,这些联系将为认知行动提供数学上有原则的起源。

7 结论

在这封信中,我们详细审视了期望自由能的性质和起源。我们已表明,它并非变分自由能向未来的直接类比。随后,我们推导了一个新的目标函数——未来的自由能,我们声称它是更自然的延伸,并展示了它缺乏期望自由能中有益的认知价值项。接着,我们证明了这一项在期望自由能中的出现直接源于其非标准的定义,因为期望自由能可以表达为仅仅是未来的自由能减去期望信息增益。考虑到这一点,我们随后提出了另一个目标函数——期望未来的自由能,它试图通过保留期望自由能中理想的寻求信息属性,同时维持一个数学上有原则的起源,来兼得两者之长。

原文链接:https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

都市快报橙柿互动
2026-02-21 00:08:59
暴跌49%!耐克遭功臣背刺,价格重返批发时代,为啥中国人不买账

暴跌49%!耐克遭功臣背刺,价格重返批发时代,为啥中国人不买账

蜉蝣说
2026-02-21 15:40:23
至少在已经过去的25年里,中国的“财神”不是赵公明,而是WTO!

至少在已经过去的25年里,中国的“财神”不是赵公明,而是WTO!

细雨中的呼喊
2026-02-21 06:59:07
张晶遭批:冬奥会+亚冬会+世锦赛+世巡赛都创最差纪录 黄牌满天飞

张晶遭批:冬奥会+亚冬会+世锦赛+世巡赛都创最差纪录 黄牌满天飞

念洲
2026-02-21 10:27:40
美大法官“大战”总统,6:3裁定特朗普关税违法:1.4万亿美元收入“落空”,或撕开美国财政千亿黑洞!特朗普闪电反击

美大法官“大战”总统,6:3裁定特朗普关税违法:1.4万亿美元收入“落空”,或撕开美国财政千亿黑洞!特朗普闪电反击

每日经济新闻
2026-02-21 17:02:32
黄晓明公开回应“在澳门输掉十几亿”

黄晓明公开回应“在澳门输掉十几亿”

21世纪经济报道
2026-02-21 20:20:39
安德鲁王子跪地与小男孩玩“乳房”球,画面不适,王位继承权难保

安德鲁王子跪地与小男孩玩“乳房”球,画面不适,王位继承权难保

译言
2026-02-21 04:42:00
耗资12亿建世界最高佛,如今水喝不起拜不起

耗资12亿建世界最高佛,如今水喝不起拜不起

时光流转追梦人
2026-02-20 13:09:13
这个春节,买了恒科的眼泪都流干了

这个春节,买了恒科的眼泪都流干了

贩财局
2026-02-21 09:35:42
美军选在春节挑衅?解放军时刻准备着!

美军选在春节挑衅?解放军时刻准备着!

扬子晚报
2026-02-21 21:34:43
罄!告急!有跨省回上海返程机票高达11560元

罄!告急!有跨省回上海返程机票高达11560元

新民晚报
2026-02-21 12:30:00
大年初二,中美两国在黄海突发对峙,整整2天2夜后才传出消息?

大年初二,中美两国在黄海突发对峙,整整2天2夜后才传出消息?

通鉴史智
2026-02-21 09:34:58
马年春节里,为什么没什么人争论,该买油车还是买电车了

马年春节里,为什么没什么人争论,该买油车还是买电车了

路咖汽车
2026-02-20 10:36:41
实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

小兔子发现大事情
2026-02-21 10:44:54
33.9万!火锅店称把春节4天盈利分给员工,老板:去年关了两家店 但春节福利要坚持

33.9万!火锅店称把春节4天盈利分给员工,老板:去年关了两家店 但春节福利要坚持

红星新闻
2026-02-21 10:12:08
妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

奇思妙想草叶君
2026-02-21 18:04:11
王艺迪再负日本选手引关注,恐惧心理显现,网友质疑培养价值

王艺迪再负日本选手引关注,恐惧心理显现,网友质疑培养价值

卿子书
2026-02-21 11:24:42
妈祖开始惩罚这位姓许的有钱人了

妈祖开始惩罚这位姓许的有钱人了

麦杰逊
2026-02-21 18:12:33
华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

雪中风车
2026-02-21 13:36:38
谷爱凌:人们之所以对我有意见,是因为讨厌中国

谷爱凌:人们之所以对我有意见,是因为讨厌中国

懂球帝
2026-02-21 16:53:05
2026-02-21 22:31:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1231文章数 18关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

消防车救火后返程坠崖6名消防员牺牲 村民:都是小伙子

头条要闻

消防车救火后返程坠崖6名消防员牺牲 村民:都是小伙子

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
教育
手机
公开课
军事航空

一年中最不能错过的推送,超适合过年看!

教育要闻

孰对孰错?妈妈要求孩子上交2万压岁钱,孩子不干!

手机要闻

三星Galaxy S26系列颜色曝光:将推6种配色,两款为线上专属

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版