网易首页 > 网易号 > 正文 申请入驻

重构预期自由能:四种形式与一个统一框架

0
分享至

Reframing the Expected Free Energy:Four Formulations and a Unification.

重构预期自由能:四种形式与一个统一框架

https://arxiv.org/abs/2402.14460?utm_source=chatgpt.com



摘要
主动推理是感知、学习与决策领域的前沿理论,可应用于神经科学、机器人学、心理学及机器学习领域。该理论基于期望自由能展开研究,其合理性主要源于多种形式化表述的直观可信性(如风险与模糊性表述、信息增益与实用价值表述)。本文旨在系统阐述如何从单一根定义推导这些形式化表述的数学问题(即统一性问题),进而研究两种具有不同根定义的场景。在第一种场景中,虽尚未提出对期望自由能的合理性证明,但所有形式化表述均可从其根定义推导得出。然而该场景下,主体无法对观测结果设置任意先验偏好——实际上,仅有限类与生成模型似然映射相容的观测先验偏好具有可行性。第二种场景虽已知期望自由能根定义的合理性证明,但仅能涵盖两种形式化表述(即状态风险与模糊性表述、熵与期望能量表述)。
关键词:主动推理,期望自由能,统一性问题

  1. 引言
    主动推理(Friston等,2016;Itti与Baldi,2009;Schwartenbeck等,2018;FitzGerald等,2015;Fountas等,2020;Sancaktar等,2020;Çatal等,2020;Cullen等,2018;Millidge,2019)是不确定性条件下决策的框架体系。该框架中,主体配备编码环境动态特性的生成模型,以及近似潜变量真实后验的变分后验分布。变分后验通过最小化变分自由能函数(机器学习领域亦称负证据下界,Fox与Roberts,2012;?)计算获得。虽然变分后验定义了环境的最可能状态,却未指明应选择何种行动。因此,主体通过最小化期望自由能以达成预设的偏好状态或观测目标。

变分自由能拥有一个明确的根定义,所有其他形式皆由此推导得出,而文献中尚未为期望自由能确立此类根定义,导致其多种形式化表述间的源流关系悬而未决。
期望自由能是一种定义特定策略执行成本的函数,通过平衡探索与利用来实现目标:既要最大化实用价值(奖励),又要最大化信息增益。实用价值依赖于主体的先验偏好,这些偏好规定了偏好状态或观测结果,为主体提供目标导向行为的驱动力。



为解决双重含义问题,先验偏好有时被视为目标分布的一部分。然而本文证明,这一假设限制了有效先验偏好的类别,并导致当前尚无法论证的期望自由能定义。后续章节将探讨帕尔等人(2022)提出的两种可能解释,并阐明其局限性。附录B与附录C提供了本文所用性质的说明。

2. 生成模型
在主动推理中,主体配备了一个覆盖从初始时刻到当前时刻t的环境生成模型。该模型由三部分组成:(a) 隐藏状态序列s₀:ₜ——表示主体无法直接观测的环境状态;(b) 观测序列o₀:ₜ——代表主体获得的测量数据;(c) 动作序列a₀:ₜ₋₁——主体在环境中执行的操作。为简洁起见,s₀:ₜ、o₀:ₜ和a₀:ₜ₋₁将分别记作s、o和a。此外,本文假设观测结果依赖于状态,而每个状态又依赖于前一时刻的状态与动作。这种设定在形式上称为部分可观测马尔可夫决策过程(POMDP),其模型定义如下:


  1. 变分分布
    前一节所述的生成模型编码了关于环境动态的先验信念。然而,当对关键量(如观测o)进行测量时,主体需要计算关于状态的后验信念(例如P(s|o, a))。这些后验信念编码了主体在考虑新观测后的更新信念。遗憾的是,计算真实后验要么在解析上难以处理,要么计算成本过高。因此,真实后验通常由变分分布Q(s|a)近似表示:


在主动推理中,变分后验满足:1)按时间步长进行因子分解(即时序平均场近似),但 2)所有状态仍依赖于策略 a。这两个假设导致变分分布的定义如下:


  1. 变分推断与变分自由能
    综上所述,主体配备有生成模型 P ( o , s ∣ a )
    )和变分分布 Q ( s ∣ a )
    。在获得观测数据 o o后,变分分布需近似真实后验 P ( s ∣ o , a ) 。这可以形式化表示为最小化近似后验与真实后验之间的库尔贝克-莱布勒散度:


最小化该KL散度与最小化变分自由能(VFE)等价(证明见下文)。直观而言,VFE在准确度(即观测结果的预测准确程度)与复杂度(即后验分布偏离先验分布的程度)之间进行权衡。其形式化定义如下:



5. 规划与期望自由能



5.1 统一性问题



重要之处在于,状态风险是状态预测后验 F ( s ∣ a )
与状态先验偏好 T ( s ∣ a )
之间的KL散度,而模糊性是根据生成模型对似然映射的期望熵。状态风险促使预测后验向先验偏好靠近,模糊性则鼓励主体访问能产生低熵观测分布的状态——即若抵达某状态,我们便能预期将获得何种观测。关于观测风险与模糊性的表述如下:




重要之处在于,信息增益是仅依赖预测分布因子的KL散度。这防止了主体停止探索环境所产生的退化行为(即信息损失,Champion等人,2023)。此外,实用价值基于偏好观测T(o|a),为主体提供目标导向行为。最后,期望能量与熵的表述如下:


熵项确保优良策略能通过允许主体到达广泛状态来保持选项的开放性,这符合杰恩斯最大熵理论(Jaynes, 1957a,b)的隐含要求。此外,如下文证明所示,期望能量项既促使主体到达偏好状态,又推动其选择那些观测分布具有低熵的状态——即给定某状态时,我们能预期将获得何种观测。


5.2 预测分布
如前所述,预测分布根据主体对环境当前状态的最佳信念及其生成模型来预测未来。其形式化分解如下:






5.3 目标分布
第二个关键分布是目标分布,它编码了主体期望达到的状态与观测。在后续章节中,我们将目标分布定义如下:



5.4 解决统一性问题
在明确了预测分布与目标分布后,我们现聚焦于统一性问题。我们将探究是否存在某种EFE形式化表述可作为根定义,从中推导出所有其他表述。首先,我们将根期望自由能定义为观测风险与模糊性之和:


5.4.1 信息增益/实用价值形式化表述
本节将证明,以 C R O A ( a ˉ )
ˉ)作为根定义的期望自由能可以推导出信息增益/实用价值形式化表述。该推导基于以下等式:



5.4.2 状态风险与模糊性形式化表述
本节将证明,状态风险与模糊性之和是期望自由能的上界。从EFE定义出发,可以推导出:



重要之处在于,由于状态风险与模糊性之和是EFE的上界,最小化该上界也将同时最小化EFE。

5.4.3 期望能量与熵形式化表述
最后,从方程(5)的状态风险与模糊性之和出发,可以证明:



6. 局限性




6.1 观测结果的先验偏好












6.2 期望自由能的合理性论证



  1. 结论
    本文旨在形式化期望自由能的定义,以及推导其四种形式化表述的问题(即统一性问题)。当期望自由能被定义为观测风险与模糊性之和时,所有形式化表述均可被恢复,因此可在实践中使用。然而,本文的一项重要贡献在于揭示了某些观测先验偏好与似然映射不相容。由此我们面临两难选择:要么建模者必须精心选择主体的先验偏好以避免冲突,要么放弃四种形式化表述之间的理论关联。

另一个问题在于观测风险与模糊性之和形式化表述缺乏合理性论证。尽管状态风险与模糊性之和形式化表述已有论证,但仅论证一个下界不足以证明期望自由能本身的合理性。因此,未来研究应着力于从第一性原理推导观测风险与模糊性之和形式化表述。值得注意的是,虽然状态风险与模糊性之和形式化表述具备合理性论证,但该期望自由能定义无法恢复全部四种形式化表述,故不能构成统一性问题的有效解。

需说明的是,我们仅研究了期望自由能的两种可能定义。通过替代性证明路径和/或预测分布与目标分布的不同分解方式,或许能同时实现四种分解形式的恢复并消除先验偏好与似然的冲突。然而,穷举所有可能的分解与证明已超出本文范围。

最后,本文为未来研究奠定了坚实基础,尤其在深度主动推理领域。本文虽厘清了期望自由能定义,但尚未阐明如何利用深度神经网络进行计算。因此,仍需开展额外研究以具体实现并实证评估所提出的期望自由能定义。

原文链接:https://arxiv.org/pdf/2402.14460

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳洲红领巾
2026-04-20 13:44:46
耗高圆圆5年,又拖瞿颖11年,一句不婚主义,成了最好的挡箭牌?

耗高圆圆5年,又拖瞿颖11年,一句不婚主义,成了最好的挡箭牌?

阿废冷眼观察所
2026-04-21 19:36:37
留下238亿遗产,为何4个孩子没人愿意继承,甚至连花圈都不给他送

留下238亿遗产,为何4个孩子没人愿意继承,甚至连花圈都不给他送

米果说识
2026-03-21 17:02:24
2026款乐道L90上市 售26.58万元起 智能化全面升级

2026款乐道L90上市 售26.58万元起 智能化全面升级

太平洋汽车
2026-04-21 22:36:36
与李晨分手6年后嫁普通人,以为是好牌打烂,其实她才是人生赢家

与李晨分手6年后嫁普通人,以为是好牌打烂,其实她才是人生赢家

悦君兮君不知
2026-04-20 21:07:31
博格巴:把B费放在曼城,以他的数据和表现就是金球奖前三

博格巴:把B费放在曼城,以他的数据和表现就是金球奖前三

懂球帝
2026-04-22 01:14:27
“老实人”任重甘愿成为接盘侠,迎娶内娱第一海王,网友:绝配

“老实人”任重甘愿成为接盘侠,迎娶内娱第一海王,网友:绝配

天天热点见闻
2026-04-21 05:14:09
太超前了,全国唯一!一条冲浪视频走红网络,这居然是杭州的河道?

太超前了,全国唯一!一条冲浪视频走红网络,这居然是杭州的河道?

都市快报橙柿互动
2026-04-22 00:24:21
两大高光消息同时落地,属于孙颖莎的时代,早已稳稳到来

两大高光消息同时落地,属于孙颖莎的时代,早已稳稳到来

小光侃娱乐
2026-04-22 07:10:06
难怪特朗普对伊朗怂了,美国情报部门评估结果出炉,确实没法打了

难怪特朗普对伊朗怂了,美国情报部门评估结果出炉,确实没法打了

温读史
2026-04-22 00:27:49
文章面馆开业4天后,终于有艺人到场!网友:这对比太心酸了

文章面馆开业4天后,终于有艺人到场!网友:这对比太心酸了

娱小余
2026-04-19 23:21:33
儿女有出息,从不是天生的,而是父母做对了这4件事

儿女有出息,从不是天生的,而是父母做对了这4件事

第一桶金学派
2026-02-28 16:20:46
香港楼市被投下了一枚“核弹”

香港楼市被投下了一枚“核弹”

林子说事
2026-04-21 11:41:26
女篮世界杯小组抽签:中国女篮和美国、意大利、捷克同在D组

女篮世界杯小组抽签:中国女篮和美国、意大利、捷克同在D组

懂球帝
2026-04-22 01:03:07
北青:亚足联认定马宁亚冠精英联赛1/4决赛执法无错漏判

北青:亚足联认定马宁亚冠精英联赛1/4决赛执法无错漏判

懂球帝
2026-04-21 20:08:02
合资燃油车集体降价求生:多款经典车型跌成白菜价

合资燃油车集体降价求生:多款经典车型跌成白菜价

快科技
2026-04-21 12:08:07
我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

千秋文化
2026-04-16 20:15:29
绝了,开拓者绝了!整个NBA最抠门老板......

绝了,开拓者绝了!整个NBA最抠门老板......

篮球实战宝典
2026-04-21 17:25:51
中国女排首张集训大合照有猫腻,三老归队训练,一人已不在现场

中国女排首张集训大合照有猫腻,三老归队训练,一人已不在现场

体育快递小哥哥
2026-04-21 15:34:21
“老实人”任重甘愿成为接盘侠,迎娶内娱第一海王,网友:绝配

“老实人”任重甘愿成为接盘侠,迎娶内娱第一海王,网友:绝配

乡野小珥
2026-04-22 00:11:11
2026-04-22 07:48:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1364文章数 19关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

本地
游戏
亲子
教育
数码

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

涨价两周即回调!索尼官方PS5数字版定价重回399美元

亲子要闻

才六天的马宝宝,发这个视频没有别的意思,只是想骗你们生女儿而已

教育要闻

相似三角形与圆的压轴题,一个视频学会!

数码要闻

OPPO 哈苏影像新品发布会

无障碍浏览 进入关怀版