网易首页 > 网易号 > 正文 申请入驻

重构预期自由能:四种形式与一个统一框架

0
分享至

Reframing the Expected Free Energy:Four Formulations and a Unification.

重构预期自由能:四种形式与一个统一框架

https://arxiv.org/abs/2402.14460?utm_source=chatgpt.com



摘要
主动推理是感知、学习与决策领域的前沿理论,可应用于神经科学、机器人学、心理学及机器学习领域。该理论基于期望自由能展开研究,其合理性主要源于多种形式化表述的直观可信性(如风险与模糊性表述、信息增益与实用价值表述)。本文旨在系统阐述如何从单一根定义推导这些形式化表述的数学问题(即统一性问题),进而研究两种具有不同根定义的场景。在第一种场景中,虽尚未提出对期望自由能的合理性证明,但所有形式化表述均可从其根定义推导得出。然而该场景下,主体无法对观测结果设置任意先验偏好——实际上,仅有限类与生成模型似然映射相容的观测先验偏好具有可行性。第二种场景虽已知期望自由能根定义的合理性证明,但仅能涵盖两种形式化表述(即状态风险与模糊性表述、熵与期望能量表述)。
关键词:主动推理,期望自由能,统一性问题

  1. 引言
    主动推理(Friston等,2016;Itti与Baldi,2009;Schwartenbeck等,2018;FitzGerald等,2015;Fountas等,2020;Sancaktar等,2020;Çatal等,2020;Cullen等,2018;Millidge,2019)是不确定性条件下决策的框架体系。该框架中,主体配备编码环境动态特性的生成模型,以及近似潜变量真实后验的变分后验分布。变分后验通过最小化变分自由能函数(机器学习领域亦称负证据下界,Fox与Roberts,2012;?)计算获得。虽然变分后验定义了环境的最可能状态,却未指明应选择何种行动。因此,主体通过最小化期望自由能以达成预设的偏好状态或观测目标。

变分自由能拥有一个明确的根定义,所有其他形式皆由此推导得出,而文献中尚未为期望自由能确立此类根定义,导致其多种形式化表述间的源流关系悬而未决。
期望自由能是一种定义特定策略执行成本的函数,通过平衡探索与利用来实现目标:既要最大化实用价值(奖励),又要最大化信息增益。实用价值依赖于主体的先验偏好,这些偏好规定了偏好状态或观测结果,为主体提供目标导向行为的驱动力。



为解决双重含义问题,先验偏好有时被视为目标分布的一部分。然而本文证明,这一假设限制了有效先验偏好的类别,并导致当前尚无法论证的期望自由能定义。后续章节将探讨帕尔等人(2022)提出的两种可能解释,并阐明其局限性。附录B与附录C提供了本文所用性质的说明。

2. 生成模型
在主动推理中,主体配备了一个覆盖从初始时刻到当前时刻t的环境生成模型。该模型由三部分组成:(a) 隐藏状态序列s₀:ₜ——表示主体无法直接观测的环境状态;(b) 观测序列o₀:ₜ——代表主体获得的测量数据;(c) 动作序列a₀:ₜ₋₁——主体在环境中执行的操作。为简洁起见,s₀:ₜ、o₀:ₜ和a₀:ₜ₋₁将分别记作s、o和a。此外,本文假设观测结果依赖于状态,而每个状态又依赖于前一时刻的状态与动作。这种设定在形式上称为部分可观测马尔可夫决策过程(POMDP),其模型定义如下:


  1. 变分分布
    前一节所述的生成模型编码了关于环境动态的先验信念。然而,当对关键量(如观测o)进行测量时,主体需要计算关于状态的后验信念(例如P(s|o, a))。这些后验信念编码了主体在考虑新观测后的更新信念。遗憾的是,计算真实后验要么在解析上难以处理,要么计算成本过高。因此,真实后验通常由变分分布Q(s|a)近似表示:


在主动推理中,变分后验满足:1)按时间步长进行因子分解(即时序平均场近似),但 2)所有状态仍依赖于策略 a。这两个假设导致变分分布的定义如下:


  1. 变分推断与变分自由能
    综上所述,主体配备有生成模型 P ( o , s ∣ a )
    )和变分分布 Q ( s ∣ a )
    。在获得观测数据 o o后,变分分布需近似真实后验 P ( s ∣ o , a ) 。这可以形式化表示为最小化近似后验与真实后验之间的库尔贝克-莱布勒散度:


最小化该KL散度与最小化变分自由能(VFE)等价(证明见下文)。直观而言,VFE在准确度(即观测结果的预测准确程度)与复杂度(即后验分布偏离先验分布的程度)之间进行权衡。其形式化定义如下:



5. 规划与期望自由能



5.1 统一性问题



重要之处在于,状态风险是状态预测后验 F ( s ∣ a )
与状态先验偏好 T ( s ∣ a )
之间的KL散度,而模糊性是根据生成模型对似然映射的期望熵。状态风险促使预测后验向先验偏好靠近,模糊性则鼓励主体访问能产生低熵观测分布的状态——即若抵达某状态,我们便能预期将获得何种观测。关于观测风险与模糊性的表述如下:




重要之处在于,信息增益是仅依赖预测分布因子的KL散度。这防止了主体停止探索环境所产生的退化行为(即信息损失,Champion等人,2023)。此外,实用价值基于偏好观测T(o|a),为主体提供目标导向行为。最后,期望能量与熵的表述如下:


熵项确保优良策略能通过允许主体到达广泛状态来保持选项的开放性,这符合杰恩斯最大熵理论(Jaynes, 1957a,b)的隐含要求。此外,如下文证明所示,期望能量项既促使主体到达偏好状态,又推动其选择那些观测分布具有低熵的状态——即给定某状态时,我们能预期将获得何种观测。


5.2 预测分布
如前所述,预测分布根据主体对环境当前状态的最佳信念及其生成模型来预测未来。其形式化分解如下:






5.3 目标分布
第二个关键分布是目标分布,它编码了主体期望达到的状态与观测。在后续章节中,我们将目标分布定义如下:



5.4 解决统一性问题
在明确了预测分布与目标分布后,我们现聚焦于统一性问题。我们将探究是否存在某种EFE形式化表述可作为根定义,从中推导出所有其他表述。首先,我们将根期望自由能定义为观测风险与模糊性之和:


5.4.1 信息增益/实用价值形式化表述
本节将证明,以 C R O A ( a ˉ )
ˉ)作为根定义的期望自由能可以推导出信息增益/实用价值形式化表述。该推导基于以下等式:



5.4.2 状态风险与模糊性形式化表述
本节将证明,状态风险与模糊性之和是期望自由能的上界。从EFE定义出发,可以推导出:



重要之处在于,由于状态风险与模糊性之和是EFE的上界,最小化该上界也将同时最小化EFE。

5.4.3 期望能量与熵形式化表述
最后,从方程(5)的状态风险与模糊性之和出发,可以证明:



6. 局限性




6.1 观测结果的先验偏好












6.2 期望自由能的合理性论证



  1. 结论
    本文旨在形式化期望自由能的定义,以及推导其四种形式化表述的问题(即统一性问题)。当期望自由能被定义为观测风险与模糊性之和时,所有形式化表述均可被恢复,因此可在实践中使用。然而,本文的一项重要贡献在于揭示了某些观测先验偏好与似然映射不相容。由此我们面临两难选择:要么建模者必须精心选择主体的先验偏好以避免冲突,要么放弃四种形式化表述之间的理论关联。

另一个问题在于观测风险与模糊性之和形式化表述缺乏合理性论证。尽管状态风险与模糊性之和形式化表述已有论证,但仅论证一个下界不足以证明期望自由能本身的合理性。因此,未来研究应着力于从第一性原理推导观测风险与模糊性之和形式化表述。值得注意的是,虽然状态风险与模糊性之和形式化表述具备合理性论证,但该期望自由能定义无法恢复全部四种形式化表述,故不能构成统一性问题的有效解。

需说明的是,我们仅研究了期望自由能的两种可能定义。通过替代性证明路径和/或预测分布与目标分布的不同分解方式,或许能同时实现四种分解形式的恢复并消除先验偏好与似然的冲突。然而,穷举所有可能的分解与证明已超出本文范围。

最后,本文为未来研究奠定了坚实基础,尤其在深度主动推理领域。本文虽厘清了期望自由能定义,但尚未阐明如何利用深度神经网络进行计算。因此,仍需开展额外研究以具体实现并实证评估所提出的期望自由能定义。

原文链接:https://arxiv.org/pdf/2402.14460

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胖东来恢复营业首日客流量爆满,有顾客凌晨5点开车排队,周边道路已堵车,客服:超市已限流,需排队2小时

胖东来恢复营业首日客流量爆满,有顾客凌晨5点开车排队,周边道路已堵车,客服:超市已限流,需排队2小时

极目新闻
2026-02-21 11:31:32
刚刚,确定每平米最高11.3万元!港府决定收购他们的房子!

刚刚,确定每平米最高11.3万元!港府决定收购他们的房子!

港你知
2026-02-21 17:04:07
大数据“杀熟”再引争议,“看人下菜碟”式价格歧视该休矣!

大数据“杀熟”再引争议,“看人下菜碟”式价格歧视该休矣!

时代周报
2026-01-16 20:42:04
印度91岁僧人78年不吃不喝?军方在其房间装上监控,最终发现真相

印度91岁僧人78年不吃不喝?军方在其房间装上监控,最终发现真相

谈史论天地
2026-02-22 06:31:28
日本多地连发集体食物中毒事件 逾百人“中招”

日本多地连发集体食物中毒事件 逾百人“中招”

财联社
2026-02-21 20:10:06
瓜帅:纽卡是支难缠的球队,几周后还要对阵他们真是噩梦

瓜帅:纽卡是支难缠的球队,几周后还要对阵他们真是噩梦

懂球帝
2026-02-22 07:14:22
特斯拉Cybercab已取消方向盘,中国为何还紧握不放?

特斯拉Cybercab已取消方向盘,中国为何还紧握不放?

冷观互联网
2026-02-21 11:01:56
特朗普白忙活一场,下一任总统热门候选人出炉,对中国态度不一般

特朗普白忙活一场,下一任总统热门候选人出炉,对中国态度不一般

青烟小先生
2026-02-21 09:35:19
郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

极目新闻
2026-02-20 17:01:59
宋美龄的钢笔手稿惊艳了书坛!不及格!堪比小学生水准!让人意外

宋美龄的钢笔手稿惊艳了书坛!不及格!堪比小学生水准!让人意外

石辰搞笑日常
2026-02-22 03:11:49
农村风气变了!以前笑光棍没面子,现这3种人在村里根本抬不起头

农村风气变了!以前笑光棍没面子,现这3种人在村里根本抬不起头

复转这些年
2026-02-11 23:00:13
陷入作弊嫌疑的加拿大冰壶队夺金 雅各布斯:质疑者们,我们是冠军

陷入作弊嫌疑的加拿大冰壶队夺金 雅各布斯:质疑者们,我们是冠军

劲爆体坛
2026-02-22 10:18:05
14国发表联合声明

14国发表联合声明

极目新闻
2026-02-22 11:21:36
华工科技:AI高速光模块订单排到四季度 春节期间武汉及泰国两大生产基地全线运转

华工科技:AI高速光模块订单排到四季度 春节期间武汉及泰国两大生产基地全线运转

财联社
2026-02-22 09:42:51
爱泼斯坦新文件曝光,提及中国引发广泛关注。

爱泼斯坦新文件曝光,提及中国引发广泛关注。

特约前排观众
2026-02-22 00:05:06
印专家震惊发言:中印关系缓和,但前提是中国得给印度钱、给技术

印专家震惊发言:中印关系缓和,但前提是中国得给印度钱、给技术

小聪明说科普
2026-02-22 10:53:41
6-5!中国香港队爆大冷,掀翻韩国劲旅夺贺岁杯,取2026首胜

6-5!中国香港队爆大冷,掀翻韩国劲旅夺贺岁杯,取2026首胜

绿茵舞着
2026-02-21 23:54:48
连追4球!西蒙斯率队逆袭,1亿巨星再次哑火:14轮0进球

连追4球!西蒙斯率队逆袭,1亿巨星再次哑火:14轮0进球

足球狗说
2026-02-22 06:28:58
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
史上首次:科学家用AI模拟黑洞,发现它通往另一个宇宙?

史上首次:科学家用AI模拟黑洞,发现它通往另一个宇宙?

观察宇宙
2026-02-21 10:54:33
2026-02-22 12:32:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1233文章数 18关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
数码
健康
游戏
手机

教育要闻

“只有穷人,才这样教育子女!”家长让孩子给外卖员送水,被群嘲

数码要闻

2026中国电影票房暂列全球第一;小米17系列进军全球市场

转头就晕的耳石症,能开车上班吗?

魔兽世界时光服:P2阶段最值得入手的专业极品,你穿上去了吗?

手机要闻

小米最受欢迎的是哪个档次机型,这个数据有点意思

无障碍浏览 进入关怀版