统一贝叶斯推断、博弈论和热力学的集体变分原理|智能体

分享至

A Collective Variational Principle Unifying Bayesian Inference, Game Theory, and Thermodynamics

统一贝叶斯推断、博弈论和热力学的集体变分原理

摘要

集体智能在生物、物理和人工系统中无中央协调地涌现，然而支配此类行为的统一原理仍难以捉摸。自由能原理通过变分推断解释了单个智能体如何适应，而博弈论则将策略交互形式化。在此，我们引入博弈论自由能原理，这是一个统一框架，表明执行局部自由能最小化的多智能体系统隐式地实现了一个随机博弈。我们证明，在有限理性和局部信息约束下，集体自由能的驻点对应于所诱导博弈的近似纳什均衡。反之，一类广泛的合作博弈允许一种变分表示，其中均衡作为联盟上的吉布斯分布涌现，从而在贝叶斯推断与策略交互之间建立了桥梁。为了刻画高阶效应，我们引入了哈桑尼红利（Harsanyi dividend）的自由能公式，分离出不可约的多智能体协同效应。这产生了一个合作预测理论，其中包括感知精度与智能体影响力之间可证伪的非单调关系。我们在神经、生物和人工多智能体系统中验证了这一预测。这些结果揭示了一个共同的变分原理，它构成了推断、热力学和博弈论均衡的基础。

引言

大量相互作用的单元——从物理粒子和分子[1]、细胞，到神经元、动物以及工程化的多智能体系统——如何在没有集中控制的情况下实现连贯的集体行为？这个问题横跨神经科学、生物学、物理学、经济学和人工智能领域，在这些领域中，由有限且仅具备局部信息的智能体组成的系统依然展现出全局协调与自适应结构。近期的观点强调，集体智能跨越自然与人工系统，动物与机器人面临共同的功能挑战[2]。一个核心挑战在于，现有的理论框架仅解决了该现象互补但不完整的方面。自由能原理提供了一个通用解释，说明个体系统如何通过贝叶斯推断最小化变分自由能来维持自适应组织[3, 4, 5, 6]。然而，该公式本质上是单智能体的，并未解释多个智能体如何协调、竞争或形成协同联盟。近期将自由能原理扩展至多智能体系统的努力探索了智能体群体如何共享信念和世界模型以达成共同理解[?]，如何通过集体马尔可夫毯形成更大的群体级智能体[?]，以及如何在多智能体环境中实现稳健决策[7]。然而，这些方法侧重于涌现的通信和群体级推断，而非提供策略交互的形式化博弈论分析、不可约协同效应的可计算度量，或关于联盟内个体影响力的可证伪预测。

与此同时，博弈论提供了策略交互的描述性与规范性理论，包含纳什均衡[8, 9]等均衡概念以及联盟分解[10]等工具。近期工作已开始在深度神经网络架构中 bridging 博弈论与统计物理[11, 12]。联盟博弈论也被用于解释深度神经网络[13]，突显了此类工具在理解复杂系统中的相关性。然而，经典博弈论缺乏基于推断或物理原理的机制基础，也无法自然解释均衡行为如何从分布式系统中的局部概率计算中涌现。

在此，我们提出一个统一视角，将多智能体系统描述为在共享环境诱导的联合构型上执行分布式变分推断。在该框架中，每个智能体最小化其自身的变分自由能，智能体间的交互在联盟结构上诱导出一个隐式随机博弈。我们证明，在有限理性、随机策略选择和局部信息约束下，所得变分动力学的驻点对应于所诱导博弈的ε-纳什均衡。反之，一类广泛的合作博弈允许一种变分表示，其中均衡策略作为联盟上的吉布斯分布涌现。为了超越均衡刻画并捕捉合作的内部结构，我们引入了哈桑尼分解[14, 15, 16]的变分公式。这使得联盟的能量可以用不可约的高阶贡献来表示，从而以自由能减少的形式直接度量协同与冲突。近期关于高阶拓扑动力学的工作进一步支持了在复杂系统中超越成对交互的必要性[17]。这一视角产生了一个定量且可证伪的预测：智能体在集体中的影响力非单调地依赖于其感知精度。多智能体系统中合作的涌现已被确定为一个基本的统计物理问题[18]。我们的框架通过将自由能最小化与博弈论均衡相联系来解决此问题，得出以下预测：精度的适度提高会增强协调性和全局影响力，而过度的精度则会导致过度专门化，并因局部噪声的放大而降低系统级影响。我们在神经、生物和人工多智能体系统中测试了这一预测。

最后，我们表明，统计物理和机器学习中的经典模型，包括伊辛模型、玻尔兹曼机和基于注意力的架构[19]，在对交互结构和平均场近似施加适当限制的情况下，均作为所提出变分框架的特例涌现。

结果

博弈论自由能原理（理论）

这些量定义了一种交互结构的原理性分解，该分解可从生成模型中计算得出，而无需行为观测。

解释。该框架在贝叶斯推断、随机博弈论和统计物理之间建立了变分等价性。智能体充当局部变分优化器，而全局行为作为联盟结构上的吉布斯后验涌现。哈桑尼分解提供了该后验背后的交互几何结构，且经典模型（如伊辛系统、玻尔兹曼机和基于注意力的架构）作为能量泛函在受限交互结构或平均场近似下的极限情况涌现。

联盟协同与自由能的哈桑尼红利

可证伪预测：感知精度的非单调影响力

我们要预测的是，智能体在集体中的因果影响力（通过其沙普利值或边际联盟概率衡量）作为其感知精度的函数，遵循倒 U 型曲线。在低精度下，推断能力差且影响力低；在中等精度下，协调性达到峰值；在高精度下，对局部噪声的过拟合会降低影响力。这种非单调规律是有限理性下变分推断中偏差-方差权衡 [23, 24, 25, 26, 27] 的直接后果。

跨三个领域的实证验证

我们在横跨神经科学、生物学和人工智能的三个截然不同的多智能体系统中，测试了感知精度与个体影响力之间预测的非单调关系。在每个领域中，我们改变了每个智能体观测值的精度（方差的倒数），测量了智能体对集体行为的因果影响力（通过沙普利值或源自哈桑尼红利的边际联盟概率量化），并观察到了预测的倒 U 型形状。

跨领域总结。图 4 叠加了来自所有三个系统的归一化影响力曲线，揭示了一种普遍的倒 U 型形状。最佳精度区间在数量上有所不同，但定性模式——即先达到峰值随后下降——在神经、生物和人工集体中是一致的。这支持了以下主张：博弈论自由能原理为分布式、有限理性系统中的协同效应和影响力提供了统一的解释。

经典模型作为变分极限的统一

我们表明，统计物理学和机器学习的经典模型作为所提出框架的特例而出现。

图 5 展示了博弈论自由能原理的完整架构。

我们引入了博弈论自由能原理（GT-FEP），这是一个连接变分推断、随机博弈论和统计物理的统一框架。我们的核心结果是纳什-FEP 定理，该定理确立了集体变分自由能的驻点对应于由智能体共享环境定义的隐式随机博弈的 ϵ ϵ-纳什均衡，反之，任何合作博弈都可以通过联盟上的吉布斯分布进行变分表示。这种形式等价性首次为贝叶斯推断中的策略交互提供了机制基础，同时将自由能原理扩展到了多智能体系统，超越了近期工作中涌现通信的方法。

第二个主要贡献是哈桑尼红利的自由能公式，它将联盟的能量分解为不可约的高阶协同效应。正的红利表示无法还原为个体或成对效应的真正合作，而负的红利则揭示了隐藏的冲突 [35]。这种分解不仅仅是描述性的：它可以直接从智能体的生成模型中计算得出，无需行为观测，从而提供了一种原理性的集体智能热力学度量。哈桑尼红利也是沙普利值的基础，我们将其用作因果影响力的度量，从而将联盟的协同结构与每个智能体的个体影响力联系起来。

该理论提出了一个明确且可证伪的预测：智能体在集体中的影响力随其感知精度呈倒 U 型变化。我们在三个分析联盟模型（神经集合、鱼群游动和多智能体合作）中证实了这一关系。这种非单调特征在跨领域的一致性强烈支持了 GT-FEP 的普遍性，并与关于分布式感知和集体计算的进化观点 [36] 相一致。

此外，我们表明，统计物理和机器学习的经典模型——伊辛模型、玻尔兹曼机和 Transformer 注意力机制——作为我们变分框架在适当限制（成对截断、高阶扩展或平均场近似 [37]）下的特例而出现。这种统一性不仅证明了 GT-FEP 的通用性，还为从联盟推断中推导出注意力提供了第一性原理的推导，补充了我们早期关于博弈论神经网络的工作。

与近期多智能体 FEP 研究的比较

尽管 Friston 及其同事探索了信念共享和联邦推断，但这些方法侧重于涌现的通信和群体级马尔可夫毯。它们并未提供对策略交互的形式化博弈论分析，也未提供不可约协同效应的可计算度量或关于个体影响力的可证伪预测。我们的 GT-FEP 直接解决了这些空白，且对非单调预测的实证验证使我们的工作区别于纯粹的描述性模型。

我们在自由能最小化与纳什均衡之间的形式等价性为最近的算法方法（如因子化主动推断 [38]，其中智能体相互建模内部状态）提供了理论基础。此外，它直接回应了长期以来对自由能原理缺乏规范性基础的批评。通过证明集体自由能最小化必然蕴含 ϵ ϵ-纳什均衡行为，我们表明博弈论理性并非外部附加物，而是变分推断的涌现属性，从而将 FEP 从描述推向预测。

局限性

联盟自由能和哈桑尼红利的精确计算需要枚举所有个子集，这对于较大的 N N来说是计算上不可行的 [39]。在我们的模拟中，我们利用了对称的智能体属性和沙普利值的精确公式来规避这种组合爆炸；对于一般的异构系统，可扩展的近似方法（例如，联盟的蒙特卡洛采样或平均场方法）将是必要的。此外，我们的分析假设智能体能够访问已知的生成模型，并且环境以平稳的方式耦合它们的观测——扩展到无模型或非平稳设置仍有待解决。

未来方向

GT-FEP 开辟了几个途径：(i) 为大规模集体开发哈桑尼红利的高效近似算法；(ii) 将该框架应用于现实世界的生物系统（例如，蚁群、鸟群），在这些系统中感知精度可以通过实验进行操纵；(iii) 设计内置协同效应检测的人工多智能体系统，以实现鲁棒的协调；(iv) 探索大语言模型中超越成对截断的高阶交互，这可能会导致新的注意力架构。更一般地说，这里提出的变分原理表明，推断、热力学和博弈论并非独立的学科，而是单一原理的不同侧面——这一视角可能会统一生命、心智和社会的理论。

总之，博弈论自由能原理为集体智能提供了一个通用的、可预测的且基于计算的基础，对神经科学、生态学、人工智能及其他领域具有深远影响。

方法

模拟概览

所有模拟均使用自定义代码在 Python 3.9 中实现：（代码地址：https://github.com/dbouchaffra/game-theoretic-free-energy-principle）。这三个多智能体系统（神经集合、鱼群游动、多智能体强化学习）是使用解析高斯联盟模型建模的。对于每个系统，感知精度 β 在预定义范围内变化（见补充信息），并且每个智能体的影响力通过源自联盟自由能的沙普利值进行量化。完整的模型方程、联盟值公式和过拟合参数在补充信息 S4 节中提供。

原文链接：https://arxiv.org/pdf/2604.27942

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.