On Bayesian mechanics: a physics of and by beliefs
贝叶斯力学:一种由信念而生的物理学
https://royalsocietypublishing.org/doi/pdf/10.1098/rsfs.2022.0029
本文的目的是介绍一个在过去十年中兴起的研究领域,称为贝叶斯力学。贝叶斯力学是一种概率力学,包含一系列工具,使我们能够对具有特定划分(即划分为粒子)的系统进行建模,其中某一系统的内部状态(或内部状态的轨迹)编码了关于外部状态(或其轨迹)信念的概率分布参数。这些工具使我们能够建立机械理论,用于描述那些看似在估计其感觉状态成因的后验概率分布的系统。这为建模决定此类系统动力学的各种约束、力、势能及其他相关量提供了一种形式化语言,尤其是当这些动力学涉及信念空间(即统计流形)上的演化时。本文将回顾自由能原理文献中的最新研究进展,区分贝叶斯力学应用于具体系统的三种方式(即路径追踪、模式追踪和模式匹配)。接着,我们将探讨自由能原理与约束最大熵原理之间的对偶性,这两个原理均是贝叶斯力学的核心,并讨论其蕴含的意义。
引言
本文旨在介绍一个在过去十年中开始兴起并逐步确立的研究领域——贝叶斯力学,该领域可能为自组织系统和复杂适应系统提供一种通用力学的初步框架[1–6]。贝叶斯力学涉及对物理系统的建模,这些系统看似在其所处环境中编码了关于环境的概率性信念,特别是关于它们与环境之间耦合方式的信念。因此,贝叶斯力学试图为所有在一段时间内持续存在的事物所表现出的一个显著特性提供一种数学上严谨的解释,即:这些事物逐渐获得了其所嵌入环境的统计特征,并似乎由此编码了对该环境的概率性表征[7,8]。贝叶斯力学基于这样一种观点:某些类型系统的物理力学与其所编码的信息力学(或概率信念的力学)之间存在系统性的关联。
贝叶斯力学通过一对由特定运动定律联系起来的互补空间来描述物理系统:一个是关于系统物理状态的概率分布空间(例如,观察者对其环境的信念),另一个是系统自身所编码或蕴含的概率分布空间,这两个空间通过近似贝叶斯推断相互关联。贝叶斯力学建立在系统信念的动力学(即其在信念空间中的时间演化)与编码这些信念的系统的物理动力学(即其在可能状态轨迹空间中的时间演化)之间的共轭关系之上[2,6];这种数学结构在文献[1]中被称为“共轭信息几何”,其中“共轭”是“伴随”或“对偶”的同义词。利用贝叶斯力学的工具,我们可以为那些看似在建模其所嵌入环境的自组织系统建立机械理论。因此,贝叶斯力学将物理系统的形象描述为系统所持有的概率信念在共轭空间中的流动,并阐明这两种视角之间的系统性关系。
人们常说,能够在时间中维持其组织结构的系统(如生命系统)似乎抵抗了热力学第二定律所规定的熵增与耗散过程(这种观点常归因于薛定谔[9])。事实上,这种说法并不准确,某种程度上是一种误解,而薛定谔本人对此也十分清楚:自组织系统,尤其是生命系统,不仅完全符合热力学第二定律——该定律指出孤立系统的内部熵总是增加——而且极其严格地遵循这一定律;正是通过这种方式,它们同时维持了自身的结构完整性[4,9–14]。贝叶斯力学的基础是由复杂适应系统物理学以及自然与人工智能研究领域的先驱们奠定的。贝叶斯力学在此基础上发展,结合了已被用于构建数学理论和计算模型的基础方法与工具,使我们能够研究稳定结构看似悖论般的涌现现象,将其视为熵耗散的一种特殊情形[15–17]。
贝叶斯力学起源于物理学和统计学中其他领域的变分原理,如杰恩斯的最大熵原理[18]和作用量平稳原理,并广泛借鉴了来自信息论与几何学[19–21]、控制论与人工智能[22,23]、计算神经科学[24,25]、统计推断与统计物理中的规范理论[6,26–29],以及随机热力学和非平衡物理[17,30,31]等多学科领域的成果。贝叶斯力学整合了这些工具和技术,使我们能够为一类特殊的物理系统建立机械理论,这类系统看似正在估计并更新其关于观测成因的后验概率密度(即不断估计和更新其信念)。
在本文中,我们将讨论动力学、力学与原理之间的关系。在物理学中,“动力学”通常指对系统行为的描述(即现象学层面的说明),告诉我们事物如何变化,包括位置的变化以及引起这些变化的力。动力学具有描述性,但不一定具备解释性:它们并不总是直接建立在诸如运动定律之类的基本规律之上。我们通过“力学”或“机械理论”从描述走向解释:机械理论是一类特定的数学理论,旨在解释动力学的来源,通过阐明变化、运动、能量(或力)与位置之间的关系来实现。最后,“原理”具有规范性:它们是以简洁数学形式表达的陈述,据此可对机械理论进行诠释。也就是说,如果机械理论解释了系统为何以某种方式运行,那么原理则解释了为何会如此。例如,经典力学提供了运动方程,用以解释非相对论性物体的动力学是如何产生的,将系统位置的变化与其势能和动能联系起来;而作用量平稳原理则告诉我们为何存在这样的关系,即系统的真实路径是使这两种能量之差的累积值达到极小值的路径。类似地,贝叶斯力学是一套机械理论,旨在解释那些看似由关于其所嵌入环境的概率性信念所驱动的系统的动力学行为。
我们说过,力学建立在规范性的原理之上。贝叶斯力学的核心是变分自由能原理(FEP)。FEP 是一个数学陈述,它从第一性原理出发,阐明了“一个系统存在”以及“成为某种特定事物”究竟意味着什么。FEP 为那些看似拥有信念的系统的机械理论提供了一种解释。因此,FEP 被认为可以解释为何自组织系统似乎能够通过主动维持其结构来抵抗局部熵增和衰变的趋势。FEP 建立在数十年来将经典力学与统计力学以“意外度”(surprisal)和“熵”重新定义的工作基础之上(例如[15–17]的开创性研究)。意外度被定义为某一事件发生的对数概率:直观上,它量化了一个过程的状态或测量结果的不可信程度,高意外度对应于极低观测概率的状态或结果(换言之,这些状态通常是系统不会出现的状态)。熵则是状态或结果的期望或平均意外度,它也是某个概率分布或密度扩散程度的度量,表征该分布的平均信息含量[34]。变分自由能是意外度的一个可处理(即可计算)的上界;负的自由能被称为机器学习中的“证据下界”(ELBO)[35]。FEP 将自组织描述为向自由能最小值流动的过程。人们早已知道,可以利用 FEP 将动力系统的演化描述为一种自组织过程,即通过避免与环境发生令人意外的交互,从而随时间最小化熵耗散(例如[1,36])。FEP 将这一点整合为一种建模方法,类似于最大熵原理或作用量平稳原理。也就是说,FEP 并非关于事物“真实本质”的形而上学断言,而是从一个约定性的、特定的“何为一物”的定义出发,进而用于构建符合这一“物性”定义的系统的机械理论[1,3]。
在继续之前,我们强调“信念”一词的两种不同含义之间的区别:一种是概率意义上的,其中“信念”在贝叶斯统计的技术意义上使用,表示在某个支撑集上的概率密度,从而形式化了对该支撑集的某种信念;另一种是命题性或常识性的理解,在哲学和认知科学中较为常见,涉及某种具有验证条件(如真值条件)的语义内容。本文中我们始终采用前一种概率意义的“信念”,并将“信念”与“概率密度”作为同义词交替使用。
在此前提下,贝叶斯力学专门适用于具有状态划分的特定系统,其中一个子集用于参数化另一个子集上的概率分布或密度。贝叶斯力学在数学上精确地表述了物理系统在何种条件下可被视为对其所嵌入环境持有概率性(条件性或贝叶斯式)信念。形式上,贝叶斯力学关注的是所谓的“特定系统”(particular systems),这类系统具有“特定划分”(particular partition)[1]——即划分为“粒子”,这些粒子与其所嵌入的环境相耦合,但又可分离。所谓“特定系统”,指的是系统被明确划分为内部状态、外部状态以及介于两者之间的“罩层状态”(blanket states),后者实现了内外之间的耦合(即“马尔可夫毯”)。内部状态与罩层状态可共同构成一个“粒子”,这也是该划分名称的由来。根据FEP,物理系统的内部状态可被建模为编码概率性信念的参数,这些信念是定义在刻画系统某些量(如状态、流、轨迹或其他测度)的域上的概率密度函数。
简而言之,贝叶斯力学是一套关于物理系统内部状态所编码或体现的信念及其随时间演化规律的机械理论;它提供了一种形式化语言,用以建模决定这些系统内部状态在信念空间(即统计流形)中如何运动的各种约束、力、场、流形和势能。由于这些概率性信念依赖于由粒子内部状态物理编码的参数,因此所产生的统计流形(或信念空间)及其上的流动与维持它们的系统物理学之间存在着非平凡且系统性的关联。这一点通过应用FEP得以实现:我们通过一条在自由能上的作用量平稳路径来建模特定系统的行为,并借助一个称为“同步映射”(synchronization map)的函数,该函数定义了内部状态与外部状态如何跨越边界(或马尔可夫毯)实现同步,而这一边界正是划分此类动力系统的分界(如果这种划分存在的话)。总之,贝叶斯力学关注的是物理系统在信念空间中的“像”以及这些表征之间的联系:即将特定系统的内部状态(及其动力学)映射到概率分布的空间(及该空间中的轨迹或路径),反之亦然。
两个相关的数学对象构成了FEP的核心,也将在我们对贝叶斯力学的阐述中发挥关键作用:(i) 本体论势能(ontological potentials)或约束,以及 (ii) 由这类势能驱动的系统的力学。在此框架中,本体论势能类似于物理学中的其他势能,如引力势或电磁势。它是一个标量量,定义了一个能量景观,其梯度决定了系统所受的力(矢量场)。这类势能之所以称为“本体论的”,是因为它们刻画了“某物之所以为某物”的本质:它们使我们能够指定系统必须满足的运动方程,以保持其作为某种特定事物的存在。
本体论势能或约束为特定系统“成为其所是”提供了数学定义:基于对某类系统典型状态或路径的描述,我们可以据此确定特定系统的运动方程(即其在状态空间中的特征路径、随时间演化的模式、最常访问的状态等)。我们将在第3和第4节中详细讨论这些概念。特别地,贝叶斯力学关注本体论势能或约束与表征具有此类势能的系统时间演化的流动、路径和流形之间的关系,从而为我们理解物理系统中的适应性自组织提供一种新视角。
我们将看到,通过FEP进行的这种描述总是伴随着一个对偶的或互补的视角,该视角源自最大熵原理。这一视角关注系统所采样的概率密度,以及该密度如何被施加或随时间演化。我们将深入探讨FEP与约束最大熵原理(CMEP)之间的对偶性,表明它们是对同一现象的两种不同视角。这为理解适应性自组织动力学提供了一个统一的观点,该观点包容了两种视角的对偶性:一是适应性系统对其环境(及自身)的视角,二是其所嵌入的环境(即热浴)的视角(所有有序事物最终都将向其中耗散)。
这两种观点初看似乎相互对立:毕竟,持久存在的复杂适应系统似乎有组织地抵抗熵增与耗散;而所有嵌入热浴中的有序事物不可避免的热力学宿命却是向环境耗散[9]。解决这一表面矛盾正是整个理论构造对偶化的根本动机。正如我们可以将受控系统视为尽管受到环境扰动,仍能将其状态维持在特征性的、不令人意外的设定点附近[2],我们也可以将自组织系统视为一个持久、凝聚的状态集合,它嵌入环境中,并不断抵抗环境使其耗散的趋势。这种“主体–环境”或“关系性”对称性几乎是所有复杂系统形式化方法的基础,这些方法植根于开放系统之间的相互作用[38–43],因此为理解复杂性提供了一个极具吸引力的框架。
特别是,自组织可以从两种角度来看待。一种是从“自我”的视角出发,即站在与环境中其他事物相区别的个体化事物的立场上。从这一由自由能原理(FEP)所提供的视角来看,我们可以探讨特定系统如何解释其环境,并维持其“自我”——也就是维持其作为某一类事物所特有的结构形态。这需要对内部状态或感觉状态的成因进行推断。与此对偶的是,我们也可以从“组织”的视角来观察:即从外部向内审视,建模一个结构如何在可观测的时间尺度上保持凝聚而不向环境耗散。后一种视角类似于关注某个系统的内部状态本身,而非这些内部状态所承载的信念(后者是FEP理论框架下通常的做法)。这两种叙述虽然角度不同,但都涉及系统的自组织,且以不同方式对其进行建模,这绝非偶然。
同样地,在这种对偶的意义上,“询问组织”就如同一个位于外部世界的观察者或建模者,正在形成关于某一特定系统内部状态的信念。这两种观点本质上是等价的,因为它们讲述的是关于推断以及自组织动力学的同一个故事。这种对偶性使我们能够通过多种互补的视角来理解自由能原理和贝叶斯力学。转换视角的好处在于,我们可以将FEP与更广为人知的最大熵原理视角进行比较,后者在标准数学和物理学中更为常见。特别地,这为我们提供了一种系统性的方法,用以关联有序系统的动力学与力学,以及这些有序系统所编码或体现的信念的动力学与力学,从而在自组织物理的语言中重新发现贝叶斯力学和FEP早期理论形式的根本基础。
本文的论证结构如下:全文分为三个主要部分。第一部分以相对通俗、高层次的描述性综述方式,回顾了近二十年来自由能原理(FEP)文献的发展。我们首先介绍一些关于动力学、力学、场论和原理的预备知识,并阐明贝叶斯力学兴起的动机。随后,我们将深入探讨贝叶斯力学的最新研究进展,对其中的核心形式体系和研究成果进行叙述性回顾。我们全面梳理了文献中出现的自由能原理,并区分了它被用于建模特定系统动力学的三种主要方式:我们称之为路径追踪(path-tracking)、模式追踪(mode-tracking)和模式匹配(mode-matching)。
第二部分再次以较高层次的方式,介绍一组近年来才取得的新成果,这些成果涉及自由能原理与在特定约束下的最大熵原理之间的对偶性,其数学内容更为深入,尤其借鉴了规范理论(gauge theory)的工具。为此,我们简要转向讨论规范理论、最大熵原理以及对偶化方法。在此基础上,我们深入分析自由能原理(FEP)与约束最大熵原理(CMEP)之间的对偶关系。
第三部分探讨贝叶斯力学正在兴起的哲学意涵。我们讨论FEP与CMEP之间对偶性对贝叶斯力学的意义,并勾勒出未来研究的一些可能方向。最后,我们进行总结,提出将这种对偶性推广到更复杂系统的路径,从而系统性地研究那些远离平衡态、无法用稳态密度或静态统计描述的系统——我们将这一研究领域命名为“G理论”(G-theory),涵盖路径上的贝叶斯力学与路径上的熵(即“ caliber”,量程)之间的对偶性,并进一步拓展至更广泛的范畴。
读者应注意,本文并非对贝叶斯力学与自由能原理的独立完整论述,而应被视为对相关技术文献的概念性导引或配套读物。因此,我们常常选择定性描述而非列出具体方程,并建议读者参考技术文献以深入了解假设和证明的细节。需要指出的是,贝叶斯力学、自由能原理以及最大熵原理所涵盖的领域本质上是高度技术性的,依赖并运用大量精细的形式结构与概念。本文力求相对自洽,并提供一定的入门材料以方便阅读;但我们假定读者具备动力系统理论(特别是状态空间或相空间形式体系)、微积分(尤其是常微分方程和随机微分方程)以及概率论或信息论的基本知识。此外,熟悉规范理论将有助于理解本文的第二大部分。而文章最后的哲学讨论部分,则力求使数学与物理背景较弱的读者也能理解。
2. 力学概念概述
在正式进入贝叶斯力学之前,我们首先回顾一些支撑当代理论物理学的核心概念。
在物理学的正式研究方法中,对某一具体对象行为的描述处于理论构建层级的最底层。如引言所述,一个系统的“动力学”是对该系统所受力的描述,通常通过运动定律或运动方程(即某种“力学”)来表达。然而,在我们能够推导出某个事物行为的数学描述之前,需要大量其他信息来说明这些运动方程的来源。例如,“机械理论”是一种数学理论,它告诉我们力、运动、变化与位置之间如何相互关联。换句话说,机械理论告诉我们一个事物应该如何行为;给定某个特定系统,我们就可以利用机械理论来确定其动力学。这种区分——即现象学的(或仅仅是描述性的)模型与物理的、机械的理论之间的区别——通常在于:机械理论可以从一个基本原理(如作用量平稳原理)推导而来。因此,由此得到的机械理论精确地指明了遵循该原理的系统会如何表现;反过来,给定一组与目标动力图像相关的系统层面细节,该原理则为这一机械理论提供了诠释。
“理论”一词具有多重含义。简要回顾科学建模哲学中的关键概念有助于澄清我们此处的用法(参见[44]的精彩综述;另见[45–47])。我们所说的“动力学”、“力学”和“原理”,归根结底都是数学结构(在数学中,这些也被称为数学理论)。数学理论或结构的内容完全是形式化的:例如,微积分和概率论的公理与定理本身并不天然指向任何特定的真实经验对象。而通常被称为“科学理论”或“经验理论”的,包含一个数学结构以及对该结构的经验应用、解释或诠释,后者将数学结构中的构造与现实世界中的事物联系起来,例如与实际存在的系统的特定可观测特征相联系。
有时人们认为,物理学中的原理(如作用量平稳原理)从严格意义上讲是不可证伪的;尽管它们在科学研究中显然扮演着重要角色,而科学研究最终建立在经验证实的基础之上(至少表面上如此)。我们可以借助“数学理论”(即我们所说的机械理论和原理)与其经验应用之间的区分来理解这一点。解决这一矛盾的关键在于认识到:如果没有具体的经验应用,数学结构本身并不是为了对经验现象做出具体断言。事实上,正如[45]和[6, 注释5.1]所指出的,使用同一数学结构来解释完全不同现象的“符号滥用”之所以富有成效,正是形式化建模之所以成为强大科学工具的根本原因之一。
我们曾说过,动力学具有描述性,但不一定具有解释性。长期以来有一种观点认为,动力系统模型本身并不具备内在的解释力(例如[48–50]),因为它们并不必然诉诸于解释机制,而只是对行为提供一种方便的形式化总结。这正是例如开普勒对天体运动的描述与牛顿的运动定律之间的主要区别:前者仅仅是描述性的(按我们的定义,属于“动力学”),而后者提供了一种“力学”,足以解释这些动力学现象。也就是说,开普勒的行星运动定律在现代意义上并非真正的运动方程;它们只是对日心轨道呈椭圆轨迹的描述,并未解释这些轨道为何呈现此种形状(例如并未涉及质量与引力吸引等因素,而牛顿后来正是通过这些因素进行了解释——我们称之为“力学”)。
自麦克斯韦的开创性工作以来,几乎所有现代物理学都以场论的形式表述。进入20世纪后,由于其描述上的优势,整个物理学被重新表述为基于空间延展场的理论[51]。场是一种形式化手段,用于表达一个机械理论如何在一个时空中的单一路径(即所谓的“世界线”)内适用于一个系统。换言之,场将运动方程限制为仅适用于时空中的特定、物理上可实现的轨迹。(同样,现代物理学的大部分内容也因几何学的描述优势而被“几何化”[52]。稍后我们将看到,当代物理学进一步结合了规范理论的几何工具来增强场论框架。)从数学上看,场是一个n维抽象对象,它为某空间中的每一点赋予一个值;当这个值是标量时,我们称该场为标量场,其中一种特殊情况就是势函数。例如,电磁场为空间中的每一点分配一个电荷密度(即电势和磁势能);该势的梯度反过来决定了粒子在该势场所受的力。类似地,引力场为时空中的每一点分配一个值,表示将一个粒子从其惯性轨迹移开所需的单位质量功。
我们在此关注的是我们所称的贝叶斯力学。通常,当我们谈到某种物理学的机械理论时——例如量子力学(描述高能状态下物体行为的理论,即非常微小的物体高速运动的情况,如量子粒子)、统计力学(描述具有概率性自由度的系统行为的理论,特别是大量功能上相同物体的系综层面行为),或经典力学(在没有噪声或量子效应、且处于非相对论速度下,描述物体和粒子行为的理论)——这些力学所提供的正是我们感兴趣的运动方程;而这些力学本身又是从某种对称性或优化原理推导出来的。随后,我们可以将关于特定系统的数据(例如系统演化的初始条件或边界条件)输入到该机械理论中,方程便会输出该系统的动力学行为。
当该积分被最小化时。上述提到的积分被称为“作用量泛函”,对作用量进行变分可导出描述任意平稳作用量路径的规则[54]。我们可以在例子中看到这一点:欧拉-拉格朗日方程退化为:
经过一些代数运算后得到上述结果。这就是牛顿第二定律(注意加速度 a是位置的二阶导数,即 )。这一结果总结了一个基本事实:系统在完成某种运动时,倾向于不消耗比所需更多的能量(参见[55]中的教学性综述);这转化为执行给定任务时使用尽可能少的能量。换句话说,在作用量平稳的路径上,势能的变化恰好等于动能的变化(即它们的差值为零),因此没有“额外”的能量被使用,也没有“额外”的运动发生。动能与势能累积差值为零这一事实,反映了对这两种量之间交换的理想规律——事实上,这正是物理学中更普遍的能量守恒定律的基础。它也解释了为何系统倾向于沿着力的方向加速,并且其加速度恰好等于所施加的力——不多也不少。因此,经典力学告诉我们,系统之所以沿着力的方向加速,是因为它们保持能量守恒并遵循作用量平稳的路径(即变分为零的路径);反过来,经典力学理论本身正是源于作用量平稳原理。参见图1。
对我们而言,重要的原理示例(这些原理由相应的机械理论支持)包括我们刚刚讨论过的作用量平稳原理、最大熵原理以及自由能原理。根据杰恩斯(Jaynes)的观点,最大熵原理是指统计性物体的力学导致扩散现象的原理[56–58]。同样地,自由能原理(FEP)是这样一种原理:有序系统围绕类系统状态或路径保持其组织性,而由FEP导出的机械理论则可被理解为蕴含了实现自组织所需的动力学。我们可以将前者理解为统计力学——粒子在扩散过程中的行为;而我们将后者称为贝叶斯力学。有趣的是,每一种物理理论都对应某种特征几何结构,例如经典力学中的辛几何;此外,如前所述,机械理论通常被视为场论在世界线上的限制。通过聚焦于FEP中将物理对称性原理与某一给定系统动力学的机械理论相联系的方面,我们隐含地将几何学和场论的概念引入了FEP,而这两种工具都极为强大。我们将在第5和第6节中回顾这些思想。
3 自由能原理与贝叶斯力学:概述
本节回顾了变分自由能原理(FEP)文献中已推导出的一些关键成果,并将其置于更广泛的贝叶斯力学框架下进行定位。我们首先对自由能原理(FEP)做一个总体介绍,然后梳理文献中FEP的各种形式化应用,构建一个较为全面的分类体系;这些应用针对的是具有不同数学特性的各类系统,而这些差异在以往研究中往往未被明确区分。
我们首先考察FEP最简单且最一般的表述形式,即用于建模特定系统路径上的概率密度的FEP,这种形式通常使用运动的广义坐标来表达。这种基于路径的一般性FEP表述对系统的动力学假设极少,特别是并不要求系统存在一个具有明确定义模式的非平衡稳态。
随后,我们转向另一种以状态空间上的概率密度动力学为基础的FEP表述形式(即“密度动力学”形式的FEP)。这种密度动力学表述在文献中又主要分为两种形式:一种假设外部状态划分具有自身的动力学,另一种则假设其没有动力学。相比基于路径的表述,密度动力学表述做出了更强的假设,即系统的力学允许存在稳态解,这使我们能够对特定系统的流(flow)形式做出更具体的描述。
我们还将讨论一个被称为“近似贝叶斯推断引理”(approximate Bayesian inference lemma)的结果,该结果正是从密度动力学表述中推导而出的。参见图2。
3.1 自由能原理简介
在第2节中,我们指出,原理是一种数学理论或结构,用于为某一类系统建立机械理论。自由能原理(FEP)正是这样一种数学原理,我们可以利用它来为以特定方式定义的“事物”或“粒子”建立机械理论。FEP 的核心数学表述是:如果某个事物在时间中以某种结构持续存在,那么它必然编码或实例化了一个关于其环境的统计(生成)模型。换句话说,FEP 告诉我们,那些在所嵌入环境中维持其结构的事物,必然会获得该环境的统计结构。
与当代统计物理的大多数理论一样,FEP 从对系统的概率性描述出发——通常是一个随机微分方程(SDE)系统。SDE 用于描述系统在可能状态或构型空间(即该系统的状态空间或相空间)中的时间演化或流动过程(即建立机械理论)。SDE 使我们能够构建包含确定性成分(也称为 SDE 的漂移项)和随机性成分(即 SDE 的噪声项)的动力学机械理论。在没有噪声的情况下,SDE 退化为常微分方程(ODE),此时系统将沿着流的方向进行确定性演化。
自由能原理(FEP)的正式处理通常从一个由伊藤随机微分方程(Itô SDE)描述的物理系统开始,其形式为:
在建立这种一般性框架之后,从经典力学到统计力学和量子力学,现代物理学的大多数研究都会进一步探讨:我们是否能够对系统不同路径或状态的概率分布说出一些有意义的内容。在自由能原理(FEP)文献中,系统在路径或状态上的概率分布通常被称为“生成模型”[62]。在统计学中,生成模型或概率密度是指一组变量上的联合概率密度函数。在FEP文献中,生成模型可以通过两种互补的方式进行分析,从而引出FEP的两种主要表述形式:一种是定义在状态空间上的密度,用于说明某些状态出现的概率(相对于出现令人意外的状态而言);另一种是定义在路径空间上的密度,用于量化某条路径出现的可能性(相对于其他更不可能的路径而言)。我们可以将生成模型想象为在某一特定系统的状态空间或路径空间上形成的一个曲面,其形状由概率密度函数决定;某个状态或路径的概率对应于该函数在状态或路径空间上图像的高度。
下一步涉及特定的划分(particular partition)。我们之前提到,自由能原理(FEP)适用于以某种特定方式定义的“事物”,这些事物会成为其所嵌入环境的模型。显然,要谈论“一个模型”,就必须存在一种划分,将系统分为两个实体:一个是可被识别为“模型”的部分,另一个是“被建模”的对象。因此,FEP 能够有效应用于通过稀疏因果依赖结构或稀疏耦合方式定义的“事物”,这种稀疏结构正是整个FEP理论后续发展的关键基础[3,63,64]。换句话说,FEP 是一个可用于描述具有特定划分(即将系统划分为“建模者”与“被建模者”)的系统力学的原理。
为了使这种区分在物理系统中成立,必须满足这样一个条件:实例化模型的事物与被建模的事物之间的因果耦合表现出某种“稀疏性”。考虑一个非正式的反证法:如果在有意义的时间尺度上,一切事物都与其他所有事物发生因果相互作用(即不存在稀疏耦合,例如理想气体中的粒子),那么我们就无法将任何一个“事物”从其他事物的背景中识别出来。
广义而言,这种特定划分下的马尔可夫毯,正是在一个整体系统内将一个粒子(或开放系统)与其他粒子分离开来——同时也实现耦合——的那一组自由度[65]。例如,在[66]中,马尔可夫毯被定义为在时空路径上能够区分不同粒子的变量;这与[67]中提出的观点类似。引入这种特定划分的目的,正是为了引入一组自由度,使得我们能够在原则上将一个系统与另一个系统区分开来,并允许它们彼此进行推断(即相互追踪)。从这个意义上说,马尔可夫毯本身并无特殊之处——它仅仅意味着在给定某组变量 b的条件下实现了系统的可分离性[11]。
感觉状态是马尔可夫毯的一个子集:它们是受外部状态影响并影响内部状态,但不受内部状态影响的状态。
主动状态也是马尔可夫毯的一个子集:它们是受内部状态影响并影响外部状态,但不受外部状态影响的状态[12]。
如前所述,这种划分假设了各状态或路径子集之间存在稀疏耦合[64,68],即在给定罩层变量动态的情况下,某个子集的演化独立于另一个子集,其形式如下:
其中我们使用下标来表示每个流(flow)所对应的状态子集。需要特别注意的关键点是:内部变量和主动变量的流动(即它们在状态空间中的轨迹)不依赖于外部变量;反之,外部变量和感觉变量的流动也不依赖于内部变量(或路径)。需要强调的是,马尔可夫毯是状态空间中的一个界面或边界,而不一定是时空中的物理边界[69](尽管在某些情况下二者可能重合,例如细胞的膜结构)。内部状态(或路径)及其罩层状态(或路径)通常被称为“特定状态”或“特定路径”(即一个“粒子”的状态或路径);而内部状态与主动状态(或路径)合称为“自主状态”或“自主路径”,因为它们不受外部状态(或路径)的影响。
这一构造的核心在于:在给定上述划分的前提下,根据自由能原理(FEP),我们可以将该特定系统的自主部分(autonomous partition)理解为进行某种形式的贝叶斯推断,其具体形式取决于对系统稀疏耦合方式以及条件独立结构所做的额外假设[68]。这种特定划分最终使我们将系统行为类比为贝叶斯推断成为可能,因为它允许我们将系统的内部状态解释为正在进行(近似贝叶斯或变分)推断。
在变分推断中,我们通过引入另一个称为“变分密度”(也称“识别密度”)的概率密度 q来近似某个“真实”的概率密度函数 p,其中 q以参数 μ为特征。利用变分方法,我们不断调整参数 μ,直到 q能够很好地逼近 p。简而言之,FEP 指出:在给定特定划分的情况下,某一特定系统的内部状态编码了关于外部状态的变分密度的充分统计量(例如高斯概率密度的均值和精度)。正如我们接下来将看到的,这会在系统的内部状态或路径空间中诱导出一个内在的统计流形,并伴随相应的信息几何结构。
如第1节所述,此类推断的目的在于最小化特定状态或路径的意外度(surprisal)。我们在第2节中更一般地讨论过,将某种“作用量”的最小化作为力学的基本原理。这一点在此依然成立:我们可以将FEP表述为“最小意外度原理”。当应用于不同类型的形式系统时,我们会得到不同种类的贝叶斯力学,这类似于在不同的数学背景下(取决于对底层状态空间和作用泛函的假设),我们会得到不同形式的经典力学(如牛顿力学、拉格朗日力学、引力力学、连续介质力学等)。
在文献[66,70]中,路径上的意外度(特别是以初始状态为条件的路径)被定义为
该等式成立当且仅当系统正在推断其观测的成因,使得式(3.2)成立(此时上述KL散度为零)。从这个意义上说,任何最小化自身意外度(surprisal)的系统,都会自动最小化变分自由能,从而使其行为可被解释为近似贝叶斯推断。
具体而言——关键在于,这种变分自由能是关于外部状态或路径的概率密度的泛函,该概率密度由内部状态或路径(在给定某些罩层状态或路径的条件下)所参数化,并在贝叶斯统计中扮演边际似然(marginal likelihood)或模型证据(model evidence)的角色。这是整个构造中的关键一步,因为它将系统的熵与其信念的熵联系起来,即:内部状态分布的熵 H[p(μ)]与由内部状态参数化的外部状态的变分密度(或识别密度)的熵 H[q(η)]。
3.2 自由能原理在路径上的应用:无需稳态或定常状态假设
自由能原理(FEP)最简单、最普遍且在许多方面最自然的表达形式,是针对特定系统演化路径所建立的表述[66]。人们常常低估了一个事实:FEP最初正是以路径为基础,在运动的广义坐标下提出的[71,72];毕竟,它本质上是一种表达“作用量平稳原理”的方式,告诉我们粒子在某种势场下最可能采取的路径。FEP的大量数学基础可追溯至信号处理与贝叶斯滤波领域的工作,这些方法具有动态特性,并最初为神经影像学发展而来[73,74]。然而,若说路径积分形式的研究已被其他形式取代,则并不准确。事实上,细心的读者会注意到,关于FEP的主要专著[1],尽管有时是隐含地,但实际上是基于广义坐标展开论述的。
当我们采用基于路径的表述时,我们使用的是所谓的“广义坐标”(generalized coordinates),其中将系统流动的时间导数视为系统“广义状态”的独立组成部分[66,74,75]。我们可以利用这些广义状态来定义一个瞬时路径(instantaneous path),因为它们可以被理解为系统状态随时间变化的泰勒展开式的系数[66,70]。在这种框架下,广义坐标中的一个“点”对应于一条可能的瞬时路径,即状态空间中的一条轨迹,或一组有序的状态序列。而在此基础上建立的自由能原理,关注的是这类瞬时路径上的概率密度。
形式上,基于路径的FEP表述指出:对于任意给定的感觉状态路径,自主状态(即内部状态与主动状态联合空间中的状态)的最可能路径,是某个自由能泛函的极小值点或平稳点。这一表述可写成一种作用量平稳的变分原理,其中作用量被定义为自由能的路径积分[66];其含义是,最可能路径的微小变化不会显著改变沿该轨迹的自由能 F的积分值,即:
更多细节参见[65,66]。在此无需对稳态密度或定常模式作出任何假设:这是一条直接的最小作用量路径,其中自主状态使其作用量最小化。
该形式体系的一个核心应用是主动推断(active inference),其中主动状态的路径是最小化期望自由能(EFE)的路径[76]。记条件概率密度的作用量为 A[−∣−],我们可以将主动状态表述为某一作用量的最小化者:
在某些可交换性条件(exchangeability conditions)下成立[66,70]。需要注意的是,期望自由能(EFE)与在“状态概率密度”形式的FEP中讨论的变分自由能有本质区别:EFE并不是意外度(surprisal)的一个上界。这一点与以下事实一致:基于路径的概率密度表述与基于状态的概率密度表述对系统的描述方式截然不同。
简而言之,在自由能原理(FEP)框架下,我们可以完全一般地断言(即无需对稳态或定常性作任何假设):只要存在一种特定划分——该划分由某一系统内部与外部路径子集之间的稀疏耦合所定义——我们就可以将给定感觉路径下最可能的内部路径和主动路径解释为实现了一种基本形式的贝叶斯推断[66,70]。因此,这类系统的动力学表现出所谓的“路径追踪”(path-tracking)行为:自主路径看似在追踪(即预测)外部路径。这一现象有时被称为“自我证成”(self-evidencing)[6,79]。它既包含感知层面的特征(即对感觉信息的响应[80]),也包含选择性或生成性(enactive)层面的特征(即与决策和规划相关[8])。从形式上看,这两方面分别归因于内部路径和主动路径;而后者遵循平稳作用量路径(即最小化EFE)的过程,被称为“主动推断”(active inference)。
在此背景下,“预测”概念包含两个层面。第一层是:这些运动方程构成了我们所定义的机械理论;它们提供了能够解释系统动力学的运动定律。因此,它们构成了一种预测性(即生成性)模型,使我们(作为实验者或建模者)能够在给定初始条件的情况下预测系统的行为,如文献[81]所示。另一个互补的层面是,我们所建模的“粒子”自身所进行的预测。简而言之,如果一个系统具有特定划分,那么该系统的子集(即内部状态与外部状态)看起来就会相互追踪,或者说彼此推断对方的统计结构。这使我们(作为建模者)能够预测这些“粒子”自身会做出何种类型的推断或预测。
需要指出的是,这一结果比我们接下来要讨论的结果更为简约。特别是,它并未说明自主状态所采取的流动的具体形式(事实上,该表述留下了一整类在最小化变分自由能方面表现同等优异的轨迹,这在推断问题中是一个更普遍的难题[58])。
3.3 从平稳作用量路径到密度动力学:自由能原理在具有稳态解系统中的应用
本节转向自由能原理(FEP)的“密度动力学”表述形式。近年来(约2012–2019年)的FEP文献主要聚焦于这种密度动力学框架,它描述的是随时间演化的状态空间上的概率密度,而不是路径空间上的概率密度。
在此框架下,我们仍然处理的是作用量平稳的路径。然而,与之前不同的是,我们现在假设底层概率密度的统计特性存在一种称为“稳态解”(steady-state solution)的结构。我们将讨论一个被称为“近似贝叶斯推断引理”(Approximate Bayesian Inference Lemma, ABIL)的结果,该引理在文献中呈现两种主要形式,具体取决于目标系统的统计特性。此外,我们可以对特定系统的稀疏耦合和条件独立性做出进一步假设。这些假设之所以有用,一方面是因为它们简化了部分数学推导,更重要的是,它们使我们能够对目标系统的流动行为做出更具体、更有信息量的描述。
人们之所以研究密度动力学表述,主要有以下几个原因。首先,非平衡稳态(non-equilibrium steady state)是一种有趣的模型,它表现出细致平衡的破缺以及由螺线型流(solenoidal flow,见下文)所暗示的周期性重现,这非常适合用于刻画生物节律和其他生物学规律性现象。因此,探讨在假设存在稳态密度的前提下能推进到何种程度,对于建模而言是一项有意义的工作。由于基于路径的表述在渐近意义上等价于密度动力学表述(即“最大量程”max-calibre在渐近意义上等价于“最大熵”max-entropy),因此只要注意到这种近似的局限性,研究这一更受限的特殊情况并不会损失一般性。
第二个原因是教学上的考虑:当假设存在稳态密度时,在普通坐标系下推导相关运动方程的过程更为简洁明了。
读者应注意,或许有些令人困惑的是,“系统处于稳态”或“系统具有稳态解”的说法,并不是对系统状态本身的直接刻画,而是对系统底层概率密度随时间演化特性的描述。“系统具有稳态解”意味着:如果系统不受扰动,它将在由该解定义的流形上持续演化,直到到达该解的一个驻点或闭合轨道——即作用量变分为零的位置。“系统处于稳态”则意味着其概率密度的动力学已停止演化,现在处于(或在随机涨落存在时接近)其作用量泛函的驻点,此时作用量无法进一步被最小化。但这并不意味着系统本身已演化到一个固定的不动点(fixed point)。
更正式地说,当自由能原理(FEP)应用于状态空间上的概率密度(而非路径空间)时,我们假设该系统的运动方程存在一个非平衡稳态(NESS)密度。形式上,NESS密度是描述系统密度动力学的福克-普朗克方程(Fokker–Planck equation)[82]的一个定常解,该方程用于刻画式(3.1)所描述的系统演化。这一密度存在性的假设使得FEP的适用范围有所缩小(具体缩小程度仍在争论中;参见[83]及对该文的回应);但在这些条件下,它能够为我们理解自组织系统的流动行为提供有意义的洞见。
在FEP框架下,一个NESS密度满足以下性质:
该NESS密度遵循马尔可夫毯的依赖结构[68,70],即:
2.在NESS密度下,流矢量场 f 可以通过亥姆霍兹分解(Helmholtz decomposition)(见图3),写成如下形式[2,3]:
NESS(非平衡稳态)假设在特定系统中尤为有意义,因为它使我们能够对这类系统中出现的流动类型做出一些非常基本且富有信息量的描述。在这些表述中,NESS密度充当了系统动力学拉格朗日函数中的势函数[70]。
关键在于,在自由能原理(FEP)框架下,上述NESS密度定义中的第三点所定义的“意外度”(surprisal),可以被视作系统的本体论势能(ontological potential)(当该势能存在时)。我们将本体论势能定义为一种抽象势能,它为某系统的动力学诱导出一个吸引子。之所以称为“本体论的”,是因为它刻画了该系统“作为某一类系统”的本质。这正是因为根据定义,系统会被吸引到那些体现其自身类型特征的状态或路径集合上(因为这些正是该系统的吸引区域)。
本体论势能也可以被表达为对“类系统状态”构成条件的一组约束。事实上,正如我们稍后将看到的,在推断问题的最大熵解中,对数概率等于对特定系统的约束——因此它也在字面意义上是一种势能,即通过限制该系统只能访问一组特征性状态来实现约束作用。也就是说,从数学上看,我们可以将意外度视为一种势能,类似于引力势或电磁势,其梯度使我们能够确定该系统所受的力。这些力决定了系统在状态空间以及其共轭信念空间中的演化。(相应地,一个概率密度的对数概率若被约束为以某种方式加权状态,则会复现该权重,即:
我们将在第5节中进一步探讨这一概念,即“本体论约束”(ontological constraint),它是“本体论势能”的对偶概念。
当我们考虑采样动力学的统计特性,且这些动力学收敛于目标NESS密度的模态(mode)时,本体论势能便获得了另一种解释——即关于系统的“偏好”[1,84–88]。我们可以将NESS密度视为提供了一组先验偏好,特定系统看似会通过行动试图实现或达成这些偏好[2]。事实上,我们可以将这种动力学解视为对认知系统目的性(teleology)的一种自然化解释[7,89]。
在上述假设成立的前提下,我们可以推导出一个更强版本的主张:特定系统执行某种形式的近似贝叶斯推断。这一结论被称为“近似贝叶斯推断引理”(Approximate Bayesian Inference Lemma, ABIL),其表述如下:当一个系统具有稳态解时,我们可以定义一个同步映射(synchronization map),该映射系统性地将外部状态的条件模态与内部状态的条件模态关联起来[16]。
在这些条件下,我们可以说,该特定系统看似通过内部编码外部环境的统计特性,来对一个最优的条件模态进行推断。近似贝叶斯推断引理(ABIL)本身指出:在存在同步映射和变分自由能泛函(或其等价形式)的情况下,这种模态匹配既是近似贝叶斯推断的必要条件,也是充分条件[6]。
我们可以形式化地定义同步映射 σ。映射 σ是一个函数,它将给定罩层状态下的最可能内部状态,映射到在同一罩层状态下最可能的外部状态。这些内部状态才是真正沿着变分自由能流动的状态;这是一种变分意义上的“移动”,使我们能够谈论推断——因为这一流动与意外度(surprisal)上的流动具有相同的最小值,因此我们可以将这些状态解读为正在进行推断。正如我们所说,这使得我们将系统的动力学解释为实现了一种基本形式的近似贝叶斯推断成为合理[91]。
其中 B是所有可能的罩层状态的集合,且此处我们仅为了说明方便,假设 μ是可逆的。
更非正式地解释一下,这意味着:对于每一个罩层状态,都存在一个平均的内部状态(或内部模态),它参数化了一个关于平均外部状态(或外部模态)的概率密度,或者说关于该外部状态的“信念”[2]。ABIL 背后的主张是:那些通过马尔可夫毯匹配这些条件模态的系统,实际上是在存储其环境的模型(或可以被如此解读),因而正在进行某种形式的推断。需要注意的是,μ−1的存在性并不能保证:我们可以证明,只有当 μ−1在其像集上可逆(即是一个单射)时,同步映射 σ才存在(参见[2]或[6]),但先验地我们无法断言 μ−1在任意定义域上必然存在。尽管如此,重要的是要指出,我们完全不需要 μ是双射的。
此外请注意——由于这一描述依赖于特定系统力学中NESS解的存在——该结论仅在渐近极限下成立[32,33,92]。
现在,这个条件外部模态本身可能具有动力学,也可能没有。这正是我们遇到FEP形式化应用分类中的第二类情况的地方(见图2):FEP在前一种情况下具有实质性的解释力,在后一种情况下则只是空洞成立。例如,在[83]分析的一类一维线性系统中,模态本身没有任何动力学:流动中唯一的变异性来源是随机涨落。如[92]所述,在线性系统中,动力学会简单地耗散到一个固定的静止点并停留在那里。此时,符合FEP的系统仍会通过同步映射匹配外部模态,但由于外部模态本身没有动力学,因此不可能存在可被解释为有感知能力、主动采样的“前瞻性追踪”行为。因此,[83]发现,在这些情况下,自由能梯度对系统真实动力学的描述并无信息量;但这恰恰是因为系统本身没有值得深入讨论的动力学。我们可以将这种行为称为“模态匹配”(mode matching),即一种静态的贝叶斯推断(例如,类似于统计学家在一般线性模型下对数据进行的贝叶斯推断)。
而在外部模态具有动力学特性的系统中,我们会观察到一种更为丰富、主动的“模态追踪”(mode-tracking)行为,此时外部状态随时间变化。在这种条件下,内部模态似乎会持续追踪外部模态的变化。由于模态追踪意味着最可能的流动遵循方程(3.1)中的确定性部分,这相当于自由能路径积分的“经典极限”——即无限确定性极限[70]。换句话说,某些进行模态追踪的特定系统可被视为宏观的贝叶斯“粒子”,其随机涨落可以忽略不计。
随着信念的变化而追踪模态的过程,会诱导出一种共轭信息几何结构,以及在共轭统计流形上的相应流动。这意味着,系统在每个时间点都进行推断,以确定其内部状态应参数化何种信念,并向该最优参数流动[31,92]。如前所述,在一种情况下,我们考虑定义在系统物理状态(或路径,即状态序列)上的概率密度的“内在几何”(intrinsic geometry),即这些状态或路径的概率;而在另一种情况下,我们考虑由这些状态或路径所参数化的概率密度的“外在几何”(extrinsic geometry),即将它们视为另一组状态或路径上概率密度的参数(参见[1,93])。
在第4节中,我们将看到,可以利用约束最大熵原理(CMEP)的技术,将本体论势能(即NESS势能)重新表述为一组约束条件,在系统耗散过程中,熵在这些约束下被最大化。
3.4 关于研究现状的一些评述
在转向约束最大熵原理(CMEP)及其与自由能原理(FEP)的联系之前,我们先对FEP技术文献中的一些重要进展进行简要评述。近期的研究[83,94]质疑了马尔可夫毯(Markov blanket)是否像FEP理论家所声称的那样普遍存在。我们在此简要回应这些研究。总的来看,我们认为:马尔可夫毯(在适当意义上定义,即基于特定划分)在物理系统中是普遍存在的——本质上,所有物理系统都具有马尔可夫毯。
根据所谓的“稀疏耦合猜想”(Sparse Coupling Conjecture, SCC),所有足够大且具有稀疏耦合的随机动力系统,都存在一个以通常方式定义的马尔可夫毯。最近的研究表明,对于具有二次型意外度(包括具有状态依赖亥姆霍兹矩阵的二次型意外度)的系统,该猜想在近似意义上普遍存在。也就是说,我们现在知道,当一类极为普遍的随机动力系统规模增大(即维度升高)时,系统中存在马尔可夫毯(以适当方式定义,即在特定划分的子集之间)的概率趋近于1。
在[64]中,稀疏耦合猜想(SCC)的一个弱化版本得到了证明。相关研究结果表明,即使在一大类非线性系统中,随着系统维度的增加,用于分析马尔可夫毯的海森矩阵条件也能够成立。这些成果建立在此前工作[68]的基础之上,后者为具有高斯稳态密度的系统提出了一个充分条件,用以判断其是否表现出马尔可夫毯。该条件是:系统稳态分布的海森矩阵(其元素编码了意外度的曲率或二阶偏导数)与描述流动螺线型分量的矩阵场之间的内积恒等于零。当这一内积恒为零时,系统在适当意义上必然存在一个马尔可夫毯。
在[68]中,研究者仅推测:随着所考虑系统的规模增大,发现马尔可夫毯的概率也随之增加。其直观理解是,当系统变大时,其结构更有可能呈现稀疏性,从而在子集之间形成马尔可夫毯。而在[64]中,这一猜想被证明:对于足够大规模的许多耦合随机动力系统,马尔可夫毯性质以概率1成立。该证明引入了一个“罩层指数”(blanket index),用于衡量前述内积偏离零的程度。利用这一工具,人们可以明确量化系统偏离严格马尔可夫毯条件的程度。更有意思的是,随着系统维度升高,罩层指数趋近于零的概率趋向于1。关键在于,大多数物理系统在相关意义上都是“大规模”的。例如,一茶匙水大约含有 1023个分子;人脑包含约一千亿个神经元,每个神经元又形成数千个连接。类似的例子不胜枚举。
尽管如此,[94]中的结果可能确实动摇了ABIL(近似贝叶斯推断引理)最初的推导过程,尤其是在著名论文[95]中的版本。然而,后续研究已使用标准数学方法重新推导了ABIL[6]。[94]的结果仅针对[95]中的推导过程;我们也注意到,[95]本身在[63]中也受到了批判性讨论。因此,从[94]中应得出的恰当结论是:不应再引用[95]来支持关于ABIL或马尔可夫毯性质的论点;更进一步地说,应当摒弃该形式体系。但我们有独立的理由相信ABIL本身是成立的;事实上,相关文献已经超越了[95]的形式框架。
如上所述,若由此得出自由能原理(FEP)不适用于[83]中分析的系统,则是一种误导。FEP之所以在这些系统中“无信息量”,是因为该研究聚焦于线性、低维的数学边缘情况,即状态数量极少的系统[92,96]。更准确地说,该论文探讨的是FEP是否能有效应用于一维耗散系统;从物理上看,这类系统相当于每个只具有一个自由度的耦合阻尼弹簧。该文有力地表明,为这类系统构建马尔可夫毯是困难的。但这并不动摇FEP本身,也不否定马尔可夫毯性质在一般情况下的普遍性。相反,这些结果构成了FEP在极低维(即一维)、线性系统中的一种有趣应用。因此,从这项工作中应得出的结论并非“马尔可夫毯在一般情况下不存在”,而是“在小型、低维系统中,马尔可夫毯较为罕见或难以构造”;但在足够大的系统中,它们仍然普遍存在(而大多数物理系统正属于此类)。因此,FEP并不是一种“万物理论”,即它并不能对任意数学系统都提供有意义的应用——它只是关于“具有马尔可夫毯的事物”的万物理论。事实上,[83]表明FEP可以形式上适用于各种系统;例如,它适用于线性随机系统,但对其并无特别深刻的见解。这正是设计使然:从FEP的理论视角来看,这类系统本身就没有太多值得深入探讨的内容。
总之,FEP是一种方法或原理,适用于那些通过马尔可夫毯、稀疏耦合和特定划分被约定性定义的“事物”。FEP并不关心那些不包含此类“事物”的系统。按照这一观点,上述批评性文献的核心问题在于:某个给定系统是否能够被划分为一个“事物”与其余“所有其他事物”。如果可以,那么FEP就适用;否则就不适用。
4. 关于最大熵原理、规范理论与对偶化的若干数学预备知识
在引言中,我们讨论了转换对自组织的理解视角意味着跨越边界进行观点的交换:与其像自由能原理(FEP)所关注的那样,去追问一个特定系统或“粒子”如何维持其“自我”,以及它应对环境持有何种信念;我们也可以反过来,去追问这个“自我”究竟是什么,以及从外部观察者的角度来看,该系统呈现出怎样的形态。同样地,对我们所研究对象的“对偶化”,也意味着对贝叶斯力学应用方式的对偶化——即不再关注系统自身编码或携带的信念,而是转而关注我们作为观察者对该系统的信念。
因此,我们的思路是:利用这种对偶视角,以传统方式建模自组织过程,恢复问题中的对称性,从而使我们能够运用FEP来建模自组织系统。
我们曾指出,FEP与约束最大熵原理(CMEP)之间存在对偶关系。在这种范畴论意义上的“对偶”(duality),指的是两个数学对象(形式上称为“伴随对”或adjoint pair)共享某些内在特征,但它们与其他对象的关系方向相反。一个伴随关系(adjunction)的存在通常暗示着问题背后隐藏着某种有趣的结构;在当前情形下,这种结构正是“主体–环境”之间的特殊对称性,而这恰恰是那些相互推断对方状态的耦合系统的定义性特征。可以证明,将(i)自由能替换为约束熵,以及(ii)内部状态与外部状态互换,能够复现ABIL(近似贝叶斯推断引理)的全部内容以及一种简单的自我证成(self-evidencing)情形,从而涵盖FEP的大部分内容,尤其是涉及自组织的部分;参见[6]中的证明(引理4.2和定理4.1)。
因此,对偶化的动机几乎是三重的:
(i)它重新捕捉了FEP的原始精神,即一个观察者在建模一个表现出自组织行为的智能体;
(ii)它使我们能够将FEP的数学基础建立在最大熵原理和平衡态系统等已有坚实基础的理论之上;
(iii)它使我们能够将FEP的现有方法扩展到FEP文献中尚未充分探讨的新场景,例如基于约束的形式体系。作为一种技术工具,转换视角引入了“约束自熵”(constrained self-entropy)作为信念自由能的对偶量。通过这种方式,我们可以将FEP与概率论和动力系统理论中的已有洞见联系起来。这一新视角不仅对我们理解FEP本身具有独立的研究价值,还可能将其拓展至新的现象或系统。为最大熵原理发展出的新方法(如基于规范理论的结果)也通过这种对偶关系,在FEP框架内展现出其实用价值。
我们并不直接从最大熵原理开始,而是首先采用一种略显非传统的几何视角来审视约束最大熵原理(CMEP),以便后续将其与FEP的状态空间概率密度表述(特别是亥姆霍兹分解)联系起来。本构造所需的核心CMEP要素源于规范理论(gauge theory)——这是数理物理中的一个理论,用于描述粒子的动力学与其状态空间几何之间的关系。这将使我们能够以类似于FEP框架下的方式,讨论在最大熵条件下的流分解,并明确将其与概率分布在约束变化下的更新过程联系起来。我们推荐[97]作为一本语调友好的入门参考书,而[98]或[99]则提供了更详细的论述。
规范理论始于诸如电磁学或量子电动力学(QED)之类的场论,用于描述物质及其构成粒子的动力学。“物质场”的动力学通常通过应用作用量平稳原理(参见第2节)来描述,因此与一种特殊的积分——称为“作用量泛函”——相关联。正如我们在第2节中所讨论的,作用量泛函是一个被场最小化的量(在量子场论中,则是对场最可能状态的描述)。如前所述,泛函是“函数的函数”;在此情况下,作用量泛函是系统拉格朗日量的函数,而拉格朗日量概括了系统力学中涉及的能量。因此,作用量泛函的极小值点(位于函数空间中的一个点)给出了场的作用量达到平稳时的构型。
原则上,作用量泛函提供了我们了解物质场所需的一切信息。然而,在许多场论中,作用量具有某种对称性——这是一种保持作用量不变的变换,即对某个特定量进行任意改变时,不会影响由该作用量所预测的物质场的运动方程。一个粗略的例子是引力场在参考系变换下的表现:广义相对论的基本原理是,我们没有描述物理现象的绝对坐标,尽管底层物理相同,但从不同视角观察到的运动形式可能不同。因此,引力具有坐标不变性,意味着它在坐标变换下保持不变——换句话说,它在这种变换下具有对称性。在其他理论中,我们也存在其他类型的对称性:例如,在量子电动力学(QED)中,我们可以任意选择和改变粒子的复相位,而不会改变相应的作用量。理论所具有的这种对称性的变量称为“规范”(gauge)。在规范理论中,这种对称性本身被称为“规范不变性”(gauge invariance),其特征是对规范的自由选择,以及在规范变换(gauge transformations)下的不变性。
规范理论之所以引人兴趣的一个原因在于,与作用量泛函不同,物质场本身通常是规范协变的(gauge covariant);这意味着它会随着规范的选择而变化。虽然原则上我们可以从作用量泛函中推导出关于物质场的所有必要信息,但这种对称性在场本身中并不明显:描述场演化的方程会随规范的选择而改变。这正是“协变性”(covariance)的含义——即“共同变化”。想象选择一个参考系:规范对称性仅说明我们可以选择任何新的参考系,并仍然观察到符合物理定律的运动(例如保持总能量守恒的运动);但该运动在某一参考系内的表达形式仍依赖于参考系的选择(例如,选择一个运动中的参考系会使惯性轨迹相对于该参考系变为运动轨迹)。规范协变性与我们在向量分量表达中更换坐标基的概念有着非常直接的对应关系。(参见图4中的示例。)
物理上的任意性与数学上的相关性之间的张力,正是规范理论所捕捉的核心内容;相应地,规范理论为我们提供了一种语言,用以描述一个量在时空移动时如何影响另一个量的变化。在规范理论中,这通常记录了力场如何改变粒子的运动,并描述了玻色子(传递力的粒子)与费米子(构成物质的粒子)之间的耦合。一个富有启发性的例子是广义相对论中的引力。广义相对论的基本原理是,狭义相对论(即相对于光速的运动相对性)可以推广到任何相对于另一种运动表达形式作加速运动的情形。这一观点的一个推论是:所有非惯性运动都等同于在一个引起加速度的弯曲表面上的惯性运动,这就是所谓的“等效原理”(equivalence principle)。等效原理由阿尔伯特·爱因斯坦于1907年正式提出,他观察到物体以1g的加速度向地球中心下落的现象,等同于在自由空间中一个火箭以1g加速前进时所观察到的惯性物体的加速度(其参考系正在加速)。再次强调,这就是等效原理:加速的参考系在物理上等价于引力场。因此,时空的曲率就是引力。正如[100]所总结的:“观察者无法通过任何实验来区分一种加速度是由引力引起的,还是由其参考系的加速引起的。” 而正是质量导致了时空的弯曲,从而完成了这一类比。约翰·惠勒(John Wheeler)的一句名言很好地概括了这一点:“时空告诉物质如何运动;物质告诉时空如何弯曲。”
数学家通过一种特殊的几何结构——纤维丛(fibre bundle)——来表述规范理论。我们的规范理论包含三个要素:一个“伴随丛” E,其纤维为 F,物质场存在于其中;物质场所在的底空间 X;以及物质场的规范选择,它存在于一个“主丛”(principal bundle)P中。规范选择具有一个特定性质:当它发生变化时,会同时变换物质场,因此这两个自由度是相互关联的;并且它们都位于某个输入空间或底空间之上,因此也彼此关联。每个场在其输入空间的每一点上都有一个场状态,因此我们将这种三重结构理解为:在一个空间中,每个输入点都附着有该物质场所有可能状态的集合。这就是所谓的纤维丛,因其形状如同从一个底流形上伸出的一束纤维而得名。我们对每个输入点上的规范选择也做同样的处理,然后通过将物质场状态与规范选择相关联,将两个丛耦合起来。
从数学核心来看,纤维丛的构造本质上类似于函数概念的推广:在每个输入点上,存在一整个可能输出值(或像)的空间,我们将这些空间在整个输入空间上“捆绑”在一起。一个典型的例子是 xy-平面,它可以被视为在实数线上每一点附着一条实数线(垂直排列)所形成的丛,这种拓扑结构使我们能够定义单变量的实值函数。通过改变纤维和输入空间的类型,更复杂的函数自然地融入这一框架,包括经典场和量子场在时空上的状态。参见图6。
我们将纤维丛中的内部函数——例如在实数集 R上的实直线丛中,f(x)=y——称为“截面”(sections)。可以想象一个截面的图像,比如一组 y值沿着底空间中的点所参数化的平面路径延伸,就像沿着该路径对丛进行切割而得到的一个横截面。因此,截面是生成丛的切片的函数。截面将底空间中的路径提升为丛空间中的路径,从而产生这些切片。事实上,我们所说的丛的“切片”(即函数 f(x)的像集,由一组特定的 y值构成),在数学上实际上被称为“提升”(lift)。
纤维丛推广了空间之间的函数概念,特别是允许我们构造从一个底空间到另一组称为“纤维”的空间的函数。这使我们能够将“场”定义为纤维丛的截面,因为它们是从底空间“伸入”丛中并在每个输入点选取一个场状态的函数。例如,一个经典场就是某个丛的一个截面:在时空的每一点上,我们得到一个经典状态,因此经典场是从时空到底层状态场的一个提升(lift)。这个例子与我们之前对力学和动力学的区分一致:将一个场限制在时空中的某条线上就得到了力学;而在这条线上输入我们期望的点(通过某种形式的截面),就得到了一条轨迹(即动力学)。
在时空中取一条路径,并将其提升到某个复直线丛中,就可以得到一个量子粒子的复相位。该粒子的行为由这个提升路径的实际运动方程(其力学)决定,而这就是我们用来确定该粒子机械理论的自由度。反过来,该机械理论本身正是源于这种“提升”的存在。因此,完整的图景是:我们在时空中有一个纤维丛,它提供了一个场论结构,而该结构在某一点上的提升则对应一个机械理论。事实上,复直线丛的一个截面就是一个波函数,输入诸如特定势函数等数据后,我们就能得到相应的量子运动方程。
函数表达形式(即物质场的参考系)与规范选择之间通过构造方式相互关联,这正是我们此前定义的“规范协变性”。请回顾我们之前定义的三重结构。完成我们对规范理论表述所需的最后几个要素是:规范场、规范力和联络(connection)。联络是对导数的一种推广,它使我们能够描述截面的选择如何在底流形上变化。定义一个联络,相当于在丛的全空间上引入一种精细的拓扑结构,使我们能够将底空间的无穷小变化映射到丛空间的无穷小变化。因此,我们可以对那些由底空间路径参数化的丛中路径求导。在这种设定下,导数本身是一个被称为“切空间”(tangent space)的广义对象,它是一组切向量(即向量场),描述了粒子从底空间某一点出发可能流动的方式。在规范理论术语中,这个联络就是“规范场”,它告诉我们规范选择如何在时空中变化。在联络中保持平坦的路径是无外力作用的,而偏离平坦平面发生弯曲或偏转的路径,则被粒子感知为一种规范力。
联络还允许我们改变丛空间中运动的约束条件,并定义其中点的“平行移动”(parallel transport)。我们将在后文特别讨论平行移动的概念。现在,我们可以利用这一框架来理解最大熵中 p(x)和 J(x)的协变性,从而为近似贝叶斯推断的“不合理的有效性”提供一个基于物理学的解释,这正是我们接下来要探讨的内容。
5. 论自由能原理与约束最大熵原理的对偶性
在本节中,我们将利用第4节介绍的规范理论工具,为自由能原理(FEP)框架下的贝叶斯力学提供一种互补的(即对偶的)视角。我们简要回顾[5,6]中的相关结果,并以[99, 第9章]作为规范理论的数学参考文献。本节分为两部分:从约束到规范对称性,以及从规范对称性到动力学。
在这种对偶形式的贝叶斯力学中,系统的本体论势能被表达为一组关于系统状态的约束,这些约束可通过变分最大熵方法加以明确。这与基于非平衡稳态(NESS)的状态势能形成对比——后者是用这些状态的感觉成因来表述的。相应地,本体论势能指定了系统最可能处于的状态(即该系统的典型状态)。然而,这并未告诉我们太多关于系统向这些状态演化的动力学信息;这些演化过程主要由系统的横向流动(通常称为螺线型流,solenoidal flow)和纵向流动(耗散流,dissipative flow)所主导(见图3)。我们将在下文对此进行讨论。
5.1 从约束到规范对称性
我们之前提到过,从某种数学意义上说,规范理论是描述一个量在变化时如何影响另一个量的理想方式。这种协变性正是概率在状态空间中传递时所发生的情况——当某个状态的约束发生变化时,该状态的概率也随之以一种精确的方式发生变化,这与联络(connection)在空间中约束动力学运动的方式完全相同。考虑拉格朗日优化条件:某个感兴趣函数的梯度等于约束函数梯度的一个倍数(这个倍数是一个称为拉格朗日乘子的常数),即:
当对拉格朗日函数 −log p(x) − λJ(x) 最大化熵时,该条件成立。这也被称为熵最大化问题的欧拉-拉格朗日方程,满足此方程的概率分布 p(x) 即为最大熵分布。该方程要求:作为向量场的“意外度”函数 log p(x) 的变化,等价于某个其他函数的梯度。本节的最终目标是阐明上述优化关系与约束粒子运动的势函数之间的类比究竟有多精确——此处的粒子由某个截面(section)的像所描述。我们将以此为动机,证明受约束的最大熵实际上确实约束了所关注的概率密度:即在约束固定的情况下,概率密度的形状被限制为使得 p 上的梯度位于相关丛(associated bundle)上的诱导联络(induced connection)之中。参见图5。
从某种意义上说,其重要性并不在于这是否构成传统物理场论意义上的规范对称性(尽管正如我们将看到的,从熵泛函的角度来看,它确实是规范对称性)。真正的意义在于其所揭示的几何关系,特别是这样一个观点:当我们改变系统的约束时,我们也同时改变了曲线或曲面上的一个向量场,这个向量场告诉我们概率的分配应该如何在状态空间中“移动”。这种“移动”的概念与贝叶斯更新(Bayesian updating)中的情形完全相同:当我们改变先验知识或约束时,概率分布也随之重新分配。事实上,这正是该形式体系的力量所在:它使我们得以从几何视角来理解贝叶斯推断,无论是近似的还是精确的。
我们将首先证明这种规范对称性的存在。接着,在下一小节中,我们将利用这一对称性来解释规范协变性在平行移动(parallel transport)背景下的含义。平行移动为我们提供了对信念更新(belief updating)以及自由能原理(FEP)中的亥姆霍兹分解(Helmholtz decomposition,或称流分解)的新解释(见图3),并将其与数学物理中已建立的基础理论联系起来。
需要最大化的一般熵泛函为:
根据公式(5.1),可以推测——尽管这种推测可能有些简单化——最后一项为零。这一观察意味着,任何给定的 J 的选择都可以被分解消去。然而,要建立一个真正的规范理论,我们还必须研究改变 J 的选择会对概率分布 p 产生什么影响。当约束从 J 变为一个新的选择 J + J₀ 时,我们可以推导出公式(5.2)所遵循的如下变换规律:
在第2节中,我们引入了这样的思想:作用量的变分给出了系统的轨迹,或是一条可以像牛顿定律一样求解的轨迹方程。最初看来,作用量应当为系统提供唯一确定的运动方式或运动方程,而不同的作用量会给出不同的最小作用量路径。然而,在规范理论中,规范对称性表现为系统可能轨迹中的一种冗余性:系统存在多条可能的、彼此规范等价的路径或场构型。如果我们注意到欧拉-拉格朗日方程对于:
该方程只需取(5.2)的被积函数,并令其梯度为零即可得到。此问题的解18是 exp(−λJ(x)),即某个特别简单的代数方程的根。现在我们将尝试对(5.3)进行同样的操作。对作用量 S[x; J + J₀] 进行相同的变分,得到:
注意,由于我们定义的变换规律,被积函数变得更加复杂。利用对数的性质,我们可以将第一项简化为:
总之,我们已经证明:选定某个特定的约束 J 是任意的,而改变该约束的选择同样是任意的。因此,约束的选择是系统力学描述中的一个自由度,它并不影响作用量(即这种改变使作用量保持不变)。这一结论推广了 Jaynes 早先提出的一个对称性观点,即对约束的重新参数化不应影响最终得到的概率密度 [18],这一观点后来由 Shore 与 Johnson 在其最大熵框架下一致推断的公理体系中重新引入 [101](参见 [58] 的综述)。
事实上,这种对称性根植于 Jaynes 关于最大化熵的原始主张。由于存在一个不可数无穷大的系统类别,它们都可以用熵进行描述,而通过固定某些细节便可得到某一具体系统的描述,这使得这些约束具有规范对称性的地位。正如在电磁学中,基于计算特性存在某些“优越”的规范选择(例如库仑规范、洛伦兹规范和福克-施温格规范),我们也指定了一个特别的、优越的规范选择,可称之为贝叶斯规范 (Bayesian gauge)¹⁹,它对应于执行近似贝叶斯推断的系统。此外,在贝叶斯规范中,恰好体现出约束选择的任意性。确切地说,这种自由选择就是规范的自由选择——当我们将推断表述为一种规范理论时,这种自由便显现出来。例如,假设目标概率密度 p 的充分统计量仅为均值 x^。那么约束
这两种方式都使得 q=p:前者通过直接求解得到;后者则基于如下认识——在吉布斯系综中,若是 p的唯一充分统计量,则 p=exp(−λx)(注意我们处于指数族分布的范畴内,这正是文献[5]所构建框架下我们明确关注的领域)。
从某种意义上说,正是这种规范理论的关系构成了近似贝叶斯推断的基础;也就是说,它解释了为什么近似贝叶斯推断能够成立并有效运作。这本质上表明:只要学会外部世界的一些统计特征,这个世界对我们而言就不再令人“意外”。更广泛地说,它从控制参数取值所受约束的角度,为变分贝叶斯推断提供了一种定义²⁰。用规范理论的数学语言来说,我们可以将其表述为一个贝叶斯规范群 (Bayesian gauge group),该群由指数函数构成(从概率角度而言即“信念”),而这些信念的变化则是某个适当主丛(principal bundle)上的自同构映射(automorphisms)(参见[5]中的命题1和定理2)。因此,我们得到了一种以规范理论语言写成的力学理论,适用于所有看似在进行推断的系统。
我们也可以利用这一框架来讨论先验概率。先验分布的初始参数化——即对先验概率密度所施加约束的选择——具有任意性,这一事实解释了为何近似贝叶斯推断对于任意选择的先验概率仍然有效:选择先验在数学上等价于自由地选择一种规范。
5.2.从规范对称性到动力学
从这一点出发,我们可以从一种力学理论推进到动力学描述。规范场与物质场的耦合在丛的切空间中引入了一种“方向”感,即路径在规范力的作用下会沿着特定方向行进。特别地,在规范理论中,我们可以定义所谓的“水平”流(horizontal flows)和“垂直”流(vertical flows)。
在图6中,我们介绍了规范理论的一种三重结构:一个基空间 X,代表我们的时空或背景场;一个主丛 P,表示在 X上每一点处的规范选择;以及一个与 P耦合的相伴丛 E,它告诉我们物质场如何随着 P中规范的选择而协变。当我们生成相伴丛 E中的曲面时,该曲面所依赖的截面选择实际上隐式地与主丛 P中的截面选择相耦合——因此,改变 P中的截面也会改变 E中的曲面。
穿过丛空间的水平路径 是一类非常特殊的路径,称为水平提升 (horizontal lifts)。它们是“平坦”的路径,在这些路径上,规范的选择不发生变化——因此不存在规范力。规范力通过加速路径、使其在“垂直”方向发生弯曲,从而偏转原本的水平路径——也就是说,当粒子在基空间上演化时,其路径会“向上”或“向下”扭曲,从而改变所选的规范。如果所有可能的路径都存在这种扭曲,则称该丛为弯曲的 (curved),这与允许全局水平路径存在的平坦丛 形成对比。后者也被称为全局平凡丛 (globally trivial bundles)。尽管听起来似乎所有路径都是弯曲的,但实际上只要存在一条全局水平路径,该丛就已经是一种特殊构造;一般而言,纤维丛是非平凡的(即具有某种曲率)。
决定一次提升(即我们称为“截面”的广义函数的像)是以平坦方式还是弯曲方式演化的对象,是导数的一种推广,称为联络 (connection),我们在上一节末尾曾讨论过它。联络沿曲线诱导出一个向量场,或者反过来说,某个向量场的积分曲线就是该提升(即截面的像)。在温和假设下,若联络处处平坦(即不含任何垂直分量的向量),则该丛是平凡的。像平坦联络这样的水平向量场也称为叶状结构 (foliation),而具有叶状结构的向量场拥有唯一解。
我们可以沿着截面将联络“拉回”(pull back),得到基空间上的一个向量场,称为拉回联络 (pullback connection)。它决定了粒子在规范力影响下如何在时空 X上运动。这个拉回的联络正是我们所说的“局域规范场”,它是决定粒子运动的关键因素。
局域规范场的积分曲线是约束函数的等值线(isocontours)。在图6中,我们将函数 J(x,y)=x2+y2的圆形等高线作为示例,并将这些圆拉回到基空间 X。这些圆就是规范水平路径 :它们在曲面 J上不经历任何垂直方向的曲率。
将这一结构代入相伴丛 E,我们可以生成一个在 E中由诱导联络定义的规范水平截面 。我们希望约束空间中的“水平性”能够转化为等概率性 ——也就是说,规范水平路径应当被提升为在 E中也是水平的路径,从而形成一系列等概率状态的环。换句话说,我们要求 E中的概率环与拉回到 X的环保持平行。
这一概念称为平行移动 (parallel transport)。平行移动产生水平提升:其含义是,将基空间路径起点处的一个点进行提升,并沿路径保持“平行”地移动它,由此生成的路径就是一条水平提升路径。因此,我们真正想要证明的是如下命题:概率密度的形状受约束所限制这一观察,可以被精确表述为——概率在状态空间中的传递方式是相对于约束的平行移动 。
从方程角度看,我们可以推导出一个引人注目的结果:最大熵的解正是平行移动方程的解 。
一般来说,使熵最大的函数 p具有形式 exp(−λJ(x)),其中 λJ(x)是某个约束函数。要求截面中的某个内部函数(在函数对输入求值的意义上即一个点)被平行移动的条件,可以用一个常微分方程(ODE)来表达:
当将方程两边同时除以 p(x) 时,得到该方程。对该方程积分后即得 (5.4),而这是我们此前得到的、关于运动被限制在某个势函数梯度方向(或相应地,某个联络方向)上的运动方程。事实上,平行移动常微分方程 (5.5) 的解是一个指数函数:
这证明了熵最大化的结果等价于在状态空间中的平行移动,其意义与平行移动作为状态空间中可能运动的变分原理相同。这些概率意义上的测地线构成了所期望的概率密度,表现为一系列等概率的环状结构。
5.3 流的分解
以这种规范理论的意义将系统的流(flow)分解为水平分量和垂直分量,究竟有何用途?答案在于,这样做为自由能原理(FEP)中的一些结果提供了自然的理论框架,从而澄清了亥姆霍兹分解(Helmholtz decomposition)的形式结构;参见方程(3.3)。我们进一步展开那个引人注目的结论:在约束最大熵原理(CMEP)下,将系统流分解为垂直与水平分量的过程,与某一特定系统自治部分流的亥姆霍兹分解是同构的(isomorphic)(关于更全面的技术讨论,参见文献[6])。
回顾一下,一个特定系统的确定性流(即其随机微分方程SDE中的漂移项)可以被分解为两个部分:一个是无散度(solenoidal)、守恒概率质量的环流分量,它沿着非平衡稳态(NESS)密度的等概率轮廓线循环流动;另一个是耗散分量,用于对抗随机涨落。由于水平流发生在等概率区域,因此任何水平方向的流动都不会改变所访问状态的意外度(surprisal)值。在自由能原理(FEP)中,这已被识别为流动的一种“探索性”成分。因此,如果我们试图建模那些具有组织性但不断移动的系统——例如表现出类生命特征的系统——我们可以通过在此约束几何结构中设定一个水平流动分量,来形式化地再现这种探索倾向。相反地,对于非常简单的系统,比如具有线性响应特性的系统(即高度围绕其固定点受到约束的耗散系统),我们可以将概率密度集中在该点附近,并在模型中体现水平流退化为零的事实。
反之,在存在特权化的水平流的同时,我们也相应地引入了垂直流的概念。(所谓“特权化”,是指水平流对应于状态空间中的惯性路径,即不受任何外力作用的路径。)由于垂直流与使路径偏离水平面的规范力相关联,这种垂直流会导向概率最大的点——即概率分布 p(x)的众数(mode)。
需要注意的是,这一构造假设约束条件——从而众数(mode)——是固定的。但我们可以在需要更新对系统的信念时,随时重新最大化熵并重新固定规范。事实上,我们在此引入的规范理论视角正是基于这一点:因为 p(x)在 J(x)上具有协变性,所以这种更新是可能的。未来的工作应将此框架扩展到非平稳情形;这方面已在一定程度上开始展开[76],其中众数及相应的垂直流随时间改变方向,从而为这种迭代推断提供了连续时间的解释。事实上,沿路径对边缘信念进行连续建模的观点,可以从“最大路径熵”或“最大 caliber”原理中推导出来[58],我们此前曾推测,这可能是将自由能原理(FEP)技术推广至真正非平衡态系统的有吸引力的基础[92]。我们将在第7节引入G理论时,探讨FEP与CMEP之间对偶性在路径上的扩展,但具体细节将留待未来研究。
总结一下——我们为何要引入规范理论的工具来构建贝叶斯力学?因为它为近似贝叶斯推断提供了一种优雅的形式化表达,并且与当代物理学中通常书写力学理论的方式一致...
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.