网易首页 > 网易号 > 正文 申请入驻

生存的驱动力:自由能原理与生命的意义

0
分享至

A Drive to SurviveThe Free Energy Principleand the Meaning of Life

生存的驱动力:自由能原理与生命的意义 2 3章

本书概述

《A Drive to Survive》(《生存的驱动力》)一书的核心论点在于:生命系统的目的性(purposiveness)不能被还原为单纯的稳态控制或预测误差最小化,而必须植根于生命体特有的内在不稳定性与自我生产(autopoiesis)之中

作者凯瑟琳·纳夫(Kathryn Nave)对卡尔·弗里斯顿(Karl Friston)提出的自由能原理(Free Energy Principle, FEP)进行了系统性批判。她指出,FEP 将生命体的“目的性行为”解释为对自由能(即预测误差)的最小化,看似统一了从细胞到社会的认知与行为机制,但实际上存在根本缺陷:

  1. 平凡性问题(Triviality Problem):
    自由能最小化适用于任何稳定系统——包括钟摆、恒温器乃至电网控制中心(ECC)——因此无法区分有生命系统无生命机器。若目的性仅等同于回归稳态,那么“意图”“目标”“智能”要么无处不在,要么根本不存在。

  2. 忽视生命的本质特征
    真正的生命系统(如细菌或细胞)并非仅仅维持某种稳定状态,而是通过持续的代谢活动不断重建自身不稳定的结构。其存在依赖于活动,活动又依赖于存在——这是一种内在的、动态的自我生产循环(即“约束闭合”,constraint closure),而非对外部扰动的被动响应。

  3. 对能动性(enactivism):
    纳夫主张,应以生物能动主义(bioenactivism)为基础,将目的性理解为生命系统为维持其脆弱的自主性而进行的适应性调节。这种规范性(normativity)不是来自外部设定的目标,而是源于系统自身持续存在的内在需求。

  4. 对人工智能与认知科学的启示
    即使一个系统(如国家电网控制中心)表现出高度复杂的预测与调控能力,只要其物理结构本身是稳定的、不依赖自身活动来维持存在,它就不具备真正的目的性或意向性。智能若要真正“有意图”,必须始于对自身存在的关切——而这只有在内在不稳定的、自我生产的系统中才可能产生。

总结
本书反对将生命的目的性简化为控制论或贝叶斯推理框架下的稳态维持,主张生命的独特性在于其通过不稳定过程维持自身存在的能力。自由能原理虽在形式上优美,却因忽略这一本质而无法真正解释生物智能的起源。真正的“驱动力”不是最小化误差,而是在不断解体的边缘奋力生存




2 预测加工
2.1 最小预测加工

预测加工(Predictive Processing, PP)在心灵哲学与认知科学中的引入,可追溯至 Jakob Hohwy(2013)和 Andy Clark(2013, 2016)的工作,二者均采纳了 Karl Friston(2003, 2005, 2010)提出的观点,即预测编码(predictive coding)可被用作一种关于大脑功能的普适性理论(2005)。而 Friston 的这一提议本身又受到 Rao 与 Ballard(1999)关于视觉皮层中层级预测编码模型的影响。

尽管预测编码是 PP 最基本的组成部分,但它并非 PP 所独有——事实上,其起源并非神经科学,而是数据压缩领域。作为一种策略,预测编码早在 1950 年代就已被开发出来,用于图像与视频文件的存储和传输(Clark, 2016;综述参见 Shi & Sun, 1999;Musmann, 1979)。其基本思想是:我们希望存储或传输的数据通常具有规律性模式,因此,与其单独编码每个像素的数值,不如只编码该模式及其偶尔的偏差,从而更高效地表示图像。例如,在一段视频中,背景的大片区域往往在一段时间内保持不变,因此无需在每一帧都重新传输整个场景,只需传输一次该模式,随后仅编码由前景物体或主体局部运动所引起的“误差”即可。

正如 Sprevak(2021)所述,将这种编码策略应用于大脑的设想至少可追溯至 Attneave(1954)和 Barlow(1961)。他们指出,早期视觉系统存在诸多瓶颈——例如神经元数量有限、动态范围受限、放电频率上限以及放电的代谢成本——这些限制要求大脑必须采用这种“减少冗余”的编码方式来传输感觉数据(另见 Zhaoping [2006] 对相关约束的综述)。

这已经对大脑结构提出了一些最低限度的要求:即需要区分预测神经元(有时被赋予理论负担过重的名称“表征神经元”)与比较器或预测误差神经元,且信号需在这两类神经元之间“自上而下”和“自下而上”双向流动。比较器神经元还接收来自外部感觉信号的第二路输入,并将其与自上而下的预测信号进行比较。预测神经元的信号会持续调整,直至与感觉输入匹配,表明该输入已被有效“预测”(Keller & Mrsic-Flogel, 2018)。

层级预测加工(hierarchical predictive processing)在此基础上进一步提出了关于预测编码如何在大脑中实现的具体主张,并由此对可被视为预测处理器的系统架构提出了相应要求。这些主张包括:

  1. 层级性(Hierarchy)

    :该过程在多个层级上重复进行,其中某一层的输入即为其下一层的状态,最终在感觉外围(sensory periphery)终止。

  2. 精度加权(Precision-weighting)

    :预测与预测误差会被赋予相对权重,该权重对应于信号方差的倒数,用以决定预测误差在多大程度上影响预测的调整。

层级结构意味着只有最底层直接负责匹配感觉信号,而每一更高层级则由对越来越宽广时空尺度上规律性的预测所驱动。在此类层级结构中,存在诸多自由度,即哪些预测神经元应进行调整以匹配输入信号;因此,精度加权的作用在于确定调整发生的位置——具体而言,即在那些预测误差信号相对于预测神经元具有更高精度权重的神经元中进行调整。

这一理论通常被认为起源于 Rao 与 Ballard(1999),他们表明,若将此模型应用于视觉皮层,可预测多种已知的神经反应(如端点抑制[end-stopping]),而这些反应无法仅通过经典感受野效应加以解释。Friston(2005)随后将该模型扩展至整个皮层,展示了它如何解释一系列进一步的经验预测,包括解剖学与突触可塑性、电生理效应(如失匹配负波[mismatch negativity])以及心理物理学现象(如整体优先效应[global precedence]和启动效应[priming])。

然而,这尚不构成完整的预测加工。你或许已熟悉 Clark(2013, p.5)所描述的预测加工:“一种正在兴起的、将大脑视为运用层级生成模型进行预测的器官的统一性观点。” 在刚刚阅读过关于生成性(enactive)进路的一节后,缺失的关键部分应已显而易见——大脑不仅是一个感知者,更是一个行动者。正是将行动纳入预测加工框架,才成为 Friston 及其同事在关于大脑的广义预测理论(即“主动推理”[active inference])工作中最具标志性的特征(Friston, 2003, 2010;Brown et al., 2011),也正是这一点对 Hohwy、Clark 以及后续哲学家关于预测加工的讨论至关重要。根据这些观点,相对于预期感觉输入的预测误差不仅可驱动预测神经元的内部调整,还可驱动行动——通过激活反射弧,使世界发生变化,从而产生与预测相符的感觉信号。精度加权作为决定误差修正发生位置的机制,控制着某一误差是通过行动改变世界以使输入信号符合预测,还是通过调整预测本身以使其符合来自世界的感觉信号。

将行动视为“对感知的控制”这一总体观点,早见于 Powers(1973)的感知控制理论(Perceptual Control Theory),更早还可追溯至意动(ideomotor)行动理论(Lotze, 1852;James, 1890)。Clark(2013)指出,PP 的新颖之处在于将这种行动观与感知和学习理论整合在一起,统一于长期预测误差最小化这一总体目标之下——尽管如前所述,这一提议与 Hurley(2008)的共享回路模型(shared circuits model)也存在有趣的相似之处。

因此,正如 Brown 等人(2011)所言,行动的引入使 PP 框架得以推广:

“该框架提出,运动系统中运行的正是完全相同的递归消息传递机制。唯一的区别在于,最低层级(位于脑神经核与脊髓)的预测误差也可通过运动加以抑制,即经由经典的反射弧。在此观点下,下行的(皮质-脊髓)信号本身并非运动指令,而是对本体感觉信号的预测,而外周运动系统则负责实现这些预测。”(2011, p. 2)

因此,预测加工特指这样一种主张:感知、行动、学习与注意均由大脑通过在层级模型中实施带有精度加权的预测编码来实现,其中预测所针对的是在越来越粗糙的时空粒度上出现的模式。这一核心观点得到了 Hohwy、Clark 以及其他发展并争论该大脑功能模型之哲学与认知科学意涵的学者(Venter, 2021;Vázquez, 2020;Downey, 2018;Seth, 2014)的普遍认同。

他们之间的分歧在于:这一预测加工层级究竟服务于何种功能,尤其是对两种可能的误差最小化策略——感知与行动——应赋予何种相对优先性。对 Hohwy 而言,行动服务于获取更准确感知所需的证据;而对 Clark 来说,感知的价值在于其最终服务于成功协调行动这一目标。就此而言,正如我们将看到的,他们各自延续了关于认知本质的不同传统:Hohwy 代表“重构主义”(reconstructivist)路径,致力于理解大脑如何从贫乏的感觉信息中推断出远端的因果结构;而 Clark 则属于控制论及广义的生成性传统,相较之下,他更关注 PP 作为解释我们如何在多重时间尺度上学会协调行动的理论效用,而非对世界结构的精确重构。

2.2 重构主义的预测加工

如前所述,早期关于预测加工的论文,例如 Rao 与 Ballard(1999)以及 Friston(2005)的研究,主要聚焦于该模型的经验有效性及其高效编码的动机。然而,仅靠在一种生物学上合理的数据压缩策略下统一若干生理效应,尚不足以让哲学家清晨从床上爬起来投入工作。真正吸引哲学界乃至神经科学之外领域广泛关注的,是 PP 所暗示的潜在认识论后果——尤其是 Friston(2005)所提出的主张:预测加工为贝叶斯推理(Bayesian inference)提供了一种神经实现机制。这一观点通常与德国生理学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz, 1962/1866)的理论相联系,后者将大脑视为一台进行“无意识推理”(unconscious inference)的引擎。

亥姆霍兹认为,他的工作通过光学原理的讨论,为康德关于经验的建构主义(constructivist)解释提供了实证支持。这些光学原理揭示了:单凭感觉刺激本身无法唯一确定知觉经验。例如,在图 2.1 中,我们立刻将左侧图形感知为凸起的,而右侧则感知为凹陷的,尽管图像本身是模棱两可的。因此,这种知觉判断被认为依赖于一种无意识运作的隐含假设——即光源来自上方。另一个例子是我们能够无意识地“抵消”由于照明变化和距离改变而导致的视网膜成像变异,从而持续将一个物体知觉为具有固定大小和颜色。由于这些隐含的背景信念(或称先验,priors)本质上是无意识的,我们通常会忽视对它们的依赖,直到遭遇它们出错的情形,或与他人的先验发生冲突——正如许多视错觉所展示的那样,例如著名的“蓝黑裙”还是“白金裙”之争。


这种将大脑视为无意识推理引擎的观点,后来启发了知觉心理学中的贝叶斯模型(Gregory, 1980)、视觉加工研究(Lee & Mumford, 2003;综述参见 Yuille & Kersten, 2006;Rescorla, 2015)、关于学习与发展的理性建构主义(rational constructivist)理论(Lake et al., 2017;Gopnik, 2012;Spelke & Kinzler, 2009;Tenenbaum et al., 2006),以及在机器学习领域中尝试建模更易处理的近似策略,以说明这种推理过程如何可能在大脑中实现(Dayan et al., 1995)。正如 Dayan 等人在描述他们提出的“亥姆霍兹机”(Helmholtz Machine)时所言:

遵循亥姆霍兹的观点,我们将人类感知系统视为一台统计推断引擎,其功能是推断感觉输入的可能原因。我们表明,这种设备可以在无需教师为每个感觉输入向量标注其潜在原因的情况下,学会如何执行这些推断。(第1页)

尽管亥姆霍兹的主要关切在于依据康德的先验唯心主义来确保知觉的有效性,但他并未忽视行动。正如他所描述的:“我们并非被动地向侵入我们的[感官]印象敞开自己,而是进行观察——也就是说,我们主动将我们的感官置于那些能使印象最精确区分的条件下。”(Helmholtz, 1867, 第438页,引自 Hohwy, 2013)。而正如 Hohwy 所描述的,这一将行动类比为实验与探索的观点:

知觉推断使系统能够最小化预测误差,从而偏好某一假设。基于此假设,系统可以预测:若该假设正确,感觉输入将如何变化。也就是说,它可以通过“通过能动性”来检验假设的真实性,即检验输入是否真的以预期的方式发生变化。实现这一点的方法是暂时停止更新假设,转而等待行动使输入符合该假设。如果这未能发生,则系统必须重新考虑,并最终采纳一个不同的或修正后的假设。(第79页)

如果知觉是假设,那么将行动视为假设检验便是自然而然的。正是通过行动,我们对世界的知觉才能与一个能够“反作用”的现实相碰撞;也正是通过行动,我们才能收集新的证据,用以通过贝叶斯推断更新我们的假设。

2.2.1 作为无意识推理的预测加工

Hohwy (2013) 所提出的对预测加工的解释,本质上是对无意识推理、知觉即假设、以及行动即假设检验等观点的延续。在此观点下,预测神经元不仅编码来自下一层级的信号预测,还代表了产生该特定感觉流模式的远端原因。关键思想是:预测模式中时间深度的增加,对应于远端原因层级结构中的深度增加。例如,通过观察不断变化的光照水平,我们不仅可以追踪昼夜交替的昼夜节律(对应地球自转),还可以追踪另一个二阶、更缓慢的规律性——

——即这个第一周期在一年过程中如何拉长和缩短。在追踪这一第二种模式时,故事继续发展,我们便依附于另一个位于我们感觉刺激背后的远端原因,即地球相对于太阳的位置在年周期内的变化。正如 Hohwy (2013) 所言:

规律性可以按层级排序,从快到慢。层级结构中的各层可以相互连接,使得某些较慢的规律性(位于更高层级)与相关较低层级的较快规律性有关联(例如,年度新闻周期中关于澳大利亚规则足球词频的较慢规律性,与我最终阅读到的词语的较快规律性有关;如果我知道较慢的规律性,那么我对这些词语出现就不会感到太惊讶)。这样一个完整的层级结构将揭示世界的因果结构和深度——即原因如何在时空尺度上相互作用并嵌套。(第28页)

因此,通过层级化的预测误差最小化,大脑不仅锁定了多个时间尺度上的规律性,而且在这样做时,还编码了一个关于我们远端环境的层级化因果结构的模型。根据这种重构主义的 PP 解释(RPP),直接决定我的知觉经验的,是这个内部模型丰富的结构内容,而非当前正通过视网膜流入的相对贫乏的数据。后者被降级为模型约束的角色,暗示着对知觉经验的描述是一个“受控幻觉”的过程。除此之外,此类解释还试图解释为何当我看着马路对面的建筑工地时,我的经验不是一个由矩形切片和平面图形构成的二维阵列——尽管这正是我的视网膜所接收的全部信息。灰色方块和银色线条匹配的是一个大型三维建筑的预测,因此,我所体验到的是这个建筑模型,而非限制它的视网膜活动。

我们有什么保证,这种基于预测误差的控制足够稳健,能够使我们的内部模型有意义地与现实保持一致?到目前为止,我们只谈到了预测误差最小化,但在 PP 中,这些误差信号并非以原始形式传递,而总是伴随着一种“精度加权”,反映了它们估计的可靠性,从而指导误差消除调整发生的位置。正是这种精度加权决定了误差是在较低层级被容纳(例如,被解释为收音机嘈杂信号造成的普通背景波动),还是迫使生成模型更高层级对长期规律性进行更深的调整,

——正如当一个持续的误差信号在估计可靠性上逐渐累积,最终触发这样的认知:卡尔·奥尔夫著名康塔塔《O Fortuna》第一乐章的歌词与对罐头鱼的狂热渴望毫无关系。

正是精度加权保护了预测主体,使其不会被感觉流中的每一次随机波动所裹挟,也不会陷入对某种特定模式的固执承诺。若将其解读为对信号可靠性的概率性度量,它是重构主义对 PP 解释中的一个关键要素,允许将误差最小化过程构想为近似贝叶斯更新的一种,在此过程中,代理人在经验历史中习得的先前规律性的可靠性,会与当前证据的估计可靠性相权衡(下一章将对此详述)。

根据贝叶斯法则调整我们的生成模型,是否就能保证其结构最终会与远端环境的结构趋同?即使在推进预测加工的重构主义观点时,Jakob Hohwy 对这一点也相当怀疑,他指出,由于成功的误差最小化仅在与我们预选的假设相关时才得以实现,重构主义 PP 最终成为对简单笛卡尔怀疑论的肯定。既然我们无法获得关于自身在世界中位置的独立视角,我们就不能排除这样一种怀疑论假设:我们所接收的感觉输入是由一位恶作剧的科学家引起的,而非我们通常所相信的外部事物状态。因此,贝叶斯框架本身就蕴含着怀疑论。(2016, 第265页)

在这种重构主义的 PP 理解框架内,我们的生成模型成功预测当前感觉输入这一事实,成为证据,证明我们的模型准确捕捉了该感觉输入的原因结构。尽管存在其他替代模型也可能同样成功地做出预测。这些循环式的证据模式构成了 Hohwy 所描述的“证据边界”(evidentiary boundary),即假设生成机制与所要解释的证据之间的分界点。此处提出的边界是感受器(sensorium)的边缘:在内侧,是颅骨内的大脑;在外侧,则是身体与世界。

关于 Hohwy 对 PP 的内在主义刻画,支持 4E 方法(具身、嵌入、延展、生成)的学者可能会争论两个既独立又相关的议题。一是我们当前的问题:如何刻画边界两侧系统的相互关系;二是

——边界在何处固定的问题——如果它确实被固定的话。第二个问题属于延展心智理论家的关注范畴,而非生成主义者(enactivist)的关注点,因为生成主义者更关心的是心灵与世界的关系,而非我们如何划分它们之间的界限。

因此,拒绝 Hohwy 的 RPP 而支持具身或生成主义的解释,并不意味着如 Bruineberg 等人(2018)所强调的那样,必须拒绝 PP 系统与其环境之间存在某种有意义边界的主张,也不意味着必须否认这个边界可能被划定在感觉运动界面处。毕竟,边界自始至终都是生成主义认知定义的核心(Varela et al., 1991)。相反,正如我们将在下一节看到的,问题在于:上述边界最好被描述为“证据隔离”(evidentiary seclusion),还是描述为 PP 系统内部动力学与其环境之间“持续耦合”(ongoing coupling)?

然而,Hohwy 并不总能清晰地区分这些问题,因而错误地将生成认知科学支持者的回应描述为:引入“与世界互动”的行动或许能通过打破我们的证据边界,使我们摆脱怀疑论,从而获得对远端环境的“直接”接触——这是一个他本人拒绝的提议。在他的重构主义叙事中,行动被牢牢置于服务于知觉的目的之下:一个允许我们干预以控制相关变量、寻求更多证据以解决不确定性、并确认或证伪当前模型的假设检验过程。正如生态心理学家们喜欢指出的那样,此类行动确实增强了我们的认识资源,足以解决心理物理学实验室中使用的二维图像所带来的人工约束所引发的那种局部模糊性(Orlandi, 2014)。但 Hohwy 正确地指出,它们无法使一个 RPP 主体摆脱怀疑论情境下的全局性不确定。正如他所说:

在预测误差方案中,诉诸行动归根结底是诉诸对不同类型感觉输入模式的推断。如果一位疯狂的科学家是所有我们所接收的感觉输入的一个隐藏的共同原因,除非她对感觉输入做出了独立的因果贡献,否则我们将无从知晓。(Hohwy, 2013, 第220页)

的确,正如我将在下一章所阐述的,当把这一问题置于更广泛的“自由能最小化”(free energy minimization)框架下来看时,我们会发现:行动非但无助于将我们从怀疑论的深渊中拉出,反而会使我们陷得更深。然而,在深入这一点之前,值得追问的是:我们当初为何要跳进这个深渊呢?

2.3 感觉运动预测加工

如果预测加工旨在解释我们如何形成对外部远端环境的准确表征,那么,正如我们所见,它所提供的解释并不特别令人安心。尽管将预测加工解读为对环境外部因果结构的编码,这种观点在非哲学领域的讨论中也颇为常见(例如 Kanai 等,2015),但第 2.1 节所描述的 PP 模型的核心组成部分,并不必然蕴含这种表征主义立场。正如 Orlandi(2018)所指出的,我们实际上拥有的只是一个层级结构,其中神经元之间存在抑制关系:这种抑制要么抵消传入的信号,要么无法抵消——在后者情况下,该信号便向上传播,引发“更高层级”神经元状态的改变。

那么,这种表征主义解读究竟从何而来?其一来源,正如我们刚刚看到的,是对知识与认知的一种先验承诺,即认为认知的目标在于形成某种与独立于心灵的外部状态相对应的内部心理状态。另一个来源,正如 Anderson 与 Chemero(2013)所主张的,可能是从单纯的关联性(correlational)属性中错误地推导出语义性(semantic)结论的常见谬误。他们指出,在关于预测加工的讨论中,“预测”一词实际上有两种含义:

第一种意义上的“预测”(以下简称 prediction₁)与关联(correlation)概念紧密相连,正如我们通常所说的一个变量“预测”另一个变量(例如身高预测体重,教育程度预测收入等)。Prediction₁ 本质上是无模型的(model-free),仅体现为数值之间的简单关系。
第二种意义上的“预测”(prediction₂)则与溯因推理(abductive inference)和假设检验相关。Prediction₂ 涉及认知上更为复杂的操作,例如推断当前观察背后的(隐藏)原因,并利用该假设来预测未来的观察结果——无论我们是被动监测还是主动干预世界。它是理论负载的(theory-laden)且模型丰富的(model-rich)。(第24页)

在最小预测加工(minimal predictive processing)中,我们所拥有的“预测”关系仅限于第一种——即预测神经元倾向于与传入信号产生相关性,正是基于这种相关性,我们将二者之间的差异解释为正在被最小化的“误差信号”。这种“预测”意义,与“闪电预示雷声”或“一个耦合摆的位置预示另一个摆的位置”中的“预测”属于同一类型。这类共变(covariation)关系或许对试图推断某个隐藏过程之状态或结构的观察者有用,但它们本身并不具有推理性质。

预测加工本身,仅关乎在不同时间尺度的层级结构中,神经活动与刺激模式之间建立起相关性。将这种机制解读为“重构主义”的,是外在于 PP 架构本身的,其动机源于一种先验信念——即我们认为认知的目标就是对外部世界的重构。因此,我们不必因 PP 无法保证实现这种重构而感到失望,因为从一开始,我们就未必有义务去追求它。

正因如此,Clark(2015)并未将行动视为解决重构主义预测加工(RPP)所面临的怀疑论挑战的方案,而是干脆否定了这一挑战本身。他追随具身认知(embodied)与生成认知(enactive)的进路,提出:知觉问题的解决之道,并不在于通过行动来补充我们的推理资源,而关键在于首先拒绝将知觉目标刻画为“重构性”的这一前提。正如他援引 Varela、Thompson 与 Rosch 所言:

“生成性知觉进路的根本关切,并非在于确定如何恢复某个独立于感知者的外部世界;而在于确定感觉系统与运动系统之间的共同原则或规律性联结,以解释在一个依赖于感知者的世界上,行动如何能够受到知觉的引导。”(Varela 等,1991,第173页)

如果这才是我们的目标,那么 PP 系统为何必须推断感觉运动界面之外的隐藏因果网络呢?以一个被反复引用的例子来说:Chapman(1968)指出,一名棒球外野手在接高飞球时,并不需要首先相对于自身位置和球场,建立关于棒球后续轨迹的完整内部模型,然后再据此开始移动去接球。他所需要的,只是一种持续进行的协调策略——“光学加速度抵消”(Optical Acceleration Cancellation):即通过移动身体,使球在视网膜上的投影位置保持稳定,直到球足够近而可以接住为止。外野手并不需要一个内部的“物理引擎”,也不需要掌握空气动力学方程来计算一个略不规则的球体在微弱西北风中的飞行轨迹。他所需要的,只是对自身运动输出与视网膜上投影位置之间规律性关系的理解。

在感觉运动预测加工(sensorimotor PP)的框架下,Clark(2015)解释道,这变成了一个对于“球的光学投影在视野中保持稳定位置”这一预测相关的误差信号赋予高精度权重的问题。通过这种方式,系统其余部分的行动都被调动起来,专门用于消除这一特定的误差信号,而忽略球场上发生的绝大多数其他事情,直到达成目标状态——成功接住球(或不幸地与同样采用该策略的队友相撞)为止。在这里,并不存在一个先验的过程:即不断调整生成模型,直到整体误差足够小,从而让我们确信已对外部世界形成了准确表征,然后才开始行动。相反,成功的行动本身就是对感觉流中一小部分的持续控制,而这种控制发生在系统所预测的、能够导向目标状态的约束条件之内。正如 Seth(2015)所指出的,若以这种方式理解,这种“非重构主义”的 PP 进路可被视为对早期具身感觉运动知觉理论(如 O’Regan 与 Noë,2001)的一种机制化呈现。

这类“快速而节俭”(fast and frugal)的策略,更适合持续引导一个必须在快速变化环境中不断维持自身生存的有机体。它们也与贝叶斯最优性的原则完美契合。正如 Fitzgerald 等人(2014)所指出的,理想的贝叶斯系统不仅追求经验充分性(empirical adequacy)的最大化,同时也力求最小化为实现这一目标所调用的模型的复杂性。

然而,对 Clark(2015)而言,局部有效的非表征性策略的存在,并不构成我们应彻底抛弃模型与表征话语的理由。相反,感觉运动 PP 的优势在于它提供了一种“系统性方式,将深层的、基于模型的灵活性,与多种快速、高效、善于利用环境特性的行动与反应路径结合起来”(2015,第18页)。为了让 PP 系统有效部署诸如 OAC(光学加速度抵消)这类“快速而节俭”的策略,它还必须能够监控变化更缓慢的背景因素(例如,自己究竟是正在打一场棒球比赛,还是仅仅在旁观),以判断何时适合启用这些策略。这正是 PP 系统需要层级深度的原因:高层级状态能够捕捉感觉流快速波动背后那些大尺度、日益不变的模式。

与重构主义的 PP 观点不同,这些高层级的、以行动为导向的表征,并非让我们在规划下一步行动时可以“抛弃世界”,而是使我们能够在多个时间尺度上协调与世界的互动。我们追踪的并非与主体无关的因果关系,而是嵌套在不同时空粒度中的、与主体相关的可供性(affordances)——从“打棒球”这一可供性,到“接住这个特定的球”这一可供性。与重构主义 PP 不同,这些“以行动为导向的表征”的正确性,并不依赖于我们能否排除怀疑论假设。只要当前确实存在一个可供接球的行动可供性,那么部署 OAC 策略就能引导熟练外野手的感觉运动互动,顺利达成“球在手中”的目标状态。无论与我们的感觉运动阵列相互作用的隐藏原因究竟是恶作剧的恶魔、好奇的科学家,还是奇异而迷人的基本粒子,这一当前感觉运动偶发性(sensorimotor contingencies)的模型都会成功。

2.4 预测加工的意义何在?

如果说重构主义版本的 PP 给生成模型强加了过于奢侈的承诺,那么我们现在或许会担心,这种以行动为导向的转向又走向了另一个极端——过于节俭。一旦 PP 摆脱了重构的强制要求,我们仍需为其运作提供另一种替代性的动机。行动本身并非目的。正如 Hurley(1998,第六章)所指出的,若仅说我们的预测模型是“以行动为导向的”,并试图用这些行动的意图来解释知觉内容,这只不过把问题向后推了一步。那么,究竟什么决定了一个行动的恰当性及其成功的标准?

一种可能的方案是:这一问题无需由 PP 系统本身处理,因为 PP 仅描述了实现某种功能的机制,而非该功能本身。这一规范性问题可以委托给某个独立的“欲望模块”(desire module),由它负责计算主体的目标与意图,然后将这些目标简单地作为先验(priors)输入给 PP 系统,后者只需负责执行即可。

我们当然可以提出这种方案,但这样做将从根本上削弱 PP 框架作为解释理论的全部意义——PP 不仅要解释预测模型的应用,更要解释这些模型如何持续发展。尽管 PP 本身或许无法为我们提供关于“初始先验”(first priors)的故事(即预测过程如何启动),但其核心解释力恰恰在于:它说明了这些约束条件如何通过感觉运动界面互动所产生的预测误差最小化而持续被修正。如果欲望和预期的行动策略构成了我们的先验预测,那么它们的选择标准与满足条件就必须与整体的预测经济(predictive economy)紧密交织在一起。因此,Clark(2013)赞许地引用了如下观点:

“总体而言,个人的与享乐的价值(hedonic value)并非仅仅是某种附加物,也不是像 Gershman 与 Daw(2012,第296页)所描述的那样,由大脑中‘概率与效用的分离表征’所实现。相反,我们很可能以一种最终融合了事件的个人意义、情感价值与享乐重要性的方式来表征那些概率所定义的事件本身。”(2013,第200页)

尽管 Clark(在此处,以及在 Clark, 2019 和 Nave 等, 2022 中)赞同这种情感与认知的融合,但他并未提供一个关于 PP 主体内部规范性来源的正面解释。因此,尽管他对生成性(enactive)进路抱有同情,但他在 Clark(2015)中所发展的以行动为导向的 PP 解释,仅在较弱的意义上符合“生成主义”:即该术语被广泛用于指代各种将心智生活理解为身体-世界互动的延展模式、而非颅内符号操作的立场。

这种对“生成主义”标签的宽泛使用,有助于将视觉知觉(O’Regan 与 Noë,2001)、反表征主义(Hutto 与 Myin,2012)和情感研究(Colombetti,2014)等多样工作的共同取向归为一类。然而,它也可能导致将这些较窄的认知科学研究与更具形而上学色彩的“生成性进路”混为一谈——后者最初由 Varela、Thompson 与 Rosch(1991)在《具身心智》(The Embodied Mind)中提出,主张对我们理解心智-世界关系进行彻底的修订。这一修订将“规范性的自然化起源”置于认知科学家解释任务的核心位置。

如前一节所述,生成性进路的这种修正主义形而上学的核心动机,在于用目的论(teleological)的理解取代对意向性与意义的“重演论”(recapitulationist)理解。对生成主义者而言,作为“心智标志”的意向性,并非体现为表征载体与其所“关于”的对象之间的关系,而是更接近现象学传统中的含义——即行动朝向某种目标满足的指向性(directedness)。

生物生成主义(bioenactivist)方法试图将我们对行动的这种规范性评估自然化,其途径是将这种规范性的根基追溯至生命本身的生物过程,然后论证同样的逻辑可向上扩展至认知层面。正如二十世纪现象学家、生成主义进路的奠基人汉斯·约纳斯(Hans Jonas)所言:“有机体即使在其最低级的形式中也已预示了心智,而心智即使在其最高级的层面也依然是有机体的一部分。”(1966,第1页)

在下一节中,我将暂时从预测加工本身抽离出来,介绍自由能原理(Free Energy Principle, FEP)及其相关的主动推理(active inference)建模框架。作为一种原理,FEP 提出“将所有适应性的自创生(autopoietic)与自组织行为统一于一个简单指令之下:避免意外,你就能活得更久”(Friston, 2012, 第2页)。用更少认知负载的术语来说,该原理实质上主张:一个系统的生存依赖于它稳定地维持在可能状态空间中的同一小片区域内,避免进入那些它此前极少或从未经历过的状态。

预测加工(PP)则被视为一种可能的架构,能够在多个时间尺度上实现这一自由能最小化过程。因此,如果“最小化意外”这一指令确实捕捉到了生物生成主义赋予自主有机体的那种意向性,那么 PP 理论家就能为预测大脑赋予行动成功的规范性标准——大脑正是依据这些标准来调节自身活动的。反过来,PP 也能为生物生成主义者提供一种手段,将自主有机体的基本意向性(例如细菌的趋化性行为所体现的)向上扩展,直至人类认知与意识所具有的丰富反事实(counterfactual)结构。

然而,不幸的是,这一设想行不通。仅仅避免罕见事件,远不足以构成一种足够强健的自主性概念,从而为系统赋予意向性与目的论导向。更不幸的是,自由能框架异常庞杂且异质的结构,有时似乎恰恰被构建出来以掩盖这一事实。要确切看清其对自主性的表述为何失败,尚需一番剖析。请耐心跟随。

3 自由能框架

自 Friston(2003, 2005)及 Friston 等人(2006)最初提出以来,自由能框架已在数千篇出版物中不断演化和变异,其背后是一支由众多合作者组成的、风格各异的庞大团队。截至2022年,仅该年度就有近两千篇相关论文发表,且这一数字每隔几年便翻一番(Millidge 等,2021a)。结果是,该理论的核心主张如今呈现出一系列微妙差异、有时甚至直接相互矛盾的重新表述。尽管这种迅猛的发展速度令人印象深刻,但它也使得任何批判性评估都显得颇为艰巨——尤其考虑到从本手稿完成到最终出版之间还将经历相当长的时间。

在这片快速演化的文献中,可以区分出两个相对独立的组成部分:其一是以变分贝叶斯推理(variational Bayesian inference)来解释知觉与行动;其二是将生命理解为一种稳态过程(homeostatic process),其本质在于避免不太可能发生的事件——再加上一些将前者执行过程与后者目标实现联系起来的“连接组织”。因此,将整个这一文献体系统称为“自由能原理”(the free energy principle, FEP)其实是一种误称。此后,我将仅用“原理”(principle)一词指代上述第二个组成部分,而将知觉与行动的模型单独称为“主动推理”(active inference);并将两者合称为“自由能框架”(the free energy framework)。

正是自由能原理(FEP)将生命视为稳态过程的观点,构成了 Friston 及其同事声称已发现一种基础理论的依据——该理论可从中推导出生物生成主义(bioenactivist)关于有机体自我生产(self-production)的论述(Allen & Friston, 2018;Ramstead 等, 2021)。这一原理被认为如此基本,以至于 Friston 等人(2012)宣称:“无需诉诸任何其他原理”(第2页)。正是这种将有机体视为本质上自我稳定系统的观点,将成为本书从第六章起的主要批判对象。

尽管这种对生物生存的概念分析与主动推理的建模框架是相互区别的,但 FEP 与后者——即关于知觉、行动与推理如何在多个时间尺度上纠缠并被预测性协调的解释——之间的联系,常被视为其相较于其他生物自组织理论的一大优势。那些其他理论常因无法“向上扩展”至高阶认知过程而受到批评。因此,第三至第五章将首先展开这一联系,以说明:如果有机体本质上是稳态系统,那么它们就可被理解为蕴含了某种统计模型,使其行为可通过主动推理来描述为自由能的最小化。

在展开这些联系之前,我必须强调:正如 FEP 有别于主动推理,主动推理中所使用的建模工具也可以独立于 FEP 的成败而发展。事实上,有时“主动推理”仅指一套形式化工具,用于以统计模型的方式重新描述耦合系统的动力学。当被框定为一种哲学中立的建模框架时,唯一重要的考量是这些工具在多大程度上能够描述并预测某个感兴趣系统的行为——而这些工具已被广泛应用于各种系统与过程:从神经动力学(Friston 等, 2017;Da Costa 等, 2021),到认知与行为现象(Parr & Friston, 2017;Friston 等, 2016),再到社会协调(Friston 等, 2020;Constant 等, 2019)、自组织(Friston, 2013, 2018),甚至气候系统(Rubin 等, 2020)。

然而,主动推理的支持者并未将自己局限于这种哲学中立的表述。该框架最为人所知的,是一种关于认知主体如何实际协调知觉与行动的具体主张。预测加工(PP)正是这一普遍进路的一个实例——它被提出作为一种可能的神经架构,通过该架构,大脑可实现主动推理所描述的模型更新过程。在此语境下,主动推理的统计描述不再仅仅被视为观察者用于描述系统的有用模型(Bruineberg 等, 2022;Andrews, 2021;van Es & Hipólito, 2020),而是被解释为:系统自身的动力学实际上编码了该模型,并将其作为“信念”(belief)来执行推理或指导行动(Kiefer & Hohwy, 2019;Ramstead 等, 2020)。正是这种实在论式的解读,将单纯的建模框架转变为一种“认知的统一理论”——即一个以近似贝叶斯推理(具体而言是变分推理)为过程的理论(Buckley, 2017)。

进入这一“统一理论”的一种路径,被 Parr 等人(2022)称为通往主动推理的“低路”(low road)。它直接从一个假设出发:认知、知觉、行动、规划等问题本质上都是推理问题。鉴于在许多情况下,精确的贝叶斯推理是不可行的,主动推理便被用作一种解释:系统如何通过最小化自由能这一统计量来近似求解。因此,将系统描述为贝叶斯推理的近似器,其依据在于它无法成为真正的优化器;但“它需要解决一个推理问题”这一想法,本身就是“低路”进路的初始预设,而非其结论。

这一起点并非不合理。“认知、知觉与行动都是推理过程”这一预设,在自由能与主动推理文献之外也十分常见,是“贝叶斯大脑”(Bayesian brain)进路的共同承诺。然而,这一假设与生成认知(enactive cognition)进路存在冲突。正如我在第一章所论证的,生成主义不应被理解为绝对禁止向系统赋予表征、内部模型或推理过程,而应被视为试图为“在何种条件下(如果有的话)我们有理由赋予系统某种目的或功能——无论是推理性的还是其他性质的”设定标准。从这一立场出发,某种行为可以被描述为“仿佛在解决一个推理问题”,并不足以证明该行为系统确实在真正尝试解决该问题。

“贝叶斯大脑”的“低路”进路忽视了这一挑战,而通往主动推理的“高路”(high road)则借助自由能原理正面应对生成主义的质疑。如果 FEP 能直接证明:自由能最小化是所有生命系统为生存所必须执行的过程,那么,论者认为,这就为将这一近似过程及其所蕴含的模型归因于生命系统本身提供了正当理由。

正如 Ramstead 等人(2018)所言:

生命系统的“意向性”(intentionality)或“关于性”(aboutness)——即有机体朝向一个充满意义与价值(valence)的世界的指向性——作为嵌入式适应系统满足自由能公式约束的自然结果而涌现。对一个生命体而言,具有意向性仅仅意味着它蕴含了一个生成模型(generative model)……简而言之:主动系统之所以活着,当且仅当其主动推理蕴含了一个生成模型。这使得生成模型在自由能框架中具有核心地位,因为它定义了有机体所“践行”(enact)的生命形式。(Ramstead 等,2018,补充材料4,第33页)

Wiese 与 Friston(2021)也表达了类似观点,声称:

“换言之,FEP 为‘一个系统在存活时究竟在做什么?’以及‘一个系统为了存活应当做什么?’这两个问题提供了一个(非常普遍的)答案。因此,FEP 解释了一种基本的、以目标为导向的特性,这种特性正是基本意向性的典型特征。”(第7页)

如果没有这种关于推理与生存之间联系的原理性主张(或至少某种其他理由来赋予系统这一功能),那么将该系统描述为预测建模者或自由能最小化者,就仅仅依赖于其稳定动力学与近似贝叶斯推理计算过程之间的形式相似性。正如针对心灵计算理论的“平凡性论证”(triviality arguments)所熟悉的那样,此类结构相似性本身价值甚微,不足以据此归因内部模型或预期性内容(Sprevak, 2018)。

然而,如果 FEP 确实充分形式化了生命系统的意向性,那么它不仅能支持将主动推理作为关于我们大脑(及身体)实际所为的理论,还能反过来助力生物生成主义者:通过将其关于基本意向性的论述,与一种可能支撑高阶认知过程之生成理论的感觉运动学习与协调理论联系起来。

在本章中,我将描述主动推理如何将知觉与行动重新描述为统计推理过程,并将其归结为在扰动面前维持系统稳定性。在下一章中,我将阐述自由能原理为何声称“维持稳定性”是生命系统的定义性特征。再下一章,我将解释近期一些尝试如何将主动推理扩展至大脑之外——通过利用内部状态与外部状态之间的条件独立性(conditional independence)概念,来形式化感觉运动边界的观念。这为我们提供了一个关于系统的二元定义,基于两种形式的统计稳定性:(1) 系统各组成部分最可能状态上的概率密度的稳定性;(2) 这些组成部分之间相互作用的稳定性,这种稳定性维系了系统与其环境之间的统计边界。

所有这些铺垫,为本书后半部分奠定了基础。在后半部分,我将依据两个标准,分析 Friston(2019b)提出的“存在二元体”(existential dyad)的前景。第一个标准是:这些标准在多大程度上能捕捉生物生成主义的自主性(autonomy)概念;第二个标准是:它们在多大程度上能独立于对生物生成主义图景的先验承诺,准确把握生命系统的基本特征。我将论证,它在这两方面均告失败。这些要求一方面过于宽泛,无法捕捉赋予生命系统活动以意向性导向的具体特征;另一方面又过于严苛,无法追随那模糊不定的有机体在其即兴之舞中游走于形式约束与物质约束之间的灵活姿态——而这些约束正是束缚无生命物质的枷锁。

3.1 变分推理

自由能故事中“推理主义”部分的第一个组成部分,是变分推理(variational inference)的发展——这是一种从机器学习领域借鉴而来的策略,旨在为一个难以处理的推理问题近似求解(Hinton & van Camp, 1993; Neal & Hinton, 1998;另见 Beal, 2003,以了解更近期的发展与综述)。

就大脑而言,我们可以将此任务理解为:寻找一个关于隐藏原因的概率分布,该分布能最好地预测我们的感觉观察结果。完成这一任务的最优方式是,从一个联合分布 [P(O,H)] 开始,该分布描述了每个观察值 [O] 和每个可能的隐藏变量值 [H] 的概率。为了计算在给定特定观察值 [Oi] 的情况下,某一特定假设 [Hi] 的概率,我们需要将这个联合分布分解为先验概率 [P(Hi)]、似然函数 [P(Oi|Hi)] 和边缘概率 [P(Oi)]:

对每一个假设 [Hi] 都进行这样的操作后,我们便可以利用这个公式,根据每一次新的观察 [Oi] 来更新我们关于隐藏原因的概率分布,从而得到一个新的后验概率 [P(H|Oi)]。接着,我们将这个新的后验概率作为下一轮观察 [Oi+1] 及其后续更新的先验概率 [P(H)]。

最终,如果一切顺利,这一过程会趋于稳定:在给定 Oi+n 后所得的后验概率,将与上一次更新所得的先验概率相同,此时我们便可认为自己已推断出了观察背后的隐藏原因。

然而,这一过程的问题在于:计算边缘概率 [P(Oi)] 需要对所有不同的可能假设 [P(Oi,H1), P(Oi,H2), … P(Oi,Hn)] 进行积分,以便得出某个特定观察“总体而言”有多大的可能性。当面对大脑必须处理的庞大假设数量时,此类运算很快就会变得无法处理。

因此,与其试图从整个可能性分布空间中推断出真实的后验分布,另一种替代策略是从一组受限的简单分布开始——例如,仅用均值和方差两个参数即可编码的高斯分布。所选的这种分布被称为“识别模型”(recognition model)或“变分模型”(variational model),其参数随后可通过梯度下降/上升法逐步调整。第一个参数通常被称为“准确性”(accuracy),但正如我将解释的,这一标签具有误导性,我将其称为“预测充分性”(predictive adequacy),或简称为“充分性”。

这一定量衡量了在识别模型下,我们证据的似然性——这正是我们希望通过调整模型参数来最大化的目标。第二个量,“复杂度”(complexity),则衡量了我们改变识别模型的程度——这是我们希望最小化的目标。“复杂度”这一名称反映了这样一个事实:如果我们不尝试限制为适应每一次新观察而调整模型的程度,那么我们最终可能会过度复杂化模型,使其过于具体,以至于无法捕捉我们观察中的普遍规律性。

因此,这两个量反映了所谓的“偏差-方差权衡”(bias-variance trade-off)(Geman 等, 1992)——即在(过)拟合我们的模型以适应每一次新变化,与(过)泛化从前有规律性中学习到的内容之间取得平衡。平衡这两个量可以防止我们将全部信心重新分配到使当前观察最有可能的那个单一假设上(这会使充分性最大化),或者固执于我们从先前观察中已学到的模型以最小化复杂度。这正是真实贝叶斯推理下相互权衡的两种考量。通过尝试针对选定的分布最小化这两个量,我们便将原本不可处理的推理问题转化为一个更为简单的优化问题。

这个听起来颇为强大的术语“自由能”(free energy)(Friston, 2005, 2010),正是为上述两个函数的组合所起的另一个名称。当在机器学习或统计学中遇到它时,它更可能被称为(负)“证据下界”(Evidence Lower Bound, ELBO)。它可以写成如下形式(允许稍作简化):


第一项,D(q(H)||p(H)),是识别分布 [q(H)] 与我们关于隐藏状态的先验分布 [p(H)] 之间的散度。具体而言,这由一种称为 Kullback-Leibler 散度(KL-散度)的度量来量化。这就是前文所述的“复杂度”,它表示为了降低相对于新观察结果的自由能,我们对模型所做的改变有多显著。第二项, q,是“准确性”或“充分性”——它捕捉了某种关于假设的识别分布使我们的观察结果有多大概率发生。

这一数值已被转换到对数尺度上,因此它不从0到1取值,而是取一个负值,最大值为0,代表确定性。观察结果越不可能,其对数概率就越低——也就是说,这个负值离零越远。因为减去一个负数等同于加上一个正数,所以该充分性值越低,我们在自由能方程中增加的量就越大。

因此,通过最小化复杂度并最大化“充分性”,自由能得以降低。

我想强调的是,尽管第二个量通常被标记为“准确性”,但在此处这种说法有些误导,因为它既未衡量我们的识别模型与我们试图逼近的生成模型有多接近,也未衡量其与产生我们观察结果的过程的真实统计特性有多接近。它仅衡量了我们的识别模型在预测观察结果方面的成功程度。就像一个坏掉的钟表或一个幸运的新手一样,一个模型可能对某个特定观察具有预测充分性,同时仍与产生该观察的过程的真实统计特性相去甚远。然而,只要有足够的观察数据,希望便是持续较高的预测充分性能作为我们模型与导致我们观察结果的隐藏变量之间拟合程度的证据。

自由能的精妙之处在于,它还可以被分解为我将称之为(1)散度(divergence):即识别密度与真实贝叶斯推理的精确后验分布之间的差异,以及

(2)意外(surprisal):某些感觉数据相对于实际生成模型(即我们旨在调整识别模型以使其更紧密地模仿的模型)的不可能性。这看起来(再次略作简化)如下:


这里有几个值得强调的要点。第一点是,虽然像公式2一样,公式3的第一项也是一个 KL-散度度量;但在本例中,它是在识别模型与真实贝叶斯推理的精确后验分布 [p(H|o)] 之间。相比之下,在公式2中,它是识别模型与先验分布 [p(H)] 之间的散度。

第二点需要强调的是,我们将意外作为一个负对数概率 [- ln p(o)] 加入,而不是直接减去一个对数概率。这种对符号的纠结看起来有点奇怪,但它所做的只是将一个最大化要求转化为一个等效的最小化问题——这是处理优化问题时的标准做法。要理解这一点,你只需记住对数概率是负数,对于某一特定事件,它们在0时达到最大值。将对数概率乘以-1仅会反转其符号,使得这些意外项的值现在变为正数,并在0处取得最小值。

在这两种情况下,我们的自由能函数都会在该项最接近零时达到最小值。在对数概率的情况下,这个负值越小,我们就离零越远,所以我们希望最大化它。在意外项的正值情况下(即负对数概率的正值部分),数值越小就越接近零,所以我们希望最小化这个量。因此,以加入意外项的方式来表述自由能的优势在于,这意味着我们最小化任务中的两项本身都是最小化问题。

第二个、也是更重要的要点是,尽管充分性和意外看似相似,但它们并非彼此的逆运算。这里的充分性是一个关于观察和我们的识别模型的函数——即我们当前对产生该观察结果的潜在过程近似统计特性的最佳猜测。这是自由能最小化器能够测量并降低的量。相反,意外(如其在 FEP 中出现的那样)是在完整生成模型的精确后验分布下的不可能性——这正是我们试图逼近的目标。高充分性意味着低

意外,但前提是我们的近似识别模型足够接近生成模型。

那么,这多少有些令人困惑,此处被称为“充分性”的概念,而非意外,才最好地对应于我们通常所说的、在某个推断主体期望背景下,某项特定证据的个人层面的“意外性”。关于某次观察的意外的技术概念,对主体而言是不可及的,原因有二。第一,正如前面已讨论的,是因为它依赖于对生成模型 P(O,H) 的一个不可处理的边缘化,以给出在此模型下 P(Oi) 的“总体”概率。变分推理的全部意义就在于避免这种边缘化。

第二个原因是,正如我们将在下一节看到的,在某些 FEP 的表述中,生成模型实际上根本不是由主体自身编码的。

因此,虽然公式3中“散度+意外”的划分对于追求最小化自由能的大脑来说是不可及的,但这样划分事物的方式向我们表明:通过最小化自由能,大脑可以限制其识别密度与真实后验分布之间的可能散度——在一定程度上,如果后者属于受限的简单分布类别,它们将变得等价。当我们的识别密度与真实后验分布之间没有散度时,自由能便退化为意外。这使得在拥有真实模型的前提下最小化意外可以被视为自由能最小化的一种特殊情况,这一点在我们考虑将 FEP 推广至大脑之外时将变得重要。然而,目前所有自由能最小化器所能依赖的是:最小化自由能将推动其识别密度朝向在一个受限的、更简单且可处理的分布类中所能达到的最接近真实后验分布的状态。

所有这一切如何与预测加工联系起来?嗯,变分推理程序本身并未指定我们应该为我们受限的概率分布类选择哪些约束。但是,如果我们恰当地选择了识别分布,那么该程序便可通过一个预测处理器来实现。我们需要的第一个假设是拉普拉斯假设(Laplace assumption),它将我们可能的识别分布类别限制为高斯分布,而高斯分布可以用均值和方差这两个充分统计量来参数化。第二个假设是平均场近似(mean-field approximation),它假设所有隐藏变量在各个状态上的后验分布可以独立地分解为多个单独的分布。

有了这些选择,PP 中的每一次预测都可以被解释为这些分布之一的均值,精度则编码其方差,而输入的整体精度加权预测误差即为相对于该分布而言我们当前证据的自由能(Gershman, 2019)。

3.2 融入行动

通过变分推理,我们可以梳理出那些促使我们将预测加工描述为贝叶斯推理近似的假设与约束。这固然不错,但如果自由能框架仅止于此,那它便谈不上新颖——将变分方法用于解释大脑如何执行“无意识推理”的设想,可追溯至1995年Dayan、Hinton和Abbott提出的“亥姆霍兹机”(Helmholtz Machine)方案。此外,当我们转向自由能原理,试图为预测加工系统(PP系统)的运作提供一种替代性的、非重构主义的指令时,这也不是我们所寻求的答案。

出人意料的是,主动推理(active inference)的独特之处在于融入了行动,并试图描述一个能够干预其感觉输入的主体——这与标准的变分推断者形成对比,后者只能被动地追踪其所面对的任何规律性。要理解为何行动至关重要,我们可以注意到:变分推理仅描述了一个系统如何更新其识别模型,使其更接近关于观察结果与隐藏原因的联合概率分布——即生成模型。这种关于状态的概率分布,是主动推断者所能表征或逼近的唯一事物。我们可以调整此模型以更好地捕捉产生我们观察结果的生成过程中的规律性,但要做到这一点,必须存在这样的规律性。换言之,如果我们希望成功推断该过程,则生成过程的统计行为必须保持稳定。

我们周围的环境似乎并未提供任何理由来支持这样一种普适性的约束。环境中存在振荡与轨道,但也存在增长、发展与崩溃——重现性并非必然保证。在万物奔向解体的宏大热力学洪流中,我们所观察到的稳定性不过是一个暂时的涡旋。

如果要对我们的环境建模——一个系统稳定且意外最小化的环境——那么,我们似乎首先需要探究我们为何以及如何采取行动,使我们世界的一隅呈现出这种状态。为了看清主动推理如何回答这一问题,我们现在将回到关于预测大脑是优先考虑表征还是行动指导的争论中,并借助各种自由能分解形式加以辅助。

3.2.1 生成循环与主动系统

假设你曾听说爱丁堡常被称为“北方的雅典”,并误以为这是气候问题,而非对卡尔顿山未完工的十九世纪荒谬建筑与拥有两千年历史的希腊卫城之间一个不甚恰当的比较,于是你为了逃离曼彻斯特的毛毛细雨而搬到了那里。满怀期待地来到这座城市,憧憬着宜人的21°C阳光,结果却发现正面对着一个寒冷刺骨的零下天气的持续错误。

你可以选择接受命运,并更新你的模型,将温度刻度低端的状态概率提高。或者,你也可以通过前往机场、飞往更温暖的地方来减少这个(相当尴尬的)错误。两者都能最小化你持续观察中的自由能,但如果我们的目标是建立一个关于外部环境的准确模型,那么很难理解为何你要主动调整自己的体验以适应一个先验假设。如果这真是你的终极目标,那么你所有的避错行为似乎只是阻止了你从旅游广告板的不可靠性中吸取一个重要教训。

这个问题在前文讨论预测加工时已有所熟悉,但情况会变得更加混乱——正如前一节所暗示的,如果我们不是将生成模型理解为编码于推断大脑中的某种东西,而是将其理解为对我们试图推断的观察生成过程的实际统计属性的一种描述。

假设当你走出韦弗利火车站时,你反而被爱丁堡中世纪的天际线所吸引,决定留下来。由于无法忍受城市的户外气温,你搬进了一间带城堡景观和宏伟老壁炉的公寓,然后舒适地坐在壁炉旁。恭喜!你已经将相对于21°C目标状态的预测误差降至最低——但这还不是你所做的一切。点燃壁炉后,你不仅改变了当前状态,使其符合你的预测,还改变了你试图建模的环境的长期统计特性,使21°C在未来成为一个更有可能遇到的状态。

每天晚上,整个城市成千上万的居民都在做同样的事情——尽管如今燃气锅炉是更常见的方法。结果是,爱丁堡市中心的平均室外气温比周边乡村高出几度——而且还在不断变暖(Price, 1979)。如果你这些热衷取暖的居民数量继续增加且能源消耗上升,那么,在气候变化允许的前提下,有一天你或许能从乔治亚风格的露台上清晰地走到新城的街道上,发现你对21°C空气温度的预测得到了完美满足。你对爱丁堡平均气温的内部识别模型现在是准确的——但这仅仅是因为你赋予这一温度高概率的事实驱使你去让世界与之相符。

将行动融入自由能框架,引发了一种奇怪的循环性。这种循环性破坏了亥姆霍兹式的理解:即认为生成模型所描述的过程的统计特性(大脑本应在其识别模型中部分逼近)仅由远端环境原因构成。允许主体采取行动改变其感觉输入,不可避免地将建模主体插入到它同时试图建模的那个观察生成过程中。

如果我们是在主动推理框架下对任何事物进行建模,那么我们所建模的并非独立于主体的世界,而是融合了主体与世界的系统。因此,我们在生成模型和识别模型中所描述的隐藏原因“H”,现在不仅指涉外部事务状态(E),也包含了我们自身的行动(A),这些行动是由我们的内部模型(I)决定的,而内部模型又反过来依赖于我们的感觉观察(S)。

与其说是清晰的划分——一边是隐藏环境原因的观察生成过程,另一边是内部的行动生成模型——我们现在拥有的是一个生成循环:从一个内部“模型”出发,到行动,再到外部原因,再到感觉观察,最后回到主体的内部状态。正是这种形式化的表述,使得FEP明显偏离了标准的变分程序——在后者中,推断系统对其试图推断的系统的稳定统计特性没有任何影响。

在讨论PP的“恶魔场景”问题时,Hohwy (2016) 描述了预测加工固有的循环性,即只要证据与我们的先验假设一致,我们就将其视为证实这些假设,而不管它是否排除了其他同样可能的替代方案。当我们的证据不仅是被解释、被选择,而且是作为这些假设的结果被主动创造出来时,问题看起来就更加严重了。正如 Bruineberg 等人 (2018) 所指出的,如果一个最小化自由能的大脑是一位假设检验科学家,那么它开始看起来像一位“狡诈而欺诈的科学家”,这位科学家“事先决定了实验的结果……并操纵实验直到达到期望的结果为止”(第2430页)。

那么,如何将这种“狡诈科学家”的图景与近似贝叶斯推理逻辑下的感知与行动观念相调和呢?后者通常被认为是自由能框架的巅峰荣耀?

首先,应当指出的是,刚才描述的那种“狡诈”并不会削弱对识别模型的贝叶斯式解读。一个好的贝叶斯主义者不对她所接收的证据负责,只对她如何处理这些证据负责。通过始终如一地向热源靠近,你可以策划出一个证据流,引导一个真正的贝叶斯过程产生一个平均气温为21°C的模型。然而,一旦没有预先设定的独立统计数据可供推断,且所做的观察是由建模系统的先验期望所决定的,这种推理主义的理解作为一种解释自由能最小化系统自我保存成功的方式,就显得不太有帮助了。

为了缓解在贝叶斯推理中设定初始先验所带来的不适主观性,人们经常指出,即使代理者最初拥有高度发散的先验,这些差异最终也能通过在相同证据上的更新过程被“冲刷掉”,从而导致它们的模型趋于收敛。那些创造并策划自己个性化证据流以支持其初始先验的代理者,破坏了这种可能性。行动的引入似乎让我们变得漂泊无依。当我们不仅能随意改变我们的内部模型,还能改变生成我们观察结果的过程结构时,我们似乎缺乏任何关于如何前进或不同策略是否会收敛于相同结果的固定限制。

我们可以尝试在此处重新获得一些稳定的立足点,注意到无论是系统、大脑还是环境,都不是无限灵活的。我们或许能够在某种程度上改变周围的温度,但生成循环中的环境成分也限制了我们能够制造出符合我们内部预期的观察的程度。

考虑世界另一端的情况,560万新加坡人也在与当地气候作斗争——尽管他们的处境比爱丁堡居民更具热带特征。这个城市国家拥有世界上人均空调数量最多的记录之一,居民可以在公寓楼、办公楼和地下商场之间穿梭,享受18°C的凉爽。尽管如此,新加坡的变暖速度却是世界其他地区的两倍(Jiang et al., 2021)。虽然爱丁堡居民调高恒温器的行为是一种自我强化的预测,但新加坡人的空调行动却无法克服热力学的约束。在这种气候变化与空调采用之间的正反馈回路中,短期内实现预测目标温度的尝试实际上削弱了在更长时间尺度上实现该目标的能力(Howarth, 2020)。

将预测主体与预测世界对齐,不能更多地归因于在反复失败面前顽固追求先验期望,而应归因于被动顺应环境抛给我们的任何感官证据。你无法从猪耳朵里推断出丝绸钱包——无论桌上放着一个多么像钱包的猪皮钱包。然而,我们预测实现行动的储备受限于外部约束这一事实,尚未解决我们的问题。即使在这些限制内,可能性的空间仍然不受约束。在大多数情况下,主动推断者将面临一个选择:要么采取行动使其观察结果符合其识别模型,要么改变该内部模型以适应其观察结果。在前一种模式中,我们仍可将其视为在推断一个准确的模型——尽管这是一个包含自身行动的可能性及其后果的模型。在后一种模式中,它看起来更像是一个试图按照其模型塑造世界的系统。这个权衡该如何解决?

3.2.2 先行动,后思考

我们有两种方式来最小化自由能或预测误差。我们可以采取行动去改变世界,从而改变生成模型;或者,我们可以更新我们的内部识别模型,以更好地预测我们的观察结果,从而理想地使其更接近生成模型。在预测加工(PP)的语境下,这通常被表述为一种主张:“感知世界(知觉推断)与作用于世界(主动推断)”是“同一枚硬币的两面”。(Gładziejewski, 2016, 第562页)。就PP而言,行动和知觉都涉及改变变量以最小化预测误差——唯一的区别在于,前者改变的是外部变量,而后者仅涉及内部变化。

然而,自由能框架使这一问题复杂化了,因为它揭示出预测误差/自由能是一个可分解的量——它可以被分解为:(a) 充分性(adequacy):即我们对识别模型的某些改变使该输入的可能性有多大;以及 (b) 复杂度(complexity):即我们为了更好地纳入每一个新输入而改变模型的程度。有了这种分解,我们便能识别出知觉与行动之间的一种功能不对称性,揭示出它们并非只是通往同一终点的可互换手段。如果我们选择通过知觉更新来改进充分性,那么这会带来一个复杂度成本——我们优化了一个自由能组分,却以增加另一个组分为代价。相反,如果我们仅仅通过行动来改变输入,那么我们就能免费提升充分性!

我们也可以从自由能另一种分解的角度来看待这种权衡,将其分解为:(a) 散度(divergence):即我们的近似识别模型与理想贝叶斯模型(该模型描述了我们感觉输入背后的原因)之间的差异;加上 (b) 意外(surprisal):即对于这个系统而言,这一特定感觉状态的真实不可能性。虽然我们无法直接测量或降低这两者中的任何一个,但我们知道意外与我们的内部识别模型无关。虽然通过知觉推断更新我们的模型可能使其更接近理想的贝叶斯后验分布,从而使预测准确性成为意外的一个更好的代理指标,但它无法直接减少意外。相反,通过行动来减少自由能,不仅允许主体减少其观察的意外性(如前文所述),还将主体自身插入到它试图推断的过程的统计结构中,改变了它可能接收到的不同观察的概率。因此,通过将生成过程的长期统计特性调整得更接近主体的期望,行动也能减少该过程的正确模型与我们简化的识别模型之间的散度。

一方面,行动在不增加复杂度成本的情况下改善了充分性;另一方面,它还可能同时减少意外和散度,而知觉模型的更新只会减少前者。因此,自由能最小化显然优先选择行动而非模型更新。然而,正如我们在上一节所见,这是一种奇怪的、寻求确认式的行动形式,与亥姆霍兹所提出的假设检验过程截然不同。我们现在所面对的,不仅仅是一个偶尔会选择改变世界以适应其模型的主体,而是一个将此视为终极目标的主体。对于这样的主体而言,更新其模型的唯一理由是在万不得已之时——当它发现自己无法主动将自己的期望强加于世界时——例如,在空调使用与全球变暖之间的正反馈循环案例中。

从一种将认知理解为知识论规范(epistemic norms)——即理解与准确性的视角来看,这种行为似乎是不可接受的。在下一章中,我们将探讨,当从生物适应与生存的规范角度来审视时,这种策略为何可能更有意义。但在那之前,我们需要进一步复杂化问题,通过引入层级主动推理和参数学习,来看看这是否能使主动推理解释一个不仅仅是固执地将初始期望强加于世界的主体。

3.3 主动推理与学习

到目前为止,关于主动推理的讨论仅限于更新单个识别模型的过程,目的是使其更接近贝叶斯推断的理想后验分布,而无需对完整的生成模型进行难以处理的边缘化运算。这种变分程序避免了边缘化,但并未完全消除对生成模型的需求。这个联合分布 [P(O, H)] 仍然是必需的,以便在给定隐藏原因(包括主体自身的行动)的情况下,计算特定观察结果的可能性。这是使用公式2中给出的“可访问”重排方式来计算一个识别模型和一次观察的自由能所必需的。然而,我们尚未说明这个生成模型是如何形成的。相反,我们只是简单地假设系统已以某种方式被赋予了一个“预设”的生成模型。

我们已经看到,决定一个主动推断者的内部识别模型好坏的,并非它是否准确描述了最可能的、独立于心智的事务状态,而是它所认为最可能的事务状态是否能够通过主体的行动轻易获得。然而,当涉及到生成模型时,为了使主体能够评估哪些行动会带来其预测的观察结果,该模型在描绘观察结果与其潜在原因之间关系时,必须具备一定程度的真实性(veridicality)。

主动推理领域的相关工作通常不仅假设主体拥有一个生成模型,而且假设这是一个“真实的生成模型”(Friston et al., 2015;另见 Friston et al., 2017; Hesp et al., 2021; Buckley et al., 2017)。正如 Parr 等人(2022)在其关于主动推理的教科书中所述:

“在本书讨论的许多实际应用中,我们简单地假设生成过程的动力学与生成模型相同,或非常相似。换句话说,我们通常假设主体的生成模型紧密模仿了产生其观察结果的过程。”(第131页)

尽管他们澄清其本意并非要求主体必须拥有一个完美的模型才能参与主动推理,但他们所举的关于使用“不完美模型”进行推断的例子,关注的是主体对其当前世界状态及其位置的初始估计中的不准确性,而其生成模型的结构和参数仍被假定为是真实的。正如 Raja 等人(2021)所指出的,这种假设——即我们已拥有一个良好的世界生成模型来解释我们如何通过感知学习——在FEP的解释中看起来像是一种恶性循环。我们想要一个关于感知的解释所要解释的,恰恰是这个模型最初是如何发展起来的。

尽管主动推理的应用通常侧重于使用预设的真实生成模型进行推断,但 Parr 等人(2022)声称,这一假设仅仅是为了实用目的而做的便利简化。一旦我们转向在预测加工中发现的那种层级结构,他们便建议,理解生成模型如何通过与优化识别模型相同的过程被习得,是相对直接的。我们现在所拥有的,仅仅是发生在不同时间尺度上的同一个自由能最小化过程,其中我们的概率分布覆盖的是模型参数,而非直接覆盖隐藏原因。或者,正如他们巧妙地描述这一想法:

推断描述了我们关于模型状态信念的(快速)变化——例如,在观察到某个红色物体后,我们如何更新“前方有一个苹果”的信念。学习则描述了我们关于模型参数信念的(缓慢)变化——例如,在观察到几次红苹果后,我们如何更新似然分布,以提高“苹果-红色”映射的价值。(Parr et al. 2022, 第129页)

因此,主动推理解释了模型参数的学习,这些参数编码了低层级“世界状态”变量之间的关系,其方法是明确引入了关于这些参数的概率分布。这些概率分布在较慢的时间尺度上被更新,但关键的是,仍然通过相同的变分自由能最小化过程。Parr 等人提出,学习与推断之间的时间尺度分离,或许可以映射到神经动力学与突触可塑性之间的时间尺度分离。

正如我将在第九章更详细地描述的那样,这种层级扩展通过提供一种将模型更新作为定向过程的方式,为自由能框架引入了更高程度的灵活性,而不是将其仅仅视为当主体无法采取行动使外部世界符合其先验模型时的最后手段。通过引入层级结构,我们现在可以将某一层次概率分配的修正,视为更高层次模型的“行动”,其目标是通过使较低层次模型符合较高层次模型的期望,来减少自由能。

然而,尽管这种层级扩展使我们能够描述生成模型如何随时间变化,正如 Rutat 等人(2022)所指出的,它只涉及在一个固定状态空间内的参数修正,这一框架不足以解释像学习和发展这样的开放性过程。我将在第八章和第九章回到需要将学习与发展概念化为开放性过程的问题,我将在那里论证,这种开放性是生命过程的一个显著特征,任何生成主义的认知理论都必须对此加以解释。

目前,我们可以暂时允许一个固定的高层级模型——该模型描述了变量间的依赖关系以及一个固定的状态空间——为我们所关心的过程提供一个有效的描述。暂停对这种表征有效性的质疑,并不能解决关于一个主体如何获得对该模型知识的问题。层级化的模型学习解释并不能解决对这样一个预设且真实模型的需求——它们只是将解释其来源的责任推给了下一层。

为了定义模型参数的自由能,我们仍需假设存在一个更高层级的生成模型,相对于该模型,前述参数才得以定义。如果我们再追问这个第二层级模型从何而来,那么唯一可能的基于FEP的答案是:它也是通过自由能最小化习得的——这一答案仅仅是将学习问题又向前推进了一步,即假设了另一个层级的生成模型。

尽管向层级结构的转变允许我们将模型的低层级变化描述为学习(通过相对于更高层级模型的自由能最小化),但无论我们引入多少层,最终都必须存在一个最终层级。为了启动自由能最小化和主动推理,我们仍需要一个预先设定且预先发展的模型,该模型本身既不能通过自由能最小化习得,也不能通过后续的自由能最小化进行修改。

一旦我们有了一个建立这种终极生成模型结构的原则性基础,我们就可以用主动推理框架来研究它。要做到这一点,我们需要沿着连接FEP与主动推理的“高路”回溯,看看前者如何旨在将概率模型的识别根植于生物系统的结构与动力学之中。

3.4 第一个生成模型从何而来?

一个主体如何能“预适应”地进入其世界,这一问题对于自由能原理而言远非独有。作为现代生物学的核心问题,我们早已有一个广为接受的答案:遗传继承与自然选择。因此,自由能文献中的标准观点是,主体通过遗传(Friston et al., 2015)或在子宫内的发育(Ciaunica et al., 2021)等方式,从其祖先那里继承了第一个模型。既然祖先只有在拥有一个好的生成模型时才可能存活下来,那么我们便可以预期,我们所继承的模型也同样是合适的。在一些论文中,有人提出不仅自然选择有利于保留好的生成模型,而且自然选择本身就是一个推断过程(Ramstead et al., 2018; Kirchhoff et al., 2018)。尽管将自然选择描述为对可能状态的概率分布进行更新的想法并非新概念,但FEP的支持者提出了一个更强的主张:即“生殖适应性”的概念本身源自更基础的自由能最小化原则。

生存与生成模型保存之间的联系将在下一章展开讨论;而关于适应性与适应度是否源于、可归约为或可被概率性原则所描述的观点,将在第九章受到批评。暂且不论这些进化过程是否能保证一个生成模型的“优良性”,我现在想关注的问题是:一个模型如何能成为一种主体生来就具备并代代相传的东西。

这种理解使我们远离了预测加工和主动推理文献中对生成模型的解释——在那些文献中,生成模型被理解为结构化的模型,由自上而下的突触连接编码于特定个体的大脑之中(Kiefer and Hohwy, 2018, 2019)。与此相反,Ramstead 等人(2020)断言:“在FEP框架下,生成模型并非由物理状态明确编码。也就是说,它们并非由大脑的状态编码。相反,正是系统的适应性行为实现了或实例化了一个生成模型。”(第231页)

这一主张暗示了一种相当奇特的模型形而上学,并引发了许多令人困惑的问题。

第一点困惑在于:正如在预测加工和主动推理文献中通常所理解的那样,生成模型内部编码的结构与构成生成过程的外部隐藏原因之间存在清晰的区分(Friston et al., 2016; Parr et al., 2022)。尽管 Ramstead 等人(2020)拒绝“生成模型在内部被编码”这一观点,但他们仍继续支持这一区分,只要“感觉输入的实际原因依赖于行动(即,依赖于一个生成过程),而行动则依赖于推断(即,依赖于一个生成模型)”。(第234页)

正如第3.2节所述,主动推理的循环性——即观察结果由行动产生,而行动又由内部生成模型引起——使得这种区分难以维持,因为生成模型本身现在已成为产生主体感觉输入的生成过程的一部分。这种混淆反映在这样一个事实中:在某些地方,Ramstead 等人(2020)将行动描述为生成模型所“描述”的隐藏原因的一部分;而在其他地方,如上文引述,他们却将这种适应性行为重新定义为“实例化”或“实现”该模型的载体。

这一建议似乎是,我们可以通过依赖关系的方向来保持这种模型-过程的区分:感觉输入对行动的依赖是“过程”,而行动对内部状态的依赖是“模型”。然而,联合概率分布本身并无固有的方向性。它仅捕捉到特定变量状态同时出现的可能性,而对这些变量之间任何因果影响的方向漠不关心。如果它被某个方向的依赖关系所蕴含,那么它同样也被相反方向的任何依赖关系所蕴含。

因此,在近期的一些处理中,生成模型反而被构想为由“主体与环境之间整个循环的完整联合动力学”所实现。与此同时,试图在生成模型与生成过程之间划出任何区别的努力已被放弃(Ramstead et al., 2023)。鉴于主动推理的循环本质,放弃这种区分似乎是恰当的。这也为回应 Raja 等人(2022)的质疑提供了一个方便的回答:即自由能最小化只是简单地假设了一个“真实的”生成模型的存在。因为如果这个生成模型被认为只不过是主体-环境感知-行动循环的实际动力学,那么它就不可能是不准确的。然而,排除任何不准确的可能性,引发了一个更为棘手的问题:即,从何种意义上说,这些动力学构成了一个“模型”?

3.4.1 描述与实例化

正如 Andrews(2021)所建议的,理解 FEP 中“生成模型”一词的一种可能方式是:将其解释为仅指一种数学结构——在此例中,即联合概率分布——这种结构既无需物理实现,也不包含任何表征性内容。这种数学结构随后可被解释为某个物理系统的模型,但若无此解释,该数学结构本身并不绑定于对任何特定物理系统的表征。事实上,同一结构可以被解释为建模截然不同的系统。Andrews 举例指出,洛特卡-沃尔泰拉(Lotka-Volterra)模型的耦合微分方程,同样可以被用作自催化化学反应或捕食者-猎物动力学的模型。

然而,一种结构只有在获得解释后才成为模型,这并不意味着这种建模关系完全取决于主观选择。试图用洛特卡-沃尔泰拉模型来预测复古毛绒玩具的未来需求,很可能导致糟糕的投资决策。如果一种解释要成功,那么对于其解释目标的结构和动力学,就必须存在某些约束,以便这些约束能映射到数学方程的形式结构上。

就生成模型的联合概率分布而言,我们的关键要求是稳定性(stationarity)。一个特定的联合概率分布只有在其所描述的过程行为稳定时,才能被解释为一个物理过程的模型——也就是说,其处于任何特定状态的可能性,在我们选择观察它的任何时刻都保持不变。一个偶尔受到扰动、静止悬挂的钟摆,可以用这样的数学结构很好地建模;而一栋倒塌的大楼则不行。

基于此,解读 Ramstead 等人(2020)关于生成过程内部环节“实例化”生成模型的描述,最自然的方式是:这意味着它拥有合适的动力学,可以被一个生成模型所描述。这旨在做出如下积极主张:(1) 我们感知-行动循环各部分之间的关系是稳定的;(2) 该循环任一部分倾向于处于某种特定状态的趋势也是稳定的。虽然在早期工作中,这一要求被表述为“系统是遍历的”(ergodic)(Friston, 2019b),但最近已被更弱的要求——即系统处于稳态(steady state)——所取代(Friston et al., 2022; Parr et al., 2022)。

如果情况并非如此,如果系统像一个倒计时器一样,从一个状态线性地推进到下一个状态,那么它处于某一特定状态的概率在时间 t 和 t+1 就会不同。对该系统一阶状态的一个固定概率分布将无法随时间推移描述它。如前所述,并将在第九章详述,层级模型的工具使我们能够描述看似行为上的变化,实则是更高阶统计规律性的保持——例如,两个半稳定状态之间的循环,或更高阶状态的稳定性——比如一个稳定的“速度”,使得计时器滴答前进。

无论如何,正如 van Es(2021)所论证的,此处的任何模型都不是由过程本身“实例化”的。如果这样一个系统的模型在任何地方被实例化,那它必须存在于观察者的头脑中,或存在于他们的笔记本电脑内存里。这似乎与 Ramstead 等人(2020)对生成模型的描述相吻合——即生成模型是“被规定性地定义”(defined stipulatively)的,目的是推导出一个能解释后续行动的识别模型,并且它“不具备足以物理实现的充分统计数据”(第233页)。

如果这就是“生成模型”一词的全部含义,那么我们唯一的问题将是:我们所感兴趣的某个特定系统是否具有合适的稳定动力学,从而可用联合概率分布来描述。然而,这种工具主义式的生成模型理解,将无法支持 Ramstead 等人(2020)提出的其他主张,例如:生成模型是一个有机体“配备”的“控制系统”(第231页),它具有“因果效力”(第233页),并被系统用于“执行策略选择”和“指导行动”(第234页)。

一个数学结构无法做到上述任何一件事,系统本身也不会“拥有”、“使用”或“执行推理”。具有因果力的是系统本身的结构,而非生成模型对其的描述。一个捕鱼网或许可以用微分方程来描述,但只有其中一个网才能真正捕到鱼。

正如多位作者所指出的,将“一个系统可由数学结构描述”与“该系统实例化了一个模型”这两种主张相混淆,是自由能文献中反复出现的现象(Andrews, 2021; Bruineberg et al., 2022; van Es, 2021)。这种预设有助于理解 Friston 关于模型存在的不寻常说法,例如他声称“一个模型只是一个遍历系统”(Friston, 2019b, 第183页)。在一篇更新的论文中,Ramstead 等人(2023)明确捍卫了这种混淆,认为“最终,我们无法有意义地区分说一个系统的动力学实际上参与或实例化了近似贝叶斯推理,与说它们只是‘看起来’如此。”

这种混淆并无助益。至少,模型是解释者使用的工具,而推理是一种有意图的、规范导向且可理性评估的过程。模型和推理操作可以有好有坏、正确或错误。某个模型的功能未必是全面精确地复现目标的结构,但模型总是具有某种功能。一个系统具有某种特定的动力学,仅仅意味着它可以被一个生成模型所描述,而纯粹的数学可描述性并不能赋予其任何功能性角色。

声称任何稳定系统都在“试图”推断一个概率分布,其意义就如同给一颗被河水冲刷的鹅卵石赋予“变成球体”的目标,或把太阳系的动力学理解为“建模一个天文馆”的尝试。如果“模型”的全部意义仅仅是承认一个数学描述,那么我们所能谈论的一切都是模型,将“变化是由模型引起的”、“推理过程”或“模型更新”等概念的讨论变得完全琐碎。

无论哪种方式,无论是将生成模型的联合概率分布视为由主体行动-感知循环的动力学所“字面实现”,还是仅仅视为由这些动力学所蕴含的统计描述——在此情境下,它都不可能是非真实的。在 Ramstead 等人的表述中,除了最初用于推导该联合概率分布的动力学之外,不存在任何其他目标。该分布本身应被视为其所代表的对象。为了引入不准确或不足的可能性,我们需要别的东西。具体而言,我们需要一个独立的基础,来假定一种代理者动力学“应当”遵循的、独特的统计形式,而不仅仅是其实际动力学所蕴含的统计描述。只有这样,我们才能纳入理想“模型”与代理者实际动力学所蕴含的概率描述之间可能存在差异的可能性。

如果我们已经预先知道代理者应该参与何种行为,那么同时用概率分布来描述这些理想动力学及其实际行为,便能使我们捕捉到二者之间的差异。这也会对前者如何改变以更接近后者施加一些约束。这正是主动推理的发展或学习模型通常有效的原因所在——即在一个可能不重复的状态序列中,系统轨迹可以通...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

爱写的樱桃
2025-11-16 21:36:38
印度“光辉”战机在迪拜航展上漏油?印度军事网站忙发文澄清

印度“光辉”战机在迪拜航展上漏油?印度军事网站忙发文澄清

新浪财经
2025-11-19 06:18:55
比特币跌破9万美元关口

比特币跌破9万美元关口

界面新闻
2025-11-18 12:10:03
全运会女子团体半决赛:孙颖莎轻松横扫,河北队3-0完胜黑龙江

全运会女子团体半决赛:孙颖莎轻松横扫,河北队3-0完胜黑龙江

全景体育V
2025-11-18 19:26:15
『高分佳作』凉森玲梦丨湿身OL

『高分佳作』凉森玲梦丨湿身OL

吃瓜党二号头目
2025-11-19 08:13:58
19岁男孩喝百草枯苦熬18天,逼外出打工母亲回家,母亲:你放心去

19岁男孩喝百草枯苦熬18天,逼外出打工母亲回家,母亲:你放心去

林子说事
2025-11-12 10:40:27
轰6成群出动,信号非同一般,解放军这次,要同时收拾三个国家

轰6成群出动,信号非同一般,解放军这次,要同时收拾三个国家

乐天闲聊
2025-11-18 13:55:48
1994年,父亲贷款买下北京二环的9套四合院,25年后开发商来拆迁

1994年,父亲贷款买下北京二环的9套四合院,25年后开发商来拆迁

如烟若梦
2025-11-17 18:10:03
71岁成龙去世?最新消息!

71岁成龙去世?最新消息!

乡野小珥
2025-11-18 13:40:40
赵雅芝一脸疲惫终于回香港了!脸上的粉抹得好厚,走路得人搀扶!

赵雅芝一脸疲惫终于回香港了!脸上的粉抹得好厚,走路得人搀扶!

柠檬有娱乐
2025-11-18 10:23:13
唐嫣罗晋冲上热搜!两人商业已无直接关联,结婚7年育有一女,唐嫣曾称“理解分居两地”

唐嫣罗晋冲上热搜!两人商业已无直接关联,结婚7年育有一女,唐嫣曾称“理解分居两地”

鲁中晨报
2025-11-18 21:22:07
扒裤!强吻!西安一女子逛街被男子扑倒欲强奸,获刑8个月引争议

扒裤!强吻!西安一女子逛街被男子扑倒欲强奸,获刑8个月引争议

火山诗话
2025-11-16 11:26:15
套现356亿全身而退,潘石屹夫妇狠狠给美国房地产上了一课

套现356亿全身而退,潘石屹夫妇狠狠给美国房地产上了一课

林子说事
2025-11-16 05:26:48
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
反转!女网红柬埔寨失踪,家属求救却隐瞒真相,网友曝猛料揭幕

反转!女网红柬埔寨失踪,家属求救却隐瞒真相,网友曝猛料揭幕

天天热点见闻
2025-11-18 08:18:32
余承东公布华为Mate X7真机

余承东公布华为Mate X7真机

每日经济新闻
2025-11-18 10:00:06
44岁董洁和男友大连聚餐时被人偶遇 可是纯素颜,那模样简直美翻了

44岁董洁和男友大连聚餐时被人偶遇 可是纯素颜,那模样简直美翻了

阿废冷眼观察所
2025-11-18 06:05:17
中日破裂,这是53年来对日最强硬的外交表态!

中日破裂,这是53年来对日最强硬的外交表态!

见闻致
2025-11-15 21:21:56
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
1-1,巴西险翻船,28岁AC米兰旧将失点,18岁切尔西新星救主

1-1,巴西险翻船,28岁AC米兰旧将失点,18岁切尔西新星救主

侧身凌空斩
2025-11-19 05:25:08
2025-11-19 09:31:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
992文章数 16关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

大规模宕机!美国多个网站崩了

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

亲子
教育
本地
手机
公开课

亲子要闻

冬季克服寒冷锻炼孩子意志力

教育要闻

深圳中学简直一整个误闯天家啊

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

手机要闻

苹果iPhone 17 N1芯片令其在北美Wi-Fi性能上领先

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版