实现系统2(system2)主动推理与认知控制|模态|贝叶斯|智能体|元认知

分享至

Active Inference and Cognitive Control: Balancing Deliberation and Habits through Precision Optimization

主动推理与认知控制：通过精度优化平衡深思熟虑与习惯

https://osf.io/preprints/psyarxiv/m87wk_v5

摘要

我们在主动推理（active inference）框架内提出了一种关于认知控制的新颖理论。该理论认为，认知控制等同于优化一个精度参数（precision parameter），这个参数作为控制信号，平衡了在行动选择中深思熟虑（deliberative）和习惯性（habitual）成分之间的贡献。为了说明这一理论，我们模拟了一个驾驶场景：司机沿着一条熟悉的路线行驶，但遇到了意外的挑战。我们的模拟显示，标准的主动推理模型可以形成适应性的习惯；也就是说，在情境稳定时可以从深思熟虑的控制过渡到习惯性控制，但在情境发生变化时通常无法恢复到深思熟虑的控制。

为了解决这种情境敏感性的缺失，我们引入了一种新颖的分层主动推理模型，其中较低层级负责行为控制，而较高层级（或称为元认知层级）观察较低层级的信念更新过程，并负责认知控制。关键在于，元认知层级既可以形成习惯，也可以通过控制那个优先考虑行为层级上深思熟虑选择的（精度）参数来暂停这些习惯。

此外，我们展示了与认知控制相关的若干过程——如惊奇检测（surprise detection）、认知冲突监测（cognitive conflict monitoring）、控制信号的调节与设定、未来结果的模拟以及对控制与心理努力代价的评估——都可以一致地从支撑主动推理的自由能最小化机制中自然衍生出来。

最后，我们通过模拟多巴胺系统中的边缘通路（mesolimbic）和皮质通路（mesocortical）、背侧前扣带皮层（dorsal anterior cingulate cortex）以及蓝斑核（locus coeruleus）中的脑动力学，探讨了认知控制可能的神经生物学基础。

关键词：认知控制；动作注意；主动推理；心理努力；多巴胺。

引言

人们普遍认为“熟能生巧”。从认知的角度来看，练习也意味着一个从费力的或受控的模式——在执行新任务或困难任务时的表现——逐渐过渡到在执行熟悉且简单的任务时更为自动化的信息处理过程（Anderson, 1982; Shiffrin 和 Schneider, 1977）。例如，新手司机必须将大量的认知资源投入到驾驶的每一个方面，而经验丰富的司机则往往可以轻松地驾驶，几乎不需要“对动作本身加以注意”。

对这一现象的一个常见解释是：熟练行为与新颖行为的控制关联着两种根本不同的大脑过程或控制器，它们被称为自动 vs. 受控（或意向性）、习惯性 vs. 深思熟虑性、程序性 vs. 目标导向性的过程，或者系统1与系统2（Balleine 和 Dickinson, 1998; Daw 等, 2005; Kahneman, 2011; Norman 和 Shallice, 1986; Stanovich 和 West, 2000）。这种不同行动选择机制（或控制器）之间的二分法，在低层次的运动控制过程和高层次的决策过程中都会反复出现（Milli 等, 2021）。因此，为了概括起见，下文中我们使用“动作”一词来指代这两个控制器所产生的行为结果，无论这些结果是身体运动、决策还是心理操作。

在习惯性或程序性控制中，任务的启动和执行都不需要深思熟虑的注意力，而是基于联想学习自动进行的，无需占用有限的认知资源，也不一定伴随意识觉知（Kahneman 等, 1983; Posner, 1978; Shiffrin 和 Schneider, 1977）。这类控制适用于相对简单或已经熟练掌握的认知和运动任务。习惯-程序性控制的两个显著特征是：动作的启动可以直接由环境线索触发，而动作的执行则可以调用预设的行为计划，例如一系列动作序列（Anderson, 1982; Taatgen 和 Lee, 2003）或动作模块（Dezfouli 和 Balleine, 2012; Rumiati 和 Tessari, 2002; Tessari 等, 2021, 2006）。这两个因素的结合确保了任务通常能够更快地完成（因为动作是自动回忆的），并且消耗较少的认知资源（因为主体只需监控预设计划的最终结果，而不是每个具体的动作单元）。这正好对应于通常定义下的“习惯”——一种只需极少认知资源即可执行的熟练动作（Miller 等, 2018）。

然而，这些优势是以灵活性为代价的：习惯性控制仅在情境可预测时适用，而在新的或意料之外的情况下可能会失败（Moors 和 De Houwer, 2006; Schneider 和 Chein, 2003）。

另一方面，深思熟虑性或目标导向性控制涉及新动作计划的形成、对其结果的在线监控，以及对抗不适应的习惯性反应和倾向的能力。所有这些都被认为是认知上具有挑战性的任务，因此深思熟虑性控制通常与心理努力和注意力资源的调动（有时也包括意识加工）相关联。与习惯性控制相反，深思熟虑性控制具有更高的灵活性，使人能够更有效地应对复杂和不可预见的情况、新的依存关系（contingencies）以及波动性环境（Balleine 和 Dickinson, 1998）。

鉴于习惯-程序性与受控-深思熟虑性过程各有其优势与局限，一个关键问题是：在行动选择过程中，它们是如何被选择和/或结合使用的？一些观点假设这两个独立的行为控制器之间存在一种“竞争”或“仲裁”机制，其依据是它们各自的相对精度（precision）（Daw 等, 2005）。而较新的观点则认为，不同的控制器也可以协同工作并共同作用，从而提供一系列连续的解决方案（Dorfman 和 Gershman, 2019；Lee 等, 2014；Pezzulo 等, 2013；Schwöbel 等, 2021），甚至可能是以层级方式组织的（Badre, 2008；Bénon 等, 2024；Dezfouli 等, 2014；Pezzulo 等, 2015）。

此外，人们越来越认识到，对习惯-程序性和受控-深思熟虑性过程的选择或组合依赖于一种成本-收益计算机制，该机制决定是否以及在多大程度上启用代价较高的（受控-深思熟虑性）过程，通过权衡使用这类过程的实际效益与其相关的认知努力来做出决策（Daw 等, 2011；Dolan 和 Dayan, 2013；Maisto 等, 2019；Pezzulo 等, 2013）。对这一成本-收益机制的早期尝试性描述是由 Norman 和 Shallice（1986）提出的“动作注意”模型所提供的。

根据该模型，有两种过程互补地运作以选择和控制行为（尽管在某些条件下它们的协同作用可能会被打断）。第一种是竞争调度机制（contention scheduling），它在可能的动作图式（action schemas）之间进行选择——用现代术语来说，这可以被称为一种策略选择机制（policy selection mechanism），即在不同策略或动作序列之间进行选择（Friston 等, 2017；McClelland & Rumelhart, 1981；Parr 等, 2022；Rumelhart & Norman, 1982；Sutton & Barto, 1998）。

第二种是监督性注意系统（supervisory attentional system），它通过对某个动作图式的额外激活（或抑制），在动作图式的选择中施加控制，从而影响竞争调度机制中的选择。因此，第二种机制通过调用注意力来提供一定的认知控制，而这种注意力需要认知努力，尤其是在要选择的图式较为陌生的情况下（Cooper 和 Shallice, 2000；Shallice 和 Burgess, 1993）。

一种更为近期、具有神经生物学基础的认知控制与认知努力分配理论，是 Shenhav 等人（2013）提出的控制预期价值（Expected Value of Control, EVC）。该理论提出，控制资源的分配基于对通过启用受控过程所获得的收益与为实现该收益所需付出的认知努力成本之间的成本-收益评估。

该理论识别了认知控制的三个关键过程：

第一，调节过程（regulation process），描述了一个控制系统影响低层级信息处理机制的能力。调节是通过一个控制信号来实现的，这个信号会改变低层级机制的参数和运作方式，并具有两个基本特征：身份（identity）和强度（intensity）。

身份
指定了目标是哪些低层级参数，或哪些行为被增强、哪些被抑制；
强度
则表示信号的强弱，例如低层级参数偏离其默认值的程度。

第二，设定过程（specification process），负责决定是否执行一个受控过程，并在需要时实际选择最合适的控制信号，即指定应启动哪个可能的动作计划以及应以多大的强度（例如准确度）去执行它。

第三，监控过程（monitoring process），确保认知系统拥有进行信号设定所需的必要信息，包括关于当前情境的信息，以及当前行为是否正在朝着目标推进。

大量研究表明，监控过程可以考虑多种信息来源，例如反应冲突、反应延迟、错误、贝叶斯惊奇（Bayesian surprise）和负面反馈等，这些都可能表明需要启动认知控制（Badre 和 Wagner, 2004；Botvinick, 2007；Botvinick 等, 2001；Koechlin 等, 2003；Koechlin 和 Summerfield, 2007；Laming, 1968；Rabbitt, 1966；Shenhav 等, 2013）。

在神经层面，EVC 理论认为背侧前扣带皮层（dorsal anterior cingulate cortex, dACC）参与了监控与设定过程，而外侧前额叶皮层（lateral prefrontal cortex, lPFC）参与调节过程。其他多种理论也将 dACC 视为执行监控的关键脑区，通过计算预期结果与实际行为结果之间比较所产生的预测误差信号来发挥作用（Alexander 和 Brown, 2011；Silvetti 等, 2011；Vassena 等, 2020）。

在本文中，我们提出了一种新颖的认知控制理论表述，这一理论在概念上与之前的“动作注意”模型（Norman 和 Shallice, 1986）、“控制预期价值”理论（Shenhav 等, 2013）以及“绩效监控”理论（Alexander 和 Brown, 2011）相关联，但我们将其底层的成本-收益优化问题重新表述为贝叶斯最优（Bayes optimal）的主动推理（active inference）和自由能最小化（free energy minimization）问题。

我们借鉴了 Parr 等人（2023）先前将认知努力定义为“执行一个偏离先验习惯的行为所带来的主观体验”的主动推理框架，并将其扩展到一个多主体分层——或称为元认知控制——的情境中。在这一新表述中，一个更高层级的控制（即元认知层级）优化低层级（即行为层级）的参数，从而为认知控制的核心问题提供了一个最优解：在最低的计算成本下确保准确的动作选择（Botvinick 等, 2019；Doya, 2002；Kool 等, 2010；Pezzulo 等, 2015, 2018a；Silvetti 等, 2018）。

除了具有规范性优势外，我们的提议还调和了两个原本各自独立的研究方向：一个关注认知控制中的奖赏相关因素（Shenhav 等, 2013），另一个则聚焦于其认识论层面（epistemic aspects），例如环境的不确定性与模糊性（Behrens 等, 2007）以及贝叶斯惊奇（Bayesian surprise）（Vassena 等, 2020）。正如我们将在后文讨论的那样，主动推理中用于动作选择的预期自由能（expected free energy）同时考虑了实用性的需求（目标或奖励的实现）与认识论的需求（不确定性的最小化），从而解释了认知控制的两个方面。

最后，将自由能最小化表述为梯度下降过程，使我们能够在多个层面上模拟神经元动力学。在本文中，我们重点关注背侧前扣带皮层（dACC）、蓝斑核（locus coeruleus）以及多巴胺系统中的神经元反应，并展示了它们与已知的认知控制神经生理学特征之间的显著对应关系。

接下来，我们将简要介绍主动推理（active inference）的基本框架。随后，我们描述了三个驾驶任务的模拟实验，分别展示了：没有认知控制的主动推理智能体的行为表现（模拟 1），具有仅考虑控制信号设定的简单认知控制的智能体（模拟 2），以及更复杂的（元）认知控制模型，它还包括是否启用深思熟虑和认知控制的决策机制（模拟 3）。

最后，我们将讨论我们的理论如何解释认知控制丰富的现象学特征及其背后的神经生物学机制。

主动推理简要概述

主动推理（Active inference）是一种规范性框架，它通过变分自由能最小化（variational free energy minimization）这一总体原则来描述认知与大脑功能（Friston, 2010；Parr 等, 2022；Pezzulo 等, 2024）。其基本前提是：任何有机体都具备一个关于其所处环境统计规律的（生成性）模型，并利用这个“世界模型”来推断其感觉输入的原因（即感知），以及实现偏好结果的最佳行为路径（即行动规划）。

感知与规划都源于对一个函数——变分自由能（variational free energy）——的最小化过程。该函数限制了有机体所经历的感觉惊奇（sensory surprise），或者从统计学角度来看，是其世界模型的证据（亦称边缘似然，marginal likelihood）（Friston, 2010）。在计算层面，自由能最小化对应于一种近似（变分）贝叶斯推断过程；而在神经元层面，它可以与编码预测和预测误差的神经元群体的动力学相关联。

在模拟主动推理时，可以为每一个允许的策略（policy）或动作序列（π）计算其变分自由能（F），该自由能由两个部分组成：

在公式1中，右边的第一个量是一个复杂度项（complexity term），它衡量的是一个后验信念（关于状态的辅助分布，称为变分密度 Q(s∣π)）与关于世界（隐藏或潜在）状态的先验信念（称为先验密度 P(s∣π)）之间的Kullback-Leibler 散度（KL 散度）。
第二个量是准确性项（accuracy），它衡量的是在给定对不可观测状态的信念下，观察结果的概率的期望值（即 lnP(o∣s)）。

在主动推理中，辅助分布 Q 对应于大脑根据感官证据对隐藏状态所形成的内部概率信念。这个分布不是任意的，而是通过贝叶斯更新产生的，其目的是最小化自由能，从而在准确性（使信念与感官数据一致）和复杂性（保持先验预期）之间取得平衡。

这两个部分共同确保智能体持续进行行动-感知循环：一方面通过更新其（后验）信念以更好地拟合观察数据，另一方面选择能够实现这些后验信念所预测的行为路径。这意味着感知与行动都服从同一个目标——自由能最小化。

主动推理还将规划（planning）——即策略或动作序列（π）的选择——视为一种推理形式（即“作为推理的规划”，planning as inference）。然而，规划需要引入一个额外的过程，即预期自由能（expected free energy）的最小化。这个过程不仅考虑当前和过去的信息（如变分自由能最小化那样），还要考虑未来可能的观察结果。智能体可以通过其生成模型进行“假设性”模拟（what-if simulations）来预测这些未来的观察结果。

因此，规划对应于生成各种可能的未来（每个策略 π 对应一个未来），然后根据预期自由能对每个策略进行评分，并选择那个预计能最小化未来自由能的策略。

与每个策略 π 相关联的预期自由能（G）考虑了智能体的先验偏好（即外在或实用价值）以及关于世界状态的预期信息增益（即内在或认识论价值）。这两个项可以重新表述为风险（risk）和模糊性（ambiguity）：

风险
是指在某个策略下预期结果的分布 Q(o∣π) 与理想结果分布 P(o) 之间的 KL 散度；
模糊性
是指在给定模型似然 P(o∣s) 的情况下，关于结果的预期不确定性（即条件熵 H ）。

预期自由能的这两个组成部分确保了计划能够在利用（exploitation，即追求偏好）与探索（exploration，即寻求信息）之间进行适应性的平衡。

总之，在主动推理框架中，行动-感知循环和规划过程分别通过变分自由能和预期自由能的最小化来实现（Parr 等, 2022）。这些计算具有通用性，也就是说它们适用于任何主动推理智能体。然而，每一个主动推理智能体都可以配备一个（任务特定的）生成模型，因此可以表现出不同的行为。

在下文中，我们介绍了三个面对驾驶任务的主动推理智能体：

第一个使用的是没有认知控制机制的生成模型（模拟1），
第二个使用的是简单元认知控制模型（模拟2），
第三个使用的是完整的元认知控制模型（模拟3）。

模拟 1：在没有认知控制的情况下，主动推理在驾驶任务中的表现模拟场景：驾驶任务

我们模拟了一位司机，她的目标是安全地从家驾车前往办公室。该驾驶任务包含32 个试次（见图1A）。在每一次试次中，智能体会从环境中接收到一个感官线索，并从中选择两个可能的策略之一：她可以选择在道路的右侧车道行驶，也可以选择在左侧车道行驶。

在我们的模拟初期，并没有危险存在，因此司机可以安全地按照“靠右行驶”的策略在通常（右侧）车道行驶，这一行为会逐渐变得习惯化。

然而，在某个时刻，司机会检测到危险（例如，右侧车道发生落石或有石块堆积），为了避免碰撞，司机需要选择另一个策略——切换到左侧车道行驶，以进入不常见的（左侧）车道。

这个任务以简单的方式展示了在经典的认知控制任务（如 Stroop 任务、Posner 任务和 Eriksen 任务）以及切换任务（switching tasks）中所要求的认知灵活性（MacLeod, 1991；Nee 等, 2007；Kiesel 等, 2010；Monsell, 2003；Rubinstein 等, 2001）。

该驾驶场景展示了在动作选择中习惯性与深思熟虑性成分之间权衡的两种情境：

在稳定和安全的情境下，从深思熟虑控制过渡到习惯性控制（即习惯形成）；
在新的和危险的情境下，从习惯性控制重新回到深思熟虑控制（即习惯抑制）。

正如我们将看到的那样，标准的主动推理方法能够很好地处理第一种情况，但对于第二种情况则往往无法胜任，或至少并不总是有效。

驾驶任务的生成模型

用于解决驾驶任务的生成模型如图 1B 所示。它采用了部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）的形式：

节点S表示隐藏状态（即信念，或对不可观测任务变量的概率分布；这些变量智能体无法直接看到，但可以根据观察结果进行推断，例如司机的位置和是否存在危险）；
节点O表示观察结果（可观测的刺激，智能体通过它们来推断隐藏状态）；
节点π表示关于策略（或动作序列）的信念；
边表示状态变量之间的概率关系（边上的字母 A、B、C、D、E 表示变量之间的概率映射）。

为了简化起见，我们假设智能体的生成模型（如图 1B 所示）忠实地代表了驾驶任务中的“真实”变量及其统计关系。

A 矩阵
表示状态与观察结果之间的（似然）映射；
B 矩阵
（转移先验）表示从一个状态转移到另一个状态的概率；
C 矩阵
编码关于观察结果的先验信念，在主动推理中反映了先验偏好；
D 向量
编码关于初始隐藏状态的先验；
E 向量
编码关于策略的先验；
G
表示预期自由能；
最后，γ（及其先验值 β₀）是一个与预期自由能相关的精度参数，它在这个设定中起着重要作用，因为它代表了认知控制信号（以及多巴胺活动）。

请注意，变分自由能 F是隐含的——它在推理过程中支撑状态估计；而预期自由能 G则明确地支撑动作选择。

有关模型变量的更详细描述，请参见表 1。

如图1所示，该生成模型包含2个隐藏状态因子（S）和3种观察模态（O）。

隐藏状态因子包括智能体无法控制的情境因素——“安全”与“危险”，分别对应道路上是否存在危险物（例如石块）；以及一个可控因子——所谓可控因子，是指智能体在每次试次中可以决定转移到哪个状态：“靠右行驶”是当智能体选择在右侧车道行驶时所处的状态，“靠左行驶”是当智能体选择在左侧车道行驶时所处的状态。

此外，可控的隐藏状态还包括1个辅助性的初始状态（start），表示智能体在做出决策之前的起始状态。

观察结果包含3种视觉观察模态：

第一种模态表示右侧车道是否畅通或有石块堆积，分别表示当前情境为“安全”或“危险”；
第二种模态表示三个选项：“开始”、“靠左行驶”和“靠右行驶”，分别表示智能体处于“起始状态”、“靠左行驶”或“靠右行驶”的状态；
第三种观察模态包括两种行为结果：“OK”（正向结果）和“KO”（负向结果），它们取决于具体的情境与可控状态的组合。

智能体会在以下两种情况下观察到“OK”结果：

当情境是“安全”且智能体处于“靠右行驶”状态；
当情境是“危险”且智能体处于“靠左行驶”状态。

而在另外两种情况下会观察到“KO”结果：

当情境是“安全”但智能体处于“靠左行驶”状态；
当情境是“危险”但智能体仍处于“靠右行驶”状态。

这反映了这样一个事实：在没有危险的情况下，靠右行驶是最优选择；而当右侧车道出现危险（如落石）时，切换到左侧车道才是更优的选择。更正式地说，这意味着在 C 矩阵中，智能体对“OK”观察结果的先验偏好高于“KO”。

最后，为了简化起见，该生成模型仅包含两个策略（π）：靠右行驶和靠左行驶，每个策略只包含一个动作（而不是像主动推理中常见的那样由一系列动作组成）。因此，在本文中我们将“策略”和“动作”这两个术语视为可互换使用。

每一次试次被划分为两个时间步（timesteps）：

在第一个时间步，司机从“起始状态”出发，并根据接收到的感官线索（右侧车道是否有石块或畅通）来推断当前情境（危险或安全）；
在这个时间点，司机选择其中一个策略（靠右或靠左行驶），并转移到相应的可控状态（靠右或靠左行驶）；
在第二个时间步，司机接收感官观察结果（靠右或靠左行驶；OK 或 KO），这些结果取决于她当前所处的情境与可控状态；
然后进入下一个试次。

策略选择的过程将在下文详细描述。你可以将这一过程想象为一种周期性重复的决策过程：在固定的时间间隔内决定继续留在右侧还是切换到左侧，或者决定切换到左侧还是继续留在右侧。

驾驶任务中的策略选择

在每一次试次中，司机在两个策略之间做出选择——“靠右行驶”和“靠左行驶”——这一决策取决于：

动作的深思熟虑成分
（G），
动作的习惯性成分
（E），
以及由参数γ所决定的这两部分之间的平衡。

动作的深思熟虑成分（G）对应于对两个策略“靠右行驶”和“靠左行驶”的在线质量评估，这种评估是通过它们的预期自由能（expected free energy）来实现的。如公式2所示，预期自由能（G）考虑了这两个策略在多大程度上实现了理想的结果（这些结果以结果上的先验概率编码，即矩阵 C），以及它们在多大程度上解决了关于隐藏状态的不确定性。

动作的习惯性成分（E）则对应于一个关于策略的先验信念。这个先验是随着时间推移，通过积累策略出现的统计数据（通过底层的 Dirichlet 参数 e）而逐渐学习得到的。换句话说，智能体会根据自身过去的行为方式逐步形成习惯性的先验信念。关键在于，在模拟开始时，先验 E 会偏向于那个最常见的策略——“靠右行驶”。

γ 参数是对预期自由能（G）信念的精度估计。它代表了对动作选择中“深思熟虑成分”（G）的信任程度，并决定了其在动作选择过程中的权重：G 的精度 γ 越高，意味着深思熟虑控制在与习惯性控制（E）的竞争中所占的比重越大。

这些成分的相对贡献，通过一个归一化指数函数（softmax 函数）被转化为一个关于策略的（先验）概率分布，如公式3所示：

接着，通过对变分自由能 F=F(π) 进行评分，来收集关于当前观察结果的证据。由于自由能是基于策略的，这实际上是在评估智能体正在执行某一特定策略的证据强弱。这一证据随后被纳入方程中，用于计算策略的后验概率分布：

然后，精度参数 γ会被优化，以最小化自由能。所需的信念更新可以通过一个预测误差来表示；具体来说，就是G 的先验期望与后验期望之间的差异。

最后，根据计算出的γ 参数来计算关于策略 π 的后验分布。从这个分布中选择最有可能的策略（“靠右行驶”或“靠左行驶”）并执行，智能体随之转移到两个可控状态之一（“靠右行驶”或“靠左行驶”），并观察到动作结果（“OK”或“KO”）。

接着，基于新的观察结果，重新计算关于策略的新先验 π₀、策略的后验 π 以及 γ 参数，随后开始新的试次。

重要的是，在任意一次试次 t 中通过公式5计算出的β_updated项，会被用作下一个试次 t+1 中的新的 β₀ 值。

此处的精度更新与其他主动推理方案相比略有不同，在其他方案中，这种更新通常只用于多步骤策略——即随着我们持续执行某一策略，对其的信心会逐步增强。然而，这一更新也可以简单地被解释为：这里的精度代表了我们对“有能力选择一个好的策略”的信心，而不是对我们“具体选择了哪一个策略”的信心。因此，这种信心可以在多个试次之间延续，即使在这些试次中可能对相同的动作选择做出非常不同的推理。

如公式5所示，γ 的优化依赖于策略的先验与后验之间的差异，而这一差异又取决于自由能 F 的值，从而反映了智能体当前对世界状态的信念。

总体而言，精度 γ 反映了智能体对自己所选策略是否能够实现理想结果（OK）的信心。因此，当观察结果是 OK 时，γ 增加；而当观察结果是 KO 时，γ 减少。

这种更新的一个后果是：在一次不良结果（KO）之后，γ 精度下降，随着时间推移，动作中的习惯性成分相较于深思熟虑性成分变得更加突出，正如下文模拟中所展示的那样。

模拟 1 的结果

在此部分，我们基于上述生成模型对驾驶场景进行了模拟。模拟结果如图2所示。

在前18个试次中，司机选择了“靠右行驶”的策略，并在每次试次中都实现了理想的结果“OK”（见图2A）。在这段时间内，深思熟虑控制器 G 和习惯性控制器 E 都赋予“靠右行驶”非常高的概率（参见图2F中表示高概率的深色区域），两者之间没有冲突（见图2D）。

随着时间推移，习惯性成分 E 变得越来越强、越来越自动化——即形成了习惯（habitisation）（见图2F）。值得注意的是，由于我们为了图示目的使用了较强的先验信念和较高的学习率，因此习惯形成的模式显得相当迅速。然而，在现实情境中可以设想每个试次可能对应（例如）半小时的驾驶时间，这样习惯形成就会是一个缓慢的过程，正如实证研究所观察到的那样（MacLeod 和 Dunbar, 1988）。

在第19个试次中，司机检测到了危险：右侧车道出现了石块。通过观察到“右侧车道有石块”的信息，智能体正确地推断出情境已从“安全”转变为“危险”。因此，深思熟虑控制器 G 将更高的概率赋予“靠左行驶”的策略。然而，习惯性控制器 E 仍赋予“靠右行驶”最高的概率，因为这是之前执行次数最多的策略。

由于习惯性成分的影响力更强（即 pγG(π)

如后文所述，这一结果进一步降低了精度参数 γ（见图2C），从而形成了一个恶性循环，使行为变得更加习惯化。这正说明了一种情况：即使目标导向的行为已经识别出了正确的任务反应，它也无法覆盖强大的习惯。

图2B显示了智能体在驾驶任务中所记录到的贝叶斯惊奇（Bayesian surprise）。贝叶斯惊奇衡量的是在观察结果前后，关于状态的概率信念所发生的变化。形式上，它被定义为在同一个试次内连续两个时间步之间，关于隐藏状态的概率分布之间的Kullback-Leibler 散度（KL 散度）：

图2C展示了精度（precision）的变化情况。随着智能体对实现预期结果（OK）的信心不断增强，精度也随之上升；而当当前观察结果与预期不符时（即预测为 OK 但实际观察到 KO），精度则会下降。

图2D展示了主动推理智能体在驾驶任务中所经历的认知冲突程度。在这里，认知冲突被定义为在深思熟虑控制下与习惯性控制下关于应采取策略的信念之间的KL 散度（Kullback-Leibler divergence）：

在这个表述中，当深思熟虑控制器和习惯性控制器优先选择相同的策略时，就不存在认知冲突；而当它们优先选择不同的策略时，认知冲突可能很高。在我们的模拟中，在第18个试次之后我们观察到了高度的认知冲突：此时深思熟虑控制器倾向于“靠左行驶”，而习惯性控制器仍倾向于“靠右行驶”。

请注意，认知冲突与认知成本这两个概念之间存在严格的关联。直观上，习惯可以被视为一种“默认策略”或关于如何行动的初始偏向。这意味着，认知冲突项反映了智能体的深思熟虑模型与其初始偏向之间的偏离程度，或者可视为一种复杂度成本（Rubin 等, 2012；Todorov, 2009；Zénon 等, 2019）。相反，如果所选择的深思熟虑策略与习惯性策略一致，则不会产生冲突，这反映了这样一个假设：决策者本质上倾向于低努力的选项（Botvinick 等, 2009；Jimura 等, 2010；Kool 等, 2010；Kool & Botvinick, 2014）。

图2E展示了模拟的多巴胺能活动，它来自中脑边缘通路（mesolimbic pathway），起源于腹侧被盖区（VTA），投射到边缘系统，特别是伏隔核（nucleus accumbens）、杏仁核（amygdala）和海马（hippocampus），这些区域与奖赏刺激的加工以及愉悦体验相关。在此框架下，模拟的多巴胺能活动与每次观察后对精度 γ 的正向（或负向）更新相关联，这一更新指标反映了每一次观察结果在多大程度上增强了（或削弱了）智能体对其所执行策略的信心（Friston 等, 2014；Langdon 等, 2018；Schwartenbeck, FitzGerald, Mathys, Dolan, & Friston, 2015）。

根据主动推理的神经实现方式（Friston 等, 2017），我们通过考虑在每个试次第二时间步更新过程中（此处为16次迭代）精度的变化率来模拟神经元的脉冲发放（spikes）。

在此模型中，Δδ 表示由精度更新所调节的多巴胺信号变化。具体来说：

δ 表示多巴胺信号；
是精度 γ 随更新迭代次数的变化率（导数）。

因此，阶段性多巴胺反应反映了策略精度的变化率，而这一变化取决于预测或期望结果与实际观察结果之间的一致性。

在我们的模拟中，第18个试次之后出现的负向脉冲反映了这样一个事实：在观察到负向结果 KO 后，精度参数 γ 的值下降，智能体对其“靠左行驶”这一行为路径的信心也随之丧失。

图2F展示了在整个任务过程中，深思熟虑控制器 pG(π)、习惯性控制器 pE(π) 以及综合控制器（结合了精度权重）分别赋予两个策略——“靠右行驶”（第一行）和“靠左行驶”（第二行）——的概率。颜色越深表示概率越高。

该图显示，在第19个试次情境从“安全”转变为“危险”时，深思熟虑控制器的偏好从“靠右行驶”转移到了“靠左行驶”；而随着试次推进，当智能体形成习惯后，其偏好保持不变。

在这个模拟中，我们假设习惯性成分更强（即 pγG(π)适应不良的选择（maladaptive choice）。

请注意，这个模拟展示的是一个强习惯的情况，如果习惯性成分较弱（即 pγG(π)>pE(π)），模拟结果将会不同。

模拟 1 的总结

总之，这个模拟展示了一个主动推理智能体如何正确地强化习惯（靠右行驶），但在必要时却无法覆盖根深蒂固的习惯。在这种被称为“默认反应抑制”（default override）的条件下（Botvinick 等, 2001, 2004），深思熟虑成分（G）能够正确识别任务需要抑制一个与任务不相符的反应（Silton 等, 2010），但由于习惯性反应过于强烈并“赢得”了竞争，最终未能实现抑制。

换句话说，智能体陷入了习惯性行为模式中。这种情况在许多情境下都很常见，例如在运动控制任务中。例如，对一名飞行员来说，驾驶汽车是一个高度熟练的程序性任务，主要依赖强烈的习惯性控制。当任务中引入干扰（例如方向盘转向方向被反转：向右转方向盘时车辆却向左转），习惯性控制会强烈主导行为，即使已经理解了新的任务规则，也可能导致错误反应（Izawa 等, 2008；Wei 和 Körding, 2009）。

然而，在大多数日常情境中，个体可以通过启用认知控制来覆盖习惯，即使这些习惯已经非常牢固（Cavanagh 等, 2013；De Martino 等, 2006；Paus 等, 1993；Shenhav 等, 2013）。相比之下，模拟1中使用的模型只能覆盖较弱的习惯。

模拟1中的模型陷入习惯行为的关键原因在于——在表现不佳之后——精度参数 γ 下降，从而减少了受控加工（controlled processing）。从计算角度来说，这种现象是在优化 γ 的过程中出现的，如公式5所述。由于我们为习惯 E 设置了一个较强的先验信念，自由能最小化过程导致了深思熟虑控制的减少。

这一机制可以解释这样一些情况：环境反馈不足以削弱某个习惯的价值。在诸如情绪调节和自我控制等领域的实证研究中，也可以发现这种“恶性循环”动态的例子。例如在人类身上，面对压力情境（如负面结果）时产生的自动或习惯性焦虑反应可能会阻碍深思熟虑，形成一种自我强化的循环，正如焦虑障碍患者所表现出的那样。类似的情况也出现在成瘾行为中，试图抵抗成瘾行为的失败往往会导致复发，从而进一步强化习惯（Heatherton 和 Wagner, 2011；Hofmann 等, 2012；Smith 等, 2020）。

这些内部冲突、恶性循环以及自我控制的失效，都可以通过贝叶斯视角很好地解释，因为它们可能是有限最优性（bounded optimality）的结果（Hayden, 2018）。然而，在许多认知控制的情境中，实证研究表明（Gratton 等, 1992；Laming, 1968），以及理论模型也指出（Botvinick 等, 2001；Shenhav 等, 2013），错误通常会增强而非削弱认知控制。

在下一个模拟中，我们将扩展当前使用的模型，加入一个元认知控制机制，以解决上述问题，并在必要时自适应地调节精度参数 γ 来启动认知控制。

模拟 2：具有简单元认知控制的主动推理

在这里，我们在图1B所示的主动推理生成模型基础上，增加了一个用于（简单）元认知控制层级的回路，见图3。这一新增组件被称为元认知控制，因为它调节了模拟1中所讨论的行为层级控制器的一个参数：精度 γ 参数，通过设定其先验值 β₀，来平衡动作选择中习惯性与深思熟虑成分之间的关系。

在元认知控制组件中，参数γ’（其先验期望为 1/β₀’）类似于参数γ（其先验期望为 1/β₀）：它构成了对目标导向控制器 G 的预期自由能信念的精度估计。这个新的预期（以粗体表示）精度参数γ’起到了控制信号的作用（Shenhav 等, 2013），也代表了注意力资源（Cooper 和 Shallice, 2000；Shallice 和 Burgess, 1993）。它的主要作用是在适当的时候优先考虑动作选择中的深思熟虑成分。

如模拟1所示，当存在认知冲突时，只有当γ 的值或G 的值足够大、能够克服E时，才会启用深思熟虑策略；即只有当 pγG(π)>pE(π) 时才发生。这意味着，通过提高深思熟虑策略 G 的精度 γ，就有可能克服一个强大的习惯。

然而，正如模拟1所展示的那样，在出现不利观察结果（KO）时，精度 γ 往往下降而非上升。这是因为 γ 的更新机制考虑了先验 π0 与后验 π 之间的差异，而这一差异又依赖于当前的观察结果（通过自由能 F 来体现）。这种机制在潜在威胁存在时优先启用（快速的）习惯反应（LeDoux 和 Daw, 2018），但它缺乏灵活性。

我们提出的认知控制模型克服了这一局限性。在我们的理论中，认知控制位于大脑控制层级中的一个较高（或称为“元”）层级（Pezzulo 等, 2018b），其关键功能之一是在必要时指定一个控制信号，以优先启用深思熟虑性控制。

具体而言，认知控制通过调用对未来情境的模拟（prospection），考虑在执行深思熟虑策略 G 后可能获得的假设性未来观察结果（即 OK 结果），从而提高精度 γ。已有大量证据表明，想象未来的事件可以使行为更具深思熟虑性，减轻在延迟折扣实验中观察到的奖励折扣现象（Peters 和 Büchel, 2010），并减少冲动性（Daniel 等, 2013）。与此一致，我们假设：在深思熟虑策略 G 下模拟未来积极结果会产生一种乐观偏差（optimism bias），从而增强对深思熟虑策略的信任。

控制信号的设定对应于引入一个新的精度项，称为γ’，它设定了通常精度项γ的先验值 β₀，并根据公式4决定下一个试次中的策略选择。

关键在于，当深思熟虑策略所预期的结果是理想结果（OK）时，γ 的先验值将通过 γ’ 的更新而提高，从而优先选择深思熟虑策略。

γ’ 的更新公式如下：

γ’ 参数的更新方程与公式5中的方程相似，但有两个主要区别：

关于策略的先验和后验信念中不再包含习惯性控制项 E 的影响
F’ 不是通常意义上的变分自由能 F
（它是基于实际观察结果计算的），而是基于通过“前瞻性模拟”（prospection）所获得的假设性观察结果来计算的自由能。

例如，在我们的驾驶任务中，每当一个试次结束且情境为“危险”时，司机可以通过调用 G 组件（即深思熟虑控制器）来生成一个假设性的“OK”观察结果，就好像它选择了“靠左行驶”的策略一样。这种“前瞻性模拟”形式通过模拟当前试次的过程（从起始状态转移到“靠左行驶”或“靠右行驶”状态），在不考虑习惯项 E 的前提下，引导出假设性观察结果。

然后，认知控制信号是通过对 γ’ 进行四轮优化而获得的，这些优化基于上述模拟结果。这种方法的效果是将 γ’ 提高到一个足以使行为更具深思熟虑性的水平。

请注意，标准的主动推理框架中设置精度的方式（见公式5）是回顾性的（retrospective）——即它依赖于 E 和 F（实际观察）。而我们提出的新方法（见公式8）则是前瞻性的（prospective），它依赖于执行深思熟虑策略时预期会产生的未来（假设性）观察结果（即它依赖于 G 和 F’）。

这种前瞻性的 γ 优化方式，与这样一种（乐观地）偏倚的信念有关：即一个主动推理智能体会选择那些能够最小化自由能的策略。为了促使未来的行动发生，必须在元认知控制层级上忽略当前事件的相关证据（E 和 F）。（关于主体性与精度之间的关系，参见 Friston, Samothrakis 等, 2012；Friston 等, 2013）

总之，这里提出的认知控制模型利用一系列在每次试次结束后从司机信念中采样的假设性观察结果，来想象：如果这些假设性样本真的实现了，那么在没有习惯信念的情况下，精度会是什么样子。随后，这个模拟得到的精度被用作下一个试次中精度的先验值（即将假设性观察下的预期精度的倒数作为下一个试次中精度先验分布的 β 参数）。

其背后的逻辑是：如果我们对某个不包含习惯成分的策略具有高度信心（即具有高精度），那么就有理由在未来提高这一非习惯性策略的权重。在模拟中，我们同时使用了前瞻性和回顾性两种方法，但前者用于设定后者的先验值 ₀。

模拟 2 的结果

在此部分，我们使用带有（简单）元认知控制的主动推理模型来模拟驾驶任务。模拟结果如图4所示。

与模拟1类似，在前18个试次中，情境是“安全”的，司机在每次试次中都选择“靠右行驶”的策略（见图4A），因为这一策略得到了深思熟虑控制器 G和习惯性控制器 E的共同支持。

在第19个试次中，智能体观察到右侧车道有石块，经历了高贝叶斯惊奇（见图4B），并正确地推断出情境已从“安全”转变为“危险”。

此时，如同模拟1一样，习惯性控制器建议继续“靠右行驶”，而深思熟虑控制器则建议切换为“靠左行驶”，从而引发了认知冲突（见图4D）。

这种冲突激活了认知控制机制：对“OK”结果的假设性观察驱动了 γ’ 的正向更新（见图4F），而 γ’ 随后作为 γ 的初始值（即 1/β₀）（见图4C）。到第22个试次时，这个值已经足够大，能够克服习惯性控制器 E 的影响，于是智能体开始执行深思熟虑的行动计划（见图4G），并成功完成了任务。

图4E和图4F展示了两个精度参数（γ 和 γ’）的更新过程，我们分别将其与中脑边缘通路（mesolimbic）和中脑皮质通路（mesocortical）中的多巴胺能活动相关联。

精度参数γ 的更新可能与中脑边缘通路的多巴胺活动有关。这一通路被认为参与了对激励显著性（incentive salience）的加工，以及个体对预期结果能否实现的确定性评估（Berridge, 2012；FitzGerald 等, 2015；Schwartenbeck 等, 2015a）。在我们的模拟中，第18个试次前后出现的负向脉冲反映了当观察到意料之外的 KO 结果时，智能体对深思熟虑策略的信心下降；而随后的正向脉冲则表示，在观察到理想结果 OK 后，信心重新上升，这与深思熟虑控制器的变化一致（见图4E）。

精度参数γ’ 的更新则可能与中脑皮质通路中的多巴胺反应有关。该通路起源于腹侧被盖区（VTA），将多巴胺投射至前额叶皮层，在认知控制中发挥关键作用（Brozoski 等, 1979；Cools 等, 2019；Sawaguchi 和 Goldman-Rakic, 1991）。在我们的模拟中，中脑皮质通路的多巴胺活动由元认知控制层级引发，并增强了深思熟虑控制的作用（见图4F）。

这一观点与以下理论相一致：多巴胺活动在认知控制过程中起到了动机调节的作用，作为动机调制因子（motivational modulator）（Cools, 2016），产生对行动的乐观偏差（Sharot 等, 2012），并影响个体投入努力的意愿（Aarts 等, 2008；Botvinick 与 Braver, 2015；Padmala 与 Pessoa, 2011；Westbrook 与 Braver, 2016）。

模拟 2 的总结

总之，模拟2表明，在出现认知冲突时，通过启用认知控制来提高精度 γ，是一种克服强习惯的有效策略。然而，这一模拟仅捕捉了认知控制的一个方面：即指定一个控制信号以优先启用深思熟虑性控制（这也是我们称之为“简单元认知控制”的原因）。

这是通过让更高层级（元认知层级）的生成模型调节低层级（行为层级）生成模型中的精度参数 γ 来实现的。

该模拟做了两个简化的假设：

当检测到认知冲突时，认知控制是自动激活的，而不是在适当的生成模型下通过自由能最小化过程自然涌现的；
启用认知控制不产生任何代价，智能体可以无限地提高精度 γ。

因此，模拟2中的模型有助于解释认知控制是如何被启用的，但无法说明何时以及在多大程度上启用认知控制。

接下来，我们将引入一个更全面的元认知控制模型——一个完整的元认知控制模型——以克服这些局限，并对认知控制提供更具表现力和合理性的解释。

模拟 3：具有完整元认知控制的主动推理

在本模拟中，我们将元认知控制实现为一个自由能最小化过程，使用一个包含两个层级的分层生成模型：

一个是行为层级模型（behavioural-level model），
另一个是元认知层级模型（meta-cognitive-level model），它负责监控并调节行为层级模型的参数（见图5）。

从概念上讲，这与典型的主动推理中的分层模型有所不同。这里的设定可以被理解为用两个（或多个）相互作用的“智能体”来代表大脑：

其中一个智能体（行为层级模型）与模拟1中的智能体相同；
另一个智能体（元认知层级模型）可以观察第一个智能体的信念更新过程，并将这些更新作为它的“数据”。但它不能直接采取行动来改变外部世界，而是可以干预第一个智能体的先验信念。

我们可以将它们理解为一个分层模型中的两个层级——但需要注意的是，我们无法像前面模型那样，通过标准的贝叶斯消息传递方案对这个图形模型进行反演（inversion）。

行为层级的生成模型与前几次模拟中的模型相同（即图1所示的POMDP模型），只是新增了一个状态因子及其相关的观察结果（即“警告信号存在”或“无信号”）。这一状态因子用于表示右侧车道出现石块的概率；详见下文说明。

元认知层级的生成模型是一个独立的 POMDP 模型，它拥有自己的 A、B、C、D 和 E 矩阵以及策略。
该元认知层级模型通过在每个试次中运行（对应于行为层级模型每个试次的第二个时间步），根据行为层级模型的当前信念做出决策。

为了“感知”行为层级模型的信念，元认知层级模型将行为层级计算中的某些方面视为一个具有隐藏状态的生成过程，并据此进行推断。

本质上，这种元认知特征表现为一种主动推理过程，其中的生成过程正是行为层级生成模型的一部分。

更具体地说，在元认知层级上被当作生成过程处理的行为层级模型特征，包括对贝叶斯惊奇（Bayesian surprise，见公式6）和认知冲突（cognitive conflict，见公式7）的计算。

这两个 KL 散度是连续值变量，我们将其各自离散化为两个离散的隐藏状态。这一过程通过实施以下映射来完成：

我们做了简化假设：KL 散度的取值范围在以下区间内：

通过减小标准差 σ，并为prc（一个控制映射在适当离散状态周围概率集中程度的精度参数）设置一个较高的值，可以提高映射的精度，使其概率更集中于靠近 KL 值的区间附近。在本设置中，我们将prc设为 5。

因此，在元认知层级上，我们得到了两个不可控的状态因子，它们依赖于行为层级上的 KL 散度。

一个状态因子包含两种状态：“高认知冲突”和“低认知冲突”；
另一个状态因子也包含两种状态：“高惊奇”（high surprise）和“低惊奇”。

对应的观察模态分别包括：“高认知冲突”与“低认知冲突”，以及“高惊奇”与“低惊奇”。通过这种方式，行为层级模型通过生成需要被推断其原因的数据来影响元认知层级模型。

此外，元认知层级模型还包括两个可控的状态因子：

其中一个状态因子是：“启用深思熟虑”或“未启用深思熟虑”；
另一个状态因子是：“启用认知控制”或“未启用认知控制”。

对应的观察结果模态包括：

“启用了深思熟虑”或“未启用深思熟虑”；
“启用了认知控制”或“未启用认知控制”。

进一步地，元认知层级模型可以在三种策略之间进行选择（所有策略长度均为1）：

动作1
：同时启用深思熟虑和认知控制；
动作2
：启用深思熟虑但不启用认知控制；
动作3
：既不启用深思熟虑也不启用认知控制。

此外，它还包含一个额外的结果模态，用于报告所选策略，该模态使用一个单位A矩阵（identity A matrix），将三种策略映射到三个观察结果：“自身动作为1”、“自身动作为2”和“自身动作为3”。

这三种元认知层级的策略是根据它们的预期自由能（我们称之为 G’）来选择的，以此区别于行为层级策略的预期自由能 G。

元认知层级模型的先验偏好编码在其 C 矩阵中，其中包括对以下两个观察结果的负向偏好：

“启用了深思熟虑”；
“启用了认知控制”。

这些负向偏好反映了这样一个假设：决策者本质上倾向于低努力选项——而启用深思熟虑和认知控制会带来相应的认知代价（Botvinick 等, 2009；Jimura 等, 2010；Kool 等, 2010；Kool & Botvinick, 2014）。

此外，元认知层级的 C 矩阵还包括对“OK-meta”观察结果的正向偏好，以及对“KO-meta”观察结果的负向偏好。“OK-meta”和“KO-meta”观察结果在功能上类似于行为层级模型中的“OK”和“KO”观察结果，它们同样对应着正向和负向偏好，但并非由外部感觉输入产生，而是由内部监控过程生成，这些过程考虑当前情境（更准确地说，是元认知层级对情境的信念）是否适合启用认知控制（详见讨论部分）。

当出现以下三种情况时，会观察到“OK-meta”：

当元认知层级对情境的信念为“高认知冲突”和“高惊奇”，且对可控状态的信念为“启用了认知控制”和“启用了深思熟虑”；
当元认知层级对情境的信念为“低认知冲突”和“高惊奇”，且对可控状态的信念为“未启用认知控制”和“启用了深思熟虑”；
当元认知层级对情境的信念为“低认知冲突”和“低惊奇”，且对可控状态的信念为“未启用认知控制”和“未启用深思熟虑”。

在其他情况下则会观察到“KO-meta”。

“OK-meta”和“KO-meta”观察结果的主要功能是在适当的情境下优先启用深思熟虑和认知控制。为此，在策略选择过程中，元认知层级会权衡理想结果（OK-meta）与伴随“启用了深思熟虑”和“启用了认知控制”这两个观察结果的认知代价（负向偏好）。在数值设定上，“OK-meta”的偏好值被设为高于那两个厌恶观察结果（“启用了深思熟虑”和“启用了认知控制”）的代价值，以便元认知层级能够有效解决这种权衡。

元认知层级模型通过执行一个贝叶斯模型选择过程来影响行为层级模型，该过程在三种可能的行为层级模型之间进行选择，这些模型具有不同的复杂程度。

第一个模型 M1：策略的先验形式为
π0=σ(lnE+γG)，
而精度的先验形式为
P(γ∣γ′)=Γ(1,γ′1)。
这意味着该模型同时包含了对 G 的计算和 γ’ 的更新，因此它既包含深思熟虑（deliberation）也包含认知控制（cognitive control）。
第二个模型 M2：策略的先验形式同样为
π0=σ(lnE+γG)，
但精度的先验形式为
P(γ)=Γ(1,β0)。
这表明该模型包括对 G 的计算，但不包括对 γ’ 的更新，因此它启用了深思熟虑，但不启用认知控制。
第三个模型 M3：策略的先验形式为
π0=σ(lnE)，
精度的先验形式为
P(γ)=Γ(1,β0)。
因此，该模型既不包含对 G 的计算，也不包含对 γ’ 的更新，即它既不启用深思熟虑，也不启用认知控制。

贝叶斯模型选择考虑两个要素。第一个要素是对三个行为层级模型的先验信念，为了简化起见，我们将这一先验设为均匀分布（flat）：

第二个要素是一个似然函数，它将元认知层级模型所选择的动作（及其观察结果）映射到三种可能的行为层级模型上。

为了简化起见，我们在这里假设这是一个单位矩阵（identity matrix），即当元认知层级控制器所选择的动作分别是“自身动作为1”、“自身动作为2”和“自身动作为3”时，对应的模型 M1、M2 和 M3 的概率被设为 1。

通过结合先验和似然，使用标准的贝叶斯推断方法，可以得到一个关于三个行为层级模型的后验分布，并从中选择具有最高概率的行为层级模型。

因此，元认知层级关于是否启用深思熟虑与认知控制的决策，实际上被转化为在不同的行为层级模型之间进行选择，这些模型分别对应着是否启用了深思熟虑与认知控制。

总之，在这个框架中，行为层级与元认知层级是相互影响的，就像在一个多智能体系统中的两个“智能体”。元认知层级持续地对行为层级上的惊奇（surprise）和认知冲突（cognitive conflict）进行推断与监控；同时，它还通过在不同模型之间进行选择——这些模型决定了是否计算 G 和 γ’ 的更新——来决定行为层级应采用哪种模型。

模拟 3 的结果

在任务开始时，情境为“安全”，司机采用了“靠右行驶”的策略，并迅速形成了习惯（见图6A和图6H）。此时，深思熟虑成分并未被启用，以节省认知资源（见图6G和图6H）。

然而，在第12个试次中，司机遇到了一个令人意外的警告信号（见图6A），这一信号提示情境可能即将从“安全”转变为“危险”。该警告信号促使元认知控制层级选择一个策略，进入“启用了深思熟虑”的状态，从而在行为层级上激活了深思熟虑控制器 G（见图6H），并伴随着略微增加的心理努力和背侧前扣带皮层（dACC）活动（见图6G）。

在第19个试次中，司机观察到右侧车道出现了石块。此时，她不仅经历了高贝叶斯惊奇（见图6B），还经历了高认知冲突（见图6D），因为习惯性与深思熟虑性控制器分别建议了两种不同的策略（见图6H）。

贝叶斯惊奇与认知冲突的同时出现，促使元认知层级选择了同时启用深思熟虑与认知控制的策略。这进一步引发了一个控制信号（见图6F），该信号优先考虑动作选择中的深思熟虑成分（见图6C），最终促使司机正确地变换车道以避开危险（见图6A和图6H）。

图6E和图6F分别展示了在任务过程中，模拟的中脑边缘通路（mesolimbic）和中脑皮质通路（mesocortical）中的多巴胺能活动。

中脑皮质通路
的多巴胺活动反映了当元认知层级选择启用认知控制策略时，控制信号 γ’ 随时间推移而增加的过程（见图6F）。
中脑边缘通路
的多巴胺活动呈现出更复杂的模式：在第19个试次中，当司机看到右侧车道有石块时，中脑边缘通路的多巴胺活动出现了负向脉冲，这反映了司机对其行为路径是否足以实现理想结果（OK）的信心下降（这一信心程度编码在策略精度 γ 中）。然而，当认知控制被启用后，这些负向峰值的先验值逐渐上升，直到司机的信心足够强，在第22个试次中将观察结果从 KO 转变为 OK。新的正向结果又引发了中脑边缘通路中多巴胺活动的正向峰值，进一步增强了精度（见图6E）。

图6G绘制了在整个任务中心理努力（mental effort）的动态变化情况，这是执行认知控制所必需的。

在我们的模拟中，司机在第12个试次观察到交通标志时，会投入少量的心理努力，以启用深思熟虑控制器。随后，从第19个试次开始，司机需要投入更多的心理努力，因为她必须生成一个控制信号 γ’ 来优先选择深思熟虑策略。

与前一个模拟不同的是，在本模拟中这些更新并不是无限进行的，而是受到冲突存在与否的影响。

是否启用认知控制的决策是由元认知层级做出的，它通过权衡启用认知控制的收益（即提高实现理想结果“OK-meta”的概率）与认知代价来决定。

整体的心理努力是按照以下方式量化的：

前一项反映了偏离关于策略的习惯性先验（E）所带来的代价（Rubin 等, 2012；Todorov, 2009；Zénon 等, 2019），它被量化为优先选择的深思熟虑模型 γG 与习惯 E 之间的 KL 散度；详见 Parr 等 (2023)。

控制的代价反映了一个事实：司机对“未启用深思熟虑”和“未启用认知控制”这两个低代价观察结果具有先验偏好，而对“启用了深思熟虑”和“启用了认知控制”这两个高代价观察结果则表现出负向偏好（见图5）。控制代价被量化为在是否启用认知控制的情况下获得这些结果（记作 ₃,₄）的概率之间的 KL 散度，并与预期自由能中的风险项相关联（见公式2）。这一控制代价会降低智能体启用深思熟虑控制器 G 和更新 γ’ 的概率（换句话说，使智能体对其行为的确定性降低）。

请注意，虽然（为了简化）我们将控制代价设为固定值，在现实情境中，它们可能会随着时间积累，例如由于疲劳效应（Botvinick 等, 2009；Green & Myerson, 2004；Sozou, 1998）。此外，我们暂时忽略了其他可能与任务要求相关的认知代价，例如进行前瞻性模拟、在工作记忆中维持一个风险情境表征、γ’ 更新的次数等，这些都可能带来额外的认知与代谢负担。最后，与更复杂的行为层级模型相关的认知代价也可以纳入用于贝叶斯模型选择（公式14）的先验中。

在神经生理学层面，我们将心理努力与背侧前扣带皮层（dorsal Anterior Cingulate Cortex, dACC）中的神经元动力学联系起来。一个有影响力的观点认为，背侧前扣带皮层整合了有关代价与奖励的信息，以计算分配控制资源给特定任务所带来的净价值，决定是否以及投入多少控制资源，最终发出优化后的控制信号（Shenhav 等, 2013；另见 Badre 和 Wagner, 2004；Botvinick 等, 2001；Callaway 等, 2022, 2021；Grahek 等, 2020；Musslick 等, 2015）。

与此一致的是，大量证据表明，dACC 在需要调整控制强度的情境下活跃，并影响负责调节功能的大脑结构。例如，各种神经影像学研究指出，dACC 在冲突发生时的活动与随后注意力调控区域活动增加之间存在关联（Cavanagh 和 Frank, 2014；Kerns, 2006；Kerns 等, 2004；King 等, 2010；MacDonald 等, 2000）。类似的证据也来自脑电图（EEG）研究，在冲突或错误后注意调整过程中检测到了 dACC 反应的电生理指标（Aarts 等, 2008；Carter 等, 1998；Crottaz-Herbette 和 Menon, 2006；Forster 等, 2011；Shenhav 等, 2013；Sohn 等, 2007）。

此处展示的模拟可以扩展至更长时间段，其中“安全”与“威胁”情境交替出现。关键在于，模型能否灵活适应新危险，取决于其状态——特别是当新危险出现时，它的当前认知冲突水平和精度水平。如果新危险出现在先前危险之后、这些水平仍然较高的时期，模型将能够更快地启用深思熟虑过程。相反，如果新危险出现在模型已经建立了一个（新的或旧的）习惯之时，则模型不会具备优势。

为了简化起见，在我们的模拟中假设习惯可以迅速重建。这就是为什么一旦选择了目标导向的动作，认知冲突几乎立即恢复到基线水平（见图6D）。然而，人们也可以设想：在“初始危险预示后续危险”的前提下，保持较低的新习惯学习率可能是适应性的。这将使即使第一个危险消失后，认知控制仍维持在一个相对较高的水平。或者，也可以考虑包含明确的（预期的）“安全”与“危险”情境之间转换的生成模型。

模拟 3 的总结

本模拟展示了完整的元认知控制——在这里，它源自自由能最小化过程——如何使司机在不需要时节省认知资源（通过避免启用深思熟虑控制器），在没有惊奇事件时依赖习惯行为，并在需要适应新（危险）情境时，通过认知控制暂停这些习惯行为。

该模型解释了智能体是否需要、何时需要以及在多大程度上需要施加认知控制。此外，这一模拟还说明了警告信号或提示线索在预防意外和负面结果方面的重要性（Gabriel 和 Orona, 1982）。

在认知控制中，提示线索为即将发生的策略变化提供了预测信息，从而增加了对受控加工的需求，并促进了行为切换（Kiesel 等, 2010；Monsell, 2003）。

在我们的模拟中，提示线索无法直接影响行为层级的动作选择，因为其对决策概率的影响微乎其微，远不及习惯性倾向的强度。相反，该线索代表了一个令人惊讶的事件，它在元认知层级上影响决策，触发了深思熟虑规划的启用。

这一点可以通过观察图6H来理解：在第12个试次观察到提示线索之前，深思熟虑加工并未被激活。重要的是，尽管该线索本身并不直接引发特定行为，但它使得随后的深思熟虑动作选择变得更快。

如果不存在这个提示线索，深思熟虑加工将在第19个试次观察到右侧车道石块后才开始启动，在危险情境下至少需要一个试次的时间才能启用深思熟虑机制。而由于从习惯性加工向深思熟虑加工的转变本身也需要时间，在缺乏提示的情况下，司机变换车道的速度将更慢。

这一例子突出了提示线索的前瞻性作用，以及它通过影响是否启用深思熟虑的元认知决策，间接影响动作选择的特点。

在神经生理学层面，决定是否（以及在多大程度上）启用认知控制所需的成本-收益计算可以与背侧前扣带皮层（dACC）的功能联系起来（Shenhav 等, 2013）。此外，控制信号的发出可以与中脑皮质通路中的多巴胺活动相关联，这种活动又会影响中脑边缘通路的多巴胺活动。一旦预期的结果被观察到，后者就会发出增强个体对其行为路径信心的信号。

具有与不具有元认知控制的主动推理模型比较

为了更系统地检验元认知控制的有效性，我们将完整的元认知控制模型（即模拟3中使用的模型）与没有认知控制的主动推理模型（即模拟1中使用的模型）进行了比较，并使用了不同的参数设置。

为了确保公平比较，我们将元认知控制模型中使用的“警告信号”状态设为“无信号”。我们未将模拟2中使用的模型纳入比较，因为它可以被视为模拟3的一个特例：在特定条件下自动触发认知控制，并且其努力代价被不现实地设为零。

我们进行了三组各40次模拟实验，每次实验都改变以下三个在认知控制过程中起关键作用的参数之一：

习惯的学习率
（η），决定习惯先验随试次增强的程度。参数范围为 η = 1, 2, ..., 40；
精度的先验值
（β），定义在第1个试次中习惯与深思熟虑之间的初始平衡。参数范围为 β = 1.2, 1.18, ..., 0.1；
偏好的精度
（c），影响智能体追求“OK”结果的动力强弱。参数范围为 c = 0.8, 0.84, ..., 2.4。

我们通过计算危险情境下获得“OK”结果的比例来衡量模型性能——这一指标反映了智能体是否能够有效地抑制不良习惯以避免危险（见图7）。

图7A展示了这三组模拟的结果，表明完整的元认知控制模型在所有情况下均优于无认知控制的模型。

图7B则展示了在每组40个参数值变化下，具有完整元认知控制的模型与无认知控制模型的性能对比——颜色越深表示性能越好。

结果显示：

具有完整元认知控制的模型
在参数空间的大部分区域表现良好，只有两种情况例外：
- 当习惯学习率过高时（导致行为僵化）；
- 当偏好精度过低时（使模型对结果不敏感）。
相比之下，没有认知控制的模型仅在参数空间的一小部分区域内有效。

总之，这些模拟结果表明，完整的元认知控制模型相比没有认知控制的模型更加有效且更具鲁棒性。

在认知科学中，我们通常将行为的选择区分为习惯性与目标导向性两类。通过反复执行某一行为，目标导向的行为可以逐渐变得习惯化。但在某些情况下，已获得的习惯可能变得不适应环境。所谓认知控制，指的是监控绩效、识别习惯性行为与目标导向行为之间的冲突，并在必要时抑制不良习惯、重新向目标导向行为倾斜的过程。

我们在主动推理（active inference）框架下提出了一个关于认知控制的新理论，它解释了认知控制如何通过优化一个认知控制信号（位于元认知层级），从而在行为选择中优先启用深思熟虑成分而非习惯性成分，使个体能够超越默认行为模式做出反应。而对这一认知控制信号的优化，又需要依赖对未来积极证据的前瞻性模拟（prospection），这使得认知控制既具有面向未来的特性，也伴随着心理努力。

为了便于说明，我们首先引入了一个简单的元认知控制模型，它仅捕捉认知控制的部分特征——即指定一个控制信号以优先启用深思熟虑性控制；随后我们又介绍了一个完整的元认知控制模型，其中认知控制源自自由能最小化过程，并伴随认知代价。

我们的模拟表明，在执行重复性任务（如驾驶）时，智能体可以从更费力的（深思熟虑的）控制形式过渡到较省力的（习惯性的）控制形式，并在需要时再切换回深思熟虑控制。

从深思熟虑控制向习惯性控制的转变（即习惯形成）在以往的主动推理实现中是自然出现的（Friston 等, 2016；Maisto 等, 2019）；
而从习惯性控制向深思熟虑控制的转变，则需要多主体分层处理机制：即一个分层生成模型，其中较高层级（元认知层级）可以监控较低层级（行为层级）的信念并影响其参数（例如贝叶斯惊奇、认知冲突、精度等）。

这种分层处理机制体现了我们提出的理论与三个重要的认知控制理论之间的深刻联系：

动作注意理论
（Norman 和 Shallice, 1986）：假设存在一个（高层级的）监督性注意力系统，通过它来施加认知控制，以偏向特定的动作选择；
控制预期价值理论
（Shenhav 等, 2013）：认为认知控制基于一种成本-收益评估机制，在通过受控加工获得的收益与所付出的认知代价之间进行权衡；
绩效监控理论
（Alexander 和 Brown, 2011）：强调监测预测误差信号的重要性，这些信号来源于预期结果与实际结果之间的比较。

我们的提议在概念上与上述理论相关联，但将其计算过程置于主动推理的统一框架之下（Mittenbühler 等, 2024；Parr 等, 2022；Schwöbel 等, 2021）。

我们的模拟展示了多个被认定为认知控制关键变量和机制之间的相互作用，包括：

惊奇（surprise）与波动性（volatility），
情境监控，
对自身行为路径的信心，
控制信号的设定，
行为调节，
心理努力，
认知冲突，
控制代价（Botvinick 等, 2001；Kool 等, 2010；Laming, 1968；Rabbitt, 1966；Sh...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.