Intermittent Active Inference
间歇性主动推理
https://www.mdpi.com/1099-4300/28/3/269
![]()
摘要
主动推理为感知和行动提供了一个统一框架,将它们视为在给定环境生成模型下最小化预测误差的过程。尽管标准表述假设推理和控制是连续的,但实证证据表明人类会间歇性地更新其控制策略,这降低了计算需求,并抑制了相关噪声在闭环反馈回路中的传播。为解决这一问题,我们提出了间歇主动推理(IAIF),这是一种新颖的变体,其中感知、推理、规划或行动可以间歇性地进行。本文研究了间歇规划,在此模式下,IAIF 智能体遵循其当前计划,仅当预测误差超过预定义阈值,或与当前计划相关的预期自由能超出先验估计时,才进行重新规划。我们在鼠标指向任务中评估间歇规划,将其与连续规划进行比较,同时考察不同阈值参数对性能和效率的影响。研究结果表明,IAIF 在保持任务性能的同时减少了计算时间,特别是在规划期间采样的计划数量增加时。针对所提出的基于预期自由能的触发机制,无需为此进行额外的校准。IAIF 的简便集成使其在实际建模工作流中具有价值。
关键词: 主动推理;间歇控制;自由能原理;计算效率;人机交互;资源感知算法;鼠标指向
1. 引言
智能体行为的计算模型通常在马尔可夫决策过程(MDPs)框架下进行研究,其中智能体与其环境分别以离散时间间隔更新动作状态和观测状态。这些时间间隔通常具有恒定持续时间,且往往被保守地设定得较短,以确保高频动态能够在连续的状态更新中得到足够精确的表征 [1]。主动推理(AIF)智能体模拟多种内部认知过程,以确定一系列未来动作的规划。此处所说的认知过程包括:根据新观测更新其关于环境隐藏状态的内部信念;在更新动作状态后更新其关于环境隐藏状态的内部信念;根据新观测更新其关于环境的内部模型;以及更新一系列连续的未来动作。AIF 智能体的标准表述假设所有内部认知过程均以相同的时间频率执行,即每个 MDP 时间步执行一次 [2]。目前尚不清楚这一设计选择在系统辨识(学习)收敛性、状态推断、计算效率和行为性能方面会带来何种权衡。特别是,随着主动推理日益被采纳为基于智能体的人工智能和自主机器人领域的一种范式 [3–5],解决与推理和规划相关的计算困难构成了一个重要的实际问题。
在另一条研究脉络中,人类运动控制的某些要素已被证明更符合间歇控制模型,即开环"弹道式"运动基于事件触发和不应期进行间歇性更新,而非连续控制或严格时间触发控制 [6]。这类模型在系统辨识方面展现出计算优势,以及对延迟、噪声和约束的鲁棒性。在强化学习(RL)中,通过广义动作(选项)和半马尔可夫决策过程 [7] 实现的时间抽象已被证明能够加速规划与学习。在网络化系统中,事件触发控制显著降低了通信带宽和计算资源需求 [8]。显然,对于任何计算资源受限的智能体而言,基于各认知过程对最大化效用 [9] 或最小化惊讶的预期贡献,审慎地决定何时以及以何种频率执行各个认知过程,将是明智之举。
本文引入间歇主动推理(IAIF),借鉴间歇控制的思想,提出事件触发的、间歇性的感知、推断、系统辨识与规划。我们此前曾在 [10] 中提出,主动推理可为人机交互(HCI)研究与设计提供有益基础。因此,我们现在在鼠标指向任务中探索间歇规划,并通过计算仿真提供定量证据,以刻画触发机制及相关阈值对计算效率和任务性能的影响。为模拟智能体行为,我们基于近期提出的、适用于具有连续状态、观测与动作系统的 AIF 智能体 [11] 进行构建。有趣的是,我们观察到,与连续重新规划相比,任务性能保持一致的同时计算成本有所降低,并发现这一现象源于基于采样的近似展开评估。图 1 并列展示了经典 AIF 与间歇 AIF 的鼠标光标轨迹。IAIF 智能体仅在当前规划变得比预期更差或结束时才启动规划阶段。这释放了计算资源,尤其对于较大目标而言。对于较小目标,则需要频繁重新规划以确保光标保持在目标范围内。我们提供了基于 JAX(https://docs.jax.dev/en/latest/index.html,访问于 2026 年 2 月 5 日)的 IAIF 实现代码,以及用于运行本工作中所执行仿真的代码,均已公开于 GitHub(https://github.com/mkl4r/iaif,访问于 2026 年 2 月 27 日)。
![]()
贡献
本工作对主动推理与人机交互领域的主要贡献包括:
• 提出间歇主动推理(Intermittent Active Inference),作为经典 AIF 的一种简洁扩展,具有减少计算时间并提升人类运动控制仿真真实性的潜力;
• 在一维鼠标指向任务(一个人机交互领域的经典问题)中,评估了两种用于间歇规划的触发机制及其组合,并与标准 AIF 智能体进行对比;
• 探讨了间歇性在主动推理框架下的进一步意涵;
• 提供了 Python(版本 3.12.12)代码(https://www.python.org/),用于仿真具备感知噪声与延迟的连续控制任务中的 IAIF 智能体。
2. 相关工作
2.1. 连续主动推理
主动推理是一种用于建模智能体行为的闭环计算理论 [2,12]。研究文献中的许多入门示例出于计算便利的考虑,涉及对状态空间的离散化处理。其他应对连续空间挑战的方法包括:(1) 学习潜在嵌入,(2) 分层模型,(3) 习惯控制,以及 (4) 事件驱动/间歇方法:
(1) Matsumoto 等人 [13–15] 通过推断低维潜在变量,在连续动作空间中执行高效的目标导向规划搜索。文献 [16] 提出了混合方法,并将其应用于连续山地车问题。
(2) 使用分层生成模型可使智能体在多个时间与空间尺度上进行规划,这有望缓解与频繁重新规划相关的问题 [2]。
(3) 习惯控制行为已被用于主动推理中,以降低智能体在熟悉情境下基于预测的控制所产生的计算成本 [17]。智能体依赖于关于策略的先验信念,这些先验编码了过往策略成功的频率。这会产生一种偏向,即倾向于选择经过充分练习的、熟悉的动作,即使这些动作在当前情境下未经预测性仿真的充分评估。主动推理智能体可被赋予一种机制,以"缓存"先前试验中的策略概率,并复用以减少审慎处理过程中的推理步骤 [18]。在文献 [19] 中,增加了一个元认知控制层级,以便在情境变化时在习惯控制器与预测控制器之间进行切换。
(4) 贝叶斯推理套件 RxInfer 包含了在感知推断中表现出事件驱动更新的智能体,但尚未在规划、策略选择与动作执行中实现此类更新 [20]。据我们所知,尚未有在控制中直接采用间歇性的单智能体主动推理系统得到探索。
这些问题不仅与主动推理系统相关,因此主动推理研究可从其他领域借鉴经验,例如 (a) 强化学习(RL)与 (b) 模型预测控制(MPC)系统:
(a) 在基于模型的强化学习中,何时重新规划至关重要。Honda 等人 [21] 指出:"过多的重新规划也可能导致路径振荡,尤其是在使用基于采样的全局规划器或环境存在众多分支路径时",这恰恰是连续动作主动推理所面临的情况。
(b) 在基于采样的模型预测控制中,样本间的规划一致性是一个关键挑战,因为不同优化运行或采样所得的解可能存在高度可变性,从而导致控制动作出现抖动或不一致 [22]。采样方法通常是迭代的局部搜索,无法保证收敛到全局最优解,或在不同采样迭代中收敛到一致的局部最优解,尤其在高维问题中,或当计算限制导致可用样本量不足时更是如此。诸如热启动(warm-starting)——即使用前一步的最优轨迹——等方法可显著降低方差与计算时间,并提升时间步间的一致性。文献 [23] 是一个将模型预测控制与主动推理相联系的示例,其方法是将预期自由能(EFE)作为模型预测控制的目标函数。
2.2. 人机交互
正如 Martín 等人 [24] 所指出的,自图形用户界面问世以来,朝向空间定义目标的有向运动已成为向计算机输入信息的主要方式。在与计算机交互过程中,此类运动本质上是动态的,并发生在反馈回路之中。用户观察计算机的当前状态(例如光标位置),并调整其运动以将该状态改变为其期望的状态——"运动只有在时间与空间上被精确定位时才有意义,也就是说,当它们作为寻求达成目标的行动的一部分时才有意义。从这个意义上讲,简单的目标导向运动,如指向与抓握,可被视为更复杂行动的基本构建单元" [25]。
仿真在人机交互领域的作用近年来日益增长 [26],已有研究引入了结合人体上肢生物力学模型、基于模型预测控制(MPC)或强化学习(RL)的交互仿真模型 [27,28]。这些仿真能够生成完整的关节运动轨迹或肌肉激活模式,从而支持对交互系统进行调优,以提升其性能与人机工效。
2.2.1. 子运动与交互
在人机交互中,运动也常被理解为一系列事件,例如子运动,而 Crossman 和 Goodeve [29] 提出的迭代修正子运动模型被广泛使用。这是一个将有向运动理解为一系列朝向目标的独立子运动的模型,每个子运动具有恒定的误差和恒定的持续时间。Crossman 和 Goodeve 展示了如何从该模型推导出菲茨定律。这包括知名的人机交互模型,例如 Card 等人 [30] 的工作,他们引入了"GOMS"框架,其中人类处理器模型将运动表示为一系列离散步骤。施密特定律 [31] 通过操纵振幅和运动时间并测量有效目标宽度 We 来解决变异性和动态性问题,从而得出关系式 We = k W MT。施密特定律背后的见解是,人类通过离散的力脉冲控制运动,整体变异性源于所施加力的大小和持续时间的变化。Meyer 等人 [32,33] 将其进一步发展为优化双子运动模型,该模型与施密特定律和菲茨定律均一致,其中子运动的变异性与平均速度成正比,而这种变异性导致需要多个子运动以最小化总运动时间为目标进行优化。对人类光标指向任务的分析也发现了开环和闭环控制的不同阶段 [34]。这些模型包括连续二阶动力学模型,以及具有切换特性的 Costello 突增模型 [35]。
2.2.2. 人类运动控制
虽然人类运动控制常被视为带有附加噪声的连续控制问题 [36],但有大量证据表明运动控制中结合了开环和闭环过程,例如在不应期 [37] 的背景下,以及人类运动动力学和变异性的频率内容限制方面 [38]。
2.3. 间歇控制
间歇控制(IC)间歇性地使用反馈信息,在需要时重新规划开环控制动作。尽管存在多种间歇控制方法(概述见 [39]),但重新规划事件通常由观测状态与预测状态的偏差触发 [6]。IC 源于存在约束情况下模型预测控制(MPC)的实际实现 [40]。与连续反馈控制(其中控制动作基于观测在每个时间点重新计算)相比,间歇控制降低了整体带宽,为优化任务释放了资源 [6]。IC 为人类平衡控制和其他运动任务中非线性和非连续观测提供了生理学上合理的解释 [41,42]。运动控制的一般描述包括与快速反射动作相关的皮层下连续反馈元素,并结合涉及皮层处理且由基底神经节门控的较慢的间歇反馈回路 [43,44]。仅间歇性地使用反馈信息来修改控制计划,而不是连续更新控制动作,也被证明有助于在存在噪声的情况下促进闭环配置中的参数估计和系统辨识 [45],其中由于开环间隔的存在,相关噪声的传播得以减少。
3. 材料与方法
在 3.1 节中,我们将首先介绍方法学背景,即连续的、基于采样的主动推理(AIF)。本节不提供新颖的方法论,其主要目的是介绍 AIF 智能体与环境之间的一般交互循环及符号表示。熟悉应用 AIF 的读者可能希望直接跳转到 3.2 节,我们在该节介绍间歇主动推理以及如何实现间歇推断和间歇规划。随后,我们提出了两种不同的触发规划阶段的方法,分别基于信念发散(3.2.1 节)和预期自由能误差(3.2.2 节)。最后,在 3.3 节中,我们描述了一维鼠标指向任务的设计,并提供了被评估智能体的详细信息。
3.1. 具有连续状态、动作和观测模型的主动推理
主动推理就近似贝叶斯推断过程而言,提供了关于能动性的数学阐述 [46]。AIF 智能体的根本要求在于必须预测和预判智能体所处环境的各种动态。这一过程最终服务于智能体的自创生目标,即实现其偏好的满足。AIF 智能体嵌入于环境之中,这在数学上通过状态空间及其相关动态来表述。通常,这些状态是隐藏状态,即它们不能被智能体直接观测。智能体进行的观测是隐藏状态的函数,在此基础上,智能体可以对产生特定观测的潜在/隐藏状态进行推断。因此,主动推理提供了一个概率框架,用于建模表征智能体与环境交互的感知 - 行动循环。
在这项关于生物力学光标指向应用的研究中,我们关注的是力、位移和速度的连续状态空间。因此,智能体及其环境均被描述为具有连续潜在状态、动作和观测的动力系统。这些要素均在离散时间内演化。
我们采用术语“生成过程”来表示智能体所处的环境动态,这与更广泛的主动推理文献一致 [2]。在本工作中,我们假设离散时间步 t ∈ N,且生成过程的特征为确定性状态转移,同时隐藏状态为智能体提供随机观测。因此,对于连续潜在状态 s[t] ∈ S、控制输入/动作 a[t] ∈ A 和观测 o[t] ∈ O,生成过程的形式如下:
![]()
![]()
![]()
方程 (3) 和 (4) 规定了智能体生成模型的结构形式;连同关于隐藏状态、参数和噪声变量的先验,该系统共同诱导了一个联合概率生成模型(完整的)。推断是通过保持对该模型潜在变量的变分信念来进行的。我们使用了“带帽号”的上标:ˆ·来表示生成模型的组件,以区别于生成过程。GP 和 GM 是独立的动力系统。重要的是,生成模型不必与真实的生成过程完全吻合,通常构成对 GP 的粗粒度近似。因此,借助 GM,智能体拥有了 GP 的内部表征,可借此进行预测并形成信念。
在 3.1.1 节中,我们将看到智能体保持关于内部变量的概率信念,表示为诸如 Qs 之类的分布。为符号简便起见,下文我们将直接用表示智能体关于外部状态的信念,需理解该信念实际上始终由内部模型变量所支撑。综上所述,GP 和 GM 共同定义了一个闭合的感知运动循环。观测由环境(GP)生成,并被智能体——通过推断——加以同化,以更新其关于隐藏状态、参数和噪声变量的信念。随后,这些信念被用于通过在 GM 下进行预测性展开来评估候选动作序列,从而构成规划与动作选择。选定的动作被施加于 GP,影响其后续的状态转移和观测,从而闭合当前时间步的感知 - 行动循环。在经典 AIF 中,推断和规划在每个时间步均被执行。感知运动循环中的信念更新组成部分将在 3.1.1 节中详细说明。规划与动作选择机制同样将在 3.1.2 节中详细说明。
3.1.1. 信念更新
我们现在概述 AIF 中信念更新的机制。与我们之前的工作 [11] 一致,我们赋予智能体关于潜在状态 s、模型参数 θ 和观测噪声 Σp 的近似后验信念。我们假设该联合信念等同于近似后验的均值场分解:
![]()
为了在执行动作时高效地更新智能体的信念,我们应用无迹卡尔曼滤波(UKF),该方法通过非线性动力学传播正态分布 [47,48]。因此,在时间步 t ∈ N,智能体施加动作 a[t] 并利用其生成模型(GM)f̂θ 以及关于系统参数(例如目标位置)的信念 Qθ,来更新其关于系统状态 Qs[t] 的信念,
![]()
在接收到来自环境的新观测后,智能体理想情况下会根据贝叶斯法则更新其关于潜在状态的先验信念:
![]()
在大多数应用中,潜在状态的维度使得方程 (7) 分母中的边缘化问题变得难以处理。AIF 不采用精确贝叶斯推断,而是使用变分推断(VI),即从特定的分布族中选择一个近似后验分布 q(s) ≈ p(s | o),并对其进行优化以逼近真实后验。在时间 t ∈ N,对于给定的预测信念 Q̂s[t] 和观测 o[t],我们将 VI 步骤表示为:
![]()
从而得到智能体更新后的信念。与广义滤波 [49] 不同,UKF 和 VI 步骤显式地估计信念协方差。这能更好地跟踪控制不佳及更为混沌的系统,但也带来了额外的计算成本。
![]()
![]()
![]()
![]()
3.2. 间歇主动推理
AIF 智能体内部的经典过程包括感知、推断、规划和动作。传统上,它们每一个都在每个时间步执行。如上所述,降低这一频率可缩短计算时间,并可能提高在人类运动控制等应用中的真实性。因此,我们引入间歇主动推理(IAIF)这一术语,用于描述那些间歇性地进行感知、推断、规划或动作,或其组合的 AIF 智能体(见图 2)。间歇性感知可应用于进行观测本身带有代价的情况,例如,视觉皮层处理视觉信息所需的能量。间歇性动作意味着智能体可以选择不执行动作,例如,在动作干扰感知或最佳感知速率与动作频率不同的情况下。间歇性推断允许偶尔跳过信念更新以节省计算时间,例如,当预测的信息增益较低时。
![]()
间歇规划为减少计算时间提供了最强的杠杆,特别是对于基于采样的 AIF 而言。因此,在这项初步工作中,我们专注于那些连续进行感知、推断和动作,但间歇性进行规划的智能体——在本文的其余部分,当我们使用术语 IAIF 智能体时,指的就是这种情况。IAIF 智能体将遵循一个计划并持续观察世界,直到触发重新规划。当规划期间做出的预测出现错误时,就会触发这种重新规划。以下情况即属于此类:要么智能体关于状态的信念与规划期间的预测显著偏离,要么所选计划的结果比预期的更差——例如,如果环境或目标发生了意外变化。图 3 展示了一个通用的控制图,比较了经典 IC 与我们提出的方法。主要区别在于确定性(IC)与概率性(IAIF)方法,以及决定何时启动新规划阶段的触发机制。在下文中,我们将介绍信念发散触发器(3.2.1 节)和预期自由能误差触发器(3.2.2 节)的实际实现。智能体可以仅应用这些触发器中的一种,或组合应用,以决定何时启动新的规划阶段。
![]()
3.2.1. 信念发散触发器
在经典 IC 中,当预测误差超过预定义阈值时,会触发闭环。该误差通常定义为预测状态与观察者推断的状态之间的距离,后者通常是某种卡尔曼滤波器(见图 3)。在 AIF 中,智能体关于状态的信念被描述为一个概率分布。该信念利用智能体的生成模型和新观测进行持续更新。因此,经典 IC 触发器的自然转换是计算规划期间状态的预测分布与进行观测后更新的信念之间的差异。我们利用 Jensen-Shannon 发散作为衡量这些分布之间差异的度量。与经典 IC 类似,如果该预测误差超过预定义阈值,则触发新的规划阶段。否则,智能体继续遵循其当前计划。图 4 展示了应用此信念发散触发器(Div Trigger)的智能体的一般控制流程。
![]()
![]()
![]()
![]()
![]()
可以将这一思想扩展到智能体关于系统参数 ![]()
的信念上。由于这些信念不会因对系统施加动作而改变,因此没有必要跟踪预测。相反,规划期间的信念与随后更新的信念之间的 JS 距离可以直接用作“学习率”的度量。如果该学习率超过预定义的阈值,则表明系统参数或噪声与智能体在规划期间的假设存在显著差异,从而证明启动新的规划阶段是合理的。
3.2.2. 预期自由能误差触发器
结合 3.2.1 节定义的信念发散触发器,一旦智能体的信念与规划期间做出的预测产生足够大的偏差,就会触发重新规划。然而,只要新的观测表明性能与预期相当甚至更好,这可能就没有必要。例如,在规划期间,智能体可能假设情况最终会比实际结果更糟。此外,在经典 IC 中,当参考发生变化时也可能发生重新规划,这通常是通过将设定点包含在观测状态向量中来实现的 [6]。从高层 AIF 的视角来看,规划的目标是选择具有最小预期自由能(EFE)的计划,即那些获得的观测要么在智能体的偏好分布下更有可能(实用价值),要么增加显著性或新颖性(即信息增益)的计划(后者在本工作中被忽略,因为我们暂时排除了参数学习)(见方程 (11))。因此,我们可以利用在规划和执行期间计算的 EFE 来定义 IAIF 的另一个触发器。在计划执行期间,我们利用从观测中获得的新信息来更新计划剩余部分的 EFE 预测。如果该预测高于规划期间的估计值,表明计划变差了,我们就触发一个新的规划阶段。图 5 中的流程图提供了预期自由能误差触发器(EFE 触发器)功能的示意图。
![]()
具体而言,该触发机制的工作方式如下。在规划期间,我们获取所有采样计划的展开(rollouts)和逐步 EFE(见 3.1.2 节)。我们跟踪所选计划 的逐步 EFE。
![]()
3.2.3. 组合触发器
在某些情况下,结合上述两种触发机制能带来最佳性能。一方面,仅使用信念发散触发器可能导致智能体维持一个计划,尽管该计划会导致糟糕的性能。另一方面,仅应用 EFE 误差触发器,智能体可能遵循一个计划,该计划之所以变得比预期更好,仅仅是因为智能体在规划期间的信念与真实状态对齐不佳。例如,在观察到目标位置之前,智能体很可能选择一个仅大致朝正确方向移动的计划。在感知到目标后,该计划的实际 EFE 可能会改善,因为随着智能体对目标不确定性的降低,实用价值变得更好。在这种情况下,尽管关于目标的新信息将允许制定一个好得多的计划(但这仍未被探索),却不会启动新的规划阶段。添加信念发散触发器会导致智能体一旦新观测引起智能体信念的显著变化(例如,观察到目标在别处剧烈改变了智能体关于目标位置的信念)就立即重新规划。因此,我们也评估了结合这两种触发机制的智能体。如果“Div Trigger”和“EFE Trigger”都设为“True”,组合版本显示在算法 2 中。信念发散触发器总是首先被测试,因为如果已经满足 Div 触发器,我们可以跳过 EFE 的重新估计。
![]()
![]()
我们假设智能体已针对该任务进行了训练,因此我们将生成模型设定为与生成过程相等,但在刚度参数 d d 上保留了一定的不确定性。为了模拟人类感知,我们添加了高斯噪声和 100 毫秒的固定时间延迟。智能体的偏好分布被定义为:它倾向于观测到光标位于目标内部,并且靠近目标中心。后者基于智能体关于目标位置的信念,该信念仅在感知延迟之后更新(带有感知延迟的完整 IAIF 算法见算法 A1)。为了减少变分推断(VI)更新期间的副作用,我们对光标位置和速度、目标位置以及目标宽度进行独立更新。由于首次观测到目标时,关于目标位置的信念会发生剧烈变化,我们也为目标位置设定了较高的学习率。此外,我们在规划期间排除了计算成本高昂的信息增益项,因为在初步测试中,我们未观察到它对智能体行为产生影响。
![]()
![]()
除了与经典的(非间歇性)AIF 基线进行比较外,我们还探讨了为信念发散触发器选择不同阈值的影响,以及两种触发机制组合的影响。由于间歇性的益处还取决于规划阶段采样的计划数量,我们调查了具有不同采样数量的智能体的性能。
3.4. 生成式人工智能使用声明
相关代码部分是在 GitHub Copilot(https://github.com/features/copilot,访问于 2026 年 2 月 5 日)的支持下编写的,使用了 Claude Sonnet 4.5(https://www.anthropic.com/claude/sonnet,访问于 2026 年 2 月 5 日)。作者对生成的每一行代码都进行了检查和正确性验证。生成式人工智能未直接参与结果的生成、呈现或解释。
4. 结果
在本节中,我们展示仿真研究的结果。所用参数的完整列表见附录 A。除非另有说明,在每个规划阶段采样 1000 个不同的计划,视界(horizon)为十二个时间步。仿真运行一百个时间步,步长为 0.02 秒,总试验长度为两秒。目标在一次试验中不发生变化;相反,每次试验都从相同的初始位置开始,速度为零且具有固定的初始不确定性。出于数值原因,仿真期间位置和速度缩小了 1000 倍,然而,我们以像素为单位展示放大后的结果。我们为十二个目标中的每一个运行了十次试验,导致每个智能体总共运行 120 次。我们运行了双侧 Mann-Whitney-Wilcoxon 检验以识别结果的显著差异。除非另有说明,箱线图各包含 120 个数据点,线条显示中位数,箱体显示 25% (Q1) 和 75% (Q3) 分位数,须(whiskers)显示 Q1/Q3 减去/加上 1.5 倍四分位距,任何异常值由圆圈指示。仿真在一台配备 32 核 AMD Ryzen Threadripper PRO 3975WX CPU、512GiB DDR-4 RAM 的机器上进行,并使用单个 NVIDIA GeForce RTX 3090。代码的主要部分使用硬件加速版的 JAX(https://docs.jax.dev/en/latest/index.html,访问于 2026 年 2 月 5 日)进行了优化。
4.1. 间歇性对智能体行为影响的分析
单次试验中经典 AIF 与间歇 AIF 的定性行为可能有所不同。图 7 展示了经典 AIF 和 IAIF 向目标 6 移动的光标轨迹。虽然经典 AIF 智能体一旦观测到目标(0.1 秒后)就向其移动,但 IAIF 智能体继续遵循一个在突增阶段(surge phase)中途(0.3 秒)减速的计划。它仅在计划终止时重新规划(由图顶部的绿线指示)。这是合理的,因为该计划仍然导致向目标移动,且没有超调(overshooting)目标的风险。当靠近目标时,重新规划被更频繁地触发,直到智能体确信光标停留在目标上。在约 1.1 秒时,光标被错误地移出目标,这触发了另一个规划阶段。有趣的是,这重现了 [34] 中观察到的人类般的变异性。
图 8 中的相空间直方图展示了目标 11(一个距离较远的小目标)的行为。相空间的整体形状是相似的。因此,引入间歇性并没有显著增加整体方差。然而,可以观察到 IAIF 智能体偶尔会出现一个额外的子运动,发生在距离目标 300 像素到 400 像素之间。上述讨论的单个轨迹显示了类似的子运动,表明这种行为源于突增阶段较少频繁的规划。这种行为也可以在目标 0、1、5 和 6 中看到(所有其他相空间直方图见附录 C)。这与人类通过多个修正性子运动执行指向任务的理论 [29] 相一致。
![]()
![]()
4.2. 间歇性对性能没有负面影响
![]()
![]()
4.3. 间歇主动推理规划次数更少并节省计算时间
连续 AIF 计算时间的主要驱动因素是基于采样的规划。通过使用间歇规划,我们能够显著减少执行规划阶段的时间步数量,见图 10a。基线 AIF 智能体在一百个时间步的每一步都选择一个新计划,导致每次试验的平均计算时间为 49.8 秒。相比之下,仅使用信念发散触发器的智能体平均规划次数仅在 28.4 到 64.5 次之间,将每次试验的平均计算时间降低至 26.1 秒和 38.0 秒(如图 10 所示,第二组)。仅应用 EFE 触发器的智能体平均使用 64.1 个规划阶段(图 10a 第三组)。然而,为了计算 EFE,在每个时间步都需要进行一次额外的展开(rollout)(见方程 (15)),这对计算时间产生了负面影响。尽管存在这种开销,仅使用 EFE 误差触发器的智能体仍成功将平均计算时间显著降低了 14.5%,降至 42.6 秒(图 10b 第三组)。结合两种触发器的智能体表现出更频繁的重新规划,以及更高的计算时间,甚至可能超过经典 AIF(见图 10,右侧组)。
![]()
如果误差阈值选择得当,间歇性规划的智能体可以在显著减少计算时间的同时实现相似的任务性能。图 11 展示了所有仿真试验的计算时间和性能,包括经典 AIF 基线(叉号/实线)、仅使用 EFE 误差触发器的 IAIF 智能体(圆圈/虚线),以及仅使用信念发散触发器且 ϵ Div = 30.0 的 IAIF 智能体(三角形/点线)。所有单独的 IAIF 试验的计算时间均低于经典 AIF。同时,它们在目标上的时间百分比介于 60 到 90 之间,性能相似,仅有少数异常值。没有明显的趋势表明更高的计算时间会带来更好的性能。较容易的目标(ID 为 2.46、3.09、3.55)显示所有智能体在目标上的时间百分比较高。这些结果表明,间歇性可以被引入 AIF 而不会损害性能。
![]()
4.4. 采样计划数量对经典与间歇主动推理影响的分析
![]()
![]()
5. 讨论与未来工作
5.1. 应用间歇主动推理的指南
在本文中,我们探讨了间歇主动推理作为经典基于采样的主动推理的一种扩展。根据结果,使用仅信念发散触发器(阈值低于 50)或仅使用 EFE 误差触发器进行间歇规划的智能体,实现了与基线相似的性能,同时减少了规划阶段和计算时间。信念发散触发器(Div Trigger)提供了一种可以进一步减少计算时间的方法,然而选择正确的阈值 ϵ Div 取决于手头的问题,需要深思熟虑,因为选择过高的阈值可能会降低性能。相反,该阈值可以被视为一个超参数,可以根据先前的交互进行学习,需要在各种相关场景中进行重复试验。在计算时间和性能之间具有最佳权衡的阈值可能强烈依赖于情境(环境、智能体和任务/偏好先验)。例如,在高风险场景中,尽管需要计算努力,选择较小的阈值是合适的。由于结合两种触发器并没有显著改善性能,但增加了计算时间(并且伴随着寻找正确阈值的相同问题),我们建议要么仅使用 EFE 误差触发器,要么仅使用信念发散触发器。最终,EFE 触发器基于自由能原理本身,这表明它是鲁棒的,适用于广泛的应用而无需必要的调整。
5.2. k 步预期自由能误差触发器
为了减少使用 EFE 触发器相关开销的影响,可以使用 k 步 EFE,其中仅比较接下来 k < N个逐步 EFE 的平均值。所考虑的步数也可能是一个学习参数,取决于情境的复杂性(当预计没有关键情境时,较小的 k k 可能就够了)。在此背景下,可以通过仅比较当前时间步的自由能与规划期间做出的估计来实现 0 步 EFE 触发器。尽管在计算上更优越,但这种方法需要一种发散度量,这需要进一步调查。
5.3. 噪声敏感的预期自由能误差
![]()
5.4. 计划耗尽与增强
在没有触发规划阶段的间歇期间,我们提出的智能体简单地遵循其当前计划,因此该计划逐渐具有更短的预测视界。这最终可能导致“计划耗尽”,即当智能体动作用完且需要执行完全重新规划时。对于计划剩余部分的 EFE 预测也变得不太可靠,因为它没有考虑剩余规划视界之后的时间步,可能会错过不良结果。相反,人们可以探索不同的启发式方法来增强智能体的当前计划,例如附加新动作。
5.5. 最小与最大重新规划间隔
根据心理不应期理论 [52],除了间歇性之外,还可以引入最小重新规划间隔。至少与感知延迟一样长的不应期是经典间歇控制(IC)表述中出于计算原因的一部分 [6],因为如果我们尚未观察到首次动作的影响,重新规划是没有意义的。这确保了智能体在该间隔结束前的最初几个时间步内始终遵循新计划。它可以缓解在具有观测噪声的闭环系统中常见的系统辨识问题 [45]。类似地,在最小间隔与预测视界之间选择的最大重新规划间隔,可能有助于减少 5.4 节中讨论的预测视界缩短所带来的负面影响。
5.6. 间歇性与预测视界
在间歇规划中,人们可以将自适应预测视界长度方法潜在地表述为一种间歇性形式,其中规划可以在满足某些条件时被中止。参见例如 [53,54] 中基于模型的强化学习和模型预测控制的相关示例。这种方法可以允许智能体在复杂或不确定的高模型误差区域使用短视界,而在稳定区域使用长视界,从而提升性能、效率和稳定性。
5.7. 复杂任务中的间歇主动推理
在本工作中,我们在简单的一维鼠标指向任务中将 IAIF 与经典 AIF 进行了评估。由于间歇性的效果可能因任务难度而异,未来研究应探索 IAIF 在更复杂和多样化任务中的应用。在需要多个时间步才能实现目标的多阶段任务中(例如,鼠标指向并点击 [11]),基于采样的连续重新规划可能导致智能体花费较长时间才能完成第二个任务。这是由于最佳采样计划可能仅在计划的第二个动作中实现第二个任务,而该动作从未被执行。在此情况下,IAIF 甚至可能表现得比经典 AIF 更好。我们还决定在所有仿真中将规划视界固定为 12 个时间步(即 240 毫秒)。虽然对于非常短的规划视界,间歇规划的益处会减弱,但较长的视界可能更有益,因为智能体可以遵循表现良好的计划更长时间。然而,较长的视界也会增加重新计算 EFE 的开销。
5.8. 离散主动推理中的间歇性
在本文中,我们研究的是具有连续状态、观测和动作空间的问题。我们这样做的动机在于,非离散 AIF 所需的基于采样的方法通常涉及更高的计算成本。然而,我们预计将本文提出的概念迁移到离散问题上不会有任何限制。特别是对于大规模生成模型,其中探索所有可能状态是不可行的,间歇性规划可以带来类似的益处。通过添加关于何时推断新策略的决策(基于本工作中提出的触发器之一),间歇性可以轻松地添加到现有的 AIF 实现中(例如,在 pymdp(https://github.com/infer-actively/pymdp,访问于 2026 年 2 月 5 日)中,仅当触发器发生时才运行 infer_policies,例如,当 EFE 变得比上次执行期间预测的更差时)。
5.9. 间歇性在主动推理建模实践中的作用
本工作中为间歇规划提出的启发式方法可以在模型细化的早期阶段带来多种益处。(1) 通过释放计算预算以加速探索并支持模型改进,(2) 为情境敏感的重新规划模式的机器学习提供基础,以及 (3) 为人类设计决策提供参考。
(1) 间歇规划的计算益处既可用于加速任何给定智能体的仿真,也可在给定计算预算下潜在地提升智能体的性能。节省的计算预算可用于扩大采样范围、支持更复杂的模型,或延长预测视界。
(2) 间歇性启发式方法可为情境敏感模式的自动机器学习提供基础。学习情境与重新规划之间的关系可以分摊这些指标的计算成本,从而带来额外的计算节省益处。进一步发展这一点,如果生成模型能够捕捉这种关系,图 2 中的间歇切换可被视为标准 AIF 智能体的动作,从而为间歇性的纳入提供一种更优雅、更具原则性的方法(长期目标仍然是减少生成模型与环境之间的不匹配,但在该学习过程的任何时刻,间歇性都可用于管理当前模型不匹配的状态)。
(3) 人类设计者和建模者可以从(学习到的)间歇性模式中获得洞察,以指导模型结构的发展。例如,当智能体与环境的不同方面或不同任务交互时,情境敏感的间歇性速率可能表明生成模型难以充分预测行为(类似于盖革计数器)。更系统的间歇行为模式,例如在扁平智能体中观测频率高于动作频率,或动作频率高于重新规划频率,可能表明分层模型——在不同分层层级以不同速率进行更新——可能更适合该任务。
6. 结论
我们引入了间歇主动推理作为经典主动推理的一种扩展,专注于那些连续进行观测、推断和动作,但间歇性进行规划的智能体。间歇性背后的动机可归因于其计算效率、建模与自然智能体类似的不应期结构的能力、在闭环参数辨识中的优势,以及作为模型细化实用工具的益处。
我们提出了两种触发重新规划的机制:信念发散触发器和预期自由能误差触发器,并在一个简单的一维鼠标指向任务模型上评估了标准主动推理智能体与间歇主动推理智能体。我们的结果表明,间歇规划减少了计算时间,虽然未显著改变任务性能,但增加了一些类似于人类运动控制中的行为变异性。此外,我们表明,随着采样计划数量的增加,可以实现显著的计算时间节省。
我们相信,这种对主动推理实现的简单增强可以带来即时的实际益处,可能支持模型开发与测试,并且间歇性的行为效应将与替代分层模型的行为效应相重叠。
原文链接:https://www.mdpi.com/1099-4300/28/3/269
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.