主动推理赋能分布式连续体智能：设计即韧性|原理|鲁棒性|贝叶斯|自组织

分享至

主动推理赋能分布式连续体智能：设计即韧性

Resilient by Design – Active Inference for Distributed Continuum Intelligence

https://arxiv.org/pdf/2511.07202v2

《Resilient by Design – Active Inference for Distributed Continuum Intelligence》一文的核心在于将主动推理（Active Inference, AIF）框架拓展至分布式连续智能（Distributed Continuum Intelligence, DCI）系统的设计中，以实现一种内生于结构与动力学的韧性（resilience by design），而非事后补救式的鲁棒性增强。

以下是该文的重点概述：

1.核心主张：以主动推理为原则构建韧性智能系统

文章主张，真正的韧性（resilience）——即系统在扰动、损伤或环境剧变下维持功能完整性与目标导向性的能力——不应依赖冗余备份或外部调控，而应内嵌于系统生成模型的结构与推断动力学之中
这呼应了你关注的自由能原理（FEP）思想：智能体通过最小化自由能（即预测误差）来维持自身存在的“边界”（Markov blanket），而韧性正是这一自组织过程的涌现属性。

2.分布式连续智能（DCI）

DCI 指一类无中心控制器、无离散模块边界的智能体，其认知与行动能力分布于物理连续体（如软体机器人、类组织生物系统、群体机器人集群）中。
强调：
- 空间连续性：状态变量在物理空间中平滑分布（如应变场、化学浓度梯度）；
- 功能分布式：感知、推断、行动在空间-时间上耦合，无法清晰分离；
- 多尺度耦合：局部动力学与全局稳态相互约束。
此设定天然契合激进具身认知生态心理学视角：认知即行动，行动即感知，无需内部“表征”，而是通过生态可用性（affordances）与动态耦合实现适应。

3.主动推理的推广：从离散代理到连续场

传统AIF多用于离散状态空间或集中式代理；本文将其泛化为偏微分方程描述的场论形式（field-theoretic AIF），即：
- 生成模型定义为时空连续的随机偏微分方程（SPDEs）；
- 识别密度（recognition density）以概率场形式演化；
- 行动通过调节局部本体感受先验（如刚度、阻尼参数）实现“形态计算”（morphological computation）。
关键创新：将自由能泛函（free energy functional）最小化作为连续介质的演化动力学，使系统在物理层面“推理”。

4.韧性机制的三重实现

结构韧性（Structural）：通过生成模型中层次化先验（如尺度不变性、拓扑守恒约束）保障系统在局部损伤下维持整体功能形态（如软体机器人断肢后仍能运动）。
动力学韧性（Dynamical）：利用吸引子景观（attractor landscape）的可塑性——当环境剧变时，通过调节先验精度（precision weighting）快速重配置稳态目标（如从行走切换到爬行）。
认知韧性（Cognitive）：在信念更新中显式建模模型不确定性（model uncertainty），允许系统在“不知道自己不知道什么”时启动探索性动作（active sensing），避免陷入错误确信——这涉及你关注的信念集 vs. 信度集问题：系统不仅持有信念，还对其确信程度进行推断与调节。

5.与具身贝叶斯大脑、非表征主义的关联

该工作可视为具身贝叶斯大脑（Embodied Bayesian Brain）的工程实现：将“大脑”扩展为整个身体-环境耦合系统，推断过程即物理过程。
支持非表征主义立场：系统没有“内部模型副本”，而是通过动态约束闭合（constraint closure）在生成-识别循环中维持自身同一性——这与你强调的“认知即生物自组织”完全一致。
挑战福多式心语假说（LOT）：DCI中的“推理”无需符号操作，而是形态-动力学-统计三重耦合的涌现。

6.应用前景

自修复软体机器人
分布式神经康复外骨骼（契合你对神经康复的关注）
类组织生物混合系统（biohybrid systems）
群体智能基础设施（如自组织电网、交通流）

综上，该文不仅是技术方案，更是一次理论整合尝试：它将主动推理从认知建模工具提升为构建生命类系统的设计原则，从而为“认知即生命过程”这一激进具身立场提供了可计算、可实现的路径。

摘要

在高度复杂且异构的设备中，故障是常态。这些设备覆盖了分布式计算连续体（Distributed Computing Continuum, DCC），从资源受限的物联网（IoT）与边缘节点，到高性能计算系统。确保跨各层级的可靠性与全局一致性仍是一项重大挑战，尤其对于依赖实时、自适应协调的人工智能驱动型工作负载而言。本文作为一项进行中的研究工作，提出了一种概率性主动推理韧性代理（Probabilistic Active Inference Resilience Agent, PAIR-Agent），旨在实现DCC系统的韧性。PAIR-Agent执行三项核心操作：（i）基于设备日志构建因果故障图；（ii）利用马尔可夫毯与自由能原理，在管理确定性与不确定性的同时识别故障；（iii）通过主动推理自主修复问题。该代理通过持续监测与自适应重配置，在多种故障条件下维持服务的连续性与稳定性。理论验证确认了所提框架的可靠性与有效性。

索引术语——分布式计算连续体；主动推理；韧性；自由能原理。

I. 引言

无人能否认，随着生成式人工智能的兴起，计算基础设施已发生剧变，推动了对横跨传感节点、边缘设备、网络单元与服务器集群的高性能资源的空前需求。作为回应，分布式计算连续体（DCC）这一范式应运而生——它将复杂任务协同调度于整个设备连续体之上：将小型、时延敏感型任务本地化处理，以降低能耗并保护隐私；同时将资源密集型任务卸载至高性能服务器[1][2]。这种动态任务分配方式优化了资源利用，平衡了能耗需求，并支持可扩展的运行。

随着设备数量与多样性持续增长、数据量激增、工作负载日益动态化，系统复杂性同步攀升，故障风险也显著加剧[3]。总体而言，DCC中的任务处理失败可能源于多种因素，例如用户主动中止、输入错误、分配资源不足、执行错误、节点崩溃或通信故障；而在DCC中，还存在额外的故障源，包括：设备异构性带来的不可预测性、移动性与电池依赖性节点、动态变化的网络与资源状态，以及在数百乃至数千个边缘设备规模下所面临的全局一致性挑战。

韧性机制对于现代计算系统至关重要，因为在这些基础设施中，故障是常态而非例外。“韧性”（resilience）一词被选用，而非单纯的“容错”（fault tolerance），是因为DCC系统不仅需要容忍离散故障，还必须有效管理并适应广泛存在的内在不确定性[4][5]。在DCC中，韧性体现为系统在面对不可预测的工作负载波动、设备移动性、连接中断与能源波动等常见挑战时，通过主动适应、局部恢复与优雅降级，在云、雾、边缘与物联网等多层级中持续运行的能力[6][7]。

为实现上述目标，本文设计了一种新型的概率性主动推理韧性代理（PAIR-Agent），其主要贡献如下：

PAIR-Agent 利用来自各类设备日志的数据，通过贝叶斯网络结构学习（BNSL）构建一个概率性因果故障图（Causal Fault Graph, CFG）；
接着，它利用马尔可夫毯从CFG中识别潜在故障，并进一步应用自由能原理开展不确定性感知的故障推断；
最后，PAIR-Agent 自主选择校正动作——通过最小化预期自由能（Expected Free Energy），实现基于主动推理的自愈能力

II. 系统模型

DCC (S) 由n个设备组成，包括一个或多个云或数据中心 C = {C₁, C₂, ..., C_c}，一组f个雾节点 F = {F₁, F₂, ..., F_f}，一组e个边缘节点 E = {E₁, E₂, ..., E_e}，m个移动设备 M = {M₁, M₂, ..., M_m}，一组物联网设备 I = {I₁, I₂, ..., I_i}，以及一组s个传感器节点(SNs) = {S₁, S₂, ..., S_s}。我们假设传感器节点是数据生产者且不具备任何数据计算能力，因此它们通过蓝牙低功耗、Zigbee、蜂窝或Wi-Fi等无线信道将数据传输至最近的基站（I、M或E）。定义一组与AI相关的计算任务 T = {T₁, T₂, ..., T_t}，其中每个任务 Tᵢ = (wᵢ, Xᵢ, Φᵢ, dᵢ) 表示工作负载wᵢ、输入数据依赖Xᵢ、计算映射或模型函数 Φᵢ: Xᵢ → yᵢ，以及执行截止时间dᵢ。DCC图 S = (V, R) 由节点集 V = C ∪ F ∪ E ∪ M ∪ I ∪ SN 和通信关系 R ⊆ V × V 组成，其中每个节点 uⱼ ∈ V 执行一组任务 T(uⱼ)，使得 ∪_{uⱼ∈V} T(uⱼ) = T。每个任务执行 Tᵢ(vᵢ) 遵循三阶段结构 (αᵢ, βᵢ, γᵢ)，分别表示任务启动、计算以及完成或检查点。一般而言，复杂的AI工作流（如训练）由顺序子任务组成，例如 T_train = T_data-load → T_forward → T_backward → T_update，每个子任务可独立完成并保存进度以支持部分恢复。每个任务建立一个稳定的检查点 Sᵢ = (sᵢ, Dᵢ, Qᵢ)，记录中间状态sᵢ、已处理的数据集片段Dᵢ和模型参数Qᵢ，从而能够在故障时恢复并继续执行。

III. 实际运行中的韧性

所提出的 PAIR-Agent 迭代执行以下步骤（如图1所示）：(a) 识别系统日志中的变化并收集数据以生成一个CFG；(b) 利用马尔可夫毯和自由能原理[9]进行故障推断；以及(c) 通过主动推理修复故障以实现韧性，后续小节将对此进行更详细的讨论。

A. 收集与处理日志

最初，PAIR-Agent 通过远程过程调用（RPCs）协调在集合 S 上的分布式日志采集，查询每个设备 (vᵢ ∈ S) 在分析轮次 t 的最新检查点 (ζᵢᵗ = ⟨sᵢᵗ, Dᵢᵗ, θᵢᵗ⟩)，该检查点封装了本地状态、已处理的数据段以及学习到的参数。这些检查点作为时间锚点，将系统观测划分为离散的分析区间，使代理仅处理在 ζᵢᵗ 之后生成的日志条目。此设计确保了异构节点间的同步，防止日志片段的冗余摄入，跟踪基于轮次的进展，并维持系统活动全局一致的因果时间线[10]。因此，每个新轮次 (t+1) 都从同步收集增量日志更新 ΔLᵢᵗ⁺¹ 开始，形成一个随时间演化的数据集，以支持持续推断。

收集后，原始日志被解析并归一化为结构化表示。PAIR-Agent 提取对应于潜在故障解释或指标的特征，包括用户中止的任务、资源分配失败（由于设备移动性、计算能力或能量水平）、节点崩溃、执行时间异常、数据不一致性及通信中断等。与传统的分布式系统不同，PAIR-Agent 将每个故障视为嵌入在连续时空背景中的概率事件 fᵢ，而非孤立的确定性故障。每个 fᵢ 由一个条件概率分布 P(fᵢ | xᵢ, t) 表征，其中 xᵢ 表示从归一化日志矩阵中提取的上下文特征，t 表示检查点时间窗口。这种概率建模方法使系统能够捕捉硬件、软件和环境因素对异构节点上故障发生的影响所具有的不确定性和潜在依赖关系。

为了揭示概率性故障变量之间的因果依赖关系，PAIR-Agent 使用 BNSL 构建一个随时间演化的 CFG ᶠᵃᵘˡᵗᵗ⁺¹ = (ᶠᵗ⁺¹, ℰᶠᵗ⁺¹)。在此，每个节点 vᵢ ∈ ᶠᵗ⁺¹ 表示一个随机变量，对应于从归一化特征矩阵 Xᵗ⁺¹ 中提取的特定故障或上下文特征；每条有向边 eᵢⱼ ∈ ℰᶠᵗ⁺¹ 编码一个条件依赖关系 Pᵗ⁺¹(vⱼ | Pa(vⱼ))，其中 Pa(vⱼ) 表示 vⱼ 的父节点集合。该结构在每个检查点间隔 (t, t+1) 内增量推断得出，使 PAIR-Agent 能够整合新观察到的证据 ΔDᵗ⁺¹，同时保留先前分析轮次积累的知识。这通过结合 Hill-Climbing 算法与贝叶斯狄利克雷等价评分[11]，并辅以概率正则化来处理 DCC 数据中的噪声和部分可观测性而实现。在具有强非线性或非平稳相关性的场景中，PAIR-Agent 采用变分贝叶斯学习器，自适应地精炼各检查点间的因果关系[12]。每个更新后的贝叶斯网络 ᶠᵃᵘˡᵗᵗ⁺¹ 表示给定新观测数据时，关于因果结构的后验信念，表达式为 Pᵗ⁺¹(ᶠᵃᵘˡᵗ | Dᵗ⁺¹) ∝ P(Dᵗ⁺¹ | ᶠᵃᵘˡᵗ) Pᵗ(ᶠᵃᵘˡᵗ)，其中 Pᵗ(ᶠᵃᵘˡᵗ) 编码从前几轮累积的先验结构信念。

B. 故障推断

基于贝叶斯 CFG ᶠᵃᵘˡᵗᵗ⁺¹，PAIR-Agent 通过利用网络的局部马尔可夫性质执行概率性故障推断。对于每个故障变量 fᵢ ∈ ᶠᵗ⁺¹，代理定义其马尔可夫毯 M(fᵢ) = Pa(fᵢ) ∪ Ch(fᵢ) ∪ Pa(Ch(fᵢ))，其中 Pa(fᵢ) 和 Ch(fᵢ) 分别表示 fᵢ 的父节点集和子节点集[13]。该马尔可夫毯代表了一组最小充分变量，使得 fᵢ 在给定该集合条件下，与网络其余部分条件独立。通过监测 M(fᵢ) 内的概率交互，代理计算故障激活或传播的后验概率，即：

在每个检查点间隔 (t, t+1] 内，代理利用新收集的证据 ΔDᵗ⁺¹ 持续更新这些信念。由于对于复杂分布而言，后验概率的精确计算通常是不可行的，PAIR-Agent 将自由能最小化与贝叶斯 CFG 及马尔可夫毯结构相结合，以推断近似的后验信念。它利用自由能原理（FEP）[13] 持续地将其内部模型与观测到的系统行为对齐。在每个检查点 t+1，代理通过最小化变分自由能来计算一个近似后验信念 Qᵗ⁺¹(f)，该变分自由能定义为：

其中，Qᵗ⁺¹(f) 近似表示在给定上下文特征 xᵗ⁺¹ = {xᵢᵗ⁺¹}ᵢ 的条件下，对故障 f = {fᵢ}ᵢ 的后验信念。最小化 Fᵗ⁺¹ 会更新这些信念，在模型不确定性下精炼代理的估计，并捕捉故障之间的依赖关系。

为了进一步细化故障类型归因，PAIR-Agent 将推断出的故障空间划分为与硬件相关和与软件相关的组件，即 ᶠᵗ⁺¹ = ᴴᵂᵗ⁺¹ ∪ ˢᵂᵗ⁺¹。硬件集 ᴴᵂᵗ⁺¹ 捕捉物理及底层运行指标——例如温度变化[14]、功率波动以及连接性退化——而软件集 ˢᵂᵗ⁺¹ 则代表任务失败、模型发散、资源争用以及执行时间异常。利用此分解，PAIR-Agent 执行条件边缘化以获得 Pᵗ⁺¹(fᵢ | ᴴᵂᵗ⁺¹) 和 Pᵗ⁺¹(fᵢ | ˢᵂᵗ⁺¹)，从而使代理能够区分所检测到的故障最可能源于硬件层面的扰动，还是由软件驱动的不一致性所致。重要的是，此阶段仅执行故障推断；后续步骤将基于这些推断出的故障状态处理所有决策制定与恢复操作。

C. 用于修复的主动推理

其中，P*(x) 编码了期望的上下文特征，Qᵗ⁺¹(f | aₜ) 表示在动作 aₜ 下对故障的预测后验信念，P(x | f) 是在给定故障条件下观测到上下文特征的可能性，而 Qᵗ⁺¹(x | aₜ) ≜ Σf Qᵗ⁺¹(f | aₜ) P(x | f) 是在动作 aₜ 下对未来上下文特征的预测分布。通过最小化 G(aₜ)，PAIR-Agent 选择能够引导系统趋向其期望运行状态的动作，同时明确考虑硬件层面指标（ᴴᵂᵗ⁺¹）和软件层面行为变量（ˢᵂᵗ⁺¹）中的不确定性。执行所选动作后，PAIR-Agent 观测系统产生的新状态，利用新证据更新后验故障概率 Pᵗ⁺¹(fᵢ | xᵢᵗ⁺¹)，并推进检查点 ζᵗ⁺¹ 以记录更新后的配置与信念状态。这一“感知—推断—行动—更新”的闭环周期实现了跨分析轮次的持续适应与韧性。

在修复过程中，PAIR-Agent 不仅重新分配任务，还通过自动重启、固件重载或自适应配置调优等方式执行设备层级的恢复。若此类自愈措施未能恢复系统稳定性，代理将隔离故障节点，并在连续体层级 S 上采取校正措施，包括在雾或云层间重新分配工作负载、通过冗余网络路径重新路由、管理动态负载或热管理，以及在必要时将问题升级至人工操作员进行物理干预。

IV. 理论结果与讨论

本节阐述了PAIR-Agent如何通过基于原则的概率推断和谨慎的、不确定性感知的动作选择，在分布式计算连续体（DCC）中实现韧性运行的理论基础。结果突出了四个关键特性：故障推断的局部性与可扩展性、变分后验近似的质量、代理校正动作的安全性，以及在日志缺失或延迟情况下信念更新的鲁棒性。

结果1（故障推断的局部性与可扩展性）

对于任意故障变量 fᵢ，PAIR-Agent 仅需其马尔可夫毯 M(fᵢ)（即其父节点、子节点及共亲节点）中的变量，即可更新信念 Q(fᵢ)。因此，每次故障更新所需的时间与内存开销取决于 |M(fᵢ)|，而非整个CFG中的变量总数。若平均毯子大小为 B，则在一轮内更新所有 d 个故障的成本为 O(d·B)，只要本地邻域保持较小规模，该成本在 DCC 扩展时仍可管理。这保证了图1所示流水线因设计上具备局部性而具有良好的可扩展性。

结果2（最优可能的近似后验）

在检查点 t+1，PAIR-Agent 通过最小化变分自由能 Fᵗ⁺¹(Q) 来选择 Qᵗ⁺¹(f)。由于 Fᵗ⁺¹(Q) 与 D_KL(Q(f) || Pᵗ⁺¹(f | xᵗ⁺¹)) 仅相差一个与 Q 无关的常数项（即 -ln Pᵗ⁺¹(xᵗ⁺¹)），因此更新 Qᵗ⁺¹ = arg min_{Q∈} Fᵗ⁺¹(Q) 在所选变分族内等价于最接近精确贝叶斯后验的分布。因此，给定当前的CFG与日志数据，PAIR-Agent 计算出它所能表示的最佳后验近似，从而确保了推断过程的原则性与内部一致性。

结果3（保守动作选择 [绝不比什么都不做更糟]）

假设动作集合包含一个基准“什么都不做”动作 a∅，该动作维持当前系统配置。那么，由于 PAIR-Agent 选择 aₜ* = arg min_{aₜ} G(aₜ)，所选动作的预期自由能永远不会高于 a∅。反之，当某动作被预测为能使 Q(x | a) 更接近偏好状态和/或减少不确定性时，该动作将被选中。这保证了代理不会采取其预测会偏离系统运行目标或增加模型确定性的动作。

结果4（对缺失或延迟日志的鲁棒性）

在检查点 t+1，任何故障 fᵢ 的信念更新仅依赖于其马尔可夫毯 M(fᵢ) 中的变量。因此，位于 M(fᵢ) 之外的变量的日志缺失或延迟，并不会改变更新后的信念 Qᵗ⁺¹(fᵢ)。由于 DCC 中的遥测数据常常是部分或乱序的，这一特性使 PAIR-Agent 的推断对无关数据间隙不敏感，并支持异步、可扩展的更新：只有位于小范围局部邻域 M(fᵢ) 内的日志才会影响 fᵢ 的诊断。

V. 结论

本文提出了 PAIR-Agent，作为一种实现分布式计算连续体（DCC）系统韧性的统一框架。PAIR-Agent 执行以下三项核心功能：(i) 通过对设备日志的分析构建因果故障图（CFG）；(ii) 利用马尔可夫毯与自由能原理（FEP）识别故障，并在此过程中管理不确定性；(iii) 通过主动推理自主修复问题。凭借其“观测—推断—行动”的闭环机制，PAIR-Agent 确保了系统的自适应稳定性、自愈能力与持续运行连续性，标志着向自主化、韧性化 DCC 系统迈出了重要一步。

理论结果验证了该方法的可扩展性、基于原则且精准的故障推断能力、安全的决策机制，以及对不完整遥测数据的鲁棒性。未来工作将围绕该研究展开更深入的分布式实现、实证验证，并在实时测试平台上开展系统性评估。

原文链接： https://arxiv.org/pdf/2511.07202v2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.