主动推理对具身智能体进行贝叶斯推理|算法|变分|新论文|神经网络

分享至

大脑:通过主动推理对移动网络中的代理智能和体现智能进行贝叶斯推理

BRAIN: Bayesian Reasoning via Active Inference for Agentic an Embodied Intelligence in Mobile Networks

https://arxiv.org/pdf/2602.14033

摘要

未来的第六代（6G）移动网络将需要这样的人工智能（AI）智能体：它们不仅具备自主性与高效性，还能够在动态环境中实现实时适应，并在决策过程中保持透明性。然而，当前网络领域中主流的智能体人工智能方法在这方面仍存在显著不足。传统的基于深度强化学习（DRL）的智能体缺乏可解释性，且往往表现出脆弱的适应能力，包括在非平稳条件下对已有知识的灾难性遗忘。在本文中，我们针对上述挑战提出了一种替代性解决方案：通过主动推理（Active Inference）实现贝叶斯推理的 BRAIN 智能体（Bayesian Reasoning via Active Inference Agent）。BRAIN 利用对网络环境的深度生成模型，并通过最小化变分自由能，在单一的闭环范式中统一感知与行动。我们将 BRAIN 实现为 O-RAN 扩展应用（xApp），部署于 GPU 加速测试平台，并验证了其相较于标准 DRL 基线方法的优势。实验结果表明，BRAIN 展现出：（i）针对动态无线资源分配的稳健因果推理能力，能够在变化的流量负载下维持网络切片特定的服务质量（QoS）目标（吞吐量、时延、可靠性）；（ii）卓越的适应能力，相较于基准方法，对突发流量变化的鲁棒性提升高达 28.3%（且无需任何重新训练）；（iii）通过人类可理解的信念状态诊断，实现其决策过程的实时可解释性。

索引术语——主动推理，具身人工智能（Embodied-AI），移动网络，可信赖性，6G。

I、引言

近年来，人工智能（AI）取得了显著进展，从利用强化学习（RL）掌握复杂游戏与控制任务，到借助大语言模型（LLM）与生成式人工智能（Generative AI）产出类人内容。然而，这些成就在很大程度上仍是"去具身化"（disembodied）的：模型运行于仿真环境或数据驱动的领域之中，缺乏直接的物理根基。例如，大语言模型擅长从静态数据集中进行模式识别与内容生成，却无法与动态变化的环境进行交互。类似地，深度强化学习（DRL）智能体通常在精心设计的仿真环境中训练，依赖固定的奖励函数，一旦面对训练分布之外的真实世界动态，往往难以有效应对。本质上，当今的人工智能系统尚不具备具身智能体所特有的整体性、自适应智能——即能够在真实世界中持续地感知、行动与学习的能力 [1]。

这一差距在新兴的第六代（6G）及未来网络的背景下变得尤为关键 [2]。这些未来网络预计将连接数百亿台设备，并支持具有严格性能需求的前所未有的服务，这就需要原生 AI 设计原则，将学习和控制智能紧密集成到基础设施中 [2, 3]。无线环境本质上是复杂且非平稳的：信道条件、用户移动性和流量模式不断波动 [4]。此外，6G 必须满足不同用例中多样化的服务质量（QoS）/体验质量（QoE）要求 [5]。然而，迄今为止大多数“启用 AI"的网络解决方案只是将现成的深度学习模型（例如卷积网络 [6] 或深度自动编码器 [7]）应用于特定任务，而没有从根本上重新思考网络的认知架构 [8]。虽然这些模型可以从历史数据中学习映射关系，但当网络条件偏离训练集时，它们往往无法泛化。强化学习（RL）通过使 AI 能够通过与环境的直接交互进行学习，引入了一定程度的代理性 [9]。确实，基于深度强化学习（DRL）的实现已在无线领域展现出前景，解决了从动态频谱分配和功率控制到切换优化和端到端网络切片等问题 [10–12]。然而，传统的 DRL 解决方案存在两个主要缺点，限制了它们作为自主 6G 网络“大脑”的适用性。首先，DRL 策略通常由深度神经网络实现，这些网络充当不透明的黑盒 [13]。其次，标准 DRL 对变化条件的适应能力非常有限 [14]。一旦 DRL 智能体针对给定环境或流量场景进行了训练，它往往会对这些条件过拟合。神经策略容易发生灾难性遗忘：当在新数据上学习或微调时，它们会覆盖先前学到的行为 [4]。图 1 说明了网络切片场景中的这一挑战：基线 DRL 智能体一旦适应了超可靠低延迟通信（URLLC）切片，就会迅速“忘记”如何服务增强移动宽带（eMBB）切片，反之亦然，这就需要针对先前条件的每次重现进行昂贵的重新学习。

这些局限性表明需要从根本上重新构想网络 AI。越来越多的共识认为，下一代网络应纳入更高级的认知能力；集成记忆、感知和推理元素，而不是仅仅依赖低级模式识别 [8, 15]。本质上，此类系统中的 AI 智能体不再仅仅是离线模型，而是物理网络环境中的积极参与者。这种智能体愿景自然地将主动推理引为网络智能更有希望的下一步。主动推理被描述为实现此类具身 AI 的理想框架，因为它仿生地模拟了自然智能系统如何通过基于自由能原理的行动 - 感知循环进行学习和适应 [16]。主动推理最初开发于认知神经科学领域 [17]，提供了基于贝叶斯推理的感知、学习和行动的统一理论。与传统 RL 相比，主动推理智能体不依赖手工制作的奖励信号；相反，它维护其环境和期望结果的内部生成模型。智能体不断更新其关于世界隐藏状态的信念（感知），并通过最小化变分自由能来选择行动以实现其目标；变分自由能是智能体期望与其观察之间预测误差或“惊喜”的度量。本质上，智能体试图预测应该发生什么（给定其模型和目标），然后采取行动使现实与这些期望保持一致，从而减少惊喜。

在本文中，我们在 AI-RAN 测试床上引入了一种用于移动网络资源管理的可解释深度主动推理智能体。本工作是当前正在审查的一篇研讨会论文的详细和扩展版本。除了原始核心概念外，我们 i) 通过额外的高级智能体基线和详细的消融实验拓宽了实验深度，ii) 在所有智能体上添加了受控的非平稳性压力测试以量化鲁棒性和恢复能力，以及 iii) 包含策略熵分析以使 DRL 和主动推理之间的探索 - 利用动态具有可比性，同时扩展了章节和讨论。我们将我们的框架称为 BRAIN（通过主动推理进行贝叶斯推理），将其设想为原生 AI RAN 控制器的“电信大脑”。图 2 对比了传统 DRL 智能体的范式与我们提出的 BRAIN 智能体的范式。BRAIN 架构采用深度生成主动推理模型来设计潜在网络状态（例如拥塞水平、信道条件、用户移动性）与观察到的性能指标之间的关系，同时将期望结果（例如切片特定的 QoS 目标）编码为先验信念。在每个控制间隔，智能体通过最小化变分自由能执行主动推理：它推断最可能的当前网络状态（感知步骤），然后计算最优资源分配动作（动作步骤），这将推动网络的预测性能更接近目标（即纠正预期结果与期望结果之间的偏差）。这种推理和行动的循环有效地允许 BRAIN 同时执行在线学习和控制。与每当环境变化就需要重新训练的 DRL 智能体不同，BRAIN 随着新观察的到来实时连续更新其信念，赋予其一种优雅处理分布偏移的终身学习形式。此外，由于我们智能体的内部计算围绕概率信念和自由能贡献展开，我们可以利用这些中间结果来理解和解释其行为。我们研究的核心成果总结为新的贡献（"C"）和新的发现（"F"），如下所示：

C1. 我们引入了 BRAIN，这是 O-RAN 中首个用于 AI-RAN 闭环 RAN 切片的深度主动推理智能体。 C2. 我们设计了内在可解释的 BRAIN 智能体，通过暴露潜在切片条件的后验信念和期望自由能（EFE）分解，根据目标一致性（外在）和不确定性减少（认知）来证明每个动作的合理性。 F1. 在动态切片实验中，BRAIN 展示了对非平稳条件的持续适应能力。BRAIN 在动态负载下更可靠地维持异构切片意图。 F2. 与黑盒 DRL 不同，BRAIN 暴露了可解释的内部变量，能够为资源分配决策提供因果的和可审计的解释。

II、相关工作

本节将 BRAIN 置于支撑移动网络中智能体智能的三个互补研究脉络之中。首先，我们回顾强化学习（RL）/深度强化学习（DRL）如何被应用于网络控制与编排，特别是在开放无线接入网（O-RAN）和网络切片领域，作为当前实践中占主导地位的智能体范式。其次，我们总结无线人工智能中的可解释性研究工作，包括可解释人工智能（XAI）和新兴的可解释强化学习（XRL）方法，着重指出可解释性通常是以事后（post hoc）方式引入，而非决策过程的内在组成部分。第三，我们讨论主动推理作为一种具身智能框架，它通过概率生成建模与变分推断统一感知与行动，并指出迄今为止在通信系统中部署具备面向运营商解释能力的深度主动推理的实证证据仍然有限。综合这些研究工作，可以明确我们方法所针对的方法论缺口：一种内在可解释、持续自适应的智能体，用于实时移动网络控制。

移动网络中的强化学习。强化学习以及深度强化学习模型已被越来越多地应用于无线网络中的动态资源管理与控制任务。Liu 等人 [11] 提出了 OnSlicing，一个用于跨 RAN、传输、核心网与边缘域端到端网络切片的在线 DRL 框架。ORANSlice [12] 是一个面向 O-RAN 生态系统的开源模块化 5G 网络切片平台，它在灵活框架内集成了切片生命周期管理、资源编排、监控与分析功能。虽然 RL 策略可以带来显著的效率提升，但其不透明性——通常表现为"黑盒"神经网络——阻碍了理解与调试，限制了实际部署。因此，近期研究开始探索 XRL 方法论，通过显式阐明策略决策与学习行为来提升透明度。

移动网络中的可解释人工智能。为克服透明度问题，研究人员已将可解释人工智能（XAI）技术 [18, 19] 引入移动网络领域 [20]。近年来，多项工作探索使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）来解释无线网络任务中的复杂模型 [23–25]。尽管有用，但此类通用 XAI 方法已被证明不足以满足移动网络的需求：它们仅提供表层洞察，且往往难以应对网络数据的时间性与高维特性。认识到这些缺口，部分研究已开始针对无线通信领域探索特定领域的 XAI 与内在可解释模型。研究人员为网络流量模型引入了定制的时间序列解释器，用于追踪特征重要性随时间的演变，并识别导致误差的异常模式 [26, 27]。总体而言，这些努力强调：无线人工智能中的可解释性可能需要专家驱动的设计，以满足网络运营对可靠性与洞察力的需求。值得注意的是，XRL 在其他领域（如机器人与自主系统）也逐渐受到关注，旨在从 RL 智能体中提取人类可理解的策略。然而，在无线网络文献中，可解释 RL 或 DRL 迄今仍鲜有探索。一个值得注意的方法是 SYMBXRL [28]，它在黑盒 DRL 模型之上引入了符号解释层。在该框架中，符号表示生成器将数值型状态与动作变量转换为离散的一阶逻辑谓词。相比之下，我们提出的框架采用了一种根本不同的范式：将可解释性直接嵌入智能体的生成与推理过程之中。因此，仍然存在对新方法的显著需求，以解释并论证不同学习智能体行为的合理性。

主动推理。近年来，主动推理已被应用于工程领域，在不确定性下的状态估计、规划与控制方面展现出潜力 [29]。这些早期研究表明，主动推理可以作为一种灵活、受生物启发的序列决策方法，区别于强化学习 [30]。需要注意的是，用于未知环境中自适应决策的 RL 形式化方法可被主动推理所涵盖。研究人员已将主动推理应用于机器人控制任务，其中智能体的生成模型使其能够处理模糊的感官输入，同时仍能追求目标导向的行为 [31, 32]。主动推理一个引人关注的方面是其内置可解释性的潜力，尽管这一方面尚未得到具体验证 [16, 33]。

III、智能体 AI 设计的问题建模

A. 强化学习

B. 主动推理

主动推理是一种源于认知神经科学的新型决策范式，它提供了一种在不确定性下行动与感知的统一方法 [34]。不同于纯粹从外部奖励反馈中学习策略，主动推理智能体利用其环境的内部生成模型，并采取行动以最小化其观测值的“惊喜”（即预测误差）。在我们的场景中，这意味着智能体（即我们的 BRAIN xApp）被设计为具备关于 RAN 切片系统的先验期望；例如，URLLC 切片的缓冲区应保持低位（以表示低延迟），而 eMBB 切片的吞吐量应保持高位。随后，智能体持续调整其动作，使观测到的切片性能与这些内部期望保持一致，从而减少相对于期望行为的意外偏差。在数学上，主动推理将闭环控制问题表述为变分推断过程。智能体具备 RAN 环境的概率生成模型，并将真实网络状态视为待推断的潜在（隐藏）变量。我们可以通过联合分布，在时间范围 T T上形式化该生成模型：

总之，我们基于主动推理的控制器持续更新其对无线接入网切片的内在模型，并选择能够最小化预期自由能的资源控制动作。这形成了一种闭环行为，其中智能体通过确保切片性能达到目标要求，力求使其观测结果不产生意外。值得注意的是，该框架自然地处理了部分可观测性问题（将真实的网络状况视为待推断的潜在变量），并通过内置的偏好编码来适应多个切片目标（每个切片的服务质量目标在智能体模型中体现为首选结果）。其成果是一种有原则的控制策略，与标准强化学习不同，该策略不需要为每个场景定义外部奖励函数，而是源于智能体最小化预测误差和维护其建模服务目标的内在驱动力。

IV、可解释深度主动推理设计

A. 生成模型设计

B. 基于自由能最小化的变分推断与策略选择

C. 作为期望自由能最小化的动作选择

D. 决策的内省可解释性

在每个时间步 t ，BRAIN 智能体维护关于潜在切片状态的后验信念分布（例如，每个切片的当前需求水平或可靠性）。我们将此信念表示为：

V、实验设计

A. GPU 加速的 AI-RAN 测试床

我们部署了一个私有 5G 测试床（见图 3），其特点是基于 NVIDIA Aerial Research Cloud (ARC) 平台 [36, 37] 和 Aerial SDK [38] 构建的 GPU 加速 O-RAN 架构。在我们的设置中，gNB 的协议栈被拆分为运行在 NVIDIA GPU 上的 O-DU Low（Layer-1 PHY，即物理层）和运行在配备 OpenAirInterface (OAI) [39] 的 x86 CPU 上的 O-DU High/CU（高层协议）。这两部分通过小基站论坛（Small Cell Forum）的 FAPI 接口进行通信，使得物理层 DSP 任务能够在 GPU 上进行内联加速，同时为 MAC/RLC/PDCP/RRC 层保持标准的 OAI 软件栈。在 n78 TDD 频段（中频段 FR1）运行的富士康 O-RU [40] 提供射频前端，通过标准的 O-RAN 7.2 前传接口连接。该 O-RU 在 TDD 模式下支持 100 MHz 信道带宽（30 kHz 子载波间隔下的 273 个 PRB），其 TDD 模式根据 3GPP Release 15 规范配置（例如，DDDSU 时隙）。该测试床配备了商用和软件化 UE（用户设备）以生成多切片流量。具体而言，我们使用一款 COTS（商用现成）5G UE（Sierra Wireless EM9191 调制解调器模块）和一个基于 OAI 的软件 UE（nrUE）作为两个终端设备。

Sierra Wireless EM9191 提供了真正的 5G NR 用户设备，通过空中接口（over-the-air）连接到 gNB。OAI nrUE 是一个软件 UE 协议栈（也在配备 SDR 前端的服务器上运行），它仿真第二个 5G UE，允许对其流量和切片配置进行细粒度控制。两个 UE 都支持并发建立多个 PDU 会话，我们将这些会话映射到不同的网络切片（如下所述）。

B. 用例：智能编排

我们考虑一个多切片 RAN 场景，其中智能 xApp 作为自主智能体部署，用于闭环切片资源编排。O-RAN 近实时 RIC（Near-RT RIC）承载我们的 BRAIN xApp，该 xApp 观察网络状态并动态控制服务于多个切片的 gNB。在我们的设置中，单个 100 MHz 小区（一个 O-RU/gNB）为两个用户设备（UE）提供三种切片类型的服务；eMBB、URLLC 和海量 mMTC 各自具有不同的 QoS 要求（eMBB 需要高吞吐量，URLLC 需要低延迟，mMTC 需要高可靠性）。gNB 的 MAC 层具备切片感知能力，为每个切片维护独立的缓冲区和调度器队列，而各个 UE 为其相应切片生成流量（例如，一个 UE 通过独立的 PDU 会话在 eMBB 上承载视频流、在 URLLC 上承载实时控制流，而另一个则在 mMTC 上承载间歇性的物联网遥测数据）。这为 xApp 智能体进行智能编排构成了一个丰富的环境。

BRAIN xApp 通过 O-RAN E2 接口持续监控切片性能。一个轻量级的 KPM 监控 xApp 流式传输实时遥测数据 [41]，例如切片特定的下行吞吐量、缓冲区占用率（队列长度）和下行传输块计数，并将其送入 RIC 的数据层（使用标准 O-RAN KPM 服务模型）。这些指标在先前工作 [42] 中已被证明能有效捕捉切片流量需求与 QoS 状况，构成了我们智能体所观测的状态 s s。在每个控制间隔（量级为数十毫秒），BRAIN 计算一个动作 a a 以调整 RAN 切片策略。动作空间包括调整每个切片的物理资源块（PRB）分配比例（在 eMBB/URLLC/mMTC 之间划分小区带宽）以及为每个切片选择调度算法（例如比例公平、轮询或加权公平队列）。这些指令通过 O-RAN E2 控制消息（使用符合 O-RAN 规范的自定义控制服务模型）下发至 gNB，从而闭合控制环路。在此智能体部署中，xApp 自主地实时调整网络参数以满足切片服务等级目标（SLO）。

切片特定的 QoS 优先级被编码到智能体的奖励（或效用）函数中以驱动其行为。在我们的设计中，eMBB 切片以吞吐量为导向（智能体对高 eMBB 数据速率给予奖励），URLLC 切片对延迟敏感（智能体对较大的 URLLC 缓冲区占用率施加惩罚以最小化排队延迟），而 mMTC 切片以可靠性为重点（智能体对成功传输 mMTC 传输块给予奖励，这与间歇性物联网流量的可靠覆盖相关）。在这些目标的引导下，BRAIN xApp 例如可以在拥塞期间为 URLLC 分配额外的 PRB 以迅速清空其队列，或者当间歇性上行数据包到达时将 mMTC 切片的调度器切换至更具机会性的模式。来自监控 xApp 的持续更新的 KPM 状态使 BRAIN 能够验证切片性能指标是否得到满足，并在未满足时快速做出反应。

C. 基线智能体与训练方法论

调优基线智能体。 为了评估我们的 BRAIN 智能体，我们将它与一套更广泛的基线智能体进行比较，包括学习到的策略和启发式调度器。具体而言，我们实现了：❶ 调优启发式算法（Tuned Heuristic），它在切片之间静态划分 PRB（根据固定的优先级权重）并使用加权轮询调度器（一种非学习基线）；❷ 用于切片控制的深度 Q 网络（DQN）智能体 [43]；❸ 优势演员 - 评论家（A2C）智能体 [44]；❹ 基础策略梯度智能体（REINFORCE [45]）；❺ 近端策略优化（PPO）智能体 [46]；以及 ❻ 软演员 - 评论家（SAC）智能体 [47]。所有基于学习的 xApp 观测相同的状态（切片 KPM 指标）并产生相同类型的动作（PRB 分配和调度器选择），如同 BRAIN 一样，以确保公平比较。为了公平起见，我们还赋予每个 RL 智能体一个可比的模型架构（一个 5 层全连接神经网络，每层约 30 个神经元）并相应地调整其超参数（见表 I）。特别是，所有智能体都使用折扣因子 γ = 0.99 和量级为的学习率，其中在线策略方法（A2C, REINFORCE, PPO）依赖于新鲜的轨迹展开（trajectory rollouts），而离线策略方法（DQN, SAC）利用经验回放缓冲区。所有自定义智能体均使用 PyTorch 实现并作为容器化 xApp 部署，使其与 O-RAN 近实时 RIC 平台兼容。我们通过以在线学习的方式直接与我们的 RAN 测试床交互来训练每个智能体（智能体 xApp 在接收新观测值和奖励时持续更新其策略）。为了确保评估公平，每个学习智能体都训练相同数量的时间步（量级为次环境交互，这相当于在 20 ms 控制间隔下数小时的网络时间）。我们在多个随机种子下重复每次训练实验（例如，每个智能体 5 次独立运行），并报告带有 95% 置信区间的平均性能，以解释随机变异性。我们比较了训练迭代次数和实际挂钟时间（wall-clock time）两方面的收敛速度，因为像 PPO 这样的在线策略方法需要更多的交互但每步计算量较少，而像 SAC 这样的离线策略方法可以从较少的交互中学习，但代价是更密集的更新。

训练。 为了用一个共同的标量来表征所有控制器的探索 - 利用行为，我们报告训练期间的策略熵。对于每个回合（episode），我们计算用于在每个时间步生成决策的动作选择分布的香农熵，并在整个回合中对其进行平均：

VI、评估

分析智能智能体的性能。 图 4 总结了 BRAIN 智能体与调优启发式基线以及各种深度强化学习（DRL）智能体（A2C、PPO、DQN、SAC、REINFORCE）在 AI-RAN 测试床中的训练性能。在图 4a 中，BRAIN 智能体的奖励曲线陡峭上升，在远少于所有基线（包括调优启发式算法）的回合数内收敛，并达到了更高的渐近奖励值。这表明 BRAIN 以显著更高的样本效率学习到了有效的策略；即从有限的交互中提取了更多的累积奖励。相比之下，DRL 智能体表现出较慢的奖励增长和较低的平稳期，反映了无模型强化学习（model-free RL）典型的繁重试错搜索特征。更快的奖励收敛意味着 BRAIN 能够以远少于 DRL 基准的训练数据获得近优控制决策——这在现实网络中是一个关键优势，因为在现实网络中每个训练回合（例如，一段次优决策的时隙）都具有切实的成本。图 4b 绘制了平均训练损失，BRAIN 再次脱颖而出，在整个训练过程中呈现出明显更低且更稳定的损失轨迹。BRAIN 智能体的损失保持在比深度强化学习智能体低近一个数量级的水平，且显示出极小的振荡。这种稳定性表明 BRAIN 的学习更新表现稳健，防止了通常困扰 DRL 训练的大幅梯度摆动或发散问题。相比之下，RL 基线（尤其是像 DQN 或 REINFORCE 这样波动较大的算法）表现出较高的损失值和明显的波动，表明学习过程较不稳定。RL 中的这种不稳定性可能源于算法难以适应 RAN 的非平稳动态：当环境的“规则”（例如，用户负载、信道条件）持续变化时，传统的 RL 智能体难以复用先验知识，可能需要反复重新学习。图 4 展示了随时间变化的策略熵，揭示了每个智能体的探索 - 利用平衡。BRAIN 的熵值起始较高（鼓励探索），随后随着训练的进行逐渐下降。重要的是，它从未坍缩至零；相反，BRAIN 的熵逐渐收敛至适中水平，表明这是一种受控的探索策略。这种稳定的熵减表明 BRAIN 在早期系统性地探索动作空间，然后在收敛时自信地利用其学习到的策略，且在此过程中并未过早地丧失其决策的多样性。

切片性能。 图 7 报告了三个异构切片的 KPM 逐切片经验累积分布函数（CDF），这些数据是在 AI-RAN 测试床上测量的，所有智能体使用相同的状态/动作接口。使用 CDF（而不仅仅是均值）很重要，因为它揭示了尾部行为和可靠性：CDF 右移表明智能体更频繁地实现更大的 KPM 值（“更好 →”），而更陡峭的 CDF 表明变异性降低（运行更具可预测性）。图 7a 显示，与所有 DRL 基线和调优启发式算法相比，BRAIN 产生了最有利的吞吐量分布，表明其在几乎所有运行范围内都实现了更高的吞吐量。定性来看，BRAIN 不仅提高了中位吞吐量，还改善了上分位数，这表明智能体学习到的切片策略即使在满足更严格的 URLLC/mMTC 要求的同时，也能保持 eMBB 容量。相比之下，基线算法表现出以下情况之一：i) 中位数较低，或 ii) 离散度较大，这意味着在相同的流量混合和控制预算下，eMBB 服务的一致性较差。图 7b 报告了 URLLC PRB 比率（即通过切片和调度决策有效分配/可供 URLLC 使用的物理资源比例）的分布。较高的 URLLC PRB 比率 CDF 反映了对 URLLC 更强的资源保护，这与在拥塞情况下满足延迟敏感型目标是一致的。BRAIN 表现出最右移的曲线，表明它在需要时能更可靠地分配/维持更高的 URLLC 资源份额。这种行为与具身主动推理设计相一致：当信念表明队列压力上升时，智能体的动作后验（通过 EFE 形成）自然会提高对 URLLC 保护性动作的精度，而不是依赖脆弱的奖励塑形或间歇性的重新训练。几个 DRL 基线（特别是 REINFORCE 和调优启发式算法）在较低的 PRB 比率处显示出明显更多的质量分布，这通常对应于 URLLC 配置不足的时期，因此更容易受到队列堆积和延迟违规的影响。图 7c 比较了 mMTC 切片交付的下行 PHY TB（传输块）分布，我们在设置中将其用作面向可靠性的代理指标（成功的 TB 交付反映了对间歇性物联网/遥测流量的持续服务）。与 DRL 基线相比，BRAIN 在 TB 分布方面提供了适度但一致的改进，表明在不牺牲 eMBB 吞吐量或 URLLC 保护的情况下提高了可靠性。重要的是，低性能尾部得到了减少：BRAIN 产生的“近乎饥饿”间隔（极低的 TB 速率）更少，这对于 mMTC 至关重要，因为间歇性突发流量仍必须得到可预测的交付。

除了平均奖励外，我们还评估了控制器在分布偏移下是否能维持切片特定的服务保障。具体来说，我们测量了每个智能体在受控非平稳事件发生前后，将所有切片保持在 QoS 目标内的可靠性。在图 8 中，在非平稳事件发生之前，BRAIN 实现了最高的全切片 QoS 满意度，表明它在标称状态下最一致地将所有切片约束保持在目标范围内。在处，由于流量激增，所有基于学习的智能体都表现出 QoS Sat( t ) 的急剧下降；然而，BRAIN 表现出最小的退化以及向偏移前水平最快的恢复。相比之下，DRL 基线在偏移后遭受了更大的下降且恢复较慢，稳定在较低的 QoS 满意度水平；这与分布偏移下适应性降低和部分遗忘相一致。调优启发式算法在整个过程中基本保持平坦且远低于学习到的智能体，证实了静态切片策略无法对突发的机制变化做出反应。

VII、结论

本工作表明，深度主动推理不仅概念上契合移动网络中智能体与具身智能的需求，而且在实际的开放 AI-RAN 栈上也是一种可行的控制范式。我们提出了 BRAIN 作为一种 xApp，它通过两个紧密耦合的操作闭合了网络行动 - 感知环路：（i）基于流式 KPM 数据对潜在切片条件进行贝叶斯信念更新，以及（ii）通过最小化期望自由能来选择资源分配动作，以同时满足切片意图并减少不确定性。在配备异构切片的 GPU 加速 AI-RAN 测试床上，BRAIN 取得了三项具体成果。首先，相较于调优启发式算法和广泛的 DRL 基线，它实现了更强的切片性能。其次，它在非平稳条件下提供了鲁棒的适应能力：当流量分布突然变化时，BRAIN 表现出最小的 QoS 满意度退化以及最快的恢复速度，且无需重新训练。第三，它在运行时提供了面向运营商的可解释性。除了实证优势外，更广泛的启示在于：主动推理通过将决策建立在原则性的贝叶斯信念更新而非奖励工程之上，实现了真正意义上的智能体化、具身化控制。

对于未来工作，有前景的方向包括将该框架扩展到 O-RAN 中分层、多时间尺度的主动推理，其中近实时 xApp 在结构化生成模型的支持下，在非实时意图与策略协调的框架下运行。另一个重要的研究方向是扩展到多小区与多智能体部署，实现在干扰与移动性耦合条件下的 xApp 间协调，并研究在真实遥测与前传约束下的分布式信念共享机制。

原文链接：https://arxiv.org/pdf/2602.14033

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.