自然·通讯：当环境“说谎”时，智能体如何做出可靠决策？|算法|鲁棒|原理|新论文

自然·通讯：当环境“说谎”时，智能体如何做出可靠决策？

2026-01-17 14:32:28　来源: 集智俱乐部

北京举报

分享至

导语

尽管智能体在实验环境中表现亮眼，但一旦进入真实世界，只要训练条件与环境稍有不一致，就可能出现“翻车”——轻则性能下降，重则做出灾难性决策。如何让智能体在未知、变化的环境中依然稳定可靠，是实现实际部署的关键难题。

这篇论文提出了分布鲁棒自由能模型（DR-FREE），将自由能原理与分布鲁棒优化相结合，把“应对不确定性”的能力直接写进智能体的决策机制中。实验结果显示，在存在噪声和分布偏移（如高斯扰动）的环境下，DR-FREE 依然能够顺利完成任务，而多种当前主流方法却难以应对。这一工作不仅展示了智能体在现实不确定环境中的应用潜力，也为理解自然智能体如何在极少甚至没有训练的情况下适应复杂世界，提供了新的视角。

关键词：分布鲁棒自由能（Distributionally robust free energy，DR-FREE），决策制定，鲁棒性（Robustness），自主智能体（Autonomous agents），主动推理

郭瑞东丨作者

王璇丨审校

论文题目：Distributionally robust free energy principle for decision-making 论文链接：https://www.nature.com/articles/s41467-025-67348-6 发表时间：2025年12月17日论文来源：Nature Communications

智能体在面对环境扰动时缺少鲁棒性

近年来，人工智能在诸多领域取得了突破性进展，然而，即便是性能最先进的 AI 智能体，在策略鲁棒性方面仍与人类存在明显差距。人类往往能够在几乎没有、甚至完全没有训练的情况下，，在复杂和充满挑战的环境中正常行动；相比之下，AI 智能体一旦脱离训练条件，就很容易“失灵”。

造成这一差距的关键原因在于：AI 智能体学到的策略，通常高度依赖训练阶段所假设的环境模型。一旦真实环境与训练模型之间存在哪怕很小的不匹配，策略性能就可能迅速下降，甚至完全失败。例如，Atari游戏智能体假设训练期间与实际测试时环境一致，如果这个假设不成立，学习到的策略可能会失败。

这篇2025年12月17日发表在Nature Communication的论文，提出了DR-FREE模型，通过引入分布鲁棒自由能原理和相应的求解引擎，可使得训练出的智能体具有训练/环境模糊性的鲁棒性，从而在与训练数据不同的环境中仍然能高效运行。

方法核心：从自由能到分布鲁棒自由能

DR-FREE 的核心创新，建立在对经典自由能原理（Free Energy Principle）的扩展之上。经典自由能原理认为，智能体中的自适应行为源于变分自由能的最小化，其中智能体基于其可用环境模型通过最小化自由能获得策略。然而，这一框架隐含了一个强假设——智能体的内部模型与真实环境是匹配的。在现实场景中，这一假设往往并不成立。DR-FREE 正是针对这一问题，对自由能原理进行了分布鲁棒化扩展。

而DR-FREE中，自由能不再只针对单一的训练模型进行最小化，而是在一个围绕训练模型的“模糊性集合”中进行优化。这一集合刻画了训练模型周围所有“可能但不完全可信”的环境，其大小由模型的统计复杂性所决定。智能体需要在这些可能环境中，找到在最坏情况下依然表现稳健的策略。

图1：传统方法和DR-FREE的对比。图1a描绘了传统智能体的决策流程框架。智能体在随机环境中导航，目标是到达目的地同时避开障碍物。在特定时间步k-1，智能体基于其对环境的模型以及观察结果/信念（统称为状态Xk−1）来确定动作。图1b揭示了训练模型与智能体实际环境之间存在的不匹配问题，这种不匹配被定义为训练/环境模糊性。图1c展示了经典自由能最小化智能体的工作原理。在不考虑训练/环境模糊性的场景中，智能体所处的环境与其内部模型完全匹配，智能体通过从最优策略中采样来确定策略。与之对比的图1d描述了DR-FREE的分布鲁棒自由能原理。该方法将经典自由能原理扩展以考虑模型模糊性，通过在所有环境（属于模糊性集合）上最小化最大自由能来识别鲁棒策略。

图2：DR-FREE的求解引擎。图2a为DR-FREE原理的数学表述，其优化的目标函数分为统计复杂性项与期望损失项，这样设计的目标函数，使之能够在无限维概率空间中进行贝叶斯最优的不确定性和模糊性处理。图2b详细阐述了DR-FREE通过双层优化方法，用于计算DR-FREE原理导出策略的求解方法。在给定当前状态xk−1，求解引擎首先使用生成模型和损失函数，在所有模糊性集合中的可能环境上计算最大自由能，在获得模糊性成本后，引擎在策略空间中最小化变分自由能，产生最优策略和成本函数。图2c揭示了DR-FREE策略的具体生成机制和函数形式，展示了如何从数学原理转化为可执行的决策规则。其中策略中的指数核包含三个关键成本组分，分别是动作成本：，直接惩罚不同动作的代价；模糊性半径ηk(xk−1,uk），量化对训练模型置信度的缺乏；模糊性成本：c(xk−1,uk），表示跨所有可能环境的最大自由能。

DR-FREE求解引擎的核心突破在于将原本的无限维自由能最大化问题转化为标量凸优化问题，这使得算法可通过现有工具求解。

实验验证：从机器人导航到复杂环境测试

研究团队在涉及真实机器人的实验测试平台上评估了DR-FREE（图3a展示了实验的物理平台和智能体配置），这些机器人被训练要求在避免障碍物的同时到达期望目的地的任务。为了验证DR-FREE在测试与训练数据不一致时的鲁棒性，可用的训练模型是从有偏实验数据中学习得到的，这些数据没有充分捕捉真实环境并引入了模糊性。图3b对应导航任务中设计的非凸状态奖励函数。

图3.DR-FREE在导航场景下的表现。

实验表明，在模型存在显著偏差的挑战下，DR-FREE 是唯一能可靠完成导航任务的智能体，而忽视模糊性的传统方法则普遍失败（图3c）。这一优势在真实机器人平台上得到了直观验证（图3d）。

研究进一步揭示，DR-FREE 的决策逻辑具有可解释的权衡机制：模糊性半径如同一个“保守度”调节旋钮。当模型可信时，策略会平衡目标与风险；当模型不确定时，策略则优先规避认知风险，甚至可能忽略物理障碍（图3e）。

此外，DR-FREE 的数学形式还支持从行为反推其决策逻辑，能够根据观测数据重建出智能体内在遵循的代价函数（图3f），这为理解和解释智能体行为提供了新工具。”

“所有模型都是错误的，但有些是有用的。”DR-FREE 正是对这一观点的直接回应。通过放松对训练阶段精确建模的依赖，DR-FREE 使原本因偏差而“不可用”的模型重新具备决策价值。进一步地，将DR-FREE与深度强化学习相结合，可在多智能体架构中引入更鲁棒的异构智能体。凭借鲁棒自由能最小化原理和求解引擎，DR-FREE的框架让智能体可以从因为环境改变或观测带有误差而表现较差的模型中恢复鲁棒策略。

总结与未来方向

总体来看，DR-FREE支持贝叶斯信念更新，随着模糊性增加，DR-FREE会降低了智能体可用模型在模糊性上的权重。其提供的策略，不止适用于人工智能体，也可能被自然选择挑中用于生命应对异变且观测模糊的环境，理论细菌可以在未知环境中导航，这种对生存至关重要的能力可在几乎没有训练的情况下实现的。考虑到模糊性是跨心理学、经济学和神经科学等领域的关键主题，DR-FREE可能为生物学上合理的神经解释奠定基础，解释自然智能体如何在没有或几乎没有训练的情况下在挑战性环境中鲁棒地运行。

自由能原理与强化学习读书会

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，从而对人工智能，特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「」，希望探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不同领域背后蕴含的感知和行动的统一原理。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.