世界模型让智能体预知未来？这篇新范式研究给了一个反直觉的答案|调用|推理

分享至

本文主要由伊利诺伊大学香槟分校的钱成博士牵头合作完成。钱成目前为二年级博士生，其主要研究方向为大模型驱动智能体，包括智能体推理，交互以及物理智能等。导师为季姮教授。

2025 年是 Agent（智能体）技术落地元年，而如今到了 2026年，World Model（世界模型）也随之有了更广泛的技术突破。我们一边拥抱着五花八门的智能体应用给生活带来切实的便利，另一方面，我们也在加强世界模型的可信度与真实性，希望着它们在未来能够赋能智能体，让智能体能够真正像人类辨别物理空间，思考物理规律，从而更加高效且精准的做出推理与决策。

这二者的相继爆火并非偶然。如果从更本质的视角来看待世界模型和智能体的关系，便会发现：世界模型的本质在于接收当下对于环境的动作或扰动，在物理规律或环境限制的调控下，进而预测下一步的环境状态；而智能体则是根据当前环境状态，在任务目标的调控下，输出下一步应该做出的反应或动作。

从这个角度看，世界模型和智能体其实是一个天生互补的闭环，而这也正是世界模型能够理论上赋能智能体决策的基础。

从智能体的角度来看，世界模型对其的赋能叫做 Foresight（前瞻）。世界模型能够在智能体并没有做出任何动作前便模拟出可能的后果，就像人类会「脑补」假如做了某件事之后可能会产生的影响，从而避免危害，提高效率，更加理性的在当下进行决策。只不过，人类更像是智能体和世界模型的结合体，因为既拥有前瞻能力，也是任务的执行者。

但是当下智能体和世界模型往往是按照两个完全不同的范式分开训练，那么便再换一种更加简单的思路：从智能体的角度，如果世界模型就是用来提供前瞻性的工具或第三方模块，那么后者在当下能够成功赋能智能体决策吗？

来自伊利诺伊大学香槟分校、清华大学、约翰霍普金斯大学以及哥伦比亚大学的研究人员在反复试验后，却得出来一个与我们的直觉有点相反的结论：大多数当下智能体并不能稳定、有效地把世界模型当作前瞻工具。

这个工作也点出了在当下智能体与世界模型交接之年热潮背后真正的瓶颈：如果真的希望世界模型能够有效赋能智能体，我们不仅需要智能体更强的执行能力或是世界模型更真实的模拟能力，同时也需要二者更好的磨合和适配，即智能体需要知道这个前瞻能力怎么用、何时用，才能更好地把推演融入到其多步决策的闭环中。这项能力在文章中被称作 Foresight Governance（前瞻治理）。

论文地址：https://arxiv.org/pdf/2601.03905

将世界模型的前瞻「工具化」

对于智能体而言，万物皆是达成目标的工具：互联网，数据库，甚至是人类，其实都可以看作是智能体为了达到目标的工具箱。

例如智能体向用户反问了一个澄清性质的问题，这时「向用户澄清」，或者说「向用户索要额外信息」便也可以看作是其为了达成目的的手段或工具之一。这一论断在 MCP 以及 Skill 兴起后更是如此，因为技能其实就是工具的抽象化，而统一接口后，智能体通过 MCP 对于外部的所有认知都可以看作是技能化，工具化的。

那么，从智能体的角度，它将怎么看待世界模型呢？答案呼之欲出，那便是将世界模型也看作一种能够提供前瞻性的工具。基于这个思路，文章作者首先构建了一套以智能体为核心，将世界模型「工具化」的研究范式。

图 1: 在世界模型「工具化」的范式下，智能体在每一步执行前能够自行选择是否调用世界模型进行前瞻

在这套范式中，智能体不仅能够调用传统意义上的工具来执行和解决问题（例如不同 API 接口），同时其也可以在进行每一步行动前，都自行选择是否调用是世界模型来对动作影响进行前瞻。

例如在上图的例子中，把智能体放置于一个密室逃脱的具身环境中，智能体便可以选择调用模拟器对铁栅拉拽的动作后果进行前瞻和评估，从而更高效的找到真正的逃脱出口。

任务与测试模式拆解

作者在文章中主要探索了两类任务，其中每一类，世界模型都能「理论上」辅助智能体更好的进行决策和规划：

智能体任务（Agentic Task）：这类任务通常把智能体放置于一个模拟环境中，其需要主动进行多部推理来达成任务目标，例如推箱子，物品拾取，定向寻物等等。

在智能体任务中，环境模拟器本身便是一个天然的世界模型，其能够直接帮助智能体获得精准的动作前瞻信号，理论上应当能帮助智能体规避一些不可逆的错误，让目标完成更加精准与高效。

视觉推理任务（VQA Task）：文章还挑选了一部分有关空间感知的视觉推理任务进行评测，例如图片中物品相对位置的判断，相机视角的切换等等。这些任务虽然以图片作为输入，但是智能体往往也能用世界模型的预测更加精准的把握图片所反映的三维空间中的物品位置，视角等等，进而理论上辅助视觉推理任务的作答。

在这类任务里，我们不再有一个百分百准确的模拟器提供真实的前瞻信号，因此作者采用了以开源模型 WAN2.1 进行 Rollout 的方式，模拟对于智能体指定动作的前瞻预测，并将视频信息返回给后者，以帮助其进行推理。

除了这两类任务，文章还采用了三种评测模式来进行对比分析：

原始模式（World Model Invisible Mode）：即被测模型正常完成任务，不知道世界模型的存在，也不会调用世界模型的前瞻信号来进行辅助；
正常模式（Normal Mode）：即被测模型知道世界模型的存在，也知道如何调用，可以自由地在每一步执行前决定是否调用。这也是文章的主实验设置；
强制模式（World Model Forcing Mode）：即被测模型知道世界模型的存在，并且在每一步执行前都被系统强制要求必须要调用世界模型，运用前瞻，以对当前动作产生的影响进行预测和评估。

世界模型对智能体的赋能并不可靠

对比原始模式以及正常模式，在 GPT、Llama、Qwen 等当下主流模型上，文章发现了有点出乎意料的结果。

图 2: 在智能体任务（上）以及视觉推理任务（下）上的主要实验结果：世界模型带来的动作影响前瞻，就算是百分百精准的，也并不能如期的帮助智能体提升能力。

发现一：世界模型带来的增强并不可靠，很多时候反而会拖后腿

文章对比了正常模式和原始模式，并发现在智能体任务中，被测模型在引入智能体的前瞻信号后，并没有有效的对其进行利用，反而是将其当作了噪声，从而使得平均表现甚至更差。这并不是前瞻信号不准确造成的：因为在智能体任务中，前瞻信号来自模拟器真实的直接模拟，这个返回结果一定是百分百准确的，但是被测智能体始终还是无法有效对其进行理解。

在视觉推理任务中，作者也发现了类似的现象：模型在利用前瞻信号后提升很小，几乎可以忽略不计。这些所有结果都在挑战着「世界模型都应该能天然赋能智能体行动」的直觉，也提醒着我们在目前智能体和世界模型分开训练的范式下，二者的磨合还并不够完善。

图 3: 在不同任务上模型调用世界模型的平均次数：大部分模型很多时候并不愿意调用世界模型进行前瞻，而更相信自身推理。

发现二：被测模型往往根本不愿意调用世界模型进行前瞻

文章还额外统计了世界模型在每个任务中平均被调用的次数。统计完才发现，在正常模式下，很多模型去尝试进行前瞻的意愿甚至都非常低，对于世界模型的调用率也整体偏低。

这个倾向在视觉推理任务上尤其明显：很多模型家族对于世界模型前瞻的调用不足 0.1，GPT-5 更是一次调用都没有，完全相信着自己的推理能力。但是从图 2 的模型表现来看，其仅凭借自身的推理也并没有达到接近满分的程度。

这个结果也意味着，被测智能体并不是不会调用世界模型，很多时候只是单纯的自信，不想调用外部信号来增强自身前瞻。大部分目前模型都缺乏着对于自身的清晰认知，不知道对于前瞻应当何时利用。

图 4: 世界模型前瞻的调用对于不同模型的影响：好坏往往相互抵消。

发现三：不同模型家族的调用性格不同，但都不等于会用

文章还观察到了一些有趣的模型家族间的差异：有的模型家族会更积极的调用前瞻信号，但收益不明显，例如 Llama 系列模型便是如此。而就算在同一个模型家族中，往往小模型也会更爱调用世界模型提供的前瞻信号，而大模型往往更加自信，倾向于「我自己想就够了」。这点比较符合直觉，因为小模型往往需要外部工具的调用来弥补自身能力的不足。这个现象往往被称作Cognitive Offloading（认知负担转移）。

但是同时，从结果当中也不难看出，对于世界模型调用率高的也并不意味着表现就一定会上升，而调用率低的也并不意味着就更安全。就像图 4 当中所展现的，世界模型对于目前智能体表现来说，功过往往相抵。

这一现象表明除了何时利用的问题，智能体目前还需要学会如何更好的将前瞻融入到推理中，即怎样利用。

智能体与世界模型交互的关键在于前瞻治理

上述的所有发现都推动着研究人员进一步思考，智能体与世界模型的交互到底是哪里出现了问题。从何时利用，到怎样利用，文章作者总结出了当前世界模型赋能智能体问题的根源：前瞻治理。

虽然结果都有点出乎意料，但是文章并非想表达这个范式是错的或者世界模型的前瞻没用。恰恰相反，如果整个智能体与世界模型交互的闭环每一步都能够进行更好的前瞻治理，我们反而能帮助智能体更好的利用世界模型，从而对环境进行感知与学习。

文章对于前瞻治理给出了三个重要的方面，并拆开构建了详细的类别框架：

第一阶段：Foresight Formulation （问什么），即智能体侧何时应当用到前瞻，以及在请求世界模型模拟时应当模拟什么的策略；
第二阶段：Simulation Generation （模拟什么），即世界模型侧在进行模拟时如何保证真实，高质量，能够更有效的辅助智能体；
第三阶段：Interpretation & Integration（怎么用），即智能体侧在接收返回的前瞻信号后，如何有效对其利用，指导下一步行动。

图 5: 模型能够成功进行前瞻治理的原因分析。

成功的前瞻治理：三件事缺一不可

Strategic Input（技巧性的前瞻请求策略）：智能体要能想到该如何向世界模型发起请求，请求什么。在智能体任务中，这个请求往往就是下一步要执行的动作本身，可能没有太多策略可言。但是在视觉推理任务中，策略就显得尤其重要。例如任务在询问相机视角是如何切换的时候，智能体便可以让世界模型模拟视角向左转，向右转等，并进行比较，看哪个模拟更加符合现实，进而进行作答。这便是利用世界模型进行假设 - 验证。当然还有更多的请求模式，需要智能体来进行学习和探索。
Governance of Meaning（对于模拟结果的语义把握）：在成功进行前瞻治理的测试案例中，作者发现智能体往往能够准确把握模拟返回的精准内涵，例如从视觉信号当中得到模拟的动作是否能够有效推进任务进度等等。这需要智能体模型提升自身对于视觉或者视频信号的理解能力，也就是视觉智能体的基座能力。能把模拟当成验证 / 消歧证据，而不是仅仅是解题思路的裱花。
Governance of Action（对于后续动作的有效指导）：智能体同时还需要稳定地把前瞻结果融入到下一步的行动策略，进而形成连贯思路轨迹，以达到最终目标。文章作者注意到很多时候智能体仅仅是把模拟结果当成思路的「裱花」和单纯印证，而并非将前瞻信号利用为消歧的证据，这就导致智能体往往在「为了前瞻而前瞻」，而并没有真正把前瞻到的影响转化为行动上的指导。

图 5: 模型前瞻治理失败的原因分析

失败的前瞻治理：常见崩坏模式

Over Planning（过度重复）：智能体往往重复对于世界模型相同的前瞻模拟请求，而并没有真正去推进任务，这就导致了智能体变成仿佛「拖延症患者」，直到用尽交互轮数也没法有效的推进任务进度；
Inefficient Tool Use（无效调用）：即智能体的模拟请求本身含糊不清，没能有效的告诉世界模型自己到底想要看到什么样子的模拟或者影响；
Confusion & Misinterpretation（模糊歧义）：很多时候，因为智能体自身对于想要前瞻什么都没表达清楚，世界模型的返回便会非常模糊存在歧义。而这样的歧义在返回给智能体让其进行下一步动作时，智能体会变得更加疑惑，从此陷入恶性循环。也就是说，在整个智能体以及世界模型交互的闭环中，错误和歧义会被不断放大。
Action Loops / Loss of Focus（推理失焦）：智能体在利用前瞻信号时，行动往往前后震荡，无法形成连贯有效的思路，或者跳出现在错误的想法。这便会导致智能体推理有时陷入死循环，或者干脆直接被前瞻信息误导而跑题。

基于上述这些观察，文章也点出了一个核心论断：目前智能体与世界模型有效交互的主导瓶颈是前瞻治理的稳定性。这启示着之后的研究除了可以做更大更强的智能体或世界模型，同时也需要从智能体的角度探索如何更好地做调度、校准、以及证据整合。

对智能体 + 世界模型热潮的启示

启示一：比起单纯把世界模型接进工具箱，智能体更需要先学会判断「这一步值不值得前瞻」

从文章结果来看，很多智能体的问题出在并不是没有世界模型可用，而是不知道什么时候该用、用了是否真的划算。说到底，当前智能体缺少的是一套对于前瞻调用时机、收益与风险的基本判断机制。只有先学会评估当前动作到底有没有不确定性，前瞻能不能真正减少决策偏差，世界模型才不会只沦为一个摆设。

启示二：世界模型真正要赋能智能体的应是能够被当作证据使用的前瞻信号

文章里很多失败，本质上都不是因为模型什么都没看到，而是看到了以后也没有把这些信息转化成有效的判断依据，最终仍然被主观推理带偏。这说明未来世界模型的输出如果只是更长的状态描述、更完整的生成画面，未必就能真正帮到智能体。相比之下，哪些变量发生了变化、哪些差异最关键、哪些结论更值得相信，反而可能是更重要的智能体与世界模型间的接口形式。

启示三：未来真正需要对齐的是智能体如何围绕前瞻建立起稳定的治理能力

这篇工作最值得重视的一点正在于，它已经在尽量理想的条件下给了智能体一个足够可靠的模拟器，但结果依然说明，问题并不会因为模拟更准就自动消失。比起继续单纯追求更强大的模型，后续研究或许更需要回答的问题是智能体怎样提出更好的前瞻请求，怎样理解返回结果，又怎样把这些结果真正转化为下一步行动。换句话说，这点出了真正需要补上的不只是模拟能力，而是围绕前瞻展开的整套治理能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.