网易首页 > 网易号 > 正文 申请入驻

LLM 推理的动态短板能靠世界模型能补上吗?

0
分享至


来源:机器之心

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


过往大模型推理优化主要围绕语言推理链的结构化与搜索增强展开。但在网页交互、工具调用等动态任务中,推理对象已从静态文本转向随动作变化的环境状态,问题本质从语言生成扩展为环境中的决策。现有 CoT、ToT 等方法仍主要在文本空间内优化推理路径,并未对环境状态转移进行显式建模。世界模型的引入正是为了弥补这一缺口,通过建模动作与状态变化的映射关系,为 LLM-based Agent 提供环境预测能力,以支撑更稳定的决策过程。

目录

01. 从局部自动化到全供应链质变,AI 如何重构传统的劳动力与资本份额?

AGI 时代的稀缺性到底会如何重塑全球经济的底层逻辑?全供应链自动化为什么会让传统的劳动力与资本分配模型失效? ...

02. 迈向全自动化的过渡期,人类为何终将被机器经济排斥?

人类劳动的最后一道稀缺性防线 「关系型部门」 真的能守住吗?「混乱的中间地带」 会给社会带来哪些难以预料的政治经济学危机? ...

03. 边缘经济体如何避免被算力供应链淘汰?

AGI 创造的巨额财富该如何进行公平且可持续的社会再分配?为什么具有极高财富积累偏好的实体会主导未来的全球资本格局? ...


世界模型如何帮助 Agent 解锁动态交互能力?

1、近年来,当 LLM 落地应用在网页操作、工具调用、代码运行、长时序任务规划等动态 Agent 场景时,推理不再局限于文本生成,而是延伸至行为决策领域。然而,模型在静态基准测试中的优异表现,与其在真实动态交互环境中的推理效果之间存在明显差距。

① 网页导航、代码编辑、工具使用和长周期对话等场景均属于动态环境,其状态随动作持续演化,要求模型具备前瞻预测能力,且单步误差可能沿决策链逐级累积。静态环境则通常不存在状态变化与误差传递。[1]

② 静态评估忽略推理过程中的中断与环境变化,会系统性高估模型在动态任务中保持推理正确性与完成任务能力的表现。在数学推理与代码生成任务中,引入中断或上下文变化后,模型性能最高下降可达 60%。[2]

2、围绕提升 LLM-based Agent 推理能力的目标,业界陆续提出 CoT、Self-Consistency、ToT、LATS 等优化方法,从不同角度强化模型表现。但这些方法并未触及核心问题。但这些优化本质上仍在文本空间内改进推理路径,并未赋予模型预判动作后果的能力,因而无法真正解决动态环境中的推理短板。

① CoT 的单向线性推理存在结构性局限,其输出的链式推理文本并不能完整还原真实的内在决策过程 。研究者进一步发现,CoT 及其推理变体在不同模型规模和基准复杂度下持续不如直接回答 。[3][4]

② ToT 和 LATS 的改进仍局限于文本空间内的路径优化,并未对环境转移进行显式建模。面对网页提交、代码发布、API 调用这类不可逆操作,依赖此类方法的 LLM-based Agent 在实际部署中的效果有限。[5]

3、近期,EvoAgent、WebEvolver、COMAP、RWML、ProPlay 等工作尝试通过「世界模型」赋予模型预测状态转移的能力,尝试缓解动态环境中因不可逆操作与状态追踪困难导致的决策失效问题。

① 世界模型与前述推理优化方法的差异在于世界模型的建模对象是环境状态转移本身,使 LLM-based Agent 在执行动作前即具备对后果的预判能力。[6][7][8]

② EvoAgent 提出持续世界模型,使智能体在开放世界中通过自规划与自反思完成长时程任务,无需人工干预。在 Minecraft 和 Atari 上,该方法相较现有方法平均成功率提升 105%,无效动作减少 6 倍以上。[6]

③ WebEvolver 将协同进化的世界模型引入 Web Agent 框架,在推理阶段通过前瞻模拟指导动作选择。在 Mind2Web-Live、WebVoyager 等真实网页环境中,该方法相较现有自进化 Agent 取得了 10% 的性能提升。[7]

④ COMAP 通过闭环交互让文本世界模型与 Agent 策略协同进化。世界模型预测候选动作的未来状态,Agent 据此优化动作,生成的轨迹再通过自蒸馏更新世界模型。在具身任务规划、Web 导航和工具使用基准上,COMAP 在 Qwen3-4B 上实现了 16.75% 的相对提升。[8]

⑤ RWML 通过 sim-to-real gap 奖励在文本状态上学习动作条件世界模型,将模拟的下一状态与真实观测对齐。在 ALFWorld 和 τ² Bench 上,RWML 结合任务成功奖励后分别比直接使用任务成功奖励的 RL 高出 6.9 和 5.7 个点。[9]

⑥ ProPlay 提出程序性世界模型,将成功轨迹抽象为程序并在程序图中组织,支持 Agent 在执行前预演未来的程序路径。实验表明该方法在环境理解与自进化能力上持续优于强基线。[10]

4、业界围绕世界模型的讨论重点集中于,动态交互任务要求模型同时具备状态理解、结果预测和长期规划能力。世界模型能够为 LLM-based Agent 补上「执行前预判后果」与「脱离真实环境进行策略学习」的能力,有希望从根本上解决动态环境中因状态追踪困难与动作后果不可逆导致的决策失效问题。[1]

① 在推理阶段,世界模型能够根据候选动作预测后续状态变化,并利用预测结果对动作进行验证和筛选。WebEvolver 在推理阶段引入预测机制,在真实网页环境中较现有自进化 Agent 取得了 10% 的性能提升。[7]

② 在训练阶段,世界模型可作为虚拟环境生成交互轨迹或模拟用户反馈,降低训练过程对真实环境的依赖;可进一步引入动态更新机制,使世界模型与智能体策略协同优化,以缓解环境分布变化带来的影响。[8][9]


世界模型如何优化 AI 的环境推理能力?

1、传统 LLM-based Agent 采用反应式架构,缺乏对环境如何结构化演化与变化的显式建模,因而在网页导航、代码编辑、长周期对话等动态交互任务中表现受限。近期用世界模型改善推理能力的探索分别从训练、推理、评估等维度切入,通过赋予模型预测动作之后环境状态如何变化的能力,实现更优的动态任务适应能力...

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
模仿老师爆火的钟美美已确认入学美国波士顿大学

模仿老师爆火的钟美美已确认入学美国波士顿大学

书台小事
2026-06-22 19:31:24
法国巨头联合创始人坠机身亡

法国巨头联合创始人坠机身亡

第一财经资讯
2026-06-22 12:59:57
天空:斯通斯和孔萨搭档中卫表现一般,英格兰队将用格伊首发

天空:斯通斯和孔萨搭档中卫表现一般,英格兰队将用格伊首发

懂球帝
2026-06-22 22:13:56
娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

往史过眼云烟
2026-06-22 16:48:30
陈小春爆哭,回应:在处理退票了

陈小春爆哭,回应:在处理退票了

南方都市报
2026-06-22 18:19:15
沈梦辰和杜海涛路透照公开,“沈梦辰全身涂粉底液”登上热搜

沈梦辰和杜海涛路透照公开,“沈梦辰全身涂粉底液”登上热搜

韩小娱
2026-06-22 15:46:33
乌克兰无人机袭击俄罗斯境内巴士,造成人员伤亡,中方:谴责任何针对无辜平民的袭击,呼吁当事各方推动局势尽快降温

乌克兰无人机袭击俄罗斯境内巴士,造成人员伤亡,中方:谴责任何针对无辜平民的袭击,呼吁当事各方推动局势尽快降温

政知新媒体
2026-06-22 16:47:04
大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

火山詩话
2026-06-22 07:54:11
几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

离离言几许
2026-06-22 15:58:48
C罗对葡萄牙主帅下课的反应,暴露了马丁内斯的症结

C罗对葡萄牙主帅下课的反应,暴露了马丁内斯的症结

暗香暗香
2026-06-22 15:28:31
安徽广德2死1伤车祸:黄毛女社交账号扒出,闺蜜发声庇护,求宽恕

安徽广德2死1伤车祸:黄毛女社交账号扒出,闺蜜发声庇护,求宽恕

李晚书
2026-06-22 18:19:19
葡萄牙队孔塞桑:我们没义务给C罗喂球,会把球传给位置最好的队友,他和任何球员一样,都是来帮助球队的

葡萄牙队孔塞桑:我们没义务给C罗喂球,会把球传给位置最好的队友,他和任何球员一样,都是来帮助球队的

极目新闻
2026-06-22 11:29:35
暴涨2076%,中国首个万亿AI公司诞生!

暴涨2076%,中国首个万亿AI公司诞生!

智东西
2026-06-22 11:48:42
抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

十为先生
2026-06-22 15:46:44
18岁斩世界杯首球!西班牙2亿天才连创5大纪录 超越梅西+比肩贝利

18岁斩世界杯首球!西班牙2亿天才连创5大纪录 超越梅西+比肩贝利

我爱英超
2026-06-22 00:52:15
《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

心理观察局
2026-06-22 06:55:14
又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

小彭美识
2026-06-22 09:32:17
美联储前主席格林斯潘辞世,享年100岁

美联储前主席格林斯潘辞世,享年100岁

界面新闻
2026-06-22 19:16:12
英国首相斯塔默宣布辞职

英国首相斯塔默宣布辞职

界面新闻
2026-06-22 16:36:55
黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

磊子讲史
2026-06-22 15:59:52
2026-06-23 00:11:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4832文章数 37476关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

亲子
游戏
时尚
数码
旅游

亲子要闻

2026新生儿纸尿裤十大品牌盘点:新国标落地,好奇小森林硬核领跑

传《鬼泣1:重制版》开发中 进展相当顺利

苹果型显瘦的夏季穿搭,挺好看!

数码要闻

14岁Surface RT喜提主线Linux内核驱动,能正常读取充电状态了

旅游要闻

6月22日最佳情报|朝霞漫天好浪漫,百花争艳美不胜收!恭喜

无障碍浏览 进入关怀版