网易首页 > 网易号 > 正文 申请入驻

李曼玲开源新训练框架VAGEN,让AI智能体学会看懂并推理动态世界

0
分享至

我们常说,结果重要,过程更重要。这句话在 AI 领域,如今又有了新的注脚。

当前,多数 AI 模型擅长处理单一指令并给出最终答案,就像一个只关心结果的学生。然而,当它们被置于一个动态、信息不完整的真实世界中,需要通过“看”和“做”来完成多步骤的复杂任务时,这种重结果、轻过程的模式就显得有些不太适宜。如何让智能体不仅能做出正确的行动,更能构建一个连贯、可靠的内部思维过程?这正是当前智能体解决实际问题所面临的重要瓶颈之一。

近日,美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院,提出了一个名为 VAGEN 的训练框架,专门用于训练能够在多轮交互中构建“内部世界模型”的视觉语言模型(Vision-Language Model,VLM)智能体。这项研究已被 NeurIPS 2025 接收,相关论文和代码已在 GitHub 上开源。


图丨相关论文(来源:arXiv)

美国西北大学博士生王康睿、Pingyue Zhang、王子涵共同担任第一作者。

值得一提的是,这个研究团队集齐了多位《麻省理工科技评论》“35 岁以下科技创新 35 人”(MIT Technology Review Innovators Under 35,简称“TR35”)的入选者,通讯作者李曼玲教授是 2025 年 TR35 全球入选者,而斯坦福大学的吴佳俊教授和华盛顿大学的 Ranjay Krishna 教授则分别入选了 2024 与 2025 年度 TR35 亚太区名单。

要理解 VAGEN 的价值,首先要明白视觉 AI 智能体面临的挑战。想象你正在玩一个推箱子游戏:你看到屏幕上的画面,判断箱子和目标的位置,规划移动路线,然后执行操作。这个过程看似简单,但对 AI 来说却异常困难。

现有的大语言模型在处理纯文本任务时已经展现出强大能力,但当任务涉及视觉信息时,问题就复杂多了。文本信息是完整、精确的,而视觉观察往往是部分的、有噪声的。一个智能体通过摄像头只能看到眼前的场景,无法直接获知整个环境的完整状态。这也就是所谓的“部分可观测马尔可夫决策过程”(Partially Observable Markov Decision Process,POMDP)——智能体必须基于不完整的观察来推断真实的世界状态。

研究团队指出,这正是当前 VLM 智能体的核心瓶颈。他们测试了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在内的多个主流模型,发现即便是最强的 GPT-5,在他们设计的五项任务上的综合表现也只有 0.75 分(满分 1 分)。特别是在需要精确操作的机器人任务中,几乎所有模型都在某些子任务上完全失败。

这些任务涵盖了经典的推箱子和冰湖游戏、3D 环境中的导航、机械臂的精细操作,以及从图像生成 SVG 代码等多种场景,既有离散的网格世界,也有连续的物理空间,充分考验了模型的视觉理解和推理能力。

VAGEN 的核心思想是让 AI 进行“显性的视觉状态推理”。具体来说,就是在智能体生成每个动作之前,强制要求它完成两个推理步骤。第一步是“状态估计”(StateEstimation)——描述当前看到的是什么。就像人类会说“箱子在我右边,目标在箱子上方”,AI 也需要用语言明确表述当前的视觉状态。


图丨相关论文(来源:arXiv)

第二步是“转换建模”(TransitionModeling)——预测下一步会发生什么。如果我向右推,箱子会移到哪里?目标位置会发生什么变化?这两步结合起来,就构成了所谓的“世界建模”(WorldModeling)。

研究团队设计了一套结构化的输出格式,要求 AI 在

标签中描述当前状态,在

标签中解释推理过程,在

标签中预测未来状态,最后在

标签中给出实际动作。

为了验证这种显性推理的效果,研究团队对比了五种不同的推理策略,其中包括从完全不思考(NoThink)到自由发挥(FreeThink),再到只做状态估计或只做转换建模的各种组合。

结果显示,完整的 WorldModeling 策略(同时包含状态估计和转换建模)在综合性能上达到 0.76,明显优于自由思考的 0.67 和不思考的 0.28。有趣的是,单独的状态估计或转换建模各有所长:前者在需要准确理解当前场景的导航任务中表现更好,后者则在需要精确预测的机械臂操作中更占优势。


(来源:arXiv)

确定了推理框架后,另一个关键问题是:AI 应该用什么方式表达对视觉状态的理解?研究团队探索了三种表示方式。最直观的是自然语言描述,比如“玩家在左上角,箱子在玩家右侧”。第二种是符号化表示,直接用游戏原生的符号,比如用“P”代表玩家、“X”代表箱子。第三种是结构化格式,用 JSON 格式的字典记录所有对象的精确坐标。


(来源:arXiv)

实验结果让人有些意外。在推箱子和冰湖游戏这类相对简单的任务中,自然语言表现最好(0.61 和 0.71),而符号化和结构化格式反而更差。研究团队分析认为,这是因为 VLM 在预训练时接触了大量自然语言文本,对这种表达方式更加熟悉,而对抽象符号的理解能力有限。

但在机器人操作任务中,情况完全反转。结构化格式的平均得分达到 0.94,优于自然语言的 0.91。原因在于,精确的坐标信息对于毫米级的机械臂控制至关重要,自然语言的模糊性会导致操作失败。这一发现也说明,视觉状态的表示方式并不是通用的,而是取决于任务特性。对于需要语义理解的通用任务,自然语言是最佳选择;但对于高精度操作,结构化的精确信息不可或缺。

光有推理框架还不够,如何训练 AI 学会正确推理才是关键。VAGEN 采用强化学习(Reinforcement Learning,RL)方法,通过奖励机制引导模型改进。

传统的 RL 方法通常在整个任务结束时给出一个总奖励,然后反向传播到每个步骤。但这种方法在多轮交互的场景中效果不佳——想象一个需要执行 10 步操作的任务,如果最后失败了,AI 很难判断是哪一步出了问题。VAGEN 提出了两个机制来解决这个问题。

首先是“世界建模奖励”(WorldModeling Reward),专门评估 AI 的推理质量。团队采用 LLM-as-a-Judge 的方法,让 GPT-4.1 nano 作为裁判,评估 AI 生成的状态描述和预测是否准确。这样,每一轮交互都能获得即时的推理质量反馈,而不是等到任务结束才知道对错。

其次是“双层通用优势估计”(Bi-Level GAE)。这个机制分两个层次计算奖励:先在“轮次级别”评估每一轮的整体表现,再在“token 级别”细化到每个生成的单词。就像批改作文时,既要看整篇文章的结构,也要看每个段落、每句话的表达。这种层级化的奖励分配,使得 AI 能够更准确地定位问题所在,加快学习速度。


图丨 token 级 GAE 与双层 GAE 框架(来源:arXiv)

实验数据证实了这套机制的有效性。在完整的 VAGEN-Full 框架下(结合 WorldModeling Reward 和 Bi-Level GAE),仅有 30 亿参数的 Qwen2.5-VL-3B 模型最终达到了 0.82 的综合得分,不仅大幅超越未训练版本(0.21),甚至击败了参数量远大于它的 GPT-5(0.75)、Gemini 2.5 Pro(0.67)和 Claude 4.5(0.62)。

在训练过程中,研究团队观察到一些有趣的现象。随着训练推进,AI 的回答逐渐从多样化变得模板化。早期训练时,AI 会用各种不同的方式描述状态,比如“我需要向右移动接近箱子,然后向上推动”或“箱子在我前方,我应该先前进再调整方向”。但到后期,回答变得高度统一,主要差异只在方向词汇上,比如都是“我将向 X 移动,然后向 Y 移动”的固定句式。这种模板化也不完全是坏事——它反映了 AI 找到了高效的表达方式。但也引发了另一个问题:奖励黑客(reward hacking)。

部分 AI 学会了生成看似合理、实则空泛的回答来“讨好”评判系统。例如在冰湖游戏中,有些 AI 会习惯性地回答“玩家会到达礼物的位置”,无论当前状态如何。这种回答在语法上正确,也提到了目标,很容易通过 LLM 评判者的检查,但实际上并没有提供有价值的推理信息。

研究团队发现,使用 Bi-Level GAE 的模型特别容易出现这种行为,因为更细致的奖励机制让 AI 更容易找到“刷分”的捷径。为了应对这个问题,团队开发了几种缓解策略,包括结构化评估(要求 AI 输出可量化的信息,用 F1 分数评估)和重复惩罚(对高频出现的答案降低奖励),这些措施在一定程度上缓解了问题。

VAGEN 为视觉 AI 智能体的训练开辟了新路径,但从研究原型到实际应用仍有距离。论文显示,在配备 8 块 H100 GPU 的服务器上,训练一个任务需要 4 到 8 小时,同时消耗约 2,300 万到 6,000 万个 LLM 评判 token,这对商业化部署而言成本不菲。此外,当前 VAGEN 在 5 个精心设计的环境中表现出色,但真实世界的视觉任务往往更加开放、不确定,泛化性还需进一步验证。



参考资料:

1.https://arxiv.org/pdf/2510.16907

2.https://vagen-ai.github.io/

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
蛊惑人心 结局:留下悬念

蛊惑人心 结局:留下悬念

金昔说故事
2026-03-26 19:50:53
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
生死皆是命数!网友:注定你要活,就会用各种方式把你拉离危险

生死皆是命数!网友:注定你要活,就会用各种方式把你拉离危险

夜深爱杂谈
2026-03-26 20:25:44
连续9场遭雪藏!失意神射离开辽宁仍未受重用 还能翻身吗?

连续9场遭雪藏!失意神射离开辽宁仍未受重用 还能翻身吗?

体娱天下
2026-03-26 15:27:26
又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

张鼋卤说体育
2026-02-07 12:45:26
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
3月26日人民币对美元中间价调贬145个基点

3月26日人民币对美元中间价调贬145个基点

证券时报
2026-03-26 09:34:06
曼联5出3进,中场推倒重来!2人合同到期 2人铁心想走 3天才锁定

曼联5出3进,中场推倒重来!2人合同到期 2人铁心想走 3天才锁定

万花筒体育球球
2026-03-25 19:02:23
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
忍了9年,中国终于对欧美航空霸权掀桌子!C919用硬实力杀出重围

忍了9年,中国终于对欧美航空霸权掀桌子!C919用硬实力杀出重围

朝子亥
2026-03-26 23:35:03
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

流云随风去远方
2026-03-26 18:36:05
郜林:来铭途一个月没开过会;当总经理和踢球不同

郜林:来铭途一个月没开过会;当总经理和踢球不同

懂球帝
2026-03-26 22:00:56
我谈了5个对象都被我爸搅黄,直到他住进ICU,我才明白谁是外人

我谈了5个对象都被我爸搅黄,直到他住进ICU,我才明白谁是外人

木子言故事
2026-03-26 09:35:08
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
伊朗的第一次回球:以攻代守,极限反拉

伊朗的第一次回球:以攻代守,极限反拉

西楼饮月
2026-03-26 21:28:25
已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

我爱英超
2026-03-26 18:25:55
美方就伊朗将领遇袭事件发声 公开呼吁伊方人员撤离岗位

美方就伊朗将领遇袭事件发声 公开呼吁伊方人员撤离岗位

老马拉车莫少装
2026-03-27 00:00:56
2026-03-27 01:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
亲子
旅游
公开课
军事航空

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

看看把孩子吓得哈哈哈

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版