李曼玲开源新训练框架VAGEN，让AI智能体学会看懂并推理动态世界

2025-10-25 23:29:57　来源: DeepTech深科技

北京举报

分享至

我们常说，结果重要，过程更重要。这句话在 AI 领域，如今又有了新的注脚。

当前，多数 AI 模型擅长处理单一指令并给出最终答案，就像一个只关心结果的学生。然而，当它们被置于一个动态、信息不完整的真实世界中，需要通过“看”和“做”来完成多步骤的复杂任务时，这种重结果、轻过程的模式就显得有些不太适宜。如何让智能体不仅能做出正确的行动，更能构建一个连贯、可靠的内部思维过程？这正是当前智能体解决实际问题所面临的重要瓶颈之一。

近日，美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院，提出了一个名为 VAGEN 的训练框架，专门用于训练能够在多轮交互中构建“内部世界模型”的视觉语言模型（Vision-Language Model，VLM）智能体。这项研究已被 NeurIPS 2025 接收，相关论文和代码已在 GitHub 上开源。

图丨相关论文（来源：arXiv）

美国西北大学博士生王康睿、Pingyue Zhang、王子涵共同担任第一作者。

值得一提的是，这个研究团队集齐了多位《麻省理工科技评论》“35 岁以下科技创新 35 人”（MIT Technology Review Innovators Under 35，简称“TR35”）的入选者，通讯作者李曼玲教授是 2025 年 TR35 全球入选者，而斯坦福大学的吴佳俊教授和华盛顿大学的 Ranjay Krishna 教授则分别入选了 2024 与 2025 年度 TR35 亚太区名单。

要理解 VAGEN 的价值，首先要明白视觉 AI 智能体面临的挑战。想象你正在玩一个推箱子游戏：你看到屏幕上的画面，判断箱子和目标的位置，规划移动路线，然后执行操作。这个过程看似简单，但对 AI 来说却异常困难。

现有的大语言模型在处理纯文本任务时已经展现出强大能力，但当任务涉及视觉信息时，问题就复杂多了。文本信息是完整、精确的，而视觉观察往往是部分的、有噪声的。一个智能体通过摄像头只能看到眼前的场景，无法直接获知整个环境的完整状态。这也就是所谓的“部分可观测马尔可夫决策过程”（Partially Observable Markov Decision Process，POMDP）——智能体必须基于不完整的观察来推断真实的世界状态。

研究团队指出，这正是当前 VLM 智能体的核心瓶颈。他们测试了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在内的多个主流模型，发现即便是最强的 GPT-5，在他们设计的五项任务上的综合表现也只有 0.75 分（满分 1 分）。特别是在需要精确操作的机器人任务中，几乎所有模型都在某些子任务上完全失败。

这些任务涵盖了经典的推箱子和冰湖游戏、3D 环境中的导航、机械臂的精细操作，以及从图像生成 SVG 代码等多种场景，既有离散的网格世界，也有连续的物理空间，充分考验了模型的视觉理解和推理能力。

VAGEN 的核心思想是让 AI 进行“显性的视觉状态推理”。具体来说，就是在智能体生成每个动作之前，强制要求它完成两个推理步骤。第一步是“状态估计”（StateEstimation）——描述当前看到的是什么。就像人类会说“箱子在我右边，目标在箱子上方”，AI 也需要用语言明确表述当前的视觉状态。

图丨相关论文（来源：arXiv）

第二步是“转换建模”（TransitionModeling）——预测下一步会发生什么。如果我向右推，箱子会移到哪里？目标位置会发生什么变化？这两步结合起来，就构成了所谓的“世界建模”（WorldModeling）。

研究团队设计了一套结构化的输出格式，要求 AI 在

标签中描述当前状态，在

标签中解释推理过程，在

标签中预测未来状态，最后在

标签中给出实际动作。

为了验证这种显性推理的效果，研究团队对比了五种不同的推理策略，其中包括从完全不思考（NoThink）到自由发挥（FreeThink），再到只做状态估计或只做转换建模的各种组合。

结果显示，完整的 WorldModeling 策略（同时包含状态估计和转换建模）在综合性能上达到 0.76，明显优于自由思考的 0.67 和不思考的 0.28。有趣的是，单独的状态估计或转换建模各有所长：前者在需要准确理解当前场景的导航任务中表现更好，后者则在需要精确预测的机械臂操作中更占优势。

（来源：arXiv）

确定了推理框架后，另一个关键问题是：AI 应该用什么方式表达对视觉状态的理解？研究团队探索了三种表示方式。最直观的是自然语言描述，比如“玩家在左上角，箱子在玩家右侧”。第二种是符号化表示，直接用游戏原生的符号，比如用“P”代表玩家、“X”代表箱子。第三种是结构化格式，用 JSON 格式的字典记录所有对象的精确坐标。

（来源：arXiv）

实验结果让人有些意外。在推箱子和冰湖游戏这类相对简单的任务中，自然语言表现最好（0.61 和 0.71），而符号化和结构化格式反而更差。研究团队分析认为，这是因为 VLM 在预训练时接触了大量自然语言文本，对这种表达方式更加熟悉，而对抽象符号的理解能力有限。

但在机器人操作任务中，情况完全反转。结构化格式的平均得分达到 0.94，优于自然语言的 0.91。原因在于，精确的坐标信息对于毫米级的机械臂控制至关重要，自然语言的模糊性会导致操作失败。这一发现也说明，视觉状态的表示方式并不是通用的，而是取决于任务特性。对于需要语义理解的通用任务，自然语言是最佳选择；但对于高精度操作，结构化的精确信息不可或缺。

光有推理框架还不够，如何训练 AI 学会正确推理才是关键。VAGEN 采用强化学习（Reinforcement Learning，RL）方法，通过奖励机制引导模型改进。

传统的 RL 方法通常在整个任务结束时给出一个总奖励，然后反向传播到每个步骤。但这种方法在多轮交互的场景中效果不佳——想象一个需要执行 10 步操作的任务，如果最后失败了，AI 很难判断是哪一步出了问题。VAGEN 提出了两个机制来解决这个问题。

首先是“世界建模奖励”（WorldModeling Reward），专门评估 AI 的推理质量。团队采用 LLM-as-a-Judge 的方法，让 GPT-4.1 nano 作为裁判，评估 AI 生成的状态描述和预测是否准确。这样，每一轮交互都能获得即时的推理质量反馈，而不是等到任务结束才知道对错。

其次是“双层通用优势估计”（Bi-Level GAE）。这个机制分两个层次计算奖励：先在“轮次级别”评估每一轮的整体表现，再在“token 级别”细化到每个生成的单词。就像批改作文时，既要看整篇文章的结构，也要看每个段落、每句话的表达。这种层级化的奖励分配，使得 AI 能够更准确地定位问题所在，加快学习速度。

图丨 token 级 GAE 与双层 GAE 框架（来源：arXiv）

实验数据证实了这套机制的有效性。在完整的 VAGEN-Full 框架下（结合 WorldModeling Reward 和 Bi-Level GAE），仅有 30 亿参数的 Qwen2.5-VL-3B 模型最终达到了 0.82 的综合得分，不仅大幅超越未训练版本（0.21），甚至击败了参数量远大于它的 GPT-5（0.75）、Gemini 2.5 Pro（0.67）和 Claude 4.5（0.62）。

在训练过程中，研究团队观察到一些有趣的现象。随着训练推进，AI 的回答逐渐从多样化变得模板化。早期训练时，AI 会用各种不同的方式描述状态，比如“我需要向右移动接近箱子，然后向上推动”或“箱子在我前方，我应该先前进再调整方向”。但到后期，回答变得高度统一，主要差异只在方向词汇上，比如都是“我将向 X 移动，然后向 Y 移动”的固定句式。这种模板化也不完全是坏事——它反映了 AI 找到了高效的表达方式。但也引发了另一个问题：奖励黑客（reward hacking）。

部分 AI 学会了生成看似合理、实则空泛的回答来“讨好”评判系统。例如在冰湖游戏中，有些 AI 会习惯性地回答“玩家会到达礼物的位置”，无论当前状态如何。这种回答在语法上正确，也提到了目标，很容易通过 LLM 评判者的检查，但实际上并没有提供有价值的推理信息。

研究团队发现，使用 Bi-Level GAE 的模型特别容易出现这种行为，因为更细致的奖励机制让 AI 更容易找到“刷分”的捷径。为了应对这个问题，团队开发了几种缓解策略，包括结构化评估（要求 AI 输出可量化的信息，用 F1 分数评估）和重复惩罚（对高频出现的答案降低奖励），这些措施在一定程度上缓解了问题。

VAGEN 为视觉 AI 智能体的训练开辟了新路径，但从研究原型到实际应用仍有距离。论文显示，在配备 8 块 H100 GPU 的服务器上，训练一个任务需要 4 到 8 小时，同时消耗约 2,300 万到 6,000 万个 LLM 评判 token，这对商业化部署而言成本不菲。此外，当前 VAGEN 在 5 个精心设计的环境中表现出色，但真实世界的视觉任务往往更加开放、不确定，泛化性还需进一步验证。

参考资料：

1.https://arxiv.org/pdf/2510.16907

2.https://vagen-ai.github.io/

排版：刘雅坤

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.