世界模型==VQA？机器人不用想象画面，预测语义就够了

2025-10-28 10:14:22　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：张倩

对于机器人来说，世界模型真的有必要想象出精确的未来画面吗？在一篇新论文中，来自华盛顿大学、索尼 AI 的研究者提出了这个疑问。

众所周知，世界模型是一种让 AI「想象未来」的学习方法。它可以从大量数据中学习世界的运行规律，然后根据当前状态预测未来可能发生的事情。这种能力非常关键，因为如果 AI 能对未来做出合理预测，就能提前规划出更聪明、更稳健的行动策略。

在实践中，世界模型的实现形式多种多样，从小规模的基于状态的动力学模型，到大型的基于动作条件的视频预测模型都有。但无论形式如何，大多数模型都会尝试「还原未来的画面」。这种方法虽然常常能生成逼真的图像，但却不一定适合用来做决策。原因在于：图像看起来再真实，也可能漏掉一些真正关键的语义细节 —— 比如两个物体是否真的发生了接触。

过去有一些方法尝试只建模「与任务相关」的信息，但这类方法往往需要额外的假设，比如必须知道奖励函数或任务中某些已知因素。这让它们在实际使用中变得不太灵活。

如果像素信息并非规划所必需，那么做出行动决策所真正需要的是什么？

这篇论文提出：能够预测关于未来结果的语义信息就足够了。世界模型不应再专注于预测原始的视觉帧，而应捕捉与任务相关的对象及其交互信息，例如：「机械臂是否更靠近目标物体？」「红色方块是否倾倒？」「蓝色球是否被拾起？」

论文将这种信息建模为一个关于未来的视觉问答（VQA）问题，利用这样一个事实：任何目标结果都可以用一系列「是 / 否」问题来表达。换言之，世界建模问题可以被重新定义为一个关于未来结果的 VQA 问题。

目前已有一类模型具备完善的视觉问答工具体系，即视觉语言模型（VLM）。在世界建模任务中，VLM 具有两大优势：

一是，它们通过大规模预训练获得了强大的视觉问答能力与广泛的泛化能力；
二是，它们编码了关于任务与场景语义特征的先验知识。

这些优势使得前沿的 VLM 能够提出与任务相关的问题，并在给定静态观测时给出可靠的答案。然而，它们缺乏对未来结果的预测能力，这限制了它们在决策任务中的直接应用。

为此，新论文提出了「语义世界模型（Semantic World Model, SWM）」的概念。SVM 是一种具备泛化能力的世界模型，它以动作条件的视觉语言模型形式存在，能够回答关于未来动作语义效果的问题。

论文标题：SEMANTIC WORLD MODELS
论文链接：https://arxiv.org/pdf/2510.19818
项目链接：https://weirdlabuw.github.io/swm/

与传统预测未来帧的世界模型不同，SWM 在给定当前观测（图像表示）与动作序列的情况下，回答关于未来的自然语言问题。

如图 1 所示，模型输入包括：当前观测、一系列拟执行的动作，以及一个关于未来的自然语言提问。模型通过理解这些动作在环境中将带来的后果，生成相应的文本回答。

由于 SWM 本质上是一个与任务无关的世界模型，它可以在对通用序列数据质量要求极低的情况下进行训练，这些数据包括游戏数据和非最优数据。训练数据可以很容易地从任何（专家或非专家）数据语料库中获取，其格式为当前观测结果、行动、（关于未来的）问题以及预期答案。

通过 SWM 来推理未来结果，AI 就能够在动作空间中进行灵活的、开放世界的多任务规划。

当任务以自然语言描述时，系统可以有两种方式理解目标：要么利用预训练好的 VLM 自动解析任务意图，要么由人类将任务拆解成一组文本化的「问题 — 期望答案」对。在得到这组问答之后，SWM 就可以用来规划动作，使得未来得到这些期望答案的可能性最大化。

给定自然语言形式的任务说明，人们既可以利用预训练的 VLM，也可以手动将任务说明分解为一组问题以及文本形式的预期答案。有了这个问答集，SWM 就可以被用来规划动作，从而极有可能在未来得出这些问题的预期答案。

尽管有大量技术可用于这种规划，但本研究表明，它与零阶基于采样的方法以及一阶梯度规划方法都兼容，这些方法会针对预期似然目标进行优化。研究表明，这些规划方法在计算上是可行的，相比常规的动作选择方法，能在测试时带来显著改进。此外，它还展示了此类规划方法对多步骤长程问题的可扩展性。

在实验方面，SWM 在两个常用的多任务仿真环境 ——Language Table（LangTable）与 OGBench—— 上进行了评估。结果表明：SWM 能够准确回答关于未来结果的问题，并能泛化到新场景中。SWM 可以与基于采样的标准规划技术以及基于梯度的改进技术相结合，通过测试时优化实现显著的策略改进，从而解决各种机器人任务。

综上所述，SWM 代表了一类新型的世界模型，它利用 VLM 的丰富预训练知识，实现了可落地、灵活且可扩展的机器人控制。

语义世界模型概览

下图 2 展示了语义世界模型的概况。SWM 是一种视觉语言模型，经过调整后能够回答与未来相关的问题，这些问题由用于调整模型的动作所决定。通过一系列问题和期望的答案，其预测可以转化为规划信号，并迭代优化动作序列。

数据集生成

为了训练一个能够回答关于未来问题的世界模型，本文生成了一个状态 - 动作 - 问题 - 答案（SAQA）数据集。图 3 展示了该数据集中一个单独的状态与多个问题和答案的配对情况。

架构概览

SWM 是一个能够在给定动作条件下回答关于未来事件问题的模型。具备这种能力的模型本质上是一种带有动作条件的视觉问答模型。因此，从大型预训练视觉语言模型（VLM）出发，将其泛化能力迁移到机器人任务中是很自然的做法。这种 SWM 架构基于开源的视觉语言模型 PaliGemma。

该模型包含三个核心预训练组件：一个基于 Transformer 的自回归语言模型（其 token 嵌入大小为 d_tok)、一个视觉编码器 v_ϕ（其特征大小为 d_img）以及一个投影矩阵。PaliGemma 架构建立在两个单独训练的组件之上：Gemma 大语言模型和 SigLIP 图像编码器 V_sc。W 用于从 Z_sc 投影到 Z_LLM，其中 Z_sc 是 v_ϕ 的特征空间，Z_LLM 是大语言模型的输入 token 嵌入空间。本文使用 PaliGemma 的 30 亿参数检查点作为基础模型。

为了让基础模型能够就「某一特定未来（由行动产生）」回答问题，模型必须以这些行动为条件。为此，作者引入一个新的投影矩阵，它将单个动作映射到与 W 投影矩阵类似的潜空间 Z_LLM 中。

给定数据集 D_SAQA 中的一个元组 (S_i, a_{i:j}, Q_{S_j}, A_{S_j})，输入序列通过将图像嵌入、动作嵌入和问题 token 嵌入拼接而成：

随后，模型以端到端方式微调，通过优化标准交叉熵损失来预测目标答案 A_{S_j}。

这种训练过程使模型能够在语言空间中捕捉环境的动态，从而在无需显式生成像素级表征的情况下回答有关未来状态的问题。

实验结果

SWM 是否是一个有效的决策世界模型？

首先，作者通过在 LangTable 和 OGBench 任务上将基于采样的规划方法 MPPI 应用于 SWM 模型，对 SWM 的规划能力进行评估。

如表 2 所示，可以直接在语义世界模型之上使用基于采样的规划方法进行规划，在两个环境中的到达和方块分离任务上都取得了接近完美的成功率。

然而，对于大型模型而言，基于采样的规划方法计算成本高昂，在需要更多样本的更具挑战性的任务上运行 MPPI 并不可行。因此，对于更复杂的任务，考虑这样一种场景：由一个基础策略生成候选轨迹，再利用 SWM 和基于梯度的优化对其进行细化。如图 5 所示，该方法能够对候选轨迹进行细化，并相比基础策略取得显著提升。在 LangTable 上，SWM 相比基础策略的平均性能从 14.4% 提升至 81.6%；在 OGBench 上，从 45.33% 提升至 76%。SWM 在所有任务上也均优于 AVD 和 IDQL 基线，展示了其在规划方面的有效性。

SWM 还通过先选择子目标，再围绕该子目标进行规划，展现出处理更长程任务的能力。如表 1 所示，在多步任务上，SWM 的平均策略改进幅度达 52.0%，优于 AVD 基线。

次优数据是否能提高建模性能？

从表 3 可以看出，混入次优数据比仅使用专家数据进行训练能提高准确率。SWM 仅通过次优数据训练也能达到中等水平的性能，这表明次优数据在训练语义世界模型方面是多么有效。

SWM 是否保留了基础 VLM 的泛化能力？

为了衡量 VLM 预训练对泛化能力的影响，作者在组合式和场景分布外环境中对 SWM 进行了评估，相关环境如图 6 所示。

为了衡量语义组合泛化能力，在 LangTable 环境中引入了一个新的彩色方块，并修改了现有的方块颜色 - 形状组合。表 4 显示，在这些条件下，与基础策略相比，SWM 平均提高了 20.0%。这一性能表明，SWM 能够保留部分预训练知识，从而实现组合泛化。

为了测试对背景变化的鲁棒性，作者将 OGBench 的背景颜色改为一种新的组合。与基础策略相比，SWM 的性能再次提升了 20%，并且能够泛化到这些条件，而 AVD 方法则无法做到这一点。

模型的内部表征是否关注与任务相关的信息？

为了理解模型所学的表征，作者从模型的一个中间层可视化了从语言 token 到图像 patch 的注意力图。如图 7 所示，模型会根据语言提示正确关注图像中与任务相关的位置。例如，当被问到「红色的月亮是否在接触蓝色的立方体？」时，与这些物体对应的图像 patch 上的注意力得分更高。尽管从未在涉及两个以上物体的问题上进行过微调，但研究发现，当被问及此类问题时，该模型能够正确关注三个物体。这表明该模型继承了预训练 VLM 的泛化能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.