业界首个视觉世界模型综述：迈向更高智能的视觉范式|模态|新论文|神经网络

分享至

AI 真的理解世界吗？

当一个杯子从桌面掉落，大语言模型可以告诉你 “它会碎”，却无法推演这个过程：它如何下落？碎片如何飞散？液体如何溅开？

这揭示了一个关键问题：语言只是对世界的抽象描述，它可以表达结果，却无法刻画过程。真实世界并不是符号组成的，而是连续变化的物理系统。

相比之下，视觉直接记录了世界的演化 —— 物体的结构、运动以及背后的因果关系，都体现在视觉信号中。这使得视觉成为 AI 学习世界变化最直接、最完整的信息来源。

图 1：语言只能对事件结果进行抽象概括，而视觉才能呈现世界变化的连续过程。

这也是为什么越来越多研究者如 Yann LeCun，Fei-Fei Li 等开始重新思考：如果世界模型是通向通用智能的关键，那么它的起点不应该是语言，而应该是视觉。

人类理解世界，不只是 “说出结论”，而是 “看见变化”。视觉世界模型的目标，正是让 AI 通过视觉学习世界的运行规律，并据此推演未来。

为了理清视觉与世界模型之间的深层联系，并为该领域的未来研究提供一张清晰的脉络图，北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者，发布了首篇视觉世界模型长篇综述：From Seeing to Knowing the World: A Survey of Vision World Models。

这项工作提出了一次关键的概念转变：视觉不应仅仅被视为一种输入模态，而应成为塑造世界模型表征方式、学习机制以及评估体系的核心驱动力。在这一 “以视觉为中心” 的视角下，研究团队不仅首次系统性定义了视觉世界模型，还构建了一个贯通 “表征 - 学习 - 模拟” 的统一分析框架，在同一框架下重组四大技术路线、厘清评测体系，并进一步提出面向下一代世界模型的关键研究方向。调研的最新进展截止至 2026 年 4 月 1 日。

论文标题： From Seeing to Knowing the World: A Survey of Vision World Models
项目主页：https://aiworldlab.github.io/survey/
论文链接：https://aiworldlab.github.io/survey/preprint.pdf
代码 / 资源整理：https://github.com/AIWorldLab/Awesome-Vision-World-Model

1. 为什么现在需要一篇视觉世界模型综述？

世界模型已经成为当前 AI 研究中最受关注的话题之一，该方向的发展跨视频生成、表征学习、具身智能、自动驾驶等多个研究社区。这些路线普遍开始依赖视觉信号，但在多数范式中，视觉仍更多被视为一种观测输入：视频生成方法更关注未来内容的视觉逼真度与时空一致性，表征预测方法强调在潜在空间中捕捉世界演化的预测结构，而状态转移和具身智能相关方法则更重视基于紧凑状态进行长时程推演与决策支持。

图 2：视觉世界模型研究技术路线。上半部分梳理主流模型架构，下半部分归纳不同领域中的数据集与评测基准。

虽然这些路线都在尝试回答 “AI 如何从视觉中建立对世界变化的内部模型” 这一核心问题，但它们长期沿着各自的范式独立发展，存在定义不统一、分类彼此割裂、评测标准难以对齐等问题。

也正因如此，当前迫切需要一篇真正以视觉为中心、能够在统一框架下重新组织这一领域的系统综述。相比于单纯汇总已有工作，这篇综述更重要的地方在于提出了一次关键的视角转换：视觉不应仅仅被视为世界模型的输入模态，而应成为定义模型如何表征世界、学习规律与评估能力的核心出发点。

2. 视觉世界模型统一框架

团队首先给出了 VWM 简洁且明确的定义：视觉世界模型能够从视觉数据中学习世界知识，并基于交互条件生成未来世界状态。

并将 VWM 的研究统一为一个框架内的三个核心组件：

视觉编码 (Vision Encoding)：如何将各类原始视觉信号（图像、视频、点云、光流信息等）转化为利于建模世界变化的表征。
知识学习 (Knowledge Learning)：模型需要从视觉中到底学到了什么？我们将其归纳为三个递进的层次：时空连贯性（Spatio-temporal Coherence）、物理动力学（Physical Dynamics）以及因果机制（Causal Mechanisms）。具体而言，时空连贯性要求物体在空间与时间上的持续性，其位置和形态变化保持连贯；物理动力学为物体在重力、接触、运动等物理约束下的变化规律，保证未来演化的物理合理性；而因果机制则表示动作、事件与结果之间的因果关系，使模型能够理解 “做什么会导致什么”。
可控模拟 (Controllable Simulation)：基于学到的知识，模型在交互条件（如机器人动作、文本指令）的引导下，对未来的潜在状态进行推演。

图 3：视觉世界模型统一框架。从视觉编码、知识学习到可控模拟，系统刻画 VWM 如何从观测中学习世界规律，并在交互条件下推演未来，实现闭环模拟。

这个框架的重要性在于，它第一次比较系统地回答了：一个视觉世界模型到底应该学什么，靠什么学，又该如何被控制和评估。

3. 当前视觉世界模型，主要分成哪几条技术路线？

依据上述统一框架，现有方法可被归纳成四大代表性范式，包含七种子范式。研究团队不再把这些路线割裂开，而是放到同一套框架下进行比较。

图 4：视觉世界模型方法架构图。每类范式上半部分展示模型架构，下半部分给出其如何实现视觉编码、知识学习和可控模拟的过程。

1. 序列生成（Sequential Generation）

通常会把图像或视频转成 token 序列，然后像语言模型一样一步一步预测未来。它的优势是可扩展性强、适合长上下文，缺陷是长时预测易出现误差累积和漂移，对精细几何、物理交互的模拟效果有限。子范式包括基于视觉自回归的世界模型（visual autoregressive model），以及与大语言模型对齐的多模态自回归世界模型（MLLM-guided multimodal autoregressive model）。

图 5：视觉自回归视觉世界模型代表方法总览。每个方法分析其视觉编码器、所学习的世界知识、交互输入和模拟输出类型。

2. 扩散生成（Diffusion-based Generation）

通常在连续潜空间中通过迭代去噪生成未来。在视觉质量上更强，也更适合生成连贯、逼真的未来片段，但代价是推理开销更大。子范式包括经典的潜空间扩散世界模型（latent diffusion）和当前的主流思路自回归扩散世界模型（Autoregressive Diffusion）。

图 6：扩散生成视觉世界模型代表方法总览。

3. 表征预测（Embedding Prediction）

不执着于生成完整视频，而是直接预测未来的 embedding。这样的好处是能把重点放在 “学规律” 而不是 “画细节” 上，更适合规划、推理和效率优先的场景。但其缺点是可解释性相对较弱。该范式的典型代表是 JEPA 系列。

4. 状态转移（State Transition）

将视觉输入压缩为紧凑的隐状态，通过递归状态转移建模世界随时间的演化。该类范式在潜空间 rollout 高效，递归状态能够持续保留历史信息，是早期世界模型的主流思路。子范式包括经典的状态空间世界模型（State Space Modeling）和具有组合泛化能力的基于对象的世界模型（Object-centric Modeling）。

4. 评估指标与基准：视觉世界模型怎么评？用什么评？

如果说前面的章节回答的是视觉世界模型是如何设计的，那么评测部分回答的就是另一个更关键的问题：什么样的视觉世界模型才算得上好？

图 7：视觉世界模型评估体系概览。包含三类评估指标和两组数据集与基准分析。

首先是怎么评。团队给出的答案很明确：仅仅生成出清晰、逼真的画面还远远不够。一个可靠的视觉世界模型，至少要同时满足三层要求：看起来真实、演化过程合理、并且能够真正支持任务决策。基于这一判断，团队将现有评估指标统一整理为三大类：

视觉质量（Visual Quality）：生成的画面或视频是否清晰、流畅、逼真。
物理合理性（Physical Plausibility）：模型是否遵循客观物理规律。例如，预测的运动轨迹是否符合运动学？3D 空间结构是否会凭空坍塌？多视角下的一致性如何？
任务表现（Task Performance）：模型能否支持下游任务的成功。例如，能否帮机器人提升抓取成功率？能否让自动驾驶车辆安全避障？

图 8：三类评估指标总览。

接下来是用什么评。如何测试这些能力呢？团队系统梳理了视觉世界模型常用的数据集和基准，并把它们分成两大组：基础世界建模（Foundational World Modeling）和针对特定领域的世界建模（Domain-specific World Modeling）。

基础世界建模旨在考察模型对通用物理世界法则的掌握程度，不局限于特定任务：

通用世界预测与模拟（General World Prediction and Simulation），这部分更强调长时程预测、可控生成和一般性的世界理解能力；
物理与因果基准（Physics and Causality Benchmark），关注的不是画面是否逼真，而是模型是否真正遵守物理约束、能否区分合理与不合理事件，以及是否具备一定的反事实和因果判断能力。

图 9：基础世界建模数据集与基准总览。

针对特定领域的世界建模则关注模型在具体应用场景中的实际表现：

具身智能与机器人（Embodied AI and Robotics）：关注模型是否能够支持机器人在真实或仿真环境中完成操作任务；
自动驾驶（Autonomous Driving）：需要模型具备强感知能力，也要求它能够在交互和控制条件下稳定推演交通场景；
交互环境与游戏（Interactive Environments and Gaming）：测试重点是模型能否作为 “神经渲染引擎”，在玩家输入各种离散控制信号时，实时反馈出正确、一致的游戏画面。

图 10：针对特定领域的世界建模数据集与基准总览。

5. 下一代世界模型，何去何从？

尽管目前的 VWM 已经能生成令人惊艳的视觉画面，但只要遇到复杂的物理交互、罕见的边缘场景或是需要严谨因果推理的任务，它们往往产生违背常理的幻觉。

从 “生成逼真画面” 走向 “支撑 AGI 的基础设施”，下一代世界模型路在何方？团队在综述中指出了三个至关重要的突破口：3R 路线图（Re-grounding, Re-evaluation, Re-scaling）。

图 11：下一代世界模型核心挑战与未来方向。

1. 夯实知识基础（Re-grounding）：走出简单的物理模拟和画面生成，去面对真实世界的复杂性。

拓宽知识边界：真实世界并不只由简单的牛顿运动和刚体碰撞构成。除了重力、接触、运动等基础物理规律，还存在柔性材料形变、复杂摩擦、流体运动等更高阶的物理过程；与此同时，现实环境中的世界演化还常常受到社会规范、行为约定和人类意图的影响（例如：救护车闯红灯）。模型必须学会理解这些超越纯粹物理的社会因果关系。
架构升级：纯神经网络在面对分布外数据时极其脆弱。因此，新的架构设计必须引入更强的归纳偏置与约束机制：一方面需要强化几何感知能力（Geometry-aware Modeling）。让模型不仅生成 2D 像素，更能在底层维持 3D 空间的一致性；另一方面需要显式地建模物理规律与因果先验。例如，可以引入神经符号混合架构（Neuro-symbolic），将严格的物理引擎或因果逻辑融入神经网络，用显式的规则约束隐式的生成。

2. 重构评估体系（Re-evaluation）：用实战和反事实检验真伪。

裁判模型与实战评估：训练专门的裁判模型（Judge Models）来评估生成结果的物理规律。进一步地把 VWM 塞进机器人的大脑里去执行任务。如果在模拟规划中机械臂抓取失败了，那这就是模型物理理解存在缺陷的最铁证。
反事实推理测试：真正的懂因果，意味着能回答 What-if 问题。比如，给模型同样的 “种下一粒种子” 的初始画面，条件 A 是干旱，条件 B 是浇水，模型必须能推演出截然不同的生长结局。

3. 重塑 Scaling Law（Re-scaling）：迈向更通用的世界模型。

预训练缩放（Pretraining Scaling）：在预训练阶段，我们需要更高效的时空 Encoder 和统一的建模接口，用海量的、包含复杂因果的交互数据，训练出跨领域的通用视觉世界模型。
推理时缩放（Inference-time Scaling）：未来的视觉世界模型在生成一段未来演化之前，不应该是一次性盲目吐出画面，而是应该在内部进行思考，提出多种可能的结果、检查是否违背物理约束、在内心进行试错和修正，然后再给出最合理的推演结果。

大语言模型构建的知识，本质上是对人类文本经验的概率总结；而真实世界的运转，遵循的是连续的物理法则与因果链条。视觉世界模型的使命，正是打破符号的局限，直击物理现实的演化规律。

从 “基于语义关联得出结论” 到 “基于世界常识模拟未来”，这不仅是世界模型研究的一次范式推进，也可能是 AI 走向更强预测、交互与决策能力的关键一步。

完整文献整理与归纳、详细架构对比与技术路线图，欢迎前往我们的论文与项目主页详细阅读！

作者介绍

余萧

北京交通大学计算机学院博士生。获得国家奖学金两次，发表 CCF-A 类论文一篇，曾参与 VideoWorld 2 项目。研究方向为视觉世界模型，遵循物理与因果规律的世界模型等。

靳潇杰

北京交通大学计算机学院教授 / 博导，国家高层次青年人才，曾任字节跳动美国研究院创始成员和技术负责人。研究方向为多模态智能、世界模型、高效深度学习等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.