李飞飞最新论文:渲染、模拟、规划，怎样才算是世界模型？|机器人|模拟器|智能体|大模型

分享至

“世界是一切事实的总和。”

——Ludwig Wittgenstein《Tractatus Logico-Philosophicus》1921

世界并非由语言构成。

在此前的一篇文章中，我们曾论证，空间智能（Spatial Intelligence）是 AI 的下一个前沿，而世界模型（World Models）则是通向这一目标的路径。

在这里，我和 World Labs 团队希望再深入一层：面对如今被不断构建、并统称为“世界模型”的各种系统，究竟有哪些功能模块真正构成了这种能力？每个模块又是为了什么而存在？

语言模型赋予了机器对于概念、词汇和推理能力的惊人掌控力，但无论是虚拟世界还是真实世界，其运行依赖的是另一种底层基础。

语言模型学习的是文本的统计结构，而世界模型学习的是空间与时间的统计结构：光线如何落在一个表面上，一个花园从某个从未被相机拍摄过的角度会是什么样子，物体如何响应外力并遵循物理规律。

这使得“世界模型”成为当今 AI 领域最重要、同时也最被滥用的术语之一。计算机视觉、机器人、强化学习以及生成式 AI 都声称自己在构建世界模型，但它们所指代的内容却完全不同。

一个能够生成华丽却违反物理规律火焰的视频模型，一个能够即兴创造可玩游戏的语言模型，以及一个能够精确模拟燃烧过程的物理引擎，都被冠以同样的名字。

古希腊人从未能就世界究竟由什么构成达成一致：是火、水，还是不可分割的原子。原因在于，“世界”从来都不是一个单一事物，它始终只是一个代称，用来指代某位思想家在进行推理时所需要面对的整体。

AI 如今继承了同样的问题，而且恰恰发生在这个领域最需要精确定义概念的时候。

分类学背后的循环

要穿透这种混乱，需要回到一个比这里讨论的任何技术都更古老的图示。几十年来，强化学习教材——包括 Sutton 与 Barto 的经典著作——一直使用同一种结构来描述智能体如何与世界互动。

这张图的正式名称是“部分可观测马尔可夫决策过程”（Partially Observable Markov Decision Process，POMDP），而“世界模型”一词最初的技术定义正源于这一传统。

一个智能体（Agent）——无论是人类、机器人还是软件系统——会采取行动（Action）。这些行动会影响世界的状态（State）。智能体永远无法直接看到状态本身。

能够到达智能体的只有观测（Observation）：落在视网膜上的光子、传感器读数、视频帧中的像素。新的观测又会影响新的行动，如此循环往复。

这里的“状态（State）”需要特别解释，因为不同学科对此的理解不同。

这里说的不是化学中的状态——固体、液体和气体之间的区别，而是物理学家和机器人学家所说的状态：对某一时刻世界中正在发生的一切的完整描述，包括每一个物体、每一个位置、每一个速度以及每一个属性。

状态是世界底层真实存在的现实；原则上它是完整的，但身处其中的任何智能体都无法直接看到它。观测只是智能体对于这种现实的局部视角，而行动则是智能体对此作出的回应。

正是这个循环——智能体、行动、状态、观测，再回到智能体——赋予了现代“世界模型”这一术语其技术含义。

事实上，“世界模型”这个概念本身比这还要古老，它可以追溯到 Kenneth Craik 在 1943 年提出的观点：心智通过运行现实世界的“小型模型（small-scale models）”来进行推理。

后来这一思想被带入 20 世纪 80 年代末和 90 年代初的神经网络研究。

而这个循环同样解释了今天人们所说的世界模型究竟是什么。如今被称为世界模型的不同系统，本质上都是这个循环的不同投影，它们各自输出其中的不同部分。

世界模型的三种功能

第一种世界模型是渲染器（Renderer）。

渲染器输出的是观测（Observation），也就是供人类眼睛观看的像素，而最重要的评价标准是视觉保真度（Visual Fidelity）。

一个能够将文本提示词转化为电影级无人机镜头的视频模型就是渲染器。Google 的 Genie 3，或者 World Labs 自己的 RTFM 这样的交互式系统也是如此，它们能够根据用户输入实时生成画面。

这类模型并不具备对于三维结构的显式理解。它生成的是“观看者会看到什么”，而不是“世界实际是什么”。

无人机镜头中的建筑物从空中看起来可能毫无瑕疵，但如果你试图驾驶汽车穿过下方的城市，它们就会迅速崩塌。

第二种是模拟器（Simulator）。

模拟器输出的是状态（State）：一种在几何、物理和动力学层面都忠实于现实世界的表示形式，人类和计算机程序都能够基于它进行计算和交互。

渲染器的职责仅仅是视觉呈现，而模拟器的职责则是结构真实性，它要求几何结构经得起检验、物理过程遵守牛顿定律、动力学行为符合现实世界应有的运行方式。

模拟器同时服务于两类用户。对于建筑师、设计师、电影制作人和游戏开发者等专业人士来说，他们需要远超视觉合理性的精确度。

对于强化学习智能体、机器人控制器和自动驾驶系统等计算机程序来说，模拟器则是训练场，它们能够在其中大规模与世界交互，测试那些在现实中危险、昂贵甚至根本无法执行的场景。

第三种是规划器（Planner）。

规划器输出的是行动（Action）。给定一个观测和一个目标，规划器回答的问题是：智能体下一步应该做什么？从很多意义上讲，它正好是渲染器的反面。渲染器以行动作为输入，并输出观测；而规划器以观测作为输入，并输出行动，从而闭合了感知—行动循环。

Vision-Language-Action 模型、Model-Based 系统以及新一代 World Action Models，本质上都是对于规划器的探索：它们试图构建能够在非结构化世界中决定机器人下一步行动的系统。

这三种分类涵盖了当今绝大多数已经落地的系统，而在实践中，对它们进行区分也是有意义的。

但从根本上说，它们并非彼此独立。关于世界如何运作的同一套底层知识——几何、物理和动力学——支撑着所有这些能力。

一个能够从任何角度渲染杯子的模型，原则上也应该能够模拟这个杯子被推动之后会发生什么，并规划出一只手如何将它拿起。越来越多最有意思的研究，正在有意模糊这三种能力之间的边界。

为什么模拟是关键枢纽

在这三类系统中，模拟器获得的公众关注最少，却是三者中影响最深远的一类。这篇文章正是希望讨论这种不对称性。

渲染器无疑是商业化最成熟的方向。大量图像生成和文生视频产品正在迅速扩张至消费市场和企业市场。Google 的 Nano Banana 模型已经将高质量图像生成能力带给了数以亿计的用户。这项技术是真实存在的，市场也是真实存在的。

然而，渲染器优化的是视觉合理性，而非物理准确性，而这一上限至关重要。它们生成的结果非常美丽，但无法被信任用于设计建筑或训练机器人。

规划器则是最令人兴奋、同时也最处于早期阶段的方向，它与快速发展的机器人学习领域紧密相关。

过去两年，这一领域诞生了大量令人印象深刻的机器人演示视频，但我们必须坦诚面对这些演示究竟说明了什么。

几乎所有演示都局限于高度受控的实验室环境，使用有限的物体集合，并在很短的任务时间范围内运行。它们尚未在现实部署所要求的复杂性、多样性和持续时间尺度上得到验证。

从令人惊艳的演示视频，到真正能够稳定工作于厨房、仓库或手术室中的机器人，中间仍然存在巨大的鸿沟。

尽管如此，资本已经投入重注。一批资金充足的新进入者正在竞相推出通用规划系统，而最大的基础设施公司也在将规划能力构建于更广泛的模拟平台之上。

能够规划的机器人，才是真正能够工作的机器人，而整个行业都在争夺率先实现这一目标的位置。

模拟则是连接这两者的桥梁。如果说语言是世界的抽象表示，而像素是世界的投影，那么几何、物理和动力学就是世界本身。

模拟器必须工作在这一层级之上——它是支撑视觉外观（供渲染器使用）和行动后果（供规划器使用）的结构性骨架。

一个真正掌握模拟能力的模型，既可以将自己的理解投射为供人类观看的像素，也可以投射为供具身智能体使用的行动预测。

而一个只掌握渲染能力或者只掌握规划能力的模型，则无法做到这两点。其商业价值空间极其庞大。仅 NVIDIA 的 Omniverse，就瞄准了公司估计超过一万亿美元的可服务市场，涵盖工厂、仓库、供应链以及数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计以及药物发现等领域，也都依赖于类似模拟器的能力。

与此同时，这个方向也汇聚了整个领域最困难的开放性问题。带有显式几何结构、材料属性和物理标注的三维数据，比渲染器所使用的互联网视频稀缺几个数量级。

Sim-to-Real Gap——即模拟环境与现实世界行为之间的差距——依然存在。

在此基础上，生成式模拟器还引入了新的风险：AI 生成的几何结构可能看起来正确，却包含自相交或尺度错误的问题，从而导致毫无意义的物理行为。

大规模多物理场模拟仍然极其昂贵，在这种模拟中，刚体、柔性物体、流体和布料需要同时发生交互，其成本远高于单一领域的模拟。

在 World Labs，Marble 是我们进入这一领域迈出的第一步。它能够接收多模态提示输入（文本、图像、视频或空间草图），并生成可探索的三维环境，同时输出用于视觉浏览的 Gaussian Splats，以及供物理引擎运行的 Collision Meshes。

但 Marble 只是一个更漫长发展历程中的开篇章节。随着渲染、模拟和规划之间的界限不断消融，整个领域都正在书写这一更长远的故事。

边界如何消失，以及接下来会发生什么

但未来还有更多事情将会发生。当前最重要的趋势是，这三种类别正在开始相互融合。

其背后的共同洞见在于：渲染一个世界、模拟一个世界以及在其中行动所需要的知识，本质上是相同的。

继续以此前的杯子为例，一个真正理解杯子如何放置在桌面上的模型——理解它的几何结构、材料属性以及受力响应——理应能够从任意角度渲染这个杯子，模拟它被推动后的行为，并规划出一只手如何将它拿起。这三种能力不过是同一种底层理解的三个投影。

例如，来自多个机器人实验室的一些最新研究已经证明，至少在概念层面上，一个预训练的视频渲染模型可以作为联合世界预测与动作预测系统的基础，从而在渲染器与规划器之间建立桥梁，让同一个模型既能够想象未来会发生什么，也能够决定应该采取什么行动。

与此同时，World Labs 的 Marble 已经能够通过同一个模型同时输出 Gaussian Splats 和 Collision Meshes，从而消除了渲染器与模拟器之间的边界。

每一个层级都正在从被动输出转向交互式系统：渲染器变得能够接受行动条件输入，模拟器开始生成更可控、更可编辑的世界，而规划器则开始进行推理，而不仅仅是简单反应。

这一趋势的逻辑终点，是一个统一的世界模型（Unified World Model）：一个基础模型同时具备照片级渲染能力、物理级结构理解能力以及行动规划能力，并能够根据下游用户的需求，在不同输出形式之间自由切换。

当然，我们仍然面临许多艰巨挑战。数据分布极不均衡：渲染器拥有海量互联网视频，而模拟器和规划器则严重缺乏三维资产和机器人演示数据。追求视觉美感往往会牺牲机器人或高保真模拟所需的精确度。

如何在统一架构中调和这些矛盾，正是当今世界模型研究最核心的开放问题，而这也正是 World Labs 在持续推进 Marble 过程中希望解决的方向。

然而，大方向已经十分明确。自 20 世纪 80 年代末以来，整个领域一直在押注同一个假设：只要拥有足够丰富的世界模型，任何智能体都能够看见世界、构建世界，并在其中行动。而如今，正是这一假设在推动整整一代研究的发展。

真正赋予这一“宏大赌注”分量的，是眼下已经发生的融合：三条原本彼此独立、如今各自驱动着数十亿美元产业的研究路线，正在开始表现得像同一个系统。

当它们共同发展、彼此边界逐渐消失时，它们最终重塑的将不仅仅是 AI 技术本身，而是机器智能与其所栖居的物理世界之间的关系——也就是空间智能漫长演化历程中的下一阶段。

语言赋予机器谈论这个世界的能力。

而世界模型，则将让机器最终真正理解这个世界、想象这个世界、推理这个世界，并与这个世界互动。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.