东方理工金鑫：如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025|解耦|智能体|大模型|人工智能|金鑫(足球运动员)

分享至

“当AI拥有「思维链」，赋予机器想象力的世界模型训练新范式。”

作者丨吴彤

编辑丨林觉民

在人工智能研究正以前所未有的速度迭代的今天，一位研究者如果同时聚焦于世界模型与具身智能这类高度前沿的课题，并且强调产业应用和市场接受度才是技术真正的试金石，这可能本身就成为了一种值得关注的信号。

宁波东方理工大学助理教授金鑫便是这样一位研究者。

我们近期的一次交流，恰逢他的团队在美国圣地亚哥NeurIPS会议的活动告一段落——他与上海交通大学、布里斯托大学、清华大学等高校的合作者们在那组织了一场关于“具身世界模型”（ Embodied World Models for Decision Making）的研讨会，并有多位学界和产业界大咖受邀参加并作报告。

从早期的图像视频信号处理、压缩等底层视觉任务，到近年聚焦于表征解耦、世界模型、空间智能等方向，金鑫的研究不断从低维信息向高维信息跃迁，不断尝试新的挑战，试图让机器变得更加智能，更好地理解物理世界并服务实际产业，其研究路径也反映出AI领域逐渐从简单的感知走向更加复杂的认知与决策。

然而，当对话触及这些光环之下的研究内核时，他表现出一种审慎。

“这只是我们团队现阶段一些非常初步的探索和个人的浅见，”金鑫谈到他目前重点投入的空间智能研究时这样说，“这个领域大家都还在摸索，远未到形成定论或技术成熟的时候。”

这种谦逊并非客套。他解释道，当一项技术——例如构建能够理解物理规律、并能与真实世界交互的“世界模型”——其底层范式尚未确立时，任何声称找到了“唯一正确路径”的论断，都可能被视为一种“过度宣称”。“我们更希望这些讨论能被同行看作是一种‘供参考’的交流，而不是要去定义什么或下结论。”

这种态度或许正是面对一个热络领域时所必需的清醒。

尽管研究涉猎广泛，但从对话中可以梳理出金鑫团队当前的核心思路：他们正尝试走一条“混合”（Hybrid）路径。即在构建世界模型时，将能明确描述的物理规则（如碰撞检测、摩擦力）通过知识嵌入的方式“教”给模型，同时，对那些难以公式化的复杂现象（如软体物体的形变、大气流动），则交给数据驱动的方法让模型自行领悟。

目前，他们将这套方法首先应用于工业制造场景，称之为“工厂世界模型”，并与宁波当地的制造业龙头企业合作进行验证。在他看来，工业场景中的规则和需求相对明确，或是这条艰难技术路径一个可行的切入点。

2025年12月13日，金鑫教授在雷峰网举办的GAIR大会现场，做了题为《空间智能技术在自动驾驶及具身机器人中的初步探索与应用》的分享。以下是具体内容，雷峰网做了不改变原意的编辑和整理。

大会分享

01、空间智能（世界模型）的起源

我是宁波东方理工大学的助理教授金鑫，今天有机会和大家分享我们课题组的研究，以及目前在宁波本地产业化的一些应用。

我就职的宁波东方理工大学是一所比较新的高校，今年刚开始第一届本科招生。如果大家听说过南方科技大学、西湖大学和深理工，可能对这类新型高校有所了解，我们同样属于这类新体制高校。

今天我将围绕空间智能（Spatial Intelligence）做简单介绍，包括目前在自动驾驶和机器人领域的一些初步探索。

空间智能这个概念并非全新，早在SLAM技术时期就已经被讨论。2024年，斯坦福大学的李飞飞教授将这个理念进一步拓展，延伸到与物理世界的交互、感知和理解，从而拓宽了这一概念的内涵。

目前，在自动驾驶、机器人，以及AIGC、AR、VR等行业中，空间智能技术都得到了应用。例如，李飞飞教授的公司就在进行相关原型和Demo的研发，比如近期发布的Marble 3D世界模型，通过一张图片，生成键盘可交互的3D世界，使得智能体可以在其中进行学习。此外，今年8月，谷歌DeepMind团队发布了Genie 3，引起了许多企业和产业界的关注。因为相比2024年年底李飞飞教授团队发布的偏动画风格的世界模型，Genie 3在写实性、一致性以及物理正确性上都达到了更高水平。

我们看到了世界模型取得了较大的进步，或者说是一次技术跃迁。在这种背景下，目前它已经能够实现较好的环境建模。虽然尚未展示AI智能体在其内部的训练效果或过程，但可以预见在不远的将来，这可能成为继数据增强、数据合成等方法之后，为人工智能训练提供高效路径的另一种选择——即通过世界模型进行训练。

02、如何切入空间智能

我们团队在剖析这一领域时，将空间智能或世界模型划分为三个部分：

首先，第一部分是空间感知。

我们认为这是最基础的部分，因为它肩负着构建3D世界的基本功能，可称之为3D建模（3D modeling或special perception）。这包括世界模型的搭建，以及如何将物理定律融入甚至嵌入到整个3D或4D空间中。与以往更注重重建的3D技术不同，现在更需要理解整个世界的运行逻辑、物理规则和一些第一性原理。

第二部分是空间交互（special interactivity）。

这意味着所构建的世界模型需要支持智能体（如汽车、机器人）在其中进行交互，具备与环境互动的接口和能力。我们认为这对于具身智能、群体智能至关重要，因为它不仅涉及智能体与环境的交互，也包括智能体之间的多智能体交互。这是世界模型的一项进阶能力。

第三部分是关于空间的理解、泛化与生成。

这里我想引用Richard Feynman教授的一句话：“凡我不能创造的，我就不能理解。”也就是说，如果我能打造出这样一个世界模型，那我一定充分理解了世界的本质。这其实就是对空间的充分理解和泛化，并由此衍生出生成能力。很自然地，我们会联想到前面提到的，在世界模型中可以生成大量的数据。

基于这个总体理解，我们又将工作进一步细分为两个方向：空间构建（spatial modeling）、智能体训练（AI agent training）。

空间构建即我前面提到的感知、理解和生成，其目标是先搭建出仿真环境。随后，AI智能体（如人或机器人）可以置身于这个环境中进行训练，就像图中所展示的迷宫一样，让智能体在其中不断学习以达到最终目标。

因此，这是一个“建模-训练”的两阶段过程。这两部分实际上可以形成一个不断优化迭代的闭环：机器人训练得更智能，就能用来构建更复杂的环境；进而在更复杂的环境中，又能训练出更智能的智能体。如此循环，形成一个不断升级的飞轮效应，实现闭环优化。

03、UniScene

接下来的工作，我将围绕这两大部分展开，介绍我们课题组今年在空间建模和AI智能体训练方面的几项代表性工作。由于时间有限，技术细节不会展开过多，但基本上都是围绕自动驾驶和机器人场景进行的探索。

首先介绍第一项工作，是已被CVPR接收的UniScene。

它专注于驾驶场景的生成。我们后续的相关工作，包括UniSceneV2、ORV、OmniNWM等都已公开，有兴趣可以参考。

那么，为什么我们需要生成自动驾驶场景的数据呢？

为什么不直接像特斯拉那样，在车辆上安装摄像头采集视觉数据？

这种方式当然可行，但目前只有特斯拉能够在其遍布全球的车辆上大规模部署摄像头进行采集。而在中国，一方面，许多整车厂没有特斯拉那样庞大的车队规模；另一方面，由于合规和隐私等问题，通过真实采集很难覆盖足够多的corner case或危险情况。因此，我们需要通过生成式方法，借助世界模型来合成这部分极其逼真且极具价值的“corner case”场景数据。

这里展示了一些前人的工作，包括DriveDreamer、DreamerBVG等顶尖研究机构和汽车厂商的研究。我们的工作选择了Occupancy（占据栅格）这种体素网格形式，作为进行多模态生成的语义表示。

之所以选用Occupancy，是因为它本身蕴含了丰富的语义信息（如哪里有车、人、道路），同时也包含了必要的几何信息。它正好介于视频和激光雷达点云之间：既不像视频那样有精细的像素级信息，但它能明确知道场景中物体的类别和大致位置，这对驾驶来说通常已足够；它也不具备激光雷达那样精确、抗干扰的深度感知能力，但保留了粗粒度的几何结构。

因此，我们认为Occupancy是一个很好的“桥梁”，能够将场景理解和建模有效地连接起来。所以我们采用了以Occupancy为中心（Occupancy-centric）的生成方案。

简单来说，我们将Occupancy作为条件，进而生成视频和雷达点云。目前，驾驶场景生成涉及多种模态，例如鸟瞰图、图像、视频、雷达等。我们希望以Occupancy为中心，将所有模态统一起来，相当于构建一个全面的、可用于自动驾驶的闭环仿真器（Closed-loop simulator）或统一模型（Unified Model）。这套链路对业内同行应该不陌生。相比于以往生成技术在成本和数据质量上的局限，我们这项工作在当时是比较领先的。

直观来说，我们的技术路线分为两步：

首先，我们用一个简单的鸟瞰图布局（BEV layout）作为输入，它大致描述了驾驶场景的布局（例如，红色代表道路，蓝色是车道线，橙色是车辆）。将这个布局输入模型后，第一步是生成对应的语义Occupancy（占据栅格）。

第二步，以此Occupancy为中心，分别衍生生成激光雷达点云和多视角视频。这是一个两阶段的解耦过程。我们采用这种设计的原因，在多个国际顶会上发表的论文中已经给出了答案，有兴趣的可以深入查阅。今年在ICCV会议上，我们也专门组织了一个研讨会，探讨模态解耦与信息交互方式带来的优势。

这种技术最终实现的效果，如本页视频所展示，是我们能够通过Occupancy生成，第一步先生成一个在语义和几何之间比较平衡的粗粒度结果，从而获得对场景的理解。以此为基础，再去“生成”或者说“合成”（用“合成”这个词可能更容易理解）这类驾驶视频数据。之后再进一步通过投影映射，得到对应的激光雷达点云。

今年10月底，我们发布了第二个版本（V2），核心在于进一步提升了数据质量并扩大了数据规模。我们这次在NuPlan数据集上进行了Occupancy标注，将数据量扩展上去，并且输出的模态不再仅限于RGB视频和点云，还新增了深度图和语义分割这两个模态。

相较于V1版本，V2还多了一个功能：我可以根据车辆传感器的具体位置，生成对应不同视角下的感知数据。

V2版本上线后，在不到一周的时间里，就在GitHub上获得了数百个star（目前应该已超过2000个star）。

现在我们正与理想汽车合作，用他们内部采集的一些存在镜头畸变的相机数据，来测试我们的生成器（或称仿真器）是否足够泛化，能否合成出带有此类畸变的视频。这类生成数据对他们自动驾驶算法的迭代优化能起到很大作用，且成本较低。

04、OmniNWM

近期，我们与本论坛的组织者赵昊老师合作，推出了OmniNWM。这项工作的核心亮点在于，我们引入了一个闭环的“规划-生成”串联机制。

简单来说，我们将规划的轨迹也作为一种条件输入到生成器中。这样做的目的是，根据输入的这条轨迹，来预测在执行该轨迹的未来状态下，场景会发生怎样的变化。

或者说，就是当我给定一个左转或右转的指令（或者说轨迹）后，我需要让我的世界模型能够预测，在执行这条轨迹之后，未来的场景会如何变化。这就是我们所做的扩展，称之为“万能的驾驶导航世界模型”。

这个模型需要同时预测全景的RGB视频、语义分割、深度图，以及对应的3D结构和未来的规划轨迹。其重点在于三个维度的扩展：

状态（State）维度的扩展：生成的输出不再只是原始的视频，还包括对应的深度、语义分割以及Occupancy等信息。这是对状态表示的丰富。
动作（Action）维度的扩展：我们的输入从离散的轨迹指令，映射到归一化、连续的表示，并以此作为条件，来生成对未来世界更多样化的预测。因为世界模型一个非常重要的功能就是能够预测未来状态，这是我们在动作维度做的扩展。
闭环奖励（Reward）优化：我们进一步将整个流程闭环。对于生成结果的好坏评估，不再依赖于外部模型，而是直接在世界模型内部完成。具体来说，我们通过计算生成的、内在的Occupancy（占据栅格）的一些指标——如碰撞量、边界量、速度标量等，基于这些预设规则来计算一个奖励（Reward），并反馈给整个环路。这样，它就形成了一个“生成-评测”的闭环系统。这也是一个重要的扩展贡献。

在此之后，我们将整套思路和方法论迁移到了机器人领域，应用于具身智能场景，进行机器人场景的数据合成。

方法论是相同的，都是以Occupancy这种中间模态为中心作为桥梁，来生成后续的视频，这可以称之为“机器人世界模型”或“机器人视频生成”。

我们目前已经能够处理并展示一些比较困难或亮眼的案例，例如针对软体、绳体等物体的数据合成。特别是在与当前主流仿真器（如Isaac sim 5.0）兼容的情况下，能够较好地合成并仿真这些有一定难度的案例，并实现批量化的并行数据生成。

05、InterVLA

对于机器人数据采集，目前非常需要以“人”为中心，或者说“第一人称视角”的本体数据。我们很早就意识到了这个问题，从2024年年底就开始了相关工作。

过去的数据采集，通常是架设一个第三方相机来拍摄机器人与人的交互。我们发现这种方式缺少了从机器人“自身”出发、以第一视角进行交互的视角能力。

因此，我们构建了一个新的基准数据集——InterVLA，旨在补充机器人第一人称视角数据的缺失。

具体做法其实很简单，我来展示一下InterVLA的数据集大概是什么样子。例如，在展示的这个场景中，会有一位指令官和一位助手。指令官下达指令：“把桌子上的药瓶递给我”。这位助手就模拟机器人的视角，去把桌子上的药瓶（例子中是杯子）拿起来递过去。

整个采集过程是：我们的学生会在头上和胸前佩戴GoPro相机，来模拟机器人。在听到指令官下达指令后，模拟机器人应该做出的反应。同时，我们对场景中的物体级资产也进行了标定，并将整个场景搬入动作捕捉系统中。

我们使用了戴总他们提供的相机，包括一个光惯融合的方案，搭建了这个采集场景。让学生贴上标记点，从而采集他们对应的动作，得到完整的运动信息。

整个数据集包含了大约3.9千个序列。虽然总时长不长，但我们的目标是在高校实验室条件下，优先将整个技术链路走通，而非单纯堆砌数据量。数据集的样本构成包括：第一人称视角视频、第三人称视角视频、以及通过动捕采集得到的动作数据。

此外，我们还利用ChatGPT对整个事件（从开始到结束）进行了文本描述，将动作过程用语言形式刻画出来，进而支持动作轨迹建模。这个数据集可以支持较多的下游任务，例如人体运动估计、人机交互等。

06、DreamVLA

接下来，我们在两个讨论较多的任务上进行了探索，即“抓放”这类桌面整理或简单的机械臂任务，研究世界模型如何与当前主流方案进行接口对接，并提出了DreamVLA模型。

为什么提出Dream VLA？我们先看原有的VLA（视觉-语言-动作）模型环路存在哪些问题。

最左边的图A展示的是经典的“语言-动作模型”：它根据看到的图像和接收的文本指令，直接输出动作。

图B和图C则是在此基础上，增加了一些更人性化的中间目标（Subgoal）。

例如，通过设定分步骤的Subgoal，或者用Subgoal的图像进行像素级的驱动，来帮助模型完成任务。比如，一个“去拿水”的简单指令，实际上包含了“走到隔壁房间”、“找到水”、“把水拿回来”等多个子目标。通过不断给出这些子目标策略或图像，来监督模型完成整个任务。

我们的想法其实更贴近人的思维方式。就像下面这句话说的，人在进行这类操作之前，通常会先在脑中“构思”一个思维链，这是一个多模态的推理链条。这启发自大语言模型中的“思维链”概念。我们在思考，如何将这种思想引入VLA模型？于是，我们提出了Dream VLA。

具体来说，Dream VLA 的做法是：在将输入交给最终的扩散变换器以生成策略或动作之前，让模型先输出一些中间产物，我们称之为“世界嵌入”或“世界知识”。例如，哪些地方是需要移动的、其深度应该如何被估计、以及对应的语义应如何预测。这相当于加入了几个仅在训练时使用的、中间层的“潜在嵌入”。

这与LeCun的卷积神经网络思想有相似之处，都是在潜在空间中运作，并不直接输出最终的像素级结果或动作，而是让网络在潜在空间中形成一种较强的思维链模式。

这里展示了一些中间的可视化结果，比如动态区域。我们使用CoTracker作为光流轨迹的提取器来进行中间层的监督。同时，为了防止不同模态之间的相互干扰，与之前的工作类似，我们也采用了模态解耦学习的方案，通过掩码的方式隔离各模态信息，减少干扰。

这是在仿真器上的一些结果，以及在真实环境中的测试。相比于之前的Open-VLA等方案，我们的方法泛化性更好，并能实现更快、更高效的收敛。

07、Orientation Foundation Model + VLA

在此基础上，我们又思考了另一个问题：人类对于方位感其实非常强。当然，这因人而异。我自己方向感就比较强，习惯根据太阳光等外部环境来定位方向。但对于机器人而言，它同样需要这种方位感知能力。

我们发现，目前主流的控制方案，即使是对于“抓放”这类简单的桌面任务，也很难像人一样拥有很好的方位感。

具体来说，就是“方位感知”能力。

比如，当机器人去抓一瓶水时，它的机械臂通常喜欢直接从正上方去抓瓶盖。但人是不会这样做的，人会从侧面去抓瓶身。因此，我们设计了一个模块化的方案（而非端到端），通过模块串联的方式，赋予机器人这种方位感知能力。我们称之为“方位基础模型”。

最终实现的效果是，比如在抓取锤子、电钻时，能准确抓握其手柄；在抓取水瓶时，能去抓瓶身。这就是我们为它增加的能力。相关的实验数据这里就跳过了。

08、Disentangled World Models

最后，我想介绍一项工作：我们将“解耦学习”进一步嵌入到世界模型中，做了一个原型。

在仿真环境（比如强化学习训练常用的MuJoCo）中，经常会遇到一个问题：模型对许多干扰因素非常不鲁棒，很容易受到光照、背景等与任务无关因素的影响。我们就在探索如何将这类非任务相关的因素排除在外，这是一个比较抽象的问题。

我们采用的方法是“解耦学习”，将这些因素进行遍历和分析，从而提取出关键因子。在我们的表示空间中，将那些对任务至关重要的关键因素抽离出来，使得在训练时能更好地聚焦于有效信息。

简单说，第一步是提取和解耦信息，找出哪些环境因素对任务至关重要；随后，通过离线与在线相结合的方式进行最终的模型训练。我们在仿真环境中测试了这种方法对智能体训练的有效性。相比原有方法，它能带来显著提升，尤其是在训练效率方面。因为找到了数据中的关键要素，或者说最有效的那部分信息，这对其训练加速是有帮助的。

以上是我今天汇报的全部内容。如果大家有兴趣，可以进一步关注我们的公众号或与我微信联系。我目前也在探索一些产业化的可能性。所展示的技术仅代表我们实验室目前可行的方案，期待有进一步的交流机会，谢谢。

问答环节

01、研究进展

首先想问一下您的研究转变，为什么现在的研究与世界模型相关？

从去年（2024年）年初开始，实验室的重点开始慢慢聚焦到世界模型这一领域，我们将其称为世界知识或空间智能。

这标志着一个维度的提升：实验室的研究逐渐从处理图像、视频等2D视觉信号内容，转向理解3D、4D乃至更高维度的视觉信号，其核心是让AI获得对物理空间的认知能力。选择世界模型和具身智能这类集成应用化、交叉性强的领域，是为了更好地凝聚实验室的力量，并吸引更多跨领域的人才。

我们今年有相关论文产出。例如，在刚刚于美国圣地亚哥举办的NeurIPS会上，团队与其他兄弟单位合作的两篇论文受到广泛关注，其中一篇还做了口头报告。

（NeurIPS会场展示DreamVLA（一作张文垚）和SoFar（一作齐泽坤））

能否简要概括一下这几篇论文的研究亮点或解决的核心问题？

如下图所示，我们将空间智能的整个流程分为两个阶段。第一阶段是世界的建模，即如何构建世界模型；第二阶段是智能体训练，即在构建好的世界中如何训练具身智能体。

在世界建模阶段，我们关注如何建立一个与真实物理世界一致、符合物理规律的模型，强调其物理真实性和物理基础，避免出现幻觉或违反物理事实的情况。我们在ICCV 2025 的文章Disentangled World Models、CVPR 2025 的UniScene、系列工作OmniNWM，都属于这一范畴，重点在于打造物理真实的世界模型。

在第二阶段，即具身智能体训练部分，我们关注如何训练智能体。当前主流方法是模仿学习或端到端的VLA。而我们提出的特色方法是通过类人的学习方式。我们认为人在学习新技能前并非直接上手操作，而是会运用思维链或高层抽象思考等方式。

我们研究的重点是如何让AI在训练过程中产生自我想象的能力，即在行动之前能够形成完整的思维链。

例如，当任务是将一瓶水从我所在的房间拿到隔壁房间时，AI在行动前就会思考：需要先抓起瓶子，走到门口开门，找到隔壁房间，再开门进入，找到桌子并把水放下。这套逻辑是在行动前就在脑中规划好的可能性。

今年是您独立指导博士生的第几年？您是如何筛选进入实验室的学生的？

我从2022年就开始带博士了，这期间宁波东方理工大学提供给了我很好的科研环境，团队Senior教授和校领导也充分给予信任和帮扶，使得我们近几年的学生培养取得了初步成效，去年团队有一位博士同学（徐良）获得国家奖学金，今年团队增加到两位（李博涵、王允楠）。

我最看重的是学生的自驱力。我不需要每天盯着学生，而是希望他们能主动、快速地给我反馈。背景和能力都可以培养，但自驱力和对科研的热情是最核心的。我希望学生不是为了学位而读博，而是真正觉得研究有趣，并能从中获得成就感。学生眼里要有光，愿意探索新技术，对这个领域有热情。

因为这个行业竞争激烈，如果内心不热爱，会非常痛苦，随之而来的压力和焦虑也会很大。真正喜欢技术，对新进展感到兴奋，这才是关键。

在招生时，虽然自驱力可能被临时表现，但我有自己的考察方式。学校也支持灵活的方案，我会让学生先来实习半年左右，支付一部分津贴，这是一个相互磨合和考核的过程。如果合适，今年的招生名额就确定给他；如果不合适，对双方的损失也不会太大。

02、场景选择

目前构建世界模型时，选择的仿真场景是会优先考虑常见环境吗？

我目前所在的学校是宁波东方理工大学。宁波最强的产业是制造业，截至2024年底，宁波拥有104家国家级制造业单项冠军企业，数量居全国各城市第一，连续7年保持“单项冠军第一城”，例如奥克斯空调、均胜电子、吉利汽车等，团队与之都有非常紧密的合作。

基于这样深厚的工业背景，我们在研究世界模型和具身智能时，首先瞄准的是工业场景，而非家庭、零售或教育等领域。具体来说，我们聚焦于制造业，并将我们的世界模型称为“工厂世界模型”。我们的目标很明确：在工厂环境中，充分模拟多样的生产作业情况，支持机器人的训练及交互操作。

那么，当前学术界研究世界模型的团队，其最大的差异点是否体现在所选择的场景上？

可能还不是。因为目前大家的研究尚未进入大量铺设具体场景的阶段。

例如，像LeCun团队代表的基于潜在变量的世界模型，或李飞飞团队Marble项目代表的以渲染、所见即所得的视觉模型为例，他们可能还处于探索技术路径和底层原理的阶段，尚未深入到具体场景。越是知名的研究机构，越倾向于引领技术路径和范式的制定。而我们作为处于快速发展阶段的团队，我们认为需要两条腿走路：既要探索前沿的技术路线，又要找到有特色的应用场景。

你们构建世界模型的具体步骤是怎样的？以及数据方面，是否主要采集静态数据？

不，数据分为两部分。

静态数据主要指资产性的内容，例如生产线上的桌子、椅子、流水线等物体级别的静态资产。

动态数据则包括最简单的RGB视频，以及雷达激光点云，甚至动作捕捉系统获得的光惯混合数据（结合可见光与IMU惯性测量单元），这些用于体现物体的运动和动态信息。

两者都是必需的。因为世界本身就是实时变化、包含动态与静态的整体。

因此构建步骤是：先以静态数据为基础，再加入动态示教数据。最关键的是纳入规则，这些规则可以是显性的或隐性的，例如“水往低处流”、牛顿定律等第一性原理或物理规律。这是模型的灵魂所在。

所以技术路径是自上而下的：先定义物理规则，再叠加动态数据，最后以静态数据打底。具体步骤会涉及数据采集、处理与合成，进而训练模型，使其具备生成能力。

当前世界模型之所以可行，关键在于其生成能力。过去，构建数字场景需要“手搓”——即对现实物体或场景进行一对一的手工建模或CAD仿真，效率低且成本高。

而如今AIGC技术的发展，使得我们能够通过生成方式快速创建出物理正确、视觉真实的场景，这在效率和成本上都是量级提升。这正是世界模型如今兴起的根本原因。

在构建世界模型的各个步骤中，您认为哪个部分技术难度最大？哪个部分成本最高？

成本最高的部分是前期静态资产和动态场景数据的创建与采集。例如，要生成成千上万个各不相同的工业零部件模型，这部分工作量成本很高。而技术难度最大的，则在于如何将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中，使其更真实更好地服务智能体学习。

03、一些讨论

从技术路径上看，您认为当前一些视频生成模型（例如Sora）是否能够演进为世界模型？这条路径是否正确？

我认为问题不在于路径是否正确，而在于它适用于哪些场景、能解决哪些问题。例如，Sora在游戏、娱乐、影视媒体等行业中，作为内容生成工具肯定有其价值并能发挥作用。在游戏、娱乐、影视媒体等行业，Sora这类模型能够生成以假乱真的内容，称其为这些特定场景下的世界模型并无不可。

然而，当任务升级到需要精细空间感知和动作策略的领域，例如机器人精细操作或自动驾驶，仅依靠视频生成能力的模型就显得不足了。它难以支撑智能体衍生出必要的空间感知能力、操作灵活性，尤其是像人形机器人全身控制这类复杂的局部运动能力。因此，Sora是否为世界模型，取决于应用场景。对于某些应用，它是一个可用的世界模型；但对于需要处理更高维度数据、更复杂交互的场景，它存在局限性。

具身智能的载体多样，例如工业场景中的汽车、机械臂等不同机器人形态。它们的感知和控制策略是否存在差异？你们是否需要为不同形态设计特定的世界模型？

目前来看，无论是自动驾驶还是工业机器人、机械臂，大家逐渐趋向于采用数据驱动的端到端模式，例如视觉-语言-动作模型。如果世界模型是为了服务这种VLA范式，那么我就不需要区分载体是汽车还是机器人。

以往基于规则的方法确实需要为不同载体甚至不同品牌的机器人设计独立系统。但现在大家希望统一起来，一方面是因为端到端的数据驱动方法展现了统一的可能性，另一方面是为了避免重复造轮子。这是当前的一个趋势。

前几天我和港中深韩晓光老师交流时，他也提到一个观点：端到端方法虽然简化了许多流程，但也让过程变得更像黑盒，缺乏可解释性。因此他也在关注显式3D研究和可解释性AI。可解释性也是您实验室的三大方向之一。

是的，我和韩老师很熟，也曾讨论过这个问题，因此我们实验室还是比较倾向于前面提到的Hybrid混合的路径：既利用端到端黑盒方法的能力，也结合显性、可解释的组件。

韩老师也提到，端到端和数据驱动的大模型趋势，可能让一些传统的研究方式（比如精巧的算法设计）变得“没意思”或失去空间。您会有这种困扰吗？

我给您举个例子。今年CVPR期间，当时我和一位老师提出了一个相关问题：现在企业界将大模型路径做得如此成熟、强大，我们学术界的研究是否显得像小作坊，意义不大了？

这和你刚问的问题很像。那位资深教授的回答很有意思。他指出，公司追求这些技术的核心目的往往是快速实现商业变现。如果你理解了企业追求快速变现这个逻辑，那么在做研究时，就要思考你的目标是否也是为了快速变现。如果不是，就不必焦虑。当企业在变现过程中遇到困难或不顺利时，他们就会寻求改变，那时他们会重新将目光投向高校，寻找可能带来新变现机会的技术。技术是持续发展的，当前看似强大的路径未必完全正确，总需要新的突破。像Transformer、Diffusion这类奠基性技术最初也都是从高校诞生的。所以，不必过于焦虑和悲观。

你们如何让仿真环境中的智能体掌握一部分物理规律？例如，让它拿起玻璃杯、铁杯或塑料杯摔到地上，它对不同材质的感知和造成的结果应该是不同的。你们如何处理这种差别？

这取决于你的世界模型是否足够强大。在理想情况下，一个强大的世界模型应该在仿真环境中真实地还原玻璃、塑料、钢铁等材质的物理属性。这就是我之前强调的世界建模要追求物理真实性。

如果能做到这一点，那么你提到的问题就自然解决了——在仿真环境中训练出的智能体，其行为结果会与真实世界一致，因为它在数字世界里见识到的物理规律是真实的。所以，难点和核心仍然在于如何构建出高度物理真实的世界模型本身。

所以你们实际上是多管齐下：在数据采集阶段就力求高质量，同时结合规则设计，再通过数据驱动的方式进行训练，多种方法结合让模型理解物理规律。

是的。我们采用知识库与数据库结合的方式。对于有明确物理规则、能够用公式描述的，比如碰撞检测、摩擦力等，我们直接将这些先验知识作为约束或规则嵌入系统。

而对于难以精确描述的现象，比如流体、气体的运动，则采用数据驱动的方法。

我一直强调我们是混合路径：对有明确先验知识的，通过知识注入或添加约束；对难以言说的规律，则依赖大量数据，让模型自己从中学习并领悟那种“感觉”。

举个例子，我们的合作方是汽车零部件供应商，负责汽车座舱坐垫的生产安装。坐垫是软的，类似注塑材质，这种软体物体的仿真和建模就非常困难，处理难以用简单规则描述的复杂物理现象。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.