港中深韩晓光：3DGen，人类安全感之战丨GAIR 2025|高维|大模型|真实世界

分享至

“构建世界模型，为什么不能只靠「炼丹」？”

作者丨吴彤

编辑丨林觉民

在香港中文大学（深圳），助理教授韩晓光的实验室名为GAP，意为“像素、点与多边形的生成与分析”。现在看来，这个名字，也隐喻着他希望弥合真实世界和虚拟世界之间的“鸿沟”的意思。

2018年，韩晓光加入这所大学时，是当时唯一专注于计算机图形学研究的教师。2024年，他尝试从三维重建拓展至具身智能与世界模型，又一次如入无人之境。

在小红书上，他的账号@韩晓光，简介仅有两行：港中深理工学院助理教授、图形学与三维视觉。他将小红书视为传播平台，也视为个人思考的整理场所，会公开讨论“显式3D是否还有必要”、“世界模型为何需要可解释性”等专业问题，也会记录与学生讨论时获得的启发。

这种直接、平实的分享，吸引了一批对技术本质感兴趣的读者，也代表了韩晓光这类青年教师群体打破学术边界的自觉实践。从某一种角度看，构建世界模型需要理解真实世界的运行逻辑，而他的线上互动，本身就是一场持续进行的、小规模的“世界模拟”。

在韩晓光的叙述中，他研究演进是自然发生的。从三维重建到动态生成，再到服务于机器人的虚拟环境构建，核心始终是“三维内容的生成与理解”。

前段时间，他曾在2025年10月的国际计算机视觉大会（ICCV），他与三十多位来自学术界与工业界的研究者见了面。他们聊了很多，包括：视觉内容生成需要3D吗？视觉内容生成如何做到物理真实？学术界还应该做视频生成吗？三维数字人还有必要做吗？具身智能数据应该走哪条路线？具身触觉感知的必要性和现状？学术界怎么做具身智能？三维生成的架构用AR还是Diffusion？

但其实，这些小问题都指向一个大问题：我们离一个真正理解世界运行规律的 AI 还有多远？

过去一年，整个行业在“世界模型”热潮中的集体探索与路径分歧。有人相信数据与算力终将炼出无所不能的模型，也有人坚持必须为 AI 注入人类可理解的结构与逻辑。

韩晓光说，他要做后者。

近日，在雷峰网举办的第八届GAIR全球人工智能与机器人大会现场，韩晓光教授做了题为《3DGen：人类安全感之战》的分享，以下为他的演讲内容，雷峰网做了不改变原意的编辑。

三维生成发展历程

我今天想讲的是三维生成。刚才几位嘉宾有提到数字人、视频生成和具身智能。现在当我们谈论三维生成时，大家能联想到什么？如果是这个领域的研究者，可能会想到腾讯混元3D生成。

首先，我想梳理一下三维生成的发展历程。

实际上，在深度学习兴起之前，三维生成的概念已经存在。当时就有许多研究者思考：深度学习既然能很好地生成图像，那能否生成3D内容？

因此，最初的方向就是尝试从单张图像生成三维模型，准确说三维生成在早期阶段主要聚焦于“类别限定”。这是什么意思呢？就是针对椅子、车辆、角色、头发、人脸、人体等不同类别，分别训练一个模型。那时候还没有“大模型”的概念，但深度学习模型已经广泛应用。

而“开放世界”的三维生成，大约从两、三年前（2023年左右）的Dreamfusion工作开始兴起。当时我们可以通过优化的方式生成3D模型，但速度较慢，通常需要一两个小时。在这个阶段，随着Stable Diffusion等文本到图像模型的成熟，研究者开始探索能否用文本直接生成3D模型，这就是“文生3D”，我们称之为开放世界生成，因为它不再受类别限制，任何文本都可以生成对应的3D模型。

随后的一段时间里，出现了许多以“Dreamer”为后缀的研究工作，这些都是Dreamfusion之后的一系列进展。这些工作都致力于提升文本到3D的生成效果，但基本都基于优化方法，生成速度较慢，通常需要半小时到一小时才能产出一个模型。

而现在，我们进入了大模型时代。

首先，Adobe推出了一个名为Large Reconstruction Model的模型，它利用海量数据训练，能够从单张图像重建三维模型。随后，最早是由上海科大在Clay这项工作里，率先提出了“原生模型”的概念。发展到现在，我们已经看到了像“混元3D”等许多商业公司和软件，这类应用已经非常多。现在，例如混元3D的3.0版本，你随便输入一张图片，它真的能生成一个在普通人看来几乎没什么瑕疵的三维模型。

三维生成发展趋势

接下来，我想分享当前业界关注的三维生成的前沿方向与发展趋势。

首先是更精细。这意味着我们需要在几何层面实现极致的细节表现，让生成物体表面的几何信息无比丰富。例如数美万物的Spark 3D。

另一个重要趋势是更结构化。在游戏等行业，一个三维模型通常需要被拆解成不同部件，比如衣服、身体、头发需要分开，以便设计师进行独立编辑。如果生成模型是为了3D打印或制造，那这种结构化的分解就更为必要，因为真实世界的物体本身就是由多个部件组装而成的。混元3D的“X-Part”工作就是一个例子，它能够生成游戏角色并将其部件合理地拆分开。

第三个方向是更对齐。现在的商业软件可以从一张图重建3D模型，但如果你仔细观察，生成结果与输入图像往往存在细节不对应的问题。比如，一张图里的栅栏有5条横杠，生成模型里可能变成了6条。这是当前生成模型固有的难题。我们组的一项工作就致力于解决这个“对齐”问题，力求让生成的三维模型在结构上与输入的二维图像严格对应。

三维生成的尴尬

以上我简单梳理了三维生成至今的发展脉络，然而，三维生成一直面临一个尴尬，尤其是在视频生成技术出现之后。

这个尴尬是什么呢？

我相信大家可能都玩过游戏或看过CG动画电影。在传统游戏或动画制作中，创建一个角色需要非常繁琐的流程。这里我展示几个例子：首先需要概念设计和草图，然后基于草图进行3D建模——这又涉及低模/高模制作、拓扑优化，之后还要进行纹理贴图、骨骼绑定、制作动画，最后再进行渲染。但你会发现，尽管中间过程极其复杂，包含了大量三维工作，最终的产出形式依然是视频。

这就是尴尬所在。

当视频生成（如Sora）出现后，一个文本指令就能直接输出视频，中间完全跳过了所有复杂的三维流程。这对于我们图形学、游戏和三维生成领域的人来说，无疑是一个冲击。

很多同行，包括我自己在内，都曾一度怀疑：在视频生成如此强大的时代，3D内容创作还有存在的必要吗？

这确实是近期行业内许多人关注和讨论的问题。但三维生成自有其“求生欲”，我们不会轻易被取代。这种“求生欲”源于我们发现视频生成技术当前存在的一些核心局限。

首先是物理不够真实，视频生成在模拟复杂物理交互和长期一致性上仍有困难。

其次是3D空间不一致，物体在运动中的形态和透视可能发生不合理变化。

最重要的是内容可控性不足。比如，我想把生成视频中的一个玻璃杯换成特定形状或颜色，在传统三维流程中这是轻而易举的编辑，但在纯文本驱动的视频生成中，目前还难以实现这种精细、可控的修改。

这些发现让我们重拾了信心。视频生成还做不到这些，这说明基于三维的、结构化、可编辑的内容创作流程，依然拥有不可替代的价值。

然而，真正的危机依然存在。我们不是说视频生成“不可控”吗？但今年，Sora2 和谷歌的 Veo3 相继推出，它们已经展示出了初步的“可控”能力。至少，可控的雏形已经显现。这种可控性体现在哪里？比如，我可以控制视角的变化。生成的不仅是一个固定视角的视频，而是可以进行交互，就像玩游戏一样切换画面，实现场景漫游。虽然这还只是粗糙的可控，但真正的危机感已然来临。

于是，一系列根本性问题摆在我们面前：视频生成模型真的不需要3D吗？

就此，我问过许多业内人士。许多从事3D工作的人认为，视频模型可能还是需要3D的；而许多做视频模型的人则觉得不需要。那么，究竟需不需要呢？

我可能给不出确定的答案，但可以梳理一下思路。在我看来，当前视频模型面临两个似乎尚未找到完美解决方案的核心难题：

细节可控：正如我之前提到的，你生成了一段视频，但能否精细修改视频中人物的脸型、衣着、发型，这种对细节的精准控制目前依然非常困难。
长程记忆：目前生成的视频长度有限，比如一两分钟。但想象一下，如果生成一个室内漫游视频，当你走进一个房间又离开，再回到这个房间时，模型很可能“忘记”了房间原来的样子，生成的内容与之前不一致。这说明模型缺乏对已生成内容的持久记忆。

那么，视频模型到底需不需要3D？要解决上述的“细节可控”和“长程记忆”问题，3D或许能提供一种思路。利用3D的方式，大概可以分为四种路径：

第一种，完全不用3D。这是目前主流的端到端范式：输入一个条件（如文本），通过一个庞大的神经网络，直接输出视频。整个过程是纯2D的，依赖海量视频数据训练。这也是现有视频模型的基本逻辑。

第二种，利用3D仿真作为“世界模拟器”。我们知道，3D仿真本身就在尝试构建一个世界模型，只是目前仿真结果还不够真实。那么，是否可以将其作为第一步：先根据用户输入的条件（如文本），通过3D仿真引擎生成一个CG视频（如游戏画面或动画）。这个视频是高度可控的，但问题在于它不真实，有明显的CG感。于是，可以在其后接入一个神经网络，专门负责将CG视频“转化”为看起来真实的视频。

第三种，将3D信息作为控制信号输入。既然纯视频生成不可控，那能否将3D信息作为额外的控制条件，注入到生成网络中？其框架是：在输入生成条件的同时，也输入3D信息。例如，要生成一个室内漫游视频，可以先对室内场景进行三维重建。这个重建的三维模型，本身就充当了一种“记忆”，记录了场景的空间结构。基于这个三维记忆，再去生成漫游视频，就有可能实现更长的、空间一致的视频内容。

第四种，用3D合成数据来辅助训练。第一种2D“端到端”范式最大的瓶颈是缺乏高质量、可控的训练数据。网上的视频数据虽然多，但不可控。那么，能不能利用3D仿真技术，批量生成大量可控的、带标注的视频数据？然后用这些合成数据，作为训练信号或损失函数的一部分，来引导和增强纯端到端的视频生成模型。

世界模型需要3D吗？

回到我们今天的主题“世界模型”。现在一提到世界模型，很多人会直接联想到视频模型。

这里有一个根本性问题：我们为什么要做世界模型？因为我们需要“还原”或“数字化”一个虚拟世界。视频是对世界的一种数字化记录，3D则是另一种形式的数字化。那么，世界模型究竟需不需要3D？

要回答这个问题，首先要厘清“世界模型”是什么。

我认为，世界模型的核心出发点，是对我们所生活的真实世界进行数字化，用计算的方式理解和表达其中蕴含的规律。有了这个模型，我们才能进行预测——这是世界模型一个极其关键的功能。

在我看来，世界模型大概可以分为三类：

第一类，是服务于“人类共同体”的宏观世界模型。这其实是我们人类一直在做的事：试图“窥探天机”。从古代的司天监观测天象，到现在的天气预报、全球气候模拟，再到生命科学探索自然规律，甚至从某种“造物主”视角去推演文明、社会的兴衰与可能的灾祸。我们在尝试理解并预测这个物理世界和社会系统运行的根本规律。不过，这或许不是当前AI语境下“世界模型”讨论的重点。

第二类，是服务于“个人”的体验与探索模型。我们每个人与生俱来有一种最深层的需求：探索未知。但人类个体是渺小的，我们无法亲身抵达世界的每一个角落，更无法触及想象的边界。因此，我们需要一个虚拟世界。想象一下，如果能像《头号玩家》那样，戴上VR设备，就能坐在家中沉浸式地游历世界任何地方——无论是真实世界的数字复刻，还是人类纯粹创造的幻想之境。这种深度、个性化的体验，是驱动我们创造虚拟世界的核心动力之一。

在这个虚拟世界里，我们需要什么样的规律呢？可交互性是核心。你不仅需要看、需要听，还需要能够操作、漫游，甚至能感受到触觉反馈。要建立这样一个可交互的虚拟世界，我们就必须研究和数字化其中大量的物理与交互规律。

这引出了世界模型的第三类，也是当前讨论最多的：给机器用的世界模型。

比如，用于自动驾驶汽车或具身智能机器人。这是一个“具身”的世界模型。以自动驾驶为例，汽车在决定一个动作（比如变道、转动方向盘）时，需要能根据这个动作，预测世界（周围环境、其他交通参与者）接下来会发生什么变化。这就是世界模型在增强机器智能方面的关键作用。

从以上三类来看，要实现可交互的世界模型，3D似乎是必要的。再举VR的例子，如果只有视频模型，当你转动视角或进行操作时，它可以给你视觉反馈。但当我们进一步需要真实的触觉反馈，去感受物体的大小、形状和质地时，就必须依赖对三维空间的精确理解和建模。因此，在可交互的需求下，3D是不可或缺的。

具身智能需要3D吗？

接着这个话题，就关联到，具身智能是否需要3D？

虽然我研究不深，但当前的主流方法是向人类学习。我们之所以要造人形机器人，就是希望它能完成人类能做的所有事情。那么，要“向人类学习”，我们就必须研究人类是如何与世界交互的：如何拿杯子、倒水、做饭。要研究这些，第一步就是对人类与物体的交互过程进行数字化。比如，左下角的例子展示了人手抓取物体的过程。我们必须对这种交互进行精确的、动态的捕捉与还原，才能深入理解人手操作的机理。从这个角度看，3D乃至4D的还原是必要的基础。

其次，如果不从人类示范中学习，我们还可以让机器人在真实或仿真的世界中去主动探索，就像人类通过实践和强化学习来发展智能一样。但让机器人在物理世界无限制地探索是困难且危险的。因此，我们需要仿真环境。这就必然要求我们能够创造和生成可交互的三维场景。有了这样的虚拟场景，机器人才能在其中安全、高效地进行大量试错和强化学习。从这个角度看，具身智能同样离不开3D。

除了这些“虚拟”世界的需求，还有一个实实在在、无法绕过3D的领域：从数字到实体的制造。

我们不仅需要在虚拟环境中与一个杯子互动，最终可能还要将这个杯子真正打印或制造出来，实现个性化定制。无论是三维打印、智能制造，还是CAD模型生成（这也是当前3D生成的热点方向），这个“从虚到实”的过程，3D是绝对的基础。例如，我们正在进行的牙齿生成项目，目的就是为了制造出精确的牙齿模型，这完全依赖于高质量的三维数据。

技术路线之争：显式与隐式之争

最后不得不谈一个核心的技术路线之争：显式与隐式之争。

我先解释一下这两个概念。假设我们有一个具身智能任务：一个机械爪要抓起一个盘子，我们需要预测它提起盘子后会不会掉下来。

隐式路径是怎么做的呢，就是构建一个端到端的神经网络，输入一张图片，直接输出预测结果。为此，我需要准备大量数据来训练它。其核心在于一个称为 “潜变量”（Latent）的东西。模型的有效性依赖于这个潜变量，它将所有输入信息（包括其中隐含的物理规律）都编码在其中。我们相信，通过大量数据训练，这个潜变量自身就学习和蕴含了完成任务所需的物理知识。这是典型的“黑箱”或端到端逻辑。

显式（模型驱动）路径：与之相对，显式方法会分步进行：

首先，我会显式地重建出爪子和盘子的三维模型。然后，基于这些精确的几何模型，我分析它们是否充分接触，再结合盘子材质等物理参数，通过明确的物理公式进行计算，最终判断出提起后是否会掉落。这条路径依赖我们对世界（几何、物理）的明确建模和理解。

显式方法是我们比较容易理解的，也是深度学习兴起之前主流的范式；而人类无法直观理解的，如何运作我们并不完全清楚，就称为“隐式”。

我再举一个开车的例子。很多汽车会显示一个功能：将周围车辆的三维模型重建出来，可视化地展示给你看，并提示碰撞风险。这是显式的方式。另一种隐式的方式是，系统不展示任何三维模型，只是在快撞上时给你一个文本或声音警告。如果让你选，开哪种车会更有安全感？我想大多数人会选择前者——把所有东西都可视化给我看，我才能理解和信任系统做出的“会撞上”或“不会撞上”的判断。

这里就引出了一个关键词：安全感。

我们为什么要做世界模型？其背后亘古不变的动机，是人类探索世界规律的渴望。而人类之所以要探索规律，根据 DeepSeek 给我的答案，是因为我们对未知有着与生俱来的不安全感。正是这种对未知的恐惧，驱动我们去探索大海、探索太空，也驱动我们去构建世界模型，以获得对世界的理解和掌控，从而满足我们的安全感。

那么，在AI时代，最让人感到不安全的是什么？对我来说，有两个词：“端到端” 和 “潜变量”。

我知道它们能工作，但我不知道它们为什么能工作。不仅是普通用户不知道，很多时候我们研究者也不完全清楚。我们只知道堆叠网络层，却不知道里面的神经元究竟在做什么。其本质在于，这个“潜变量”是一个高维向量，而人类无法直观理解高维空间。

人类能理解什么？我们能理解3D和4D。我们从初中学习平面几何，到高中学习立体几何，我们能把理解到的3D、4D概念画在纸上。但一旦进入5维、6维甚至更高维度，我们就无法想象了。这也是为什么会有“可视化”这个领域——它的核心逻辑，就是把高维的东西“拍扁”成2D或3D，以便能更容易地理解。

所以，我再次强调为什么3D/4D是必要的。正是因为3D/4D是我们人类能够直观理解和感知的维度，它们能带给我们最直接的安全感。

最后，面对日益强大的AI，我认为可解释性是人类保有基本尊严的关键。

我想用一个场景来总结。想象古代一位追求长生不老的皇帝，他招揽了许多聪明的术士来炼丹。这些术士很给力，不断进献丹药，虽然还不能让人长生不老，但或许能强身健体。他们还会不断升级，拿出v2、v3版本。皇帝很开心，不断给予经费和权力，术士的部门也越来越庞大。但这里有一个前提：皇帝（统治者）完全不懂炼丹的原理，他不知道这丹药是怎么做出来的。

那么，请大家想象一下，当有一天，术士们宣布：“我们快要炼出长生不老药了！” 此时此刻，皇帝会怎么想？他又会如何对待这些术士？

所以，我认为真正的安全感，永远来源于效果与可解释性之间的平衡。这一点至关重要。然而，在我们当前的AI时代，这个天平已经严重失衡了。我们过分追求性能（performance），过分追求效果，但可解释性还远远不够。而要实现可解释性，3D是必不可少的途径。因为它提供了我们人类能够直观理解、能够信任的基石。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.