网易首页 > 网易号 > 正文 申请入驻

港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025

0
分享至



构建世界模型,为什么不能只靠「炼丹」?

作者丨吴彤

编辑丨林觉民

在香港中文大学(深圳),助理教授韩晓光的实验室名为GAP,意为“像素、点与多边形的生成与分析”。现在看来,这个名字,也隐喻着他希望弥合真实世界和虚拟世界之间的“鸿沟”的意思。

2018年,韩晓光加入这所大学时,是当时唯一专注于计算机图形学研究的教师。2024年,他尝试从三维重建拓展至具身智能与世界模型,又一次如入无人之境。

在小红书上,他的账号@韩晓光,简介仅有两行:港中深理工学院助理教授、图形学与三维视觉。他将小红书视为传播平台,也视为个人思考的整理场所,会公开讨论“显式3D是否还有必要”、“世界模型为何需要可解释性”等专业问题,也会记录与学生讨论时获得的启发。

这种直接、平实的分享,吸引了一批对技术本质感兴趣的读者,也代表了韩晓光这类青年教师群体打破学术边界的自觉实践。从某一种角度看,构建世界模型需要理解真实世界的运行逻辑,而他的线上互动,本身就是一场持续进行的、小规模的“世界模拟”。

在韩晓光的叙述中,他研究演进是自然发生的。从三维重建到动态生成,再到服务于机器人的虚拟环境构建,核心始终是“三维内容的生成与理解”。

前段时间,他曾在2025年10月的国际计算机视觉大会(ICCV),他与三十多位来自学术界与工业界的研究者见了面。他们聊了很多,包括:视觉内容生成需要3D吗?视觉内容生成如何做到物理真实?学术界还应该做视频生成吗?三维数字人还有必要做吗?具身智能数据应该走哪条路线?具身触觉感知的必要性和现状?学术界怎么做具身智能?三维生成的架构用AR还是Diffusion?

但其实,这些小问题都指向一个大问题:我们离一个真正理解世界运行规律的 AI 还有多远?

过去一年,整个行业在“世界模型”热潮中的集体探索与路径分歧。有人相信数据与算力终将炼出无所不能的模型,也有人坚持必须为 AI 注入人类可理解的结构与逻辑。

韩晓光说,他要做后者。

近日,在雷峰网举办的第八届GAIR全球人工智能与机器人大会现场,韩晓光教授做了题为《3DGen:人类安全感之战》的分享,以下为他的演讲内容,雷峰网做了不改变原意的编辑。

01

三维生成发展历程

我今天想讲的是三维生成。刚才几位嘉宾有提到数字人、视频生成和具身智能。现在当我们谈论三维生成时,大家能联想到什么?如果是这个领域的研究者,可能会想到腾讯混元3D生成。

首先,我想梳理一下三维生成的发展历程。

实际上,在深度学习兴起之前,三维生成的概念已经存在。当时就有许多研究者思考:深度学习既然能很好地生成图像,那能否生成3D内容?


因此,最初的方向就是尝试从单张图像生成三维模型,准确说三维生成在早期阶段主要聚焦于“类别限定”。这是什么意思呢?就是针对椅子、车辆、角色、头发、人脸、人体等不同类别,分别训练一个模型。那时候还没有“大模型”的概念,但深度学习模型已经广泛应用。


而“开放世界”的三维生成,大约从两、三年前(2023年左右)的Dreamfusion工作开始兴起。当时我们可以通过优化的方式生成3D模型,但速度较慢,通常需要一两个小时。在这个阶段,随着Stable Diffusion等文本到图像模型的成熟,研究者开始探索能否用文本直接生成3D模型,这就是“文生3D”,我们称之为开放世界生成,因为它不再受类别限制,任何文本都可以生成对应的3D模型。


随后的一段时间里,出现了许多以“Dreamer”为后缀的研究工作,这些都是Dreamfusion之后的一系列进展。这些工作都致力于提升文本到3D的生成效果,但基本都基于优化方法,生成速度较慢,通常需要半小时到一小时才能产出一个模型。


而现在,我们进入了大模型时代。

首先,Adobe推出了一个名为Large Reconstruction Model的模型,它利用海量数据训练,能够从单张图像重建三维模型。随后,最早是由上海科大在Clay这项工作里,率先提出了“原生模型”的概念。发展到现在,我们已经看到了像“混元3D”等许多商业公司和软件,这类应用已经非常多。现在,例如混元3D的3.0版本,你随便输入一张图片,它真的能生成一个在普通人看来几乎没什么瑕疵的三维模型。


02

三维生成发展趋势

接下来,我想分享当前业界关注的三维生成的前沿方向与发展趋势。

首先是更精细。这意味着我们需要在几何层面实现极致的细节表现,让生成物体表面的几何信息无比丰富。例如数美万物的Spark 3D。

另一个重要趋势是更结构化。在游戏等行业,一个三维模型通常需要被拆解成不同部件,比如衣服、身体、头发需要分开,以便设计师进行独立编辑。如果生成模型是为了3D打印或制造,那这种结构化的分解就更为必要,因为真实世界的物体本身就是由多个部件组装而成的。混元3D的“X-Part”工作就是一个例子,它能够生成游戏角色并将其部件合理地拆分开。

第三个方向是更对齐。现在的商业软件可以从一张图重建3D模型,但如果你仔细观察,生成结果与输入图像往往存在细节不对应的问题。比如,一张图里的栅栏有5条横杠,生成模型里可能变成了6条。这是当前生成模型固有的难题。我们组的一项工作就致力于解决这个“对齐”问题,力求让生成的三维模型在结构上与输入的二维图像严格对应。


03

三维生成的尴尬

以上我简单梳理了三维生成至今的发展脉络,然而,三维生成一直面临一个尴尬,尤其是在视频生成技术出现之后。

这个尴尬是什么呢?

我相信大家可能都玩过游戏或看过CG动画电影。在传统游戏或动画制作中,创建一个角色需要非常繁琐的流程。这里我展示几个例子:首先需要概念设计和草图,然后基于草图进行3D建模——这又涉及低模/高模制作、拓扑优化,之后还要进行纹理贴图、骨骼绑定、制作动画,最后再进行渲染。但你会发现,尽管中间过程极其复杂,包含了大量三维工作,最终的产出形式依然是视频。

这就是尴尬所在。


当视频生成(如Sora)出现后,一个文本指令就能直接输出视频,中间完全跳过了所有复杂的三维流程。这对于我们图形学、游戏和三维生成领域的人来说,无疑是一个冲击。

很多同行,包括我自己在内,都曾一度怀疑:在视频生成如此强大的时代,3D内容创作还有存在的必要吗?

这确实是近期行业内许多人关注和讨论的问题。但三维生成自有其“求生欲”,我们不会轻易被取代。这种“求生欲”源于我们发现视频生成技术当前存在的一些核心局限。

首先是物理不够真实,视频生成在模拟复杂物理交互和长期一致性上仍有困难。

其次是3D空间不一致,物体在运动中的形态和透视可能发生不合理变化。

最重要的是内容可控性不足。比如,我想把生成视频中的一个玻璃杯换成特定形状或颜色,在传统三维流程中这是轻而易举的编辑,但在纯文本驱动的视频生成中,目前还难以实现这种精细、可控的修改。

这些发现让我们重拾了信心。视频生成还做不到这些,这说明基于三维的、结构化、可编辑的内容创作流程,依然拥有不可替代的价值。


然而,真正的危机依然存在。我们不是说视频生成“不可控”吗?但今年,Sora2 和谷歌的 Veo3 相继推出,它们已经展示出了初步的“可控”能力。至少,可控的雏形已经显现。这种可控性体现在哪里?比如,我可以控制视角的变化。生成的不仅是一个固定视角的视频,而是可以进行交互,就像玩游戏一样切换画面,实现场景漫游。虽然这还只是粗糙的可控,但真正的危机感已然来临。


于是,一系列根本性问题摆在我们面前:视频生成模型真的不需要3D吗?

就此,我问过许多业内人士。许多从事3D工作的人认为,视频模型可能还是需要3D的;而许多做视频模型的人则觉得不需要。那么,究竟需不需要呢?

我可能给不出确定的答案,但可以梳理一下思路。在我看来,当前视频模型面临两个似乎尚未找到完美解决方案的核心难题:

  1. 细节可控:正如我之前提到的,你生成了一段视频,但能否精细修改视频中人物的脸型、衣着、发型,这种对细节的精准控制目前依然非常困难。

  2. 长程记忆:目前生成的视频长度有限,比如一两分钟。但想象一下,如果生成一个室内漫游视频,当你走进一个房间又离开,再回到这个房间时,模型很可能“忘记”了房间原来的样子,生成的内容与之前不一致。这说明模型缺乏对已生成内容的持久记忆。


那么,视频模型到底需不需要3D?要解决上述的“细节可控”和“长程记忆”问题,3D或许能提供一种思路。利用3D的方式,大概可以分为四种路径:

第一种,完全不用3D。这是目前主流的端到端范式:输入一个条件(如文本),通过一个庞大的神经网络,直接输出视频。整个过程是纯2D的,依赖海量视频数据训练。这也是现有视频模型的基本逻辑。

第二种,利用3D仿真作为“世界模拟器”。我们知道,3D仿真本身就在尝试构建一个世界模型,只是目前仿真结果还不够真实。那么,是否可以将其作为第一步:先根据用户输入的条件(如文本),通过3D仿真引擎生成一个CG视频(如游戏画面或动画)。这个视频是高度可控的,但问题在于它不真实,有明显的CG感。于是,可以在其后接入一个神经网络,专门负责将CG视频“转化”为看起来真实的视频。

第三种,将3D信息作为控制信号输入。既然纯视频生成不可控,那能否将3D信息作为额外的控制条件,注入到生成网络中?其框架是:在输入生成条件的同时,也输入3D信息。例如,要生成一个室内漫游视频,可以先对室内场景进行三维重建。这个重建的三维模型,本身就充当了一种“记忆”,记录了场景的空间结构。基于这个三维记忆,再去生成漫游视频,就有可能实现更长的、空间一致的视频内容。

第四种,用3D合成数据来辅助训练。第一种2D“端到端”范式最大的瓶颈是缺乏高质量、可控的训练数据。网上的视频数据虽然多,但不可控。那么,能不能利用3D仿真技术,批量生成大量可控的、带标注的视频数据?然后用这些合成数据,作为训练信号或损失函数的一部分,来引导和增强纯端到端的视频生成模型。

04

世界模型需要3D吗?

回到我们今天的主题“世界模型”。现在一提到世界模型,很多人会直接联想到视频模型。

这里有一个根本性问题:我们为什么要做世界模型?因为我们需要“还原”或“数字化”一个虚拟世界。视频是对世界的一种数字化记录,3D则是另一种形式的数字化。那么,世界模型究竟需不需要3D?

要回答这个问题,首先要厘清“世界模型”是什么。

我认为,世界模型的核心出发点,是对我们所生活的真实世界进行数字化,用计算的方式理解和表达其中蕴含的规律。有了这个模型,我们才能进行预测——这是世界模型一个极其关键的功能。


在我看来,世界模型大概可以分为三类:

第一类,是服务于“人类共同体”的宏观世界模型。这其实是我们人类一直在做的事:试图“窥探天机”。从古代的司天监观测天象,到现在的天气预报、全球气候模拟,再到生命科学探索自然规律,甚至从某种“造物主”视角去推演文明、社会的兴衰与可能的灾祸。我们在尝试理解并预测这个物理世界和社会系统运行的根本规律。不过,这或许不是当前AI语境下“世界模型”讨论的重点。

第二类,是服务于“个人”的体验与探索模型。我们每个人与生俱来有一种最深层的需求:探索未知。但人类个体是渺小的,我们无法亲身抵达世界的每一个角落,更无法触及想象的边界。因此,我们需要一个虚拟世界。想象一下,如果能像《头号玩家》那样,戴上VR设备,就能坐在家中沉浸式地游历世界任何地方——无论是真实世界的数字复刻,还是人类纯粹创造的幻想之境。这种深度、个性化的体验,是驱动我们创造虚拟世界的核心动力之一。

在这个虚拟世界里,我们需要什么样的规律呢?可交互性是核心。你不仅需要看、需要听,还需要能够操作、漫游,甚至能感受到触觉反馈。要建立这样一个可交互的虚拟世界,我们就必须研究和数字化其中大量的物理与交互规律。

这引出了世界模型的第三类,也是当前讨论最多的:给机器用的世界模型

比如,用于自动驾驶汽车或具身智能机器人。这是一个“具身”的世界模型。以自动驾驶为例,汽车在决定一个动作(比如变道、转动方向盘)时,需要能根据这个动作,预测世界(周围环境、其他交通参与者)接下来会发生什么变化。这就是世界模型在增强机器智能方面的关键作用。

从以上三类来看,要实现可交互的世界模型,3D似乎是必要的。再举VR的例子,如果只有视频模型,当你转动视角或进行操作时,它可以给你视觉反馈。但当我们进一步需要真实的触觉反馈,去感受物体的大小、形状和质地时,就必须依赖对三维空间的精确理解和建模。因此,在可交互的需求下,3D是不可或缺的。

05

具身智能需要3D吗?

接着这个话题,就关联到,具身智能是否需要3D?


虽然我研究不深,但当前的主流方法是向人类学习。我们之所以要造人形机器人,就是希望它能完成人类能做的所有事情。那么,要“向人类学习”,我们就必须研究人类是如何与世界交互的:如何拿杯子、倒水、做饭。要研究这些,第一步就是对人类与物体的交互过程进行数字化。比如,左下角的例子展示了人手抓取物体的过程。我们必须对这种交互进行精确的、动态的捕捉与还原,才能深入理解人手操作的机理。从这个角度看,3D乃至4D的还原是必要的基础

其次,如果不从人类示范中学习,我们还可以让机器人在真实或仿真的世界中去主动探索,就像人类通过实践和强化学习来发展智能一样。但让机器人在物理世界无限制地探索是困难且危险的。因此,我们需要仿真环境。这就必然要求我们能够创造和生成可交互的三维场景。有了这样的虚拟场景,机器人才能在其中安全、高效地进行大量试错和强化学习。从这个角度看,具身智能同样离不开3D。

除了这些“虚拟”世界的需求,还有一个实实在在、无法绕过3D的领域从数字到实体的制造


我们不仅需要在虚拟环境中与一个杯子互动,最终可能还要将这个杯子真正打印或制造出来,实现个性化定制。无论是三维打印、智能制造,还是CAD模型生成(这也是当前3D生成的热点方向),这个“从虚到实”的过程,3D是绝对的基础。例如,我们正在进行的牙齿生成项目,目的就是为了制造出精确的牙齿模型,这完全依赖于高质量的三维数据。

06

技术路线之争:显式与隐式之争

最后不得不谈一个核心的技术路线之争:显式与隐式之争。


我先解释一下这两个概念。假设我们有一个具身智能任务:一个机械爪要抓起一个盘子,我们需要预测它提起盘子后会不会掉下来。

隐式路径是怎么做的呢,就是构建一个端到端的神经网络,输入一张图片,直接输出预测结果。为此,我需要准备大量数据来训练它。其核心在于一个称为 “潜变量”(Latent) 的东西。模型的有效性依赖于这个潜变量,它将所有输入信息(包括其中隐含的物理规律)都编码在其中。我们相信,通过大量数据训练,这个潜变量自身就学习和蕴含了完成任务所需的物理知识。这是典型的“黑箱”或端到端逻辑。

显式(模型驱动)路径:与之相对,显式方法会分步进行:

首先,我会显式地重建出爪子和盘子的三维模型。然后,基于这些精确的几何模型,我分析它们是否充分接触,再结合盘子材质等物理参数,通过明确的物理公式进行计算,最终判断出提起后是否会掉落。这条路径依赖我们对世界(几何、物理)的明确建模和理解。

显式方法是我们比较容易理解的,也是深度学习兴起之前主流的范式;而人类无法直观理解的,如何运作我们并不完全清楚,就称为“隐式”。

我再举一个开车的例子。很多汽车会显示一个功能:将周围车辆的三维模型重建出来,可视化地展示给你看,并提示碰撞风险。这是显式的方式。另一种隐式的方式是,系统不展示任何三维模型,只是在快撞上时给你一个文本或声音警告。如果让你选,开哪种车会更有安全感?我想大多数人会选择前者——把所有东西都可视化给我看,我才能理解和信任系统做出的“会撞上”或“不会撞上”的判断。

这里就引出了一个关键词:安全感

我们为什么要做世界模型?其背后亘古不变的动机,是人类探索世界规律的渴望。而人类之所以要探索规律,根据 DeepSeek 给我的答案,是因为我们对未知有着与生俱来的不安全感。正是这种对未知的恐惧,驱动我们去探索大海、探索太空,也驱动我们去构建世界模型,以获得对世界的理解和掌控,从而满足我们的安全感。

那么,在AI时代,最让人感到不安全的是什么?对我来说,有两个词:“端到端” 和 “潜变量”。

我知道它们能工作,但我不知道它们为什么能工作。不仅是普通用户不知道,很多时候我们研究者也不完全清楚。我们只知道堆叠网络层,却不知道里面的神经元究竟在做什么。其本质在于,这个“潜变量”是一个高维向量,而人类无法直观理解高维空间。

人类能理解什么?我们能理解3D和4D。我们从初中学习平面几何,到高中学习立体几何,我们能把理解到的3D、4D概念画在纸上。但一旦进入5维、6维甚至更高维度,我们就无法想象了。这也是为什么会有“可视化”这个领域——它的核心逻辑,就是把高维的东西“拍扁”成2D或3D,以便能更容易地理解。

所以,我再次强调为什么3D/4D是必要的。正是因为3D/4D是我们人类能够直观理解和感知的维度,它们能带给我们最直接的安全感。


最后,面对日益强大的AI,我认为可解释性是人类保有基本尊严的关键

我想用一个场景来总结。想象古代一位追求长生不老的皇帝,他招揽了许多聪明的术士来炼丹。这些术士很给力,不断进献丹药,虽然还不能让人长生不老,但或许能强身健体。他们还会不断升级,拿出v2、v3版本。皇帝很开心,不断给予经费和权力,术士的部门也越来越庞大。但这里有一个前提:皇帝(统治者)完全不懂炼丹的原理,他不知道这丹药是怎么做出来的。

那么,请大家想象一下,当有一天,术士们宣布:“我们快要炼出长生不老药了!” 此时此刻,皇帝会怎么想?他又会如何对待这些术士?

所以,我认为真正的安全感,永远来源于效果与可解释性之间的平衡。这一点至关重要。然而,在我们当前的AI时代,这个天平已经严重失衡了。我们过分追求性能(performance),过分追求效果,但可解释性还远远不够。而要实现可解释性,3D是必不可少的途径。因为它提供了我们人类能够直观理解、能够信任的基石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新型压岁钱正在流行:1万压岁钱,孩子不愿拿,钢镚和零钱高兴接

新型压岁钱正在流行:1万压岁钱,孩子不愿拿,钢镚和零钱高兴接

凝妈悟语柠橙妈妈
2026-02-16 09:40:58
它是恒星走向死亡的根本因素,恒星整个一生都不得不与它抗争!

它是恒星走向死亡的根本因素,恒星整个一生都不得不与它抗争!

宇宙时空
2026-02-16 15:25:09
黄晓明后悔了?baby看烟花庆佳节,长发披肩回眸一笑,美得惊心动魄

黄晓明后悔了?baby看烟花庆佳节,长发披肩回眸一笑,美得惊心动魄

八卦王者
2026-02-16 15:07:48
情人节遇冷!票房勉强过亿,网友:时代变了,舔狗没落遇返程高峰

情人节遇冷!票房勉强过亿,网友:时代变了,舔狗没落遇返程高峰

火山詩话
2026-02-15 07:06:00
印度百姓怒了,耗资340亿造全球最高雕像,结果却是中国制造

印度百姓怒了,耗资340亿造全球最高雕像,结果却是中国制造

策略述
2025-12-21 23:13:25
中国选手半场开香槟 提前庆祝摔倒无缘决赛 解说:滑下来再庆祝啊

中国选手半场开香槟 提前庆祝摔倒无缘决赛 解说:滑下来再庆祝啊

念洲
2026-02-16 09:08:37
任正非没想到,姚安娜高调官宣喜讯,一动作再长脸

任正非没想到,姚安娜高调官宣喜讯,一动作再长脸

史襉的生活科普
2026-02-03 01:39:53
港股半导体板块局部走强,兆易创新涨逾17%

港股半导体板块局部走强,兆易创新涨逾17%

证券时报
2026-02-16 10:23:07
国际特警大赛成绩出炉,中国队未能卫冕,因临时新规?

国际特警大赛成绩出炉,中国队未能卫冕,因临时新规?

兵国大事
2026-02-13 16:01:44
亏本卖车已被禁止,小米发文力挺,雷军曾表示卖一台亏6万

亏本卖车已被禁止,小米发文力挺,雷军曾表示卖一台亏6万

映射生活的身影
2026-02-14 15:30:22
8个月来第二次!内塔尼亚胡之子婚礼再延期 其家庭住所是伊朗导弹袭击目标之一

8个月来第二次!内塔尼亚胡之子婚礼再延期 其家庭住所是伊朗导弹袭击目标之一

红星新闻
2025-06-16 16:47:50
后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

餐饮新纪元
2026-02-14 00:17:32
13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

观察鉴娱
2026-02-15 19:57:21
米切尔已接纳詹皇!2.6亿名单只能给底薪 格里芬认为老詹会回骑士

米切尔已接纳詹皇!2.6亿名单只能给底薪 格里芬认为老詹会回骑士

颜小白的篮球梦
2026-02-15 21:01:24
全网最全!即梦Seedance2.0的核心玩法,看这一篇就够了!

全网最全!即梦Seedance2.0的核心玩法,看这一篇就够了!

秋叶PPT
2026-02-16 08:22:44
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
美宣布对华加税160%!话音刚落,特朗普通告全球:中美关系非常好

美宣布对华加税160%!话音刚落,特朗普通告全球:中美关系非常好

比利
2026-02-16 14:58:09
《太平年》高级黑

《太平年》高级黑

不正确
2026-02-15 19:10:56
洗碗机砸家反转!丈夫降薪扛,妻子卖金买苹果17月吃4次海底捞

洗碗机砸家反转!丈夫降薪扛,妻子卖金买苹果17月吃4次海底捞

深析古今
2026-01-10 13:58:59
67岁杨丽萍又封神了!演员野性冲出屏幕,万马奔腾震撼到头皮发麻

67岁杨丽萍又封神了!演员野性冲出屏幕,万马奔腾震撼到头皮发麻

韩小娱
2026-02-15 18:47:22
2026-02-16 20:16:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68561文章数 656074关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

95后创始人要带"天团"上春晚 曾每天骑电三轮追机器人

头条要闻

95后创始人要带"天团"上春晚 曾每天骑电三轮追机器人

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

游戏
健康
房产
艺术
公开课

Steam新游“健身妻子”全程陪伴!支持360度旋转放大

转头就晕的耳石症,能开车上班吗?

房产要闻

三亚新机场,又传出新消息!

艺术要闻

孙过庭又一草书真迹被发现,完完整整5000多字,至今只公开展出过一回!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版