网易首页 > 网易号 > 正文 申请入驻

腾讯 ARC Lab 胡文博:“如何实现三维感知的视频世界模型,这非常值得探索”|GAIR 2025

0
分享至


我们正在努力创建一个具备三维感知能力的视频世界模型。

作者丨齐铖湧

编辑丨马晓宁


世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,过去一年多,Sora为代表的视频生成模型,成为继大语言模型(LLM)后新的学术热点。本质上讲,当下火爆的视频生成模型,是一种世界模型,其核心目的是生成一段逼真、连贯的视频。

要达到这样的目的,模型必须在一定程度上理解这个世界的运作方式(比如水往低处流、物体碰撞后的运动、人的合理动作等)。

胡文博正是世界模型研究领域近两年的绝对新锐。

在刚刚结束的 GAIR 2025,腾讯ARC Lab高级研究员胡文博,在雷峰网举办的GAIR大会现场带来了非常有见解的演讲:《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )。

以下是具体内容,AI科技评论做了不改变原意的编辑和整理。

感谢邀请和介绍,我今天分享的题目是《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models)。

之所以讲这个,是因为Sora在2024年初出来时,给大家带来很大震撼。比如它生成的视频,虽然看起来是二维的,但已经具备一定的3D一致性。不过从我们做三维重建的角度看,比如尝试把它重建出来,会发现墙面与地面的垂直性、平整度等都还不够好。


基于这个观察,领域内认为视频扩散模型有潜力作为世界模型的一种表示方式,但视频本身仍是二维的,而我们的世界是三维的。

所以我们思考:如何实现一个具备三维感知能力的视频世界模型?

为了实现这种三维感知,我们主要做了两方面工作,今天重点讲第二方面。

第一方面是如何从二维观测中重建三维信息,这部分和前面彭老师讲的内容比较接近。第二方面是如何将重建得到的三维信息融入到生成过程中,使二维空间的视频扩散模型具备三维感知特性。

我先简单介绍一下第一方面的工作:如何在开放世界环境中,从二维视频中重建三维信息。

我们做了一系列工作,例如video depth (DepthCrafter)(2024年10月挂在arXiv上,现在效果可能已经不是最新的了)。


除了video depth (DepthCrafter),我们进一步思考:既然video depth还是2.5维的信息,能否直接从视频中估计点云。这就是GeometryCrafter,有了点云,我们就能做类似4D重建的任务,把各帧融合到同一坐标系中。


再进一步,我们还估计了运动信息,这部分我们最新的工作叫Holi4D,可以从单目视频中重建运动。最后一块是表面法线估计NormalCrafter,与前几项相比,法线包含更多高频细节,因为它是位置的一阶偏导数。基于法线我们可以做重打光、材质编辑等任务。

总的来说,目前从任意开放世界二维视频中重建三维信息的技术已经发展得不错,我们能得到比较好的三维重建结果了。

接下来重点讲第二方面:如何将三维信息用在视频扩散过程中,使模型具备三维感知能力。我们首先探索了静态场景下的生成任务:输入一张单图,希望模型能根据任意指定的相机位姿,生成对应的观测图像。这样我们就能像玩游戏一样,通过控制相机,实现对静态场景的探索。

这个工作叫ViewCrafter,2024年10月公开,后来被PAMI接收。


方法上,我们借助重建能力:给定一张图,先重建出一个粗糙的三维点云,形成场景的“骨架”。然后基于这个点云进行漫游渲染,渲染结果虽然粗糙(可能有空洞),但视角变换关系非常准确。

这些空洞正好由擅长内容生成的视频扩散模型来填补。我们将渲染的点云作为条件,控制视频扩散过程,从而生成既逼真又符合指定视角变换的图像。

更重要的是,生成的新图像可以反过来用于多视角重建,更新点云,从而实现迭代式、更大范围的场景探索。这其实与世界模型中的记忆机制相关:三维点云作为一种记忆,通过新探索内容更新点云,再从中查询信息作为条件,支持更远的探索。


我们展示一些结果:左侧是指定的相机轨迹,右侧是从单图出发生成的探索结果。

效果还不错,不仅支持单图输入,也支持稀疏多视图输入。从两张图出发的话,探索范围会大很多。探索得到的多视图图像可以直接用于重建三维高斯泼溅模型(3D Gaussian Splatting),实现实时渲染。


刚才讲的是静态场景探索,接下来是如何对动态场景进行探索。这是我们发表在ICCV 2025上的Oral工作TrajectoryCrafter。


核心思想是:用户输入一段单目视频(它是四维世界的二维投影),模型应允许用户对其背后的四维世界进行探索,即同时指定相机位姿和时间点,生成对应的动态观测。

方法延续之前的思路:核心是如何将重建的三维信息注入生成过程。输入是一段视频,我们通过视频重建方法将其提升为三维空间中的动态点云。然后像ViewCrafter一样,基于指定位姿渲染点云。

不同之处在于,动态探索对生成质量要求更高,因此我们除了注入点云信息外,还将原始视频(质量最高)也作为条件注入扩散模型,从而在精准控制相机位姿的同时实现高质量生成。



结果展示:左侧是原始动态视频,右侧是依据新指定相机位姿生成的动态视频。例如左上角第一个例子,甚至可以绕到人物背后观看,光影反射效果也不错。



模型还能实现“子弹时间”特效:固定时间点,旋转相机。另外也能模拟“Dolly Zoom”特效(电影常用手法:边推移相机边调整焦距,使主体大小不变而背景变化),我们的模型可以从原始固定相机视频出发,同时修改相机内参和外参,复现这种效果。

以上两个工作分别实现了对静态和动态场景的探索。

对于世界模型,除了探索,下一步是实现交互:如何对场景中多个物体进行交互?这是我们最新工作VerseCrafter(即将公开)。


仍从单图输入出发,重建几何信息,并将可移动物体用高斯球标注出来。相机和物体轨迹可在Blender中编辑:用户可以交互式设计相机和每个物体的运动轨迹。然后,我们的模型能根据这些交互结果,生成逼真的观测视频。也就是说,相机和所有物体的运动都是可交互的。


实现方案上,我们构建了一个“4D控制视频世界模型”:从单图出发,基于重建和分割方法,重建出部分三维场景,并标注可移动物体。这样就在Blender中得到一个粗糙的、可交互的三维(或四维)世界。虽然粗糙,但易于交互。交互结果作为条件,输入到我们设计的视频扩散模型中,生成最终逼真的观测。


这个方案的关键在于如何构建训练数据。我们建立了一套完整的训练数据标注流程,核心基于重建算法和视觉语言模型(VLM)进行标注与过滤。最终我们获得了约35K个高质量视频片段的数据集。



基于这个模型,我们可以做很多事情:固定相机只移动物体、固定物体只移动相机、同时移动相机和物体。我们对比了现有方案,很多方法只能处理特定类别(如仅限人体),而我们的方法在运动符合度和生成质量上都有不错表现。我们还测试了多玩家联机探索场景的能力:用两个人各自拍摄的照片作为Player A和Player B的视角,让他们在同一个场景中同时探索与交互,模型能分别生成各自的视角视频。


总结一下,今天主要关注第二方面——三维感知视频世界模型,但这部分非常依赖第一方面的开放世界三维重建技术(包括深度、点云、运动、法线等重建)。

在三维感知视频世界模型方面,我们实现了静态场景探索模型、动态场景探索模型,以及支持在四维场景中同时进行探索与交互的模型。

这就是今天想和大家分享的内容,谢谢。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广告翻车、丑闻缠身,美国“芭比部长”被直播解雇!

广告翻车、丑闻缠身,美国“芭比部长”被直播解雇!

新民周刊
2026-03-08 11:26:13
王毅宣布:中方将于5月1日全面实施对非洲100%税目产品的零关税

王毅宣布:中方将于5月1日全面实施对非洲100%税目产品的零关税

台州交通广播
2026-03-08 12:34:13
英国考虑向中东地区派遣航母后,特朗普再批斯塔默:英国没有第一时间支持

英国考虑向中东地区派遣航母后,特朗普再批斯塔默:英国没有第一时间支持

环球网资讯
2026-03-08 09:09:07
“女孩子怎么不行了?”曾跳伞1200多次,00后女孩退伍后在杭州当“空保”

“女孩子怎么不行了?”曾跳伞1200多次,00后女孩退伍后在杭州当“空保”

都市快报橙柿互动
2026-03-08 09:51:43
“挺侮辱人的!”儿子为爱退学,上海阿姨花18万元求分手,后续来了

“挺侮辱人的!”儿子为爱退学,上海阿姨花18万元求分手,后续来了

上观新闻
2026-03-07 20:57:04
深圳街头超大屏火了!祝深圳女性挣大钱、发量坚挺、气血很足!网友:这就是我爱深圳的原因

深圳街头超大屏火了!祝深圳女性挣大钱、发量坚挺、气血很足!网友:这就是我爱深圳的原因

深圳晚报
2026-03-08 11:48:46
小时候挨过的打没有一顿是白挨的!网友:俺不中了,笑的肚子疼

小时候挨过的打没有一顿是白挨的!网友:俺不中了,笑的肚子疼

带你感受人间冷暖
2026-03-07 22:36:06
中国驻伊朗女记者:爆炸中躲进卫生间赶稿,不是最窘的事

中国驻伊朗女记者:爆炸中躲进卫生间赶稿,不是最窘的事

上观新闻
2026-03-07 15:07:07
乌克兰祭出终极大杀器!无人机拦截弹爆单,1000美元能干掉大型无人机,比伊朗“小摩托”更便宜

乌克兰祭出终极大杀器!无人机拦截弹爆单,1000美元能干掉大型无人机,比伊朗“小摩托”更便宜

慕名而来只为你
2026-03-08 09:08:33
偷往帽子倒螺蛳粉汤的女子已经社死,正面照遭网友Ai修复后疯传

偷往帽子倒螺蛳粉汤的女子已经社死,正面照遭网友Ai修复后疯传

映射生活的身影
2026-03-08 02:42:07
女子相亲带男闺蜜蹭饭,狂点8000元海鲜,男方逃单失联,警方介入

女子相亲带男闺蜜蹭饭,狂点8000元海鲜,男方逃单失联,警方介入

离离言几许
2026-03-07 15:52:24
郑钦文,为何沦为平庸?

郑钦文,为何沦为平庸?

曹老师评球
2026-03-08 10:23:29
伊朗问题,注意普京的动向

伊朗问题,注意普京的动向

新民周刊
2026-03-08 09:11:54
就在下周一,或迎来本年度飙升!加满一箱油要贵20元

就在下周一,或迎来本年度飙升!加满一箱油要贵20元

都市快报橙柿互动
2026-03-07 23:13:42
伊朗用“穷人巡航导弹”反击美以

伊朗用“穷人巡航导弹”反击美以

参考消息
2026-03-08 15:15:05
雷霆横扫勇士成联盟50胜首队 亚历山大27分连125场20+追张伯伦

雷霆横扫勇士成联盟50胜首队 亚历山大27分连125场20+追张伯伦

醉卧浮生
2026-03-08 11:59:55
清朝时期,康熙若要从北京到承德避暑山庄,究竟需要多长时间?

清朝时期,康熙若要从北京到承德避暑山庄,究竟需要多长时间?

芊芊子吟
2026-03-07 20:25:03
写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

斌闻天下
2026-03-06 07:30:03
快船19分逆转灰熊:小卡28分连41场20+ 马瑟林21+10加兰21分

快船19分逆转灰熊:小卡28分连41场20+ 马瑟林21+10加兰21分

醉卧浮生
2026-03-08 11:39:28
匈牙利“劫持”乌克兰银行押款车,大量欧元美元黄金被抢

匈牙利“劫持”乌克兰银行押款车,大量欧元美元黄金被抢

史政先锋
2026-03-07 22:17:13
2026-03-08 16:04:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7110文章数 20738关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

媒体:伊朗用"穷人巡航导弹"反击美以 美盟友闻之色变

头条要闻

媒体:伊朗用"穷人巡航导弹"反击美以 美盟友闻之色变

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

态度原创

健康
教育
亲子
旅游
数码

转头就晕的耳石症,能开车上班吗?

教育要闻

第一次考英语四级,如何规划复习才能顺利通过,最好突破550分

亲子要闻

3岁女儿突然关心爸爸,原来是另有目的,小小年纪一肚子心眼

旅游要闻

赴一场春日之约!到重庆合川太和解锁赏花新玩法

数码要闻

微软和英伟达联手丢“王炸”!所有游戏玩家都能用上光追了?

无障碍浏览 进入关怀版