网易首页 > 网易号 > 正文 申请入驻

腾讯 ARC Lab 胡文博:“如何实现三维感知的视频世界模型,这非常值得探索”|GAIR 2025

0
分享至


我们正在努力创建一个具备三维感知能力的视频世界模型。

作者丨齐铖湧

编辑丨马晓宁


世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,过去一年多,Sora为代表的视频生成模型,成为继大语言模型(LLM)后新的学术热点。本质上讲,当下火爆的视频生成模型,是一种世界模型,其核心目的是生成一段逼真、连贯的视频。

要达到这样的目的,模型必须在一定程度上理解这个世界的运作方式(比如水往低处流、物体碰撞后的运动、人的合理动作等)。

胡文博正是世界模型研究领域近两年的绝对新锐。

在刚刚结束的 GAIR 2025,腾讯ARC Lab高级研究员胡文博,在雷峰网举办的GAIR大会现场带来了非常有见解的演讲:《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )。

以下是具体内容,AI科技评论做了不改变原意的编辑和整理。

感谢邀请和介绍,我今天分享的题目是《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models)。

之所以讲这个,是因为Sora在2024年初出来时,给大家带来很大震撼。比如它生成的视频,虽然看起来是二维的,但已经具备一定的3D一致性。不过从我们做三维重建的角度看,比如尝试把它重建出来,会发现墙面与地面的垂直性、平整度等都还不够好。


基于这个观察,领域内认为视频扩散模型有潜力作为世界模型的一种表示方式,但视频本身仍是二维的,而我们的世界是三维的。

所以我们思考:如何实现一个具备三维感知能力的视频世界模型?

为了实现这种三维感知,我们主要做了两方面工作,今天重点讲第二方面。

第一方面是如何从二维观测中重建三维信息,这部分和前面彭老师讲的内容比较接近。第二方面是如何将重建得到的三维信息融入到生成过程中,使二维空间的视频扩散模型具备三维感知特性。

我先简单介绍一下第一方面的工作:如何在开放世界环境中,从二维视频中重建三维信息。

我们做了一系列工作,例如video depth (DepthCrafter)(2024年10月挂在arXiv上,现在效果可能已经不是最新的了)。


除了video depth (DepthCrafter),我们进一步思考:既然video depth还是2.5维的信息,能否直接从视频中估计点云。这就是GeometryCrafter,有了点云,我们就能做类似4D重建的任务,把各帧融合到同一坐标系中。


再进一步,我们还估计了运动信息,这部分我们最新的工作叫Holi4D,可以从单目视频中重建运动。最后一块是表面法线估计NormalCrafter,与前几项相比,法线包含更多高频细节,因为它是位置的一阶偏导数。基于法线我们可以做重打光、材质编辑等任务。

总的来说,目前从任意开放世界二维视频中重建三维信息的技术已经发展得不错,我们能得到比较好的三维重建结果了。

接下来重点讲第二方面:如何将三维信息用在视频扩散过程中,使模型具备三维感知能力。我们首先探索了静态场景下的生成任务:输入一张单图,希望模型能根据任意指定的相机位姿,生成对应的观测图像。这样我们就能像玩游戏一样,通过控制相机,实现对静态场景的探索。

这个工作叫ViewCrafter,2024年10月公开,后来被PAMI接收。


方法上,我们借助重建能力:给定一张图,先重建出一个粗糙的三维点云,形成场景的“骨架”。然后基于这个点云进行漫游渲染,渲染结果虽然粗糙(可能有空洞),但视角变换关系非常准确。

这些空洞正好由擅长内容生成的视频扩散模型来填补。我们将渲染的点云作为条件,控制视频扩散过程,从而生成既逼真又符合指定视角变换的图像。

更重要的是,生成的新图像可以反过来用于多视角重建,更新点云,从而实现迭代式、更大范围的场景探索。这其实与世界模型中的记忆机制相关:三维点云作为一种记忆,通过新探索内容更新点云,再从中查询信息作为条件,支持更远的探索。


我们展示一些结果:左侧是指定的相机轨迹,右侧是从单图出发生成的探索结果。

效果还不错,不仅支持单图输入,也支持稀疏多视图输入。从两张图出发的话,探索范围会大很多。探索得到的多视图图像可以直接用于重建三维高斯泼溅模型(3D Gaussian Splatting),实现实时渲染。


刚才讲的是静态场景探索,接下来是如何对动态场景进行探索。这是我们发表在ICCV 2025上的Oral工作TrajectoryCrafter。


核心思想是:用户输入一段单目视频(它是四维世界的二维投影),模型应允许用户对其背后的四维世界进行探索,即同时指定相机位姿和时间点,生成对应的动态观测。

方法延续之前的思路:核心是如何将重建的三维信息注入生成过程。输入是一段视频,我们通过视频重建方法将其提升为三维空间中的动态点云。然后像ViewCrafter一样,基于指定位姿渲染点云。

不同之处在于,动态探索对生成质量要求更高,因此我们除了注入点云信息外,还将原始视频(质量最高)也作为条件注入扩散模型,从而在精准控制相机位姿的同时实现高质量生成。



结果展示:左侧是原始动态视频,右侧是依据新指定相机位姿生成的动态视频。例如左上角第一个例子,甚至可以绕到人物背后观看,光影反射效果也不错。



模型还能实现“子弹时间”特效:固定时间点,旋转相机。另外也能模拟“Dolly Zoom”特效(电影常用手法:边推移相机边调整焦距,使主体大小不变而背景变化),我们的模型可以从原始固定相机视频出发,同时修改相机内参和外参,复现这种效果。

以上两个工作分别实现了对静态和动态场景的探索。

对于世界模型,除了探索,下一步是实现交互:如何对场景中多个物体进行交互?这是我们最新工作VerseCrafter(即将公开)。


仍从单图输入出发,重建几何信息,并将可移动物体用高斯球标注出来。相机和物体轨迹可在Blender中编辑:用户可以交互式设计相机和每个物体的运动轨迹。然后,我们的模型能根据这些交互结果,生成逼真的观测视频。也就是说,相机和所有物体的运动都是可交互的。


实现方案上,我们构建了一个“4D控制视频世界模型”:从单图出发,基于重建和分割方法,重建出部分三维场景,并标注可移动物体。这样就在Blender中得到一个粗糙的、可交互的三维(或四维)世界。虽然粗糙,但易于交互。交互结果作为条件,输入到我们设计的视频扩散模型中,生成最终逼真的观测。


这个方案的关键在于如何构建训练数据。我们建立了一套完整的训练数据标注流程,核心基于重建算法和视觉语言模型(VLM)进行标注与过滤。最终我们获得了约35K个高质量视频片段的数据集。



基于这个模型,我们可以做很多事情:固定相机只移动物体、固定物体只移动相机、同时移动相机和物体。我们对比了现有方案,很多方法只能处理特定类别(如仅限人体),而我们的方法在运动符合度和生成质量上都有不错表现。我们还测试了多玩家联机探索场景的能力:用两个人各自拍摄的照片作为Player A和Player B的视角,让他们在同一个场景中同时探索与交互,模型能分别生成各自的视角视频。


总结一下,今天主要关注第二方面——三维感知视频世界模型,但这部分非常依赖第一方面的开放世界三维重建技术(包括深度、点云、运动、法线等重建)。

在三维感知视频世界模型方面,我们实现了静态场景探索模型、动态场景探索模型,以及支持在四维场景中同时进行探索与交互的模型。

这就是今天想和大家分享的内容,谢谢。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

萧竹轻语
2025-12-05 17:38:25
英超官方晒近两年圣诞积分榜:利物浦和阿森纳同分领跑

英超官方晒近两年圣诞积分榜:利物浦和阿森纳同分领跑

懂球帝
2025-12-26 05:04:41
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

凡知
2025-11-19 21:28:17
Lisa又被骂低俗!穿高衩衣、裸露屁股 网友崩溃:带坏小孩子

Lisa又被骂低俗!穿高衩衣、裸露屁股 网友崩溃:带坏小孩子

桑葚爱动画
2025-12-24 16:21:15
2025年C919交付大跳水之谜:说好的75架,只剩零头?

2025年C919交付大跳水之谜:说好的75架,只剩零头?

瞩望云霄
2025-12-24 10:30:09
造出EUV光刻机?中国如何突破

造出EUV光刻机?中国如何突破

南风窗
2025-12-24 13:29:46
一年后她的血管斑块消失了!逆转血管斑块,记住这5个方法!

一年后她的血管斑块消失了!逆转血管斑块,记住这5个方法!

阿兵科普
2025-12-25 21:22:13
勇士5大理由该交易小波特!美媒晒3方6人方案:打包卖穆迪+库明加

勇士5大理由该交易小波特!美媒晒3方6人方案:打包卖穆迪+库明加

锅子篮球
2025-12-25 22:38:10
ICE公布:在加州高速公路抓了101名卡车司机,全是非法移民

ICE公布:在加州高速公路抓了101名卡车司机,全是非法移民

大洛杉矶LA
2025-12-26 00:35:18
广州一家5口坠江遇难!4大1小,原因令人愤怒,村民透露更多

广州一家5口坠江遇难!4大1小,原因令人愤怒,村民透露更多

千言娱乐记
2025-12-26 00:56:06
有必要说一下网络歌曲《马踏樱花》

有必要说一下网络歌曲《马踏樱花》

TVB的四小花
2025-12-26 00:32:58
一旦出现"长阴倒拔杨柳",就是主力洗盘结束的标志,果断满仓干!

一旦出现"长阴倒拔杨柳",就是主力洗盘结束的标志,果断满仓干!

股经纵横谈
2025-12-20 11:06:52
舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

岁月有情1314
2025-11-29 15:40:25
杭州女护士出轨后续!妻子现身!捧遗像下跪道歉,王超墓碑曝光

杭州女护士出轨后续!妻子现身!捧遗像下跪道歉,王超墓碑曝光

魔都姐姐杂谈
2024-11-20 11:26:24
水庆霞卸任上海女足主教练

水庆霞卸任上海女足主教练

上观新闻
2025-12-25 22:04:37
破3万!这个计划单列市,房价卷疯了

破3万!这个计划单列市,房价卷疯了

城市财经
2025-12-25 11:46:21
战略合作落地:湖南省政府与自然资源部共建湖南科技大学

战略合作落地:湖南省政府与自然资源部共建湖南科技大学

澎湃新闻
2025-12-25 16:30:26
重庆农商行因滚动开票等被罚870万,原主管财务的副行长和首席审贷官被终身禁业

重庆农商行因滚动开票等被罚870万,原主管财务的副行长和首席审贷官被终身禁业

澎湃新闻
2025-12-25 19:20:26
官方:丁伟升任浙江稠州总教练,外籍助教法莱卡斯担任主教练

官方:丁伟升任浙江稠州总教练,外籍助教法莱卡斯担任主教练

懂球帝
2025-12-25 21:50:21
CCTV直播!中国队vs泰国,U23亚洲杯收官战,传利好消息 有望大胜

CCTV直播!中国队vs泰国,U23亚洲杯收官战,传利好消息 有望大胜

大秦壁虎白话体育
2025-12-26 00:17:44
2025-12-26 06:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7024文章数 20717关注度
往期回顾 全部

科技要闻

小米17Ultra发布,徕卡2亿像素 ,6999元起

头条要闻

韩国"最毒"财阀千金被捕 韩国人称"经过她身边就会死"

头条要闻

韩国"最毒"财阀千金被捕 韩国人称"经过她身边就会死"

体育要闻

约基奇有多喜欢马?

娱乐要闻

朱孝天把阿信好意当球踢!

财经要闻

新规来了,年化超24%的小贷被即刻叫停

汽车要闻

速来!智界在上海西岸准备了年末潮流盛典

态度原创

数码
时尚
教育
亲子
公开课

数码要闻

年终复盘不用愁,鸿蒙电脑让高效贯穿每一刻

冬季穿衣别显得太臃肿!大衣收腰、搭配围巾,有质感又高级

教育要闻

学习一定是辛苦的,但不要让孩子痛苦

亲子要闻

首都儿研所又出狠货「儿童霜」!新华网力荐,北京妈妈排队买...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版