网易首页 > 网易号 > 正文 申请入驻

无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。本文中,宾夕法尼亚大学和斯坦福大学研究团队尝试向这一目标迈进一小步。

互联网上有海量单目视频,其中蕴含了大量物理世界的信息,但三维视觉仍缺乏行之有效的手段,将三维动态信息从这些视频中提取出来,从而支撑未来三维大模型建模及理解动态物理世界。尽管重要,这个反问题极具挑战性。

其一,真实拍摄的二维视频往往缺乏多视角信息,因此不能利用多视角几何进行三维重建,甚至在很多情况下无法通过已有软件(如 COLMAP)求解相机位姿和内参。

其二,动态场景的自由度极高,其变形和长时间信息融合的四维表示仍然不成熟,使这一困难的反问题更加复杂。

本文提出了一种新颖的神经信息处理系统 —— 摩斯卡 (MoSca),只需提供一连串视频帧图片,无需任何额外信息,即可从 SORA 生成的视频、电影电视剧片段、互联网视频和公开数据集的单目野生 (in-the-wild) 视频中重建可渲染的动态场景。

ArXiv地址:https://arxiv.org/pdf/2405.17421

代码 (近期将开源):www.github.com/JiahuiLei/MoSca

项目网站: www.cis.upenn.edu/~leijh/projects/mosca/

视频 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

方法概览

为了克服上述的困难,摩斯卡首先利用了存储在计算机视觉基石模型 (foundation models) 中的强先验知识将问题解空间缩小。

具体而言,摩斯卡利用了单目有尺度的深度估计 (mono metric-depth) 模型 UniDepth、 视频任一点长时间跟踪 (track any point) 模型 CoTracker、光流估计 (optical flow) 模型 RAFT 计算出的对极几何误差 (epipolar error), 以及预训练语义模型 DINO-v2 提供的语义特征。详参论文 3.1 章节.

我们观察到,大多数真实世界的动态变形本质上都是紧凑和稀疏的,其复杂度往往远低于真实几何结构的复杂度。比如,一个硬物体的运动可以用旋转和平移表示,一个人的运动大致可以用多个关节的旋转平移近似。

基于这一观察,本文提出了一种新颖的紧凑动态场景表示 —— 四维运动脚手架 (4D Motion Scaffold),将上述基石模型输出从二维提升至四维并进行融合,同时也融入物理启发的变形正则化 (ARAP) 。

四维运动脚手架是一个图,图的每一个节点是一串刚体运动 (SE (3)) 轨迹,图的拓扑结构是全局考虑刚体运动轨迹曲线距离而构建的最近邻边。通过使用对偶四元数 (dual-quaternion) 在时空中平滑插值图上节点的刚体轨迹,可表示空间中任意一点的变形。这一表示大大简化了需解的运动参数。(详见论文 3.2 章节)。

,时长00:06

四维运动脚手架的另一个巨大优势在于可以直接被单目深度和视频二维点跟踪初始化,再通过高效的物理正则项优化求解出未知的遮挡点位置以及局部坐标系方向。详参论文 3.3 章节.

有了四维运动脚手架,任何时刻的任何一点都可以被变形到任意目标时刻,这让全局融合观测信息变得可能。具体而言,视频每一帧都可以利用估计的深度图反投影到三维空间并初始化三维高斯 (3DGS)。这些高斯被「绑定」在四维运动脚手架上,自由穿梭于任何时刻。想要渲染某一时刻的场景,只需将全局所有其他时刻的高斯通过四维脚手架传送到当前时刻融合即可。这一基于四维运动脚手架和高斯的动态场景表示可高效地被高斯渲染器优化(详见论文 3.4 章节)。

最后值得一提的是,摩斯卡是一个无需相机内外参的系统。通过利用上述基石模型输出的对极几何误差确定静态背景掩码,利用基石模型输出的深度和点跟踪,摩斯卡可以高效地优化重投影误差,求解全局集束优化 (bundle adjustment),从而直接输出相机内参和位姿,并通过后续的渲染持续优化相机(详见论文 3.5 章节)。

实验结果

摩斯卡可以在 DAVIS 数据集视频中重建动态场景。值得注意的是,摩斯卡可灵活支持多种基于高斯的渲染器。除了原生的 3DGS 渲染器,本文还测试了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如图中最右列的火车,GOF 可渲染出更高质量的 normal 和 depth。

摩斯卡在极具挑战性的 IPhone DyCheck 数据集上取得了显著提升,同时也在广泛对比的 Nvidia 数据集上对比了其他方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄军发布视频:困在红军城的乌军士兵开始成批投降

俄军发布视频:困在红军城的乌军士兵开始成批投降

俄语大世界
2025-11-02 10:19:06
4500亿果链龙头狂赚115亿,潮汕富豪父女身家超800亿

4500亿果链龙头狂赚115亿,潮汕富豪父女身家超800亿

21世纪经济报道
2025-11-02 12:15:25
刚下飞机交警来电:你车撞人了,需赔偿30万!我:车在博物馆展出

刚下飞机交警来电:你车撞人了,需赔偿30万!我:车在博物馆展出

秋风专栏
2025-10-29 11:45:27
3-1,博洛尼亚7轮不败反超AC米兰,曼城旧将贝尔纳韦发威难换1分

3-1,博洛尼亚7轮不败反超AC米兰,曼城旧将贝尔纳韦发威难换1分

侧身凌空斩
2025-11-03 03:00:35
su7车祸现场,有人从前挡玻璃爬出!粉丝怒赞,车结构强度确实高

su7车祸现场,有人从前挡玻璃爬出!粉丝怒赞,车结构强度确实高

火山诗话
2025-11-01 06:33:51
纵览热点 | 舆论风波后重返赛道,“最快女护士”张水华获得“复出”后的首个全马冠军

纵览热点 | 舆论风波后重返赛道,“最快女护士”张水华获得“复出”后的首个全马冠军

纵览新闻
2025-11-02 12:57:06
集体大卖!比亚迪、赛力斯、长安汽车和上汽集团最新披露

集体大卖!比亚迪、赛力斯、长安汽车和上汽集团最新披露

每日经济新闻
2025-11-02 17:32:04
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
金价要涨了?11月起黄金税收实施新政,投资实物黄金要交增值税了

金价要涨了?11月起黄金税收实施新政,投资实物黄金要交增值税了

王五说说看
2025-11-02 12:04:21
男网惨案!6-0+6-1,辛纳横扫卫冕冠军,比肩费德勒+德约科维奇

男网惨案!6-0+6-1,辛纳横扫卫冕冠军,比肩费德勒+德约科维奇

草根体育
2025-11-02 07:57:25
荷兰没料到已完全失控! 欧美准备收割中国壁垒: 成为框死自己牢笼

荷兰没料到已完全失控! 欧美准备收割中国壁垒: 成为框死自己牢笼

娱乐圈的笔娱君
2025-11-03 02:12:58
在利益面前,夺冠功勋说弃就弃!盘点NBA最绝情的6大交易

在利益面前,夺冠功勋说弃就弃!盘点NBA最绝情的6大交易

毒舌NBA
2025-10-31 20:21:04
中美贸易博弈加剧:特朗普政府反击,中国大豆交易陷入困境

中美贸易博弈加剧:特朗普政府反击,中国大豆交易陷入困境

花小猫的美食日常
2025-11-02 07:40:45
73年我驻希腊大使犯下严重过失,周总理震怒无奈,毛主席批示救场

73年我驻希腊大使犯下严重过失,周总理震怒无奈,毛主席批示救场

红色先驱
2025-11-02 09:10:03
荷兰ASML首席技术官直言:中国在用一种我们无法阻止的方式前进!

荷兰ASML首席技术官直言:中国在用一种我们无法阻止的方式前进!

元爸体育
2025-11-02 07:57:58
意甲主帅年薪榜:孔蒂、阿莱格里前2,斯帕莱蒂第4,齐沃第8

意甲主帅年薪榜:孔蒂、阿莱格里前2,斯帕莱蒂第4,齐沃第8

懂球帝
2025-11-03 05:42:11
一切崩塌都是迟早的事,你要早作准备。

一切崩塌都是迟早的事,你要早作准备。

爱吃糖的猫cat
2025-10-16 19:41:43
断舍离:“7种旧物,再穷也别留”,都是中国家庭的通病,快扔吧

断舍离:“7种旧物,再穷也别留”,都是中国家庭的通病,快扔吧

室内设计师有料儿
2025-10-24 17:44:34
斯诺克国锦赛:丁俊晖6-0横扫格雷斯,遗憾冲击147失败

斯诺克国锦赛:丁俊晖6-0横扫格雷斯,遗憾冲击147失败

懂球帝
2025-11-02 21:45:31
资助的女孩考上了北大,她在演讲时当众说我的钱脏,我取消了资助

资助的女孩考上了北大,她在演讲时当众说我的钱脏,我取消了资助

黄小乖的日记
2025-11-02 22:54:34
2025-11-03 07:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

旅游
家居
本地
时尚
公开课

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

家居要闻

吸睛艺术 富有传奇色彩

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

最近很火的发型,原来这么简单!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版