网易首页 > 网易号 > 正文 申请入驻

无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。本文中,宾夕法尼亚大学和斯坦福大学研究团队尝试向这一目标迈进一小步。

互联网上有海量单目视频,其中蕴含了大量物理世界的信息,但三维视觉仍缺乏行之有效的手段,将三维动态信息从这些视频中提取出来,从而支撑未来三维大模型建模及理解动态物理世界。尽管重要,这个反问题极具挑战性。

其一,真实拍摄的二维视频往往缺乏多视角信息,因此不能利用多视角几何进行三维重建,甚至在很多情况下无法通过已有软件(如 COLMAP)求解相机位姿和内参。

其二,动态场景的自由度极高,其变形和长时间信息融合的四维表示仍然不成熟,使这一困难的反问题更加复杂。

本文提出了一种新颖的神经信息处理系统 —— 摩斯卡 (MoSca),只需提供一连串视频帧图片,无需任何额外信息,即可从 SORA 生成的视频、电影电视剧片段、互联网视频和公开数据集的单目野生 (in-the-wild) 视频中重建可渲染的动态场景。

ArXiv地址:https://arxiv.org/pdf/2405.17421

代码 (近期将开源):www.github.com/JiahuiLei/MoSca

项目网站: www.cis.upenn.edu/~leijh/projects/mosca/

视频 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

方法概览

为了克服上述的困难,摩斯卡首先利用了存储在计算机视觉基石模型 (foundation models) 中的强先验知识将问题解空间缩小。

具体而言,摩斯卡利用了单目有尺度的深度估计 (mono metric-depth) 模型 UniDepth、 视频任一点长时间跟踪 (track any point) 模型 CoTracker、光流估计 (optical flow) 模型 RAFT 计算出的对极几何误差 (epipolar error), 以及预训练语义模型 DINO-v2 提供的语义特征。详参论文 3.1 章节.

我们观察到,大多数真实世界的动态变形本质上都是紧凑和稀疏的,其复杂度往往远低于真实几何结构的复杂度。比如,一个硬物体的运动可以用旋转和平移表示,一个人的运动大致可以用多个关节的旋转平移近似。

基于这一观察,本文提出了一种新颖的紧凑动态场景表示 —— 四维运动脚手架 (4D Motion Scaffold),将上述基石模型输出从二维提升至四维并进行融合,同时也融入物理启发的变形正则化 (ARAP) 。

四维运动脚手架是一个图,图的每一个节点是一串刚体运动 (SE (3)) 轨迹,图的拓扑结构是全局考虑刚体运动轨迹曲线距离而构建的最近邻边。通过使用对偶四元数 (dual-quaternion) 在时空中平滑插值图上节点的刚体轨迹,可表示空间中任意一点的变形。这一表示大大简化了需解的运动参数。(详见论文 3.2 章节)。

,时长00:06

四维运动脚手架的另一个巨大优势在于可以直接被单目深度和视频二维点跟踪初始化,再通过高效的物理正则项优化求解出未知的遮挡点位置以及局部坐标系方向。详参论文 3.3 章节.

有了四维运动脚手架,任何时刻的任何一点都可以被变形到任意目标时刻,这让全局融合观测信息变得可能。具体而言,视频每一帧都可以利用估计的深度图反投影到三维空间并初始化三维高斯 (3DGS)。这些高斯被「绑定」在四维运动脚手架上,自由穿梭于任何时刻。想要渲染某一时刻的场景,只需将全局所有其他时刻的高斯通过四维脚手架传送到当前时刻融合即可。这一基于四维运动脚手架和高斯的动态场景表示可高效地被高斯渲染器优化(详见论文 3.4 章节)。

最后值得一提的是,摩斯卡是一个无需相机内外参的系统。通过利用上述基石模型输出的对极几何误差确定静态背景掩码,利用基石模型输出的深度和点跟踪,摩斯卡可以高效地优化重投影误差,求解全局集束优化 (bundle adjustment),从而直接输出相机内参和位姿,并通过后续的渲染持续优化相机(详见论文 3.5 章节)。

实验结果

摩斯卡可以在 DAVIS 数据集视频中重建动态场景。值得注意的是,摩斯卡可灵活支持多种基于高斯的渲染器。除了原生的 3DGS 渲染器,本文还测试了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如图中最右列的火车,GOF 可渲染出更高质量的 normal 和 depth。

摩斯卡在极具挑战性的 IPhone DyCheck 数据集上取得了显著提升,同时也在广泛对比的 Nvidia 数据集上对比了其他方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
廖凡:25年不拼爹的星二代,妻子是周星驰黄金搭档

廖凡:25年不拼爹的星二代,妻子是周星驰黄金搭档

笑饮孤鸿非
2026-05-01 05:36:41
女人偷情在做完运动之后,为何都喜欢让男人帮她拍照?

女人偷情在做完运动之后,为何都喜欢让男人帮她拍照?

思絮
2026-05-01 23:16:10
辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

黔乡小姊妹
2026-05-03 08:22:39
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
北京一姑娘,因“生菜吃成老桩”火了,网友,种一次吃三年,值啊

北京一姑娘,因“生菜吃成老桩”火了,网友,种一次吃三年,值啊

据说说娱乐
2026-05-03 12:06:09
发售1天回本!育碧30年IP推出新作:高调复苏

发售1天回本!育碧30年IP推出新作:高调复苏

游民星空
2026-05-02 19:11:08
美专家曾语出惊人:美军一旦把核弹扔向京沪,中国并不会还手

美专家曾语出惊人:美军一旦把核弹扔向京沪,中国并不会还手

小蔑谈事
2026-04-30 14:56:15
为什么男生在相亲时,听到女生喜欢瑜伽、旅游、烘焙,会很抵触?

为什么男生在相亲时,听到女生喜欢瑜伽、旅游、烘焙,会很抵触?

舒山有鹿
2026-05-01 12:50:32
大型船只如果要沉没,为何人们宁愿等着沉下去,也不愿跳海逃生?

大型船只如果要沉没,为何人们宁愿等着沉下去,也不愿跳海逃生?

收藏大视界
2026-05-02 21:43:05
神奇的4-3!凯尔特人爆冷出局,76人惊天逆转,恩比德34分12板6助

神奇的4-3!凯尔特人爆冷出局,76人惊天逆转,恩比德34分12板6助

篮球扫地僧
2026-05-03 14:04:24
电价改革要来了:国家为什么在这个时候“动”电价?

电价改革要来了:国家为什么在这个时候“动”电价?

趣文说娱
2026-04-28 22:06:04
功成身退!曼联进欧冠卡塞米罗将开启转会谈判,最有可能联袂梅西

功成身退!曼联进欧冠卡塞米罗将开启转会谈判,最有可能联袂梅西

罗米的曼联博客
2026-05-03 10:38:40
舒淇早期拍摄写真时的留影,慵懒风情,自成风月

舒淇早期拍摄写真时的留影,慵懒风情,自成风月

娱你同欢
2026-05-01 21:31:11
LPL美女主持爱上Bin,年纪却相差10岁,骆歆:对他是妈妈喜欢儿子

LPL美女主持爱上Bin,年纪却相差10岁,骆歆:对他是妈妈喜欢儿子

残影电竞
2026-05-03 15:03:10
伊朗内部有多乱?总统议长居然要炒外交部长鱿鱼,这还怎么谈判?

伊朗内部有多乱?总统议长居然要炒外交部长鱿鱼,这还怎么谈判?

梦史
2026-05-03 15:09:05
世锦赛决赛首人诞生:墨菲17-15晋级!获185万奖金,范争一亏大了

世锦赛决赛首人诞生:墨菲17-15晋级!获185万奖金,范争一亏大了

小火箭爱体育
2026-05-03 01:11:28
大学还没毕业,浙江00后女生远赴内蒙古与20多只狼朝夕相处

大学还没毕业,浙江00后女生远赴内蒙古与20多只狼朝夕相处

半岛晨报
2026-05-03 15:10:03
我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

长风文史
2026-04-27 20:19:33
赵又廷一家三口五一出游,46岁高圆圆体态真好,散步都像在走台步

赵又廷一家三口五一出游,46岁高圆圆体态真好,散步都像在走台步

八怪娱
2026-05-02 14:14:03
“蛛网”升级:新战术摧毁苏-57战斗机!俄军占领区面积净减少

“蛛网”升级:新战术摧毁苏-57战斗机!俄军占领区面积净减少

鹰眼Defence
2026-05-02 18:08:25
2026-05-03 15:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12904文章数 142639关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

上海科技大学王晨辉教授因营救至亲溺水遇险 年仅39岁

头条要闻

上海科技大学王晨辉教授因营救至亲溺水遇险 年仅39岁

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
家居
本地
公开课
军事航空

数码要闻

华为5A最新支持设备清单公布,含Pura X Max、畅享90系列等

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版