网易首页 > 网易号 > 正文 申请入驻

无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。本文中,宾夕法尼亚大学和斯坦福大学研究团队尝试向这一目标迈进一小步。

互联网上有海量单目视频,其中蕴含了大量物理世界的信息,但三维视觉仍缺乏行之有效的手段,将三维动态信息从这些视频中提取出来,从而支撑未来三维大模型建模及理解动态物理世界。尽管重要,这个反问题极具挑战性。

其一,真实拍摄的二维视频往往缺乏多视角信息,因此不能利用多视角几何进行三维重建,甚至在很多情况下无法通过已有软件(如 COLMAP)求解相机位姿和内参。

其二,动态场景的自由度极高,其变形和长时间信息融合的四维表示仍然不成熟,使这一困难的反问题更加复杂。

本文提出了一种新颖的神经信息处理系统 —— 摩斯卡 (MoSca),只需提供一连串视频帧图片,无需任何额外信息,即可从 SORA 生成的视频、电影电视剧片段、互联网视频和公开数据集的单目野生 (in-the-wild) 视频中重建可渲染的动态场景。

ArXiv地址:https://arxiv.org/pdf/2405.17421

代码 (近期将开源):www.github.com/JiahuiLei/MoSca

项目网站: www.cis.upenn.edu/~leijh/projects/mosca/

视频 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

方法概览

为了克服上述的困难,摩斯卡首先利用了存储在计算机视觉基石模型 (foundation models) 中的强先验知识将问题解空间缩小。

具体而言,摩斯卡利用了单目有尺度的深度估计 (mono metric-depth) 模型 UniDepth、 视频任一点长时间跟踪 (track any point) 模型 CoTracker、光流估计 (optical flow) 模型 RAFT 计算出的对极几何误差 (epipolar error), 以及预训练语义模型 DINO-v2 提供的语义特征。详参论文 3.1 章节.

我们观察到,大多数真实世界的动态变形本质上都是紧凑和稀疏的,其复杂度往往远低于真实几何结构的复杂度。比如,一个硬物体的运动可以用旋转和平移表示,一个人的运动大致可以用多个关节的旋转平移近似。

基于这一观察,本文提出了一种新颖的紧凑动态场景表示 —— 四维运动脚手架 (4D Motion Scaffold),将上述基石模型输出从二维提升至四维并进行融合,同时也融入物理启发的变形正则化 (ARAP) 。

四维运动脚手架是一个图,图的每一个节点是一串刚体运动 (SE (3)) 轨迹,图的拓扑结构是全局考虑刚体运动轨迹曲线距离而构建的最近邻边。通过使用对偶四元数 (dual-quaternion) 在时空中平滑插值图上节点的刚体轨迹,可表示空间中任意一点的变形。这一表示大大简化了需解的运动参数。(详见论文 3.2 章节)。

,时长00:06

四维运动脚手架的另一个巨大优势在于可以直接被单目深度和视频二维点跟踪初始化,再通过高效的物理正则项优化求解出未知的遮挡点位置以及局部坐标系方向。详参论文 3.3 章节.

有了四维运动脚手架,任何时刻的任何一点都可以被变形到任意目标时刻,这让全局融合观测信息变得可能。具体而言,视频每一帧都可以利用估计的深度图反投影到三维空间并初始化三维高斯 (3DGS)。这些高斯被「绑定」在四维运动脚手架上,自由穿梭于任何时刻。想要渲染某一时刻的场景,只需将全局所有其他时刻的高斯通过四维脚手架传送到当前时刻融合即可。这一基于四维运动脚手架和高斯的动态场景表示可高效地被高斯渲染器优化(详见论文 3.4 章节)。

最后值得一提的是,摩斯卡是一个无需相机内外参的系统。通过利用上述基石模型输出的对极几何误差确定静态背景掩码,利用基石模型输出的深度和点跟踪,摩斯卡可以高效地优化重投影误差,求解全局集束优化 (bundle adjustment),从而直接输出相机内参和位姿,并通过后续的渲染持续优化相机(详见论文 3.5 章节)。

实验结果

摩斯卡可以在 DAVIS 数据集视频中重建动态场景。值得注意的是,摩斯卡可灵活支持多种基于高斯的渲染器。除了原生的 3DGS 渲染器,本文还测试了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如图中最右列的火车,GOF 可渲染出更高质量的 normal 和 depth。

摩斯卡在极具挑战性的 IPhone DyCheck 数据集上取得了显著提升,同时也在广泛对比的 Nvidia 数据集上对比了其他方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越扒越亮!李亚鹏当年在小沈阳熊黛林发生矛盾时的发言太爷们了!

越扒越亮!李亚鹏当年在小沈阳熊黛林发生矛盾时的发言太爷们了!

乐悠悠娱乐
2026-01-22 08:58:02
中国的阳谋奏效!特朗普心态已崩,五角大楼:请33国防长迅速赴美

中国的阳谋奏效!特朗普心态已崩,五角大楼:请33国防长迅速赴美

云鹏叙事
2026-01-24 11:55:26
赖清德迈出危险一步,想和泽连斯基聊聊,并打算对普京干一件大事

赖清德迈出危险一步,想和泽连斯基聊聊,并打算对普京干一件大事

松林看世界
2026-01-24 06:48:34
现场目击:成都城南高速四辆执法车并排行驶致大面积车辆滞留缓行

现场目击:成都城南高速四辆执法车并排行驶致大面积车辆滞留缓行

大众新闻报社记者
2026-01-24 12:35:02
昭通市委书记市长,会见“蹦山咔拉咔”

昭通市委书记市长,会见“蹦山咔拉咔”

极目新闻
2026-01-23 20:13:00
1958年,志愿军首长途经辽宁一县,竟发现被认定 “牺牲” 的功臣,成了当地粮仓的警卫

1958年,志愿军首长途经辽宁一县,竟发现被认定 “牺牲” 的功臣,成了当地粮仓的警卫

文史明鉴
2026-01-23 20:02:08
泰山队盯上百万身价俄铁塔,零元购+192cm防空锁,中超最冷血操作

泰山队盯上百万身价俄铁塔,零元购+192cm防空锁,中超最冷血操作

体坛小鹏
2026-01-24 09:37:35
郭晶晶代言品牌被立案调查 跳水女皇退役15年年代言收入超5000万

郭晶晶代言品牌被立案调查 跳水女皇退役15年年代言收入超5000万

劲爆体坛
2026-01-23 13:18:04
商业航天+光伏概念股,强关联的10家公司!

商业航天+光伏概念股,强关联的10家公司!

风风顺
2026-01-24 02:00:03
中国很“奇怪”的2个镇:名字一模一样、却分别隶属于不同的省份

中国很“奇怪”的2个镇:名字一模一样、却分别隶属于不同的省份

千秋历史
2025-08-18 09:44:45
6000米深海!日本重金开采稀土,刚动手就被中国一纸禁令“掐喉”

6000米深海!日本重金开采稀土,刚动手就被中国一纸禁令“掐喉”

素衣读史
2026-01-23 17:20:48
四大名著,终于有人敢说,这本,该踢出四大名著了

四大名著,终于有人敢说,这本,该踢出四大名著了

长风文史
2026-01-22 15:17:46
一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

每日一见
2026-01-23 15:07:50
库里创NBA历史首例三分球出手突破1万次…命中4222个亦为历史之最

库里创NBA历史首例三分球出手突破1万次…命中4222个亦为历史之最

烟浔渺渺
2026-01-24 10:57:42
弘一法师:不要太操心你的孩子和在意的亲人,每个人都有自己的命

弘一法师:不要太操心你的孩子和在意的亲人,每个人都有自己的命

木言观
2026-01-18 13:56:24
司令员入山剿匪,得知参谋出发前打了个电话后立即下令:原路返回

司令员入山剿匪,得知参谋出发前打了个电话后立即下令:原路返回

阿器谈史
2026-01-23 18:38:24
河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

凡知
2026-01-17 10:15:33
太阳报:曼市德比首发泄露,曼联已展开内部调查

太阳报:曼市德比首发泄露,曼联已展开内部调查

懂球帝
2026-01-24 12:15:07
班主任群里统计父母在外务工名单遭怒怼!网友叫屈:这是上级任务

班主任群里统计父母在外务工名单遭怒怼!网友叫屈:这是上级任务

火山诗话
2026-01-22 09:14:54
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

凡知
2026-01-21 17:14:40
2026-01-24 13:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

女子患癌为筹钱治病卖掉劳力士 收16万元后账户被冻结

头条要闻

女子患癌为筹钱治病卖掉劳力士 收16万元后账户被冻结

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

房产
本地
手机
公开课
军事航空

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

苹果首款折叠iPhone Fold机模和华为Pura X对比图曝光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌首次三方会谈在阿联酋举行

无障碍浏览 进入关怀版