网易首页 > 网易号 > 正文 申请入驻

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

0
分享至

新智元报道

编辑:LRST

【新智元导读】GenXD模型结合CamVid-30K数据集突破了3D和4D场景生成的挑战,能从单张图片生成逼真的动态3D和4D场景。这一进展为虚拟世界构建带来新的可能性,让动态场景的生成更加快速和真实。

在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。

面对真实场景中复杂的物体运动和视角变化,3D、4D生成一直面临数据和模型设计的双重瓶颈。然而,一项令人振奋的突破即将改变这一现状!

近日,新加坡国立大学(NUS)的研究人员提出了一种全新的生成框架——GenXD,不但能生成极具真实感的3D场景,还实现了从相机视角和物体图片中「生长」出逼真的4D动态场景。

项目主页: https://gen-x-d.github.io/

论文链接: https://arxiv.org/abs/2411.02319

代码链接: https://github.com/HeliosZhao/GenXD

GenXD能够实现单图片静态虚拟物体和场景的生成,实现高质量的3D内容创作:

GenXD也能够实现稀疏图片场景的重建,作为先验完善3D重建任务:

GenXD可以实现单图4D生成,生成任意时刻以及任意视角:

GenXD也能够助力视频插帧和可控视频生成,使用多图和相机路径作为控制信号:

CamVid-30K 4D数据构建

图1 数据标注

在动态3D任务的发展中,缺乏大规模4D场景数据一直是一个关键瓶颈。这不仅影响到4D生成、动态相机姿态估计等任务,也限制了可控视频生成等应用的进展。

为了解决这一难题,研究团队推出了一个高质量4D数据集——CamVid-30K,为未来的动态3D任务奠定了坚实基础。

CamVid-30K数据集的创建过程包括了一系列精细的步骤。首先,研究人员使用基于运动恢复结构(SfM)的方法来估计相机姿态。

SfM通过从多张图像的投影中重建3D结构,其中包括特征检测与提取、特征匹配、3D重建与相机姿态估计等关键步骤。

为了确保准确性,特征匹配仅限于静态场景部分,以避免动态物体误导相机的运动估计。

与之前方法不同的是,CamVid-30K使用了一种实例分割模型,将所有可能移动的像素进行分割。

相比早期的运动分割模块,该实例分割方法具备更强的泛化能力,特别是在复杂场景下更为适用。随后,利用改进的Particle-SfM对静态背景进行处理,最终生成精准的相机姿态和稀疏点云信息。

为进一步筛选出真正的动态场景,CamVid-30K还引入了运动强度指标来识别物体的真实运动。通过对齐深度投影,将动态物体在3D空间中进行重投影,以便检测位移,确保所包含的场景具有丰富的动态细节。这一过程确保了CamVid-30K不仅包含相机的运动信息,还捕捉到了物体本身的运动,使其成为高质量的4D数据资源。

模型架构

图2 整体框架

为了实现更自然的3D和4D场景生成,GenXD使用隐变量扩散模型(LDM),生成出符合相机视角和时间序列的场景图像。此外,GenXD提出多视角-时间层,将3D和时间信息有效解耦和融合。

对于相机视角信息,GenXD使用每个视角下的Plucker Ray作为控制信号。而对于单张或多张图像信息,GenXD使用掩码隐变量条件(mask latent conditioning)方式利用图像信息。

该方法在图像条件输入时具有三大优势:首先,无需对模型参数进行修改,便可以支持任意视角输入;其次,在多视图生成或视频生成过程中,无需固定条件帧的位置,确保了更大的灵活性;最后,省去了额外的条件嵌入,从而减少了模型参数量。这种设计不仅使得GenXD更高效,还可以处理复杂的多视角输入场景。

为了实现3D和4D的生成,GenXD引入了多视角-时间模块,分别对多视角信息和时间信息进行建模。通过设计多视角层与时间层,GenXD可以在3D生成时忽略时间信息,而在4D生成时引入多视角与时间信息的融合。

此外,模型采用了alpha融合策略,利用一个可学习的融合权重来控制4D生成的多视角和时间信息融合效果,从而实现更精准的动态场景生成。

此外,为了解决运动控制的问题,GenXD将CamVid-30K数据集中提供的运动强度引入多视角-时间ResBlock中。这样,模型可以准确地表达物体运动,从而在生成的场景中体现更自然的动态效果。

实验结果

GenXD在单视角4D生成,相机控制的视频生成,单视角3D生成以及少视角3D重建任务上均可用,并取得了很好的效果。

单视角4D生成

表1 单视角4D生成

对于单视角4D生成,GenXD首先生成4D视频,然后使用生成的视频优化4D高斯泼溅网络因此,与过去基于SDS的方法相比,GenXD有更快的优化速度,也有更好的效果。

相机控制的视频生成

表2 相机控制的视频生成

GenXD也与过去相机控制的运动生成方法进行了比较,过去的方法只能使用单张图片作为条件,无法实现视频插帧的功能。但单图条件下,GenXD超越过去的方法, 若使用多图作为条件,GenXD的效果可以得到更大的提升。

单视角3D生成

表3 单视角3D生成

图3 单视角3D生成

GenXD也在3D合成物体生成任务上进行了评估。在此任务上,GenXD首先生成360度视频,并利用此视频优化3D高斯泼溅网络。过去的方法在合成物体3D数据集上单独训练,而GenXD使用了不同分布的真实数据和4D数据。即使如此,GenXD也与过去的方法有相近的效果。此外,从可视化结果来看,GenXD没有过去方法常见的过度平滑和过度饱和问题。

少视角3D重建

表4 少视角3D重建

图4 少视角3D重建

GenXD可以使用多张图片作为条件,生成尺度一致的3D内容。因此,GenXD可以将生成的图片作为补充,提升少视角3D重建的效果。在此项目中,GenXD与两个重建网络(ZipNeRF和3DGS)相结合,极大地提升重建的效果。

运动控制

图5 运动控制

数据标注管线中提出了运动强度的概念,并且被引入到多视角-时间ResBlock里进行运动控制。图5可视化了运动控制的效果。使用同样的图片和相机条件,增大运动强度可以提高物体运动的速度,从而实现可控生成。

总结

GenXD模型和CamVid-30K数据集为3D和4D生成领域带来了全新突破。通过设计多视角-时间模块并引入掩码隐变量条件,GenXD不仅能够解耦相机和物体的运动,还可以支持任意数量的条件视图输入。

GenXD展示了在各类应用中的强大适应性,且在多项任务中达到了与现有方法相当或更优的表现。这一成果为未来的3D和4D生成任务奠定了坚实的基础,预示着虚拟世界构建与动态场景生成的无限可能。

参考资料:

https://gen-x-d.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
球王老婆都不认识?奢侈表网红问安东内拉:你是做什么工作的?

球王老婆都不认识?奢侈表网红问安东内拉:你是做什么工作的?

茜子足球
2025-11-05 12:25:51
阿里味儿的AI山姆,我是一个都不敢点。

阿里味儿的AI山姆,我是一个都不敢点。

卡尔的AI沃茨
2025-11-05 09:15:40
你听过最炸裂的八卦是什么?网友:慎看,否则看完都要洗眼睛哦

你听过最炸裂的八卦是什么?网友:慎看,否则看完都要洗眼睛哦

带你感受人间冷暖
2025-11-04 00:05:11
美国的国运早已确定,将比苏联更加凄惨,而且无可避免

美国的国运早已确定,将比苏联更加凄惨,而且无可避免

揭秘历史的真相
2025-11-05 21:37:05
腿粗屁股大这样穿真好看,蓝色长袖搭黑色瑜伽裤,展示婀娜好身材

腿粗屁股大这样穿真好看,蓝色长袖搭黑色瑜伽裤,展示婀娜好身材

小乔古装汉服
2025-11-05 16:21:49
太突然!央视宣布撤档!

太突然!央视宣布撤档!

台州交通广播
2025-11-05 20:31:05
好险!网友差点拿40万接盘小区超市,评论区高手仗义挽救一个家庭

好险!网友差点拿40万接盘小区超市,评论区高手仗义挽救一个家庭

另子维爱读史
2025-10-11 22:40:25
奶皮子糖葫芦吃上了吗?第一批“受害者”已经出现了

奶皮子糖葫芦吃上了吗?第一批“受害者”已经出现了

江西新闻联播
2025-11-06 09:24:42
洪森够仗义!中国要办大事,柬埔寨第一个响应,完全不怕得罪美国

洪森够仗义!中国要办大事,柬埔寨第一个响应,完全不怕得罪美国

潮鹿逐梦
2025-11-06 11:03:38
出大事了,日本凌晨发生地震;菲军机坠毁;美军航母悄悄来到亚洲

出大事了,日本凌晨发生地震;菲军机坠毁;美军航母悄悄来到亚洲

林子说事
2025-11-06 08:07:09
欲哭无泪!跌幅近70%,从270万跌到88万,广州一头部楼盘房价崩了

欲哭无泪!跌幅近70%,从270万跌到88万,广州一头部楼盘房价崩了

火山诗话
2025-11-04 05:49:04
他俩官宣结婚,朋友圈都炸了!!!

他俩官宣结婚,朋友圈都炸了!!!

美芽
2025-11-05 19:01:55
最高法院裁定特朗普关税权无效,提名人法官改变立场

最高法院裁定特朗普关税权无效,提名人法官改变立场

李摻穷游天下
2025-11-05 19:16:00
往哈马斯躲藏的地道里灌混凝土,内塔尼亚胡如此“残暴”?

往哈马斯躲藏的地道里灌混凝土,内塔尼亚胡如此“残暴”?

山河路口
2025-11-05 14:11:46
“刘思涵的校服在非洲”火上热搜,博主否认摆拍:在安哥拉生活一年多,这里有很多二手中国衣服,一件最低不到10元

“刘思涵的校服在非洲”火上热搜,博主否认摆拍:在安哥拉生活一年多,这里有很多二手中国衣服,一件最低不到10元

极目新闻
2025-11-05 21:34:47
CBA快讯,广东宏远敲定第四外援,萨姆纳压哨加盟,王薪凯被放弃

CBA快讯,广东宏远敲定第四外援,萨姆纳压哨加盟,王薪凯被放弃

体坛小快灵
2025-11-06 08:48:19
杨瀚森仅获D评分!美媒公布25年新秀表现:探花埃奇库姆A弗拉格B-

杨瀚森仅获D评分!美媒公布25年新秀表现:探花埃奇库姆A弗拉格B-

锅子篮球
2025-11-05 22:37:11
缘分天定?32岁男子3次相亲,均是同一人!网友:这颜值还犹豫

缘分天定?32岁男子3次相亲,均是同一人!网友:这颜值还犹豫

趣笔谈
2025-11-05 08:21:39
刘强东新车惊艳亮相,炸翻全网

刘强东新车惊艳亮相,炸翻全网

电商派Pro
2025-11-06 09:45:54
管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

火山诗话
2025-11-05 17:31:47
2025-11-06 12:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13797文章数 66238关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

亲子
游戏
本地
房产
公开课

亲子要闻

远嫁日本农村,有闺女陪在身边,看着她一天一天的长大了

暴雪否认《魔兽世界》上主机平台:别瞎猜

本地新闻

这届干饭人,已经把博物馆吃成了食堂

房产要闻

江东,给你留「门」儿了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版