网易首页 > 网易号 > 正文 申请入驻

Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展

0
分享至


新智元报道

编辑:LRS

【新智元导读】3D-SceneDreamer采用基于Stable Diffusion的Inpainting模型来对不断对场景未见区域进行补全,并通过单目深度方法来辅助优化场景的三维结构,对于未见视角利用扩散模型的自然图像先验来引导视图修复。

在这个数字化飞速发展的时代,我们的生活被越来越多的3D内容所包围,从电影中令人惊叹的特效到游戏中栩栩如生的场景,再到虚拟现实中的沉浸体验,这一切都离不开背后复杂的3D场景建模/生成技术。

然而传统的3D创作工具,如InfiGen和Blender,虽然功能强大,但它们通常需要专业的建模技能和大量的手工操作,这不仅耗时而且往往效率低下。

为了促进3D场景的创造,并减少对专业技能的需求,我们迫切需要一种直观、多功能且可控性强的3D场景生成工具。

近期,OpenAI发布的视频生成模型Sora在社交媒体上广受关注。


通过超大规模训练,Sora能够生成展现连贯三维空间运动的视频,并精准模拟物体间的物理互动。

此外,它还能确保视频中物体的空间一致性,即便在复杂场景变换中也能维持正确的相对位置和运动轨迹,展示了相当惊艳的效果。

然而通过视频生成的方法,是通过对隐空间进行解码,生成连贯的像素级表达,但是无法直接生成永久性的三维场景,因此难以作为数字资产进行复用。

研究人员作者希望可以通过直观的文本描述以及预设的相机轨迹即可生成具备三维一致性的永久性三维场景。



研究动机


论文地址:https://arxiv.org/pdf/2403.09439.pdf

文本引导永久性三维场景,即根据给定文本和预设相机外参轨迹生成三维场景,这一任务充斥着许多的挑战。

目前的方案大致可以分为三类,即通过3D数据生成3D场景、通过2D数据和3D模型生成3D场景。

基于3D数据和3D模型生成3D场景是最为直观的方案,但是往往需要大规模的3D场景训练数据,代价非常高昂。

目前物体生成领域有Objaverse-XL这样的超大规模数据,但是尚没有场景级的大规模数据集,因此该类模型往往泛用性不佳,且难以应对较为复杂的文本prompt。

顺带一提,物体数据集的渲染方式往往是固定的,即根据3DOF球坐标进行采样即可,但是场景的轨迹采样方式则千变万化,并且还要考虑场景区域的可达性,因此构建这样的数据集具有相当的难度。

相比3D数据而言,2D数据的规模是海量的,因此可以尝试通过学习海量的2D数据来尝试生成具有真实感的连贯三维场景。

早期这类方法往往会受制于训练数据的domain,难以生成domain以外的数据。

近年来随着文本引导图像生成模型的快速发展,诸如Stable Diffusion等一系列模型已经具备相当的自然图像先验知识,因此一些方法开始尝试利用2D生成模型来辅助生成3D场景。

方法介绍

目前的方法的方法大致分为两类,即

1. 直推式:如Infinite Nature等,由于缺乏统一三维表征,很难保证全局一致性,仅仅通过深度估计来保证局部的三维一致。

2. Warping-Inpaiting式:如text2room等,目前主要采用3D Mesh作为表征,在室外场景中表现不佳。

在这项工作中,研究人员采用基于Stable Diffusion的Inpainting模型来对不断对场景未见区域进行补全,并通过单目深度方法来辅助优化场景的三维结构,对于未见视角利用扩散模型的自然图像先验来引导视图修复。

其中,采用神经辐射场作为统一的3D表示(也可以换成3d gaussian splatting会有更快的render speed)。


区别于以往采用三维网格作为三维表征的生成方案,该项工作中采用神经辐射场可以更好地应对室内室外以及虚幻风格场景的重建,并且支持任意六自由度相机轨迹漫游。

此外通过构建支持数据库,可以对生成数据进行replay,防止3D表征发生灾难性遗忘问题,即前后差异过大。以下是模型的具体框架


框架概述如下:(a) 场景上下文初始化包含一个支持数据库,用于提供新颖的视角数据,以便进行渐进式生成。(b) 统一的3D表示为生成的场景提供了统一的表示,使从而能够实现更通用的场景生成,并同时保持3D一致性。(c) 3D感知生成细化通过利用大规模自然图像先验来在生成地细化合成的新颖视角图像,从而减轻长期外推过程中的累积误差问题。一致性正则化模块则用于测试时优化。

具体来说架构大致包含以下几个部分:

1. 场景上下文初始化

为了先对三维场景进行初始化,首先通过现有的基于深度学习的深度估计方法ZoeDepth估计初始视角下的三维场景几何,之后通过基于深度的可微分渲染可以在初始视角邻域内生成一系列视图。

在这之后通过inpainting模型对投影后的缺失区域进行补全,并得到他们对应的深度图,以此构建用于优化三维表征的支撑数据库。

2. 统一三维表征

由于给定文本提示的不同,生成的场景之间可能存在较大的风格差异,同时生成的视图可能也无法保证像素级的三位一致性,这两者的存在都会恶化三维表征的优化。

因此需要考虑在特征层面构建隐式的三维表示,以缓解风格差异和像素差异对模型带来的影响。

此外区别于以往无需任何三维表征的前向场景生成模型,研究人员通过构建三维表征也一定程度上约束了全局的三维一致性。

3. 3D感知生成式优化

在执行渐进优化时,由于初始训练视角较少,在一些未见视角会出现许多的漂浮物以及模糊现象。这里,需要通过利用扩散模型的大规模自然图像先验来对渲染图像进行矫正。

此外为了不破坏统一三维表征的表面几何,研究人员将当前视角得到的3D特征通过一个Adapter注入到扩散模型中,来引导矫正图像的生成,之后生成的图像会加入到支持数据库中用于后续三维表征的优化。

在这个步骤中,仅仅微调注入部分的网络,而不对整个模型进行微调,一方面保持了模型对于海量自然图像的先验知识防止灾难性遗忘,另一方面又注入了额外的控制信息。

4. 局部一致性正则化

为了防止refine模型输出的结果出现较大的外观差异,研究人员采用局部warp+inpaiting的方式生成当前帧的较合理视图,并将其作为正则项来约束refine model的输出的合理化

实验验证

实验方面,研究人员从视觉质量和3D一致性两个方面进行了评估。

其中,选取的三个任务与设定相近,即文生场景,文生视频,文生全景图,并分别选取了一些基准方法与新方法进行比较。

首先通过与一些开源和商用的文生视频方法进行对比,如GEN-2和VideoFusion。

研究人员首先生成三维场景并大致采用相同的camera motion对场景进行渲染。

可以看到新方法相对来说表现出了更高的视觉质量,同时在边界处也不会出现类似GEN-2的形变,表现了较好的三维一致性。

不过,目前还没有来得及与最近更好的视频生成方法进行比较。



此外,通过预设轨迹,也可以产生360°的视频。

与一些最近的全景图生成的方法进行比较,可以看出虽然新方法并不是针对于全景图生成任务,但是也展示了相当的3D一致性。



针对文本生成场景,则通过一些相近论文中的常用指标来对效果进行评测。其中,主要包含视觉质量和3D一致性两个方面。

利用多个prompt生成相同长度的渲染视频后取平均,得到以下指标。


未来展望

目前看来,学术界大部分的场景生成的工作应用其实还相当局限,难以生成大规模场景,小场景的生成质量还远远达不到工业界应用的要求,在Sora出现之后,其展现出的超强的3D连贯一致性的运动,让我们不仅思考生成3D场景是否还需要重建3D表征,能否直接以视频作为载体直接feed forward生成3D场景。

跟随3D物体生成的进展,我们也许能够得到一些灵感,从最早的DreamFusion开始是对单个NeRF通过SDS损失来进行per-object的优化,慢慢的随着Large Reconstruction Model的出现,通过在Objarverse数据集上学习大规模的物体先验,使得模型有一些根据单图作为condition直推3D模型的能力。

某种程度来说,场景生成当前也处在per-scene优化的阶段,但是要对场景生成进行scale up难度远比物体生成要大,难点来自以下几个方面:

1. 大规模的3D场景数据集收集困难

2. 相机轨迹与场景结构绑定

3. 难以对场景进行具备完备观测的采样

上述三个问题也导致了从3D角度构建一个场景生成的LRM其实是一件非常困难的事情,所以从视频预测或者视频视频生成的角度来隐式地学习3D场景的几何结构也成为一个较为可行的技术路线,但是就需要满足以下三个要求:

1. 视频生成的内容可控性

2. 视频生成的相机轨迹可控性

3. 视频生成具有较好的时空一致性

目前看来上述三个问题其实即使是Sora也并没有完美解决,也是我们要从视频生成角度构建3D场景必须要跨过的几座大山。

参考连接:

https://arxiv.org/pdf/2403.09439.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神奇的大自然——这是一颗被雷电击中的树

神奇的大自然——这是一颗被雷电击中的树

农人老寓
2024-04-27 16:58:17
70岁赵雅芝去世,世间再无白素贞?赵雅芝工作室回应了

70岁赵雅芝去世,世间再无白素贞?赵雅芝工作室回应了

拾娱先生
2024-04-25 15:30:08
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
结束18年恩怨,哈马斯与法塔赫将在北京和解?为何推动者是中国

结束18年恩怨,哈马斯与法塔赫将在北京和解?为何推动者是中国

说天说地说实事
2024-04-26 15:33:02
果然没谈拢,布林肯访华,大批外资撤离中国,美国反帮了普京大忙

果然没谈拢,布林肯访华,大批外资撤离中国,美国反帮了普京大忙

朝晖前哨
2024-04-26 09:59:31
13000颗!马斯克没有料到,6G计划正式公布,外媒:我们输了

13000颗!马斯克没有料到,6G计划正式公布,外媒:我们输了

小蘑菇壹号
2024-04-27 11:07:51
布林肯访华透露出一个信息,目前在美国有大约近30万名中国留学生

布林肯访华透露出一个信息,目前在美国有大约近30万名中国留学生

仴乐爱慢写
2024-04-27 20:39:39
国际奥委会主席:对世界反兴奋剂机构涉及中国游泳运动员药检呈阳性处理“充满信心”

国际奥委会主席:对世界反兴奋剂机构涉及中国游泳运动员药检呈阳性处理“充满信心”

环球网资讯
2024-04-27 14:12:50
兄弟情!周鹏赛后请赵睿阿不都吃潮汕火锅,黑睿躺周队怀中比剪刀手

兄弟情!周鹏赛后请赵睿阿不都吃潮汕火锅,黑睿躺周队怀中比剪刀手

818体育
2024-04-27 18:57:59
14亿人为大势已去的TikTok操心!伯恩斯:完全不知道讽刺在哪里

14亿人为大势已去的TikTok操心!伯恩斯:完全不知道讽刺在哪里

大风文字
2024-04-27 11:43:14
《奔跑吧》首播收视第一!P安全带引争议,后期以假乱真却被识破

《奔跑吧》首播收视第一!P安全带引争议,后期以假乱真却被识破

八卦王者
2024-04-27 15:50:50
这又是谁的老婆!不要再乱丢了,真的很吓人!

这又是谁的老婆!不要再乱丢了,真的很吓人!

刘哥谈体育
2024-04-27 17:29:39
蝉联倒数第1!吴艳妮苏州站轰13秒15 名次排第8 赛前豪言遭打脸

蝉联倒数第1!吴艳妮苏州站轰13秒15 名次排第8 赛前豪言遭打脸

林小湜体育频道
2024-04-27 20:11:23
不装了,摊牌了,财政局要求公安局竭尽全力完成计划内收入!

不装了,摊牌了,财政局要求公安局竭尽全力完成计划内收入!

喜欢农家生活的阿律
2024-04-27 18:16:56
外媒爆料:美军竟然在偷偷使用北斗导航 原来中国已大幅超越GPS

外媒爆料:美军竟然在偷偷使用北斗导航 原来中国已大幅超越GPS

军评陈光文
2024-04-27 09:49:56
武磊复刻亚洲杯尴尬一幕!德比失空门,2战申花0球,险成海港罪人

武磊复刻亚洲杯尴尬一幕!德比失空门,2战申花0球,险成海港罪人

奥拜尔
2024-04-27 21:55:41
以色列摩萨德威胁美国学生:你们的长相已被记录,未来将拿不到毕业证书

以色列摩萨德威胁美国学生:你们的长相已被记录,未来将拿不到毕业证书

不掉线电波
2024-04-27 17:38:01
李毅社媒发文:特谢拉是目前为止中超表现最好的球员,没有之一

李毅社媒发文:特谢拉是目前为止中超表现最好的球员,没有之一

直播吧
2024-04-27 21:51:25
布林肯离开北京前,等到了接见通知,中方的特殊安排有深意

布林肯离开北京前,等到了接见通知,中方的特殊安排有深意

刘庆彬
2024-04-27 09:06:50
当真无所畏惧吗?中国银行被踢出SWIFT系统会让哪些人害怕?

当真无所畏惧吗?中国银行被踢出SWIFT系统会让哪些人害怕?

叮当当科技
2024-04-27 06:52:15
2024-04-27 22:38:44
新智元
新智元
AI产业主平台领航智能+时代
10964文章数 65460关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

布林肯:推迟制裁以军 给以色列时间"纠正错误"

头条要闻

布林肯:推迟制裁以军 给以色列时间"纠正错误"

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

旅游
教育
数码
家居
军事航空

旅游要闻

散装河北,冀北、冀东、冀中、冀南如何划分?

教育要闻

2025届考研人,今年备考要吸取三个教训!

数码要闻

苹果征求用户对 Vision Pro 的反馈意见

家居要闻

光影之间 空间暖意打造生活律动

军事要闻

军事专家:福建舰距离海试为期不远

无障碍浏览 进入关怀版