网易首页 > 网易号 > 正文 申请入驻

弥合2D和3D生成领域之间的次元壁,X-Dreamer高质量文本到3D生成

0
分享至

机器之心专栏

机器之心编辑部

本文介绍了一个名为 X-Dreamer 的框架,它主要由CG-LoRA 和 AMA 损失两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领域差距,实现了高质量的 3D 生成。

近年来,在预训练的扩散模型 [1, 2, 3] 的开发推动下,自动 text-to-3D 内容创建取得了重大进展。其中,DreamFusion [4] 引入了一种有效的方法,该方法利用预训练的 2D 扩散模型 [5] 从文本中自动生成 3D 资产,从而无需专门的 3D 资产数据集。

DreamFusion 引入的一项关键创新是分数蒸馏采样 (SDS) 算法。该算法利用预训练的 2D 扩散模型对单个 3D 表示进行评估,例如 NeRF [6],从而对其进行优化,以确保来自任何摄像机视角的渲染图像与给定文本保持较高的一致性。受开创性 SDS 算法的启发,出现了几项工作 [7,8,9,10,11],通过应用预训练的 2D 扩散模型来推进 text-to-3D 生成任务。

虽然 text-to-3D 的生成通过利用预训练的 text-to-2D 的扩散模型已经取得了重大进展,但是 2D 图像和 3D 资产之间仍存在很大的领域差距。这种区别在图 1 中清楚地展示出来。

首先,text-to-2D 模型产生与相机无关的生成结果,专注于从特定角度生成高质量图像,而忽略其他角度。相比之下,3D 内容创建与相机参数 (如位置、拍摄角度和视场) 错综复杂地联系在一起。因此,text-to-3D 模型必须在所有可能的相机参数上生成高质量的结果。

此外,text-to-2D 生成模型必须同时生成前景和背景元素,同时保持图像的整体连贯性。相反,text-to-3D 生成模型只需要集中在创建前景对象上。这种区别允许 text-to-3D 模型分配更多的资源和注意力来精确地表示和生成前景对象。因此,当直接采用预训练的 2D 扩散模型进行 3D 资产创建时,text-to-2D 和 text-to-3D 生成之间的域差距构成了显著的性能障碍。



图 1 text-to-2D 生成模型 (左) 和 text-to-3D 生成模型 (右) 在同一文本提示下的输出,即 "A statue of Leonardo DiCaprio's head.”。

为了解决这个问题,论文提出了 X-Dreamer,这是一种用于高质量 text-to-3D 内容创建的新颖方法,可以有效地弥合 text-to-2D 和 text-to-3D 生成之间的领域差距。

X-Dreamer 的关键组成部分是两种创新设计: Camera-Guided Low-Rank Adaptation (CG-LoRA) 和 Attention-Mask Alignment (AMA) 损失。

首先,现有方法 [7,8,9,10] 通常采用 2D 预训练扩散模型 [5,12] 来进行 text-to-3D 生成,缺乏与相机参数的固有联系。为了解决此限制并确保 X-Dreamer 产生直接受相机参数影响的结果,论文引入了 CG-LoRA 来调整预训练的 2D 扩散模型。值得注意的是,在每次迭代期间 CG-LoRA 的参数都是基于相机信息动态生成的,从而在 text-to-3D 模型和相机参数之间建立鲁棒的关系。

其次,预训练的 text-to-2D 扩散模型将注意力分配给前景和背景生成,而 3D 资产的创建需要更加关注前景对象的准确生成。为了解决这一问题,论文提出了 AMA 损失,使用 3D 对象的二进制掩码来指导预训练的扩散模型的注意力图,从而优先考虑前景对象的创建。通过合并该模块,X-Dreamer 优先考虑前景对象的生成,从而显着提高了生成的 3D 内容的整体质量。



项目主页:

https://xmu-xiaoma666.github.io/Projects/X-Dreamer/

Github主页:https://github.com/xmu-xiaoma666/X-Dreamer

论文地址:https://arxiv.org/abs/2312.00085

X-Dreamer 对 text-to-3D 生成领域做出了如下贡献:

  • 论文提出了一种新颖的方法,X-Dreamer,用于高质量的 text-to-3D 内容创建,有效地弥合了 text-to-2D 和 text-to-3D 生成之间的主要差距。
  • 为了增强生成的结果与相机视角之间的对齐,论文提出了 CG-LoRA,利用相机信息来动态生成 2D 扩散模型的特定参数。
  • 为了在 text-to-3D 模型中优先创建前景对象,论文引入了 AMA 损失,利用前景 3D 对象的二进制掩码来引导 2D 扩散模型的注意图。

方法

X-Dreamer 包括两个主要阶段:几何学习和外观学习。对于几何学习,论文采用 DMTET 作为 3D 表示,并利用 3D 椭球对其进行初始化,初始化时的损失函数采用均方误差 (MSE) 损失。随后,论文使用分数蒸馏采样 (SDS) 损失和论文提出的 AMA 损失来优化 DMTET 和 CG-LoRA,以确保 3D 表示和输入文本提示之间的对齐。

对于外观学习,论文利用双向反射分布函数 (BRDF) 建模。具体来说,论文利用具有可训练参数的 MLP 来预测表面材料。类似于几何学习阶段,论文使用 SDS 损失和 AMA 损失来优化 MLP 和 CG-LoRA 的可训练参数,以实现 3D 表示和文本提示之间的对齐。图 2 展示了 X-Dreamer 的详细构成。



图 2 X-Dreamer 概览,包括几何学习和外观学习。

几何学习 (Geometry Learning)





外观学习(Appearance Learning)



Camera-Guided Low-Rank Adaptation(CG-LoRA)

为了解决 text-to-2D 和 text-to-3D 的生成任务之间存在的领域差距而导致的次优的 3D 结果的生成,X-Dreamer 提出了 Camera-Guided Low-Rank Adaptation。

如图 3 所示,利用摄像机参数和方向感知文本来指导 CG-LoRA 中参数的生成,使 X-Dreamer 能够有效地感知摄像机的位置和方向信息。



图 3 摄像机引导的 CG-LoRA 示意。



Attention-Mask Alignment Loss (AMA Loss)



论文使用四个 Nvidia RTX 3090 GPU 和 PyTorch 库进行实验。为了计算 SDS 损失,利用了通过 Hugging Face Diffusers 实现的 Stable Diffusion 模型。对于 DMTET 和 material 编码器,将它们分别实现为两层 MLP 和单层 MLP,隐藏层维度为 32。

从椭球体开始进行 text-to-3D 的生成

论文展示了 X-Dreamer 利用椭球作为初始几何形状的 text-to-3D 的生成结果,如图 4 所示。结果证明 X-Dreamer 具有生成高质量和照片般逼真的 3D 对象的能力,生成的 3D 对象与输入的文本提示准确对应。



图 4 从椭球体开始进行 text-to-3D 的生成。

从粗粒度网格开始进行 text-to-3D 的生成

虽然可以从互联网上下载大量粗粒度网格,但由于缺乏几何细节,直接使用这些网格创建 3D 内容往往会导致性能较差。然而,与 3D 椭球体相比,这些网格可以为 X-Dreamer 提供更好的 3D 形状先验信息。

因此,也可以使用粗粒度引导网格来初始化 DMTET,而不是使用椭球。如图 5 所示,X-Dreamer 可以基于给定的文本生成具有精确几何细节的 3D 资产,即使所提供的粗粒度网格缺乏细节。



图 5 从粗粒度网格开始进行 text-to-3D 的生成。

定性比较

为了评估 X-Dreamer 的有效性,论文将其与四种 SOTA 方法进行比较: DreamFusion [4],Magic3D [8],Fantasia3D [7] 和 ProlificDreamer [11],如图 6 所示。

当与基于 SDS 的方法进行比较时 [4,7,8],X-Dreamer 在生成高质量和逼真的 3D 资产方面优于他们。此外,与基于 VSD 的方法 [11] 相比,X-Dreamer 产生的 3D 内容具有相当甚至更好的视觉效果,同时需要的优化时间明显减少。具体来说,X-Dreamer 的几何形状和外观学习过程只需要大约 27 分钟,而 ProlificDreamer 则超过 8 小时。



图 6 与现有技术 (SOTA) 方法的比较。

消融实验

  • 模块消融

为了深入了解 CG-LoRA 和 AMA 损失的能力,论文进行了消融研究,其中每个模块单独加入以评估其影响。如图 7 所示,消融结果表明,当 CG-LoRA 被排除在 X-Dreamer 之外时,生成的 3D 对象的几何形状和外观质量显著下降。

此外,X-Dreamer 缺失 AMA 损失也对生成的 3D 资产的几何形状和外观保真度产生有害影响。这些消融实验为 CG-LoRA 和 AMA 损失在增强生成的 3D 对象的几何形状、外观和整体质量方面的单独贡献提供了有价值的研究。



图 7 X-Dreamer 的消融研究。

  • 有无 AMA 损失的注意力图比较

引入 AMA 损失的目的是将去噪过程中的注意力引导到前景对象。这个是通过将 SD 的注意力图与 3D 对象的渲染掩码对齐来实现的。为了评估 AMA 损失在实现这一目标方面的有效性,论文在几何学习和外观学习阶段可视化了有和没有 AMA 损失的 SD 的注意力图。

如图 8 所示,可以观察到,加入 AMA 损失不仅会改善生成的 3D 资产的几何形状和外观,而且会将 SD 的注意力特别集中在前景对象区域上。可视化证实了 AMA 损失在引导 SD 注意力方面的有效性,从而在几何和外观学习阶段提高了质量和前景对象的聚焦。



图 8 注意力图、渲染掩码和渲染图像的可视化,包括和不包括 AMA 损失。

这项研究引入了一个名为 X-Dreamer 的开创性框架,该框架旨在通过解决 text-to-2D 和 text-to-3D 生成之间的领域差距来增强 text-to-3D 的生成。为了实现这一点,论文首先提出了 CG-LoRA,这是一个将 3D 相关信息(包括方向感知文本和相机参数)合并到预训练的 Stable Diffusion(SD)模型中的模块。通过这样做,本文能够有效地捕获与 3D 领域相关的信息。此外,本文设计了 AMA 损失,以将 SD 生成的注意力图与 3D 对象的渲染掩码对齐。AMA 损失的主要目标是引导 text-to-3D 模型的焦点朝着前景对象的生成方向发展。通过广泛的实验,本文彻底评估了提出方法的有效性,证明了 X-Dreamer 能够根据给定的文本提示生成高质量和真实的 3D 内容。

参考文献

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.

[2] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015.

[3] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.

[4] Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. arXiv preprint arXiv:2209.14988, 2022.

[5] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35:36479–36494, 2022.

[6] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 65 (1):99–106, 2021.

[7] Rui Chen, Yongwei Chen, Ningxin Jiao, and Kui Jia. Fantasia3d: Disentangling geometry and appearance for high-quality text-to-3d content creation. arXiv preprint arXiv:2303.13873, 2023.

[8] Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High-resolution text-to-3d content creation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 300–309, 2023.

[9] Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, and Daniel Cohen-Or. Latent-nerf for shape-guided generation of 3d shapes and textures. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12663–12673, 2023.

[10] Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A Yeh, and Greg Shakhnarovich. Score jacobian chaining: Lifting pretrained 2d diffusion models for 3d generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12619–12629, 2023.

[11] Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. arXiv preprint arXiv:2305.16213, 2023.

[12] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林生斌案忽然传来最新进展!关键证据曝光,我们都被骗了

林生斌案忽然传来最新进展!关键证据曝光,我们都被骗了

听风听你
2024-04-26 21:22:57
季后赛同样3场:杜兰特74分,浓眉97分,恩比德112分,詹姆斯多少

季后赛同样3场:杜兰特74分,浓眉97分,恩比德112分,詹姆斯多少

天气如你
2024-04-27 14:15:38
吉林经济全线暴涨!

吉林经济全线暴涨!

每日经济新闻
2024-04-27 00:03:05
广东外援沃特斯骑电动车未戴头盔被交警拦下,朱芳雨:该罚款

广东外援沃特斯骑电动车未戴头盔被交警拦下,朱芳雨:该罚款

懂球帝
2024-04-27 10:28:13
湖南31岁美女教师,无法接受丈夫自杀,头七当天抱俩娃殉情

湖南31岁美女教师,无法接受丈夫自杀,头七当天抱俩娃殉情

莉雅细细谈
2024-03-08 21:52:12
离谱了!云南6日游,第一站是强制购物,导游:扎西是有手段的

离谱了!云南6日游,第一站是强制购物,导游:扎西是有手段的

小兔子爱旅游
2024-04-27 01:30:27
“男子帮被打女子报警被砍成重伤”调查:两打人者最高被判3年半,家属称将起诉索赔

“男子帮被打女子报警被砍成重伤”调查:两打人者最高被判3年半,家属称将起诉索赔

红星新闻
2024-04-26 12:23:48
“五一”假期还没到,这8大城市就已经被挤爆了!你还敢去吗?

“五一”假期还没到,这8大城市就已经被挤爆了!你还敢去吗?

一边走边说真情感
2024-04-27 02:55:20
“为大局服务”,到底什么才是大局呢?有网友想到答案!

“为大局服务”,到底什么才是大局呢?有网友想到答案!

翻开历史和现实
2024-04-26 14:51:46
为什么有些女生胸部柔软像面包,有些却硬得像馒头?科学解释来了

为什么有些女生胸部柔软像面包,有些却硬得像馒头?科学解释来了

肿瘤的真相与误区
2024-04-24 19:43:36
新华社消息|中方呼吁尽早对“北溪”管道爆炸事件启动国际调查

新华社消息|中方呼吁尽早对“北溪”管道爆炸事件启动国际调查

新华社
2024-04-27 10:28:54
惊天豪赌?国民党傅昆萁访陆被围攻,国台办罕见表态,台当局慌了

惊天豪赌?国民党傅昆萁访陆被围攻,国台办罕见表态,台当局慌了

说天说地说实事
2024-04-26 17:10:52
瞧不起中国石油?3年时间股价从3元拉到11元,47万股东狂欢!

瞧不起中国石油?3年时间股价从3元拉到11元,47万股东狂欢!

股海风云大作手
2024-04-27 11:18:19
暴雨、雷暴、大风!四川将迎较强降水降温天气,陡降8℃!

暴雨、雷暴、大风!四川将迎较强降水降温天气,陡降8℃!

鲁中晨报
2024-04-27 09:45:08
2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

今天说故事
2024-04-22 16:00:06
《浪姐5》出事了!29岁女星「高空惨摔骨裂」首发声逼哭粉丝

《浪姐5》出事了!29岁女星「高空惨摔骨裂」首发声逼哭粉丝

阿芒娱乐说
2024-04-27 10:25:50
李嘉诚别墅风水大揭秘,大师直指有毛病:妻不寿子遭劫,一一应验

李嘉诚别墅风水大揭秘,大师直指有毛病:妻不寿子遭劫,一一应验

阿胡
2024-04-26 11:46:25
乌军被耍了!发射5枚海马斯摧毁了S400雷达,细看却是个充气模型

乌军被耍了!发射5枚海马斯摧毁了S400雷达,细看却是个充气模型

清蒸玉米粒
2024-04-25 23:38:26
那一天,他输光20亿,从华贸中心一跃而下,却留下永恒的二字真言

那一天,他输光20亿,从华贸中心一跃而下,却留下永恒的二字真言

无忧大作手
2024-04-26 21:24:10
全国人民代表大会常务委员会任命名单

全国人民代表大会常务委员会任命名单

最高人民检察院
2024-04-26 20:28:34
2024-04-27 14:34:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

牛弹琴:越南两任国家主席辞职后 政坛又发生重大变动

头条要闻

牛弹琴:越南两任国家主席辞职后 政坛又发生重大变动

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

家居
数码
本地
教育
公开课

家居要闻

光影之间 空间暖意打造生活律动

数码要闻

Azulle 发布 Access Pro 迷你电脑棒:130 克重量、英特尔 N100

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

教育要闻

小学数学五年级解方程题,带括号和除法的题

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版