网易首页 > 网易号 > 正文 申请入驻

特约文章丨基于扩散模型的艺术风格三维物体生成方法

0
分享至

文 / 徐浩然,李泽健,韦安阳,顾鹏云

摘 要:

本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了一种基于扩散模型的艺术风格三维物体生成方法及其技术路线,列举了其中若干关键技术问题和解决思路,包括艺术风格神经辐射场几何问题、漂浮伪影抑制和主体物几何结构正则关键技术等。

关键词:

三维生成;艺术风格建模;几何正则;神经辐射场;扩散模型

0 引言

在三维模型生成领域,众多研究深入探讨了各种不同的三维表示形式,例如三维体素网格、点云、网格、隐式表现,以及八叉树表示。这些方法大都需要依赖于 3D 资源形式的训练数据,但大规模 3D资源的获取颇为困难。得益于神经辐射场(neural radiance fileds,NeRF)技术的成功应用,近期的研究开始将目光转向 3D 感知图像合成,其优势在于能够直接从图像中学习并生成 3D 模型。并且,依托可微分渲染技术,神经辐射场可被转换为适用于工业的 3D 资产形式。

另一方面,文本- 图像扩散模型已成为图像生成领域中先进的模型。扩散模型通过前向过程和后向过程模拟物理扩散现象,取得了优秀的画面效果。随着文本- 图像生成模型的突破,文本-3D 生成开始受到学术界的广泛关注。众多3D 生成方法借助扩散模型生成的图像分布,来指导神经辐射场的生成。现有的扩散模型指导下的神经辐射场生成方法,主要包括得分蒸馏采样(score distillation sampling,SDS)和变分分数蒸馏(variational score distillation,VSD)两类方法。得分蒸馏采样通过提取预训练的大规模文本 - 图像扩散模型,在文本到 3D 生成中显示出了巨大的前景,但存在过饱和、过平滑和低多样性问题。Wang et al. 提出 ProlificDreamer,将 3D 参数建模为随机变量,而不是 SDS 中的常数,并提出变分分数蒸馏——一个基于粒子的原理变分框架。ProlificDreamer 可以生成高渲染分辨率和高保真度的神经辐射场,具有丰富的结构和复杂的效果。

现有的基于扩散模型的神经辐射场生成方法,大多基于真实感图像。当基于艺术风格图像进行建模时,难以生成正确的几何结构,包括出现大量的漂浮伪影、错误的几何结构等,其中的原因如下所述。

第一,使用扩散模型生成图作为神经辐射场引导图片时,数据一致性难以保证。神经辐射场依赖于从多个视角捕获的真实世界照片来学习场景的 3D结构和颜色。这些照片通常包含复杂的光照和反射特性,这些特性在多个图片之间是一致的。扩散模型生成图可能会在不同的图片之间有不同的光照、颜色和风格表现。

第二,艺术风格图片具有独特的材质和光照。艺术风格图像通常具有独特的材质和光照模型,它们可能不遵循真实世界物理定律。例如,阴影、高光和反射可能是艺术化的,且不一定按照物理正确的方式在图像间保持一致。当神经辐射场试图基于这些不一致的视觉线索来重建 3D 场景时,可能会产生不真实的几何形状,或导致漂浮的伪影。

第三,引导图片的频率内容存在差异。例如,卡通图像通常包含大块的均匀颜色区域和锐利的边界,而不是真实世界图像中的细节纹理和渐变。神经辐射场通常依赖于图像中的细节和纹理来推断场景的深度和几何信息。这种高对比度和低频内容,可能会导致神经辐射场难以正确推断出连续的几何结构。

第四,扩散模型生成图可能缺乏视角多样性,生成图像可能无法提供足够的视角变化来让神经辐射场捕捉到准确的深度信息。例如,卡通图像通常是手绘的,可能没有与现实世界相对应的准确的视角变化。这会进一步加剧重建过程中的不准确性。

为了形成艺术风格的三维模型,需要对神经辐射场捕捉到准确的深度信息进行修改,以更好地适应艺术风格的图像,或者开发专门针对非真实图像的 3D 重建技术。

1 理论基础

2 艺术风格三维物体几何正则

通常,神经辐射场的更新规则包含几何正则损

失函数,这些损失函数利用神经辐射场的几何信息(通常是深度、密度等)对神经辐射场的参数θ 进行正则化,从而达到几何校正的目的。进行几何正则一种常用的损失函数为

图1 深度估计模糊性示意图

3 应用案例

以插画风为案例,基于上述改进几何正则的变分分数蒸馏方法,进行三维物体的生成。具体地,使用runwayml/stable-diffusion-v1-5 作为基准文本- 图像扩散模型,并在此基础上使用10 张左右的目标物体图像进行DreamBooth 方法微调,额外的深度条件由lllyasviel/

图 2 本文艺术风格三维物体生成方法

本文提出的基于文本 - 图像扩散模型的艺术风格三维物体生成方法的定性样本如图 3 所示,其中设置了已有代表性方法作为对照组,所有的生成均设置为 1 万步迭代。其中,前三行图片中,偶数列图片是前一张图片三维模型采样得到的密度图片。定性来说,本文方法生成的艺术风格三维物体具有更好的质量。具体来说,本文方法生成的三维物体在纹理样式和颜色上与扩散模型的引导图片更加接近。此外,在几何结构上,从密度图中可以发现,本文方法生成的三维物体具有与目标意象更一致的几何结构,且几乎完全抑制了漂浮伪影。

4 未来挑战

目前,基于文本 - 图像扩散模型的三维物体生成技术方兴未艾,已有方法在三维生成质量上仍然与工业生产标准有所差距,具体包括高分辨率生成、推理速度、多视角一致性、几何一致性等。本文提出了一种基于文本 - 图像扩散模型的艺术风格三维物体生成方法,在艺术风格三维物体生成任务上,表现出了优于以往方法的几何、纹理生成效果。然而,由于时间和精力的限制,本工作还存在许多不足,主要包括:① 由于引入了额外的推理模型,尽管引入了加速收敛的损失函数,提出的三维物体生成方法存在更高的算力需求和更高的推理时延;② 文本 - 图像扩散模型驱动的三维物体生成方法还是基于扩散模型先验的方法,因此难以从数据一致性方面去保证生成质量,光照和反射特性在多个图片之间仍然存在较多差异;③ 扩散模型生成图仍然缺乏视角多样性,生成图像无法提供足够的视角变化来让 NeRF 捕捉到足够的几何信息。

图3 本文方法与已有代表性方法的实验结果

根据本文的优势和不足,还可以根据现有的工作做出改进,后续的研究可以从下述几个方面考虑。第一,对基于语义分割的漂浮伪影抑制进行优化,以提升算法的效率。在三维物体生成任务上,相比于复杂场景,语义分割的任务更加简单。使用类似SAM 的复杂模型引入的额外推时延,或许可以通过具体任务的微调和蒸馏进行加速。第二,在使用基于扩散模型引导的三维物体生成方法时,对多视角一致性进行解决。基于扩散模型引导的三维物体生成方法在训练时缺乏引导图片视图的信息。此外,在风格化微调任务上,小样本微调在视角上缺乏多样性,导致多视角一致性不如传统神经辐射场。后续工作应针对蒸馏扩散模型的三维生成方法进行多视角一致性的解决。

5 结束语

艺术风格三维物体生成是三维物体生成领域的一大垂直命题,基于艺术风格图像的三维物体生成可应用于草图辅助设计、非真实感模型构建等方面。已有的基于扩散模型分数蒸馏的方法,难以在艺术图像上进行三维模型的生成。本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了基于扩散模型的艺术风格三维物体生成方法及其技术构想,列举了使用扩散模型指导艺术风格三维生成存在的问题,并提出了基于漂浮伪影抑制和主体物几何结构正则的艺术风格三维物体生成关键技术。最后,本文展望艺术风格三维生成领域仍然面临的关键问题和技术挑战,为未来的研究提供了可行的方向。

(参考文献略)

徐浩然

浙江大学硕士研究生。主要研究方向为数字内容生成。

顾鹏云

麻省理工学院博士,浙江绿色智行科创有限公司首席科学家。主要研究计算机辅助工程和机械动力学。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
维尼修斯领衔!皇马仅4人未公开告别阿隆索 一人最为意外

维尼修斯领衔!皇马仅4人未公开告别阿隆索 一人最为意外

球事百科吖
2026-01-14 02:53:31
央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

李健政观察
2026-01-13 09:41:59
官方:原成都蓉城门将张岩加盟辽宁铁人

官方:原成都蓉城门将张岩加盟辽宁铁人

懂球帝
2026-01-14 16:39:33
失望!男篮顶级锋线打36分钟,只得5、分 球迷:郭士强还要他吗?

失望!男篮顶级锋线打36分钟,只得5、分 球迷:郭士强还要他吗?

体育哲人
2026-01-14 15:59:10
美军首次打击,猛料曝光!

美军首次打击,猛料曝光!

环球时报国际
2026-01-14 00:18:41
日媒:日本大阪府知事有意辞职,并打算在重新选举中再次参选

日媒:日本大阪府知事有意辞职,并打算在重新选举中再次参选

澎湃新闻
2026-01-13 17:44:08
试驾特斯拉Model Y L:乘坐体验有明显槽点,硬核驾控超然脱俗

试驾特斯拉Model Y L:乘坐体验有明显槽点,硬核驾控超然脱俗

驾仕派
2026-01-14 12:14:33
外媒:“多国空军排队购买‘枭龙’战机”

外媒:“多国空军排队购买‘枭龙’战机”

环球时报国际
2026-01-14 17:36:35
一场2-0 让中国队可挑8强对手!赢泰国=碰韩国 附亚洲杯最新排名

一场2-0 让中国队可挑8强对手!赢泰国=碰韩国 附亚洲杯最新排名

侃球熊弟
2026-01-13 21:34:18
法国将于2月6日在格陵兰岛开设领事馆

法国将于2月6日在格陵兰岛开设领事馆

新京报
2026-01-14 16:56:27
钟南山做梦没想到,自己89岁高龄的妻子,如今能再次为他“争光”

钟南山做梦没想到,自己89岁高龄的妻子,如今能再次为他“争光”

林雁飞
2026-01-01 20:24:09
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
伊朗外长:伊朗做好了应对一切可能的准备

伊朗外长:伊朗做好了应对一切可能的准备

环球网资讯
2026-01-13 06:08:07
理发:美国30美元,国内30人民币!人民币的“购买力”真相

理发:美国30美元,国内30人民币!人民币的“购买力”真相

苏格拉高
2026-01-14 07:38:09
A股:今天跌到4103,做好准备了,不出意外的话,明天很可能这样走

A股:今天跌到4103,做好准备了,不出意外的话,明天很可能这样走

史行途
2026-01-14 16:38:23
难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

时时有聊
2026-01-13 20:33:21
三折甩卖没人要!曾经的中产鞋王,如今成了智商税代名词

三折甩卖没人要!曾经的中产鞋王,如今成了智商税代名词

青眼财经
2025-12-31 18:55:30
乌克兰反腐败机构对前总理季莫申科提出涉嫌贿赂指控

乌克兰反腐败机构对前总理季莫申科提出涉嫌贿赂指控

国际在线
2026-01-14 17:50:36
2025中国手机出货量公布:华为4670万台排名第一

2025中国手机出货量公布:华为4670万台排名第一

PChome电脑之家
2026-01-14 16:29:00
2026年3月起全国执行!农村土葬新规来了,这些事农民早看早受益

2026年3月起全国执行!农村土葬新规来了,这些事农民早看早受益

复转这些年
2026-01-10 23:22:21
2026-01-14 18:27:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3819文章数 1489关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

哈马斯领导人空缺15个月后重组在即 2人成为热门人选

头条要闻

哈马斯领导人空缺15个月后重组在即 2人成为热门人选

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

姚振华举报:观致汽车资产被低价拍卖

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
家居
旅游
艺术
时尚

教育要闻

郑州二七教育用91项大奖交出科技赋能的硬核答卷

家居要闻

心之所向 现代建构之美

旅游要闻

福州熊猫的家怎么走?攻略请收好(门票+公共交通+停车)

艺术要闻

八大山人『山水花鸟册』

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

无障碍浏览 进入关怀版