网易首页 > 网易号 > 正文 申请入驻

特约文章丨基于扩散模型的艺术风格三维物体生成方法

0
分享至

文 / 徐浩然,李泽健,韦安阳,顾鹏云

摘 要:

本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了一种基于扩散模型的艺术风格三维物体生成方法及其技术路线,列举了其中若干关键技术问题和解决思路,包括艺术风格神经辐射场几何问题、漂浮伪影抑制和主体物几何结构正则关键技术等。

关键词:

三维生成;艺术风格建模;几何正则;神经辐射场;扩散模型

0 引言

在三维模型生成领域,众多研究深入探讨了各种不同的三维表示形式,例如三维体素网格、点云、网格、隐式表现,以及八叉树表示。这些方法大都需要依赖于 3D 资源形式的训练数据,但大规模 3D资源的获取颇为困难。得益于神经辐射场(neural radiance fileds,NeRF)技术的成功应用,近期的研究开始将目光转向 3D 感知图像合成,其优势在于能够直接从图像中学习并生成 3D 模型。并且,依托可微分渲染技术,神经辐射场可被转换为适用于工业的 3D 资产形式。

另一方面,文本- 图像扩散模型已成为图像生成领域中先进的模型。扩散模型通过前向过程和后向过程模拟物理扩散现象,取得了优秀的画面效果。随着文本- 图像生成模型的突破,文本-3D 生成开始受到学术界的广泛关注。众多3D 生成方法借助扩散模型生成的图像分布,来指导神经辐射场的生成。现有的扩散模型指导下的神经辐射场生成方法,主要包括得分蒸馏采样(score distillation sampling,SDS)和变分分数蒸馏(variational score distillation,VSD)两类方法。得分蒸馏采样通过提取预训练的大规模文本 - 图像扩散模型,在文本到 3D 生成中显示出了巨大的前景,但存在过饱和、过平滑和低多样性问题。Wang et al. 提出 ProlificDreamer,将 3D 参数建模为随机变量,而不是 SDS 中的常数,并提出变分分数蒸馏——一个基于粒子的原理变分框架。ProlificDreamer 可以生成高渲染分辨率和高保真度的神经辐射场,具有丰富的结构和复杂的效果。

现有的基于扩散模型的神经辐射场生成方法,大多基于真实感图像。当基于艺术风格图像进行建模时,难以生成正确的几何结构,包括出现大量的漂浮伪影、错误的几何结构等,其中的原因如下所述。

第一,使用扩散模型生成图作为神经辐射场引导图片时,数据一致性难以保证。神经辐射场依赖于从多个视角捕获的真实世界照片来学习场景的 3D结构和颜色。这些照片通常包含复杂的光照和反射特性,这些特性在多个图片之间是一致的。扩散模型生成图可能会在不同的图片之间有不同的光照、颜色和风格表现。

第二,艺术风格图片具有独特的材质和光照。艺术风格图像通常具有独特的材质和光照模型,它们可能不遵循真实世界物理定律。例如,阴影、高光和反射可能是艺术化的,且不一定按照物理正确的方式在图像间保持一致。当神经辐射场试图基于这些不一致的视觉线索来重建 3D 场景时,可能会产生不真实的几何形状,或导致漂浮的伪影。

第三,引导图片的频率内容存在差异。例如,卡通图像通常包含大块的均匀颜色区域和锐利的边界,而不是真实世界图像中的细节纹理和渐变。神经辐射场通常依赖于图像中的细节和纹理来推断场景的深度和几何信息。这种高对比度和低频内容,可能会导致神经辐射场难以正确推断出连续的几何结构。

第四,扩散模型生成图可能缺乏视角多样性,生成图像可能无法提供足够的视角变化来让神经辐射场捕捉到准确的深度信息。例如,卡通图像通常是手绘的,可能没有与现实世界相对应的准确的视角变化。这会进一步加剧重建过程中的不准确性。

为了形成艺术风格的三维模型,需要对神经辐射场捕捉到准确的深度信息进行修改,以更好地适应艺术风格的图像,或者开发专门针对非真实图像的 3D 重建技术。

1 理论基础

2 艺术风格三维物体几何正则

通常,神经辐射场的更新规则包含几何正则损

失函数,这些损失函数利用神经辐射场的几何信息(通常是深度、密度等)对神经辐射场的参数θ 进行正则化,从而达到几何校正的目的。进行几何正则一种常用的损失函数为

图1 深度估计模糊性示意图

3 应用案例

以插画风为案例,基于上述改进几何正则的变分分数蒸馏方法,进行三维物体的生成。具体地,使用runwayml/stable-diffusion-v1-5 作为基准文本- 图像扩散模型,并在此基础上使用10 张左右的目标物体图像进行DreamBooth 方法微调,额外的深度条件由lllyasviel/

图 2 本文艺术风格三维物体生成方法

本文提出的基于文本 - 图像扩散模型的艺术风格三维物体生成方法的定性样本如图 3 所示,其中设置了已有代表性方法作为对照组,所有的生成均设置为 1 万步迭代。其中,前三行图片中,偶数列图片是前一张图片三维模型采样得到的密度图片。定性来说,本文方法生成的艺术风格三维物体具有更好的质量。具体来说,本文方法生成的三维物体在纹理样式和颜色上与扩散模型的引导图片更加接近。此外,在几何结构上,从密度图中可以发现,本文方法生成的三维物体具有与目标意象更一致的几何结构,且几乎完全抑制了漂浮伪影。

4 未来挑战

目前,基于文本 - 图像扩散模型的三维物体生成技术方兴未艾,已有方法在三维生成质量上仍然与工业生产标准有所差距,具体包括高分辨率生成、推理速度、多视角一致性、几何一致性等。本文提出了一种基于文本 - 图像扩散模型的艺术风格三维物体生成方法,在艺术风格三维物体生成任务上,表现出了优于以往方法的几何、纹理生成效果。然而,由于时间和精力的限制,本工作还存在许多不足,主要包括:① 由于引入了额外的推理模型,尽管引入了加速收敛的损失函数,提出的三维物体生成方法存在更高的算力需求和更高的推理时延;② 文本 - 图像扩散模型驱动的三维物体生成方法还是基于扩散模型先验的方法,因此难以从数据一致性方面去保证生成质量,光照和反射特性在多个图片之间仍然存在较多差异;③ 扩散模型生成图仍然缺乏视角多样性,生成图像无法提供足够的视角变化来让 NeRF 捕捉到足够的几何信息。

图3 本文方法与已有代表性方法的实验结果

根据本文的优势和不足,还可以根据现有的工作做出改进,后续的研究可以从下述几个方面考虑。第一,对基于语义分割的漂浮伪影抑制进行优化,以提升算法的效率。在三维物体生成任务上,相比于复杂场景,语义分割的任务更加简单。使用类似SAM 的复杂模型引入的额外推时延,或许可以通过具体任务的微调和蒸馏进行加速。第二,在使用基于扩散模型引导的三维物体生成方法时,对多视角一致性进行解决。基于扩散模型引导的三维物体生成方法在训练时缺乏引导图片视图的信息。此外,在风格化微调任务上,小样本微调在视角上缺乏多样性,导致多视角一致性不如传统神经辐射场。后续工作应针对蒸馏扩散模型的三维生成方法进行多视角一致性的解决。

5 结束语

艺术风格三维物体生成是三维物体生成领域的一大垂直命题,基于艺术风格图像的三维物体生成可应用于草图辅助设计、非真实感模型构建等方面。已有的基于扩散模型分数蒸馏的方法,难以在艺术图像上进行三维模型的生成。本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了基于扩散模型的艺术风格三维物体生成方法及其技术构想,列举了使用扩散模型指导艺术风格三维生成存在的问题,并提出了基于漂浮伪影抑制和主体物几何结构正则的艺术风格三维物体生成关键技术。最后,本文展望艺术风格三维生成领域仍然面临的关键问题和技术挑战,为未来的研究提供了可行的方向。

(参考文献略)

徐浩然

浙江大学硕士研究生。主要研究方向为数字内容生成。

顾鹏云

麻省理工学院博士,浙江绿色智行科创有限公司首席科学家。主要研究计算机辅助工程和机械动力学。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

IN朝鲜
2026-02-28 10:45:32
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

安珈使者啊
2026-03-01 12:15:35
为什么北京像莫斯科?

为什么北京像莫斯科?

虔青
2026-02-26 11:39:20
1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

寄史言志
2026-01-24 17:53:13
1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

磊子讲史
2026-01-14 10:12:21
让领导先走?以色列彻底改变了战争习惯,自此食肉者得三思而后行

让领导先走?以色列彻底改变了战争习惯,自此食肉者得三思而后行

寻途
2025-08-22 20:22:00
哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

军机Talk
2026-03-01 14:05:59
印度游客添乱,泰国悔悟:还是中国游客香

印度游客添乱,泰国悔悟:还是中国游客香

华山穹剑
2026-02-27 19:47:38
网传新能源汽车开征“里程税” 收费0.12元/公里 多地回应

网传新能源汽车开征“里程税” 收费0.12元/公里 多地回应

快科技
2026-02-27 21:58:15
骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

鱼崖大话篮球
2026-03-02 10:21:28
香港昂船洲政府船坞发生爆炸,已造成5人受伤

香港昂船洲政府船坞发生爆炸,已造成5人受伤

界面新闻
2026-03-02 12:00:42
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
英国宣布参与对伊朗军事行动 战机已升空

英国宣布参与对伊朗军事行动 战机已升空

桂系007
2026-02-28 23:56:12
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
张一鸣第一个IPO,要来了?

张一鸣第一个IPO,要来了?

字母榜
2026-03-02 11:57:54
哈梅内伊真死了,二儿子掌控军队,三儿子掌控政府,大儿子消失了

哈梅内伊真死了,二儿子掌控军队,三儿子掌控政府,大儿子消失了

关系新篇章
2026-03-01 18:00:53
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
2026-03-02 13:08:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3900文章数 1489关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

健康
教育
旅游
艺术
时尚

转头就晕的耳石症,能开车上班吗?

教育要闻

3月5日起进行!普通高等学校招生体检工作通知发布!

旅游要闻

游客点赞!甘孜州终身门票政策昨日迎来“开门红”

艺术要闻

2025北京青年美术作品展 | 油画作品选刊

从每天只睡4小时到8小时:一个失眠者的自救指南

无障碍浏览 进入关怀版