网易首页 > 网易号 > 正文 申请入驻

特约文章丨基于扩散模型的艺术风格三维物体生成方法

0
分享至

文 / 徐浩然,李泽健,韦安阳,顾鹏云

摘 要:

本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了一种基于扩散模型的艺术风格三维物体生成方法及其技术路线,列举了其中若干关键技术问题和解决思路,包括艺术风格神经辐射场几何问题、漂浮伪影抑制和主体物几何结构正则关键技术等。

关键词:

三维生成;艺术风格建模;几何正则;神经辐射场;扩散模型

0 引言

在三维模型生成领域,众多研究深入探讨了各种不同的三维表示形式,例如三维体素网格、点云、网格、隐式表现,以及八叉树表示。这些方法大都需要依赖于 3D 资源形式的训练数据,但大规模 3D资源的获取颇为困难。得益于神经辐射场(neural radiance fileds,NeRF)技术的成功应用,近期的研究开始将目光转向 3D 感知图像合成,其优势在于能够直接从图像中学习并生成 3D 模型。并且,依托可微分渲染技术,神经辐射场可被转换为适用于工业的 3D 资产形式。

另一方面,文本- 图像扩散模型已成为图像生成领域中先进的模型。扩散模型通过前向过程和后向过程模拟物理扩散现象,取得了优秀的画面效果。随着文本- 图像生成模型的突破,文本-3D 生成开始受到学术界的广泛关注。众多3D 生成方法借助扩散模型生成的图像分布,来指导神经辐射场的生成。现有的扩散模型指导下的神经辐射场生成方法,主要包括得分蒸馏采样(score distillation sampling,SDS)和变分分数蒸馏(variational score distillation,VSD)两类方法。得分蒸馏采样通过提取预训练的大规模文本 - 图像扩散模型,在文本到 3D 生成中显示出了巨大的前景,但存在过饱和、过平滑和低多样性问题。Wang et al. 提出 ProlificDreamer,将 3D 参数建模为随机变量,而不是 SDS 中的常数,并提出变分分数蒸馏——一个基于粒子的原理变分框架。ProlificDreamer 可以生成高渲染分辨率和高保真度的神经辐射场,具有丰富的结构和复杂的效果。

现有的基于扩散模型的神经辐射场生成方法,大多基于真实感图像。当基于艺术风格图像进行建模时,难以生成正确的几何结构,包括出现大量的漂浮伪影、错误的几何结构等,其中的原因如下所述。

第一,使用扩散模型生成图作为神经辐射场引导图片时,数据一致性难以保证。神经辐射场依赖于从多个视角捕获的真实世界照片来学习场景的 3D结构和颜色。这些照片通常包含复杂的光照和反射特性,这些特性在多个图片之间是一致的。扩散模型生成图可能会在不同的图片之间有不同的光照、颜色和风格表现。

第二,艺术风格图片具有独特的材质和光照。艺术风格图像通常具有独特的材质和光照模型,它们可能不遵循真实世界物理定律。例如,阴影、高光和反射可能是艺术化的,且不一定按照物理正确的方式在图像间保持一致。当神经辐射场试图基于这些不一致的视觉线索来重建 3D 场景时,可能会产生不真实的几何形状,或导致漂浮的伪影。

第三,引导图片的频率内容存在差异。例如,卡通图像通常包含大块的均匀颜色区域和锐利的边界,而不是真实世界图像中的细节纹理和渐变。神经辐射场通常依赖于图像中的细节和纹理来推断场景的深度和几何信息。这种高对比度和低频内容,可能会导致神经辐射场难以正确推断出连续的几何结构。

第四,扩散模型生成图可能缺乏视角多样性,生成图像可能无法提供足够的视角变化来让神经辐射场捕捉到准确的深度信息。例如,卡通图像通常是手绘的,可能没有与现实世界相对应的准确的视角变化。这会进一步加剧重建过程中的不准确性。

为了形成艺术风格的三维模型,需要对神经辐射场捕捉到准确的深度信息进行修改,以更好地适应艺术风格的图像,或者开发专门针对非真实图像的 3D 重建技术。

1 理论基础

2 艺术风格三维物体几何正则

通常,神经辐射场的更新规则包含几何正则损

失函数,这些损失函数利用神经辐射场的几何信息(通常是深度、密度等)对神经辐射场的参数θ 进行正则化,从而达到几何校正的目的。进行几何正则一种常用的损失函数为

图1 深度估计模糊性示意图

3 应用案例

以插画风为案例,基于上述改进几何正则的变分分数蒸馏方法,进行三维物体的生成。具体地,使用runwayml/stable-diffusion-v1-5 作为基准文本- 图像扩散模型,并在此基础上使用10 张左右的目标物体图像进行DreamBooth 方法微调,额外的深度条件由lllyasviel/

图 2 本文艺术风格三维物体生成方法

本文提出的基于文本 - 图像扩散模型的艺术风格三维物体生成方法的定性样本如图 3 所示,其中设置了已有代表性方法作为对照组,所有的生成均设置为 1 万步迭代。其中,前三行图片中,偶数列图片是前一张图片三维模型采样得到的密度图片。定性来说,本文方法生成的艺术风格三维物体具有更好的质量。具体来说,本文方法生成的三维物体在纹理样式和颜色上与扩散模型的引导图片更加接近。此外,在几何结构上,从密度图中可以发现,本文方法生成的三维物体具有与目标意象更一致的几何结构,且几乎完全抑制了漂浮伪影。

4 未来挑战

目前,基于文本 - 图像扩散模型的三维物体生成技术方兴未艾,已有方法在三维生成质量上仍然与工业生产标准有所差距,具体包括高分辨率生成、推理速度、多视角一致性、几何一致性等。本文提出了一种基于文本 - 图像扩散模型的艺术风格三维物体生成方法,在艺术风格三维物体生成任务上,表现出了优于以往方法的几何、纹理生成效果。然而,由于时间和精力的限制,本工作还存在许多不足,主要包括:① 由于引入了额外的推理模型,尽管引入了加速收敛的损失函数,提出的三维物体生成方法存在更高的算力需求和更高的推理时延;② 文本 - 图像扩散模型驱动的三维物体生成方法还是基于扩散模型先验的方法,因此难以从数据一致性方面去保证生成质量,光照和反射特性在多个图片之间仍然存在较多差异;③ 扩散模型生成图仍然缺乏视角多样性,生成图像无法提供足够的视角变化来让 NeRF 捕捉到足够的几何信息。

图3 本文方法与已有代表性方法的实验结果

根据本文的优势和不足,还可以根据现有的工作做出改进,后续的研究可以从下述几个方面考虑。第一,对基于语义分割的漂浮伪影抑制进行优化,以提升算法的效率。在三维物体生成任务上,相比于复杂场景,语义分割的任务更加简单。使用类似SAM 的复杂模型引入的额外推时延,或许可以通过具体任务的微调和蒸馏进行加速。第二,在使用基于扩散模型引导的三维物体生成方法时,对多视角一致性进行解决。基于扩散模型引导的三维物体生成方法在训练时缺乏引导图片视图的信息。此外,在风格化微调任务上,小样本微调在视角上缺乏多样性,导致多视角一致性不如传统神经辐射场。后续工作应针对蒸馏扩散模型的三维生成方法进行多视角一致性的解决。

5 结束语

艺术风格三维物体生成是三维物体生成领域的一大垂直命题,基于艺术风格图像的三维物体生成可应用于草图辅助设计、非真实感模型构建等方面。已有的基于扩散模型分数蒸馏的方法,难以在艺术图像上进行三维模型的生成。本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了基于扩散模型的艺术风格三维物体生成方法及其技术构想,列举了使用扩散模型指导艺术风格三维生成存在的问题,并提出了基于漂浮伪影抑制和主体物几何结构正则的艺术风格三维物体生成关键技术。最后,本文展望艺术风格三维生成领域仍然面临的关键问题和技术挑战,为未来的研究提供了可行的方向。

(参考文献略)

徐浩然

浙江大学硕士研究生。主要研究方向为数字内容生成。

顾鹏云

麻省理工学院博士,浙江绿色智行科创有限公司首席科学家。主要研究计算机辅助工程和机械动力学。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男篮逆转揪出最大毒瘤!13中2险些葬送好局,郭士强看走眼了

中国男篮逆转揪出最大毒瘤!13中2险些葬送好局,郭士强看走眼了

老叶评球
2026-03-01 20:31:34
顾军已任辽宁省政府党组成员

顾军已任辽宁省政府党组成员

澎湃新闻
2026-03-01 20:18:28
女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局特爽

女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局特爽

阅微札记
2026-03-01 16:56:42
为央视工作19年,连续六年主持春晚分会场,44岁杨帆仍是'临时工'

为央视工作19年,连续六年主持春晚分会场,44岁杨帆仍是'临时工'

华史谈
2026-03-02 05:37:31
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
卡里克 7 场 6 胜也不行?曼联藏杀招,传奇教头或空降老特拉福德

卡里克 7 场 6 胜也不行?曼联藏杀招,传奇教头或空降老特拉福德

奶盖熊本熊
2026-03-02 01:52:24
难怪伊朗如此疯狂反击,真相大白:原来哈梅内伊一开始就被炸死了

难怪伊朗如此疯狂反击,真相大白:原来哈梅内伊一开始就被炸死了

荷兰豆爱健康
2026-03-02 00:23:30
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
他们想让这条视频消失,结果全网都在看

他们想让这条视频消失,结果全网都在看

文立于尘
2026-03-01 18:16:43
人生赢家!中国奥运五金王晒全家福,娇妻生二胎后逆生长明艳动人

人生赢家!中国奥运五金王晒全家福,娇妻生二胎后逆生长明艳动人

二疯说球
2026-03-01 10:32:15
日本慌了,韩国急了,如今的中国乌鲁木齐,先进制造悄然成势

日本慌了,韩国急了,如今的中国乌鲁木齐,先进制造悄然成势

老范谈史
2026-03-01 13:40:12
顾军跨省履新辽宁,曾长期在上海工作

顾军跨省履新辽宁,曾长期在上海工作

上观新闻
2026-03-02 06:48:09
想不通为什么有人去俄罗斯旅游

想不通为什么有人去俄罗斯旅游

刘远举
2026-02-25 08:09:47
日本就要爆了,高市高兴得早了

日本就要爆了,高市高兴得早了

杨风
2026-02-28 21:33:56
阿里的复仇:一场迟到了十年的清算

阿里的复仇:一场迟到了十年的清算

快消经纬
2026-02-28 18:58:05
B费:拉克鲁瓦犯规后裁判立即告诉我是点球,他在判断是否给红牌

B费:拉克鲁瓦犯规后裁判立即告诉我是点球,他在判断是否给红牌

天光破云来
2026-03-02 00:55:06
本田放大招:冠道&奥德赛推“一口价”,最高直降7万元诚意拉满!

本田放大招:冠道&奥德赛推“一口价”,最高直降7万元诚意拉满!

生活魔术专家
2026-03-02 01:14:42
超级杯夺冠,张稀哲赛后调侃:啤酒呢?雪花啤酒呢?

超级杯夺冠,张稀哲赛后调侃:啤酒呢?雪花啤酒呢?

懂球帝
2026-03-01 20:37:47
随着曼联2-1逆转+阿森纳三杀切尔西!英超最新积分榜:热刺又输了

随着曼联2-1逆转+阿森纳三杀切尔西!英超最新积分榜:热刺又输了

万花筒体育球球
2026-03-02 04:17:49
伊朗足协主席亲承:世界杯或弃赛!亚洲2队按规将递补,国足无缘

伊朗足协主席亲承:世界杯或弃赛!亚洲2队按规将递补,国足无缘

我爱英超
2026-03-01 06:49:59
2026-03-02 07:15:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3900文章数 1489关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

伊朗多位军事指挥官确认死亡 名单公布

头条要闻

伊朗多位军事指挥官确认死亡 名单公布

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

游戏
数码
教育
健康
旅游

魔兽时光服:补贴团难以组人,均分团快速组队,为何还有人在坚守

数码要闻

曝苹果WWDC 26将推Core AI框架取代Core ML并公布多项AI功能

教育要闻

宁夏大学外国语学院揭秘!96.2%高落实率

转头就晕的耳石症,能开车上班吗?

旅游要闻

春雨落瘦西湖,梅花一开,才是江南真春天!

无障碍浏览 进入关怀版