网易首页 > 网易号 > 正文 申请入驻

特约文章丨基于扩散模型的艺术风格三维物体生成方法

0
分享至

文 / 徐浩然,李泽健,韦安阳,顾鹏云

摘 要:

本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了一种基于扩散模型的艺术风格三维物体生成方法及其技术路线,列举了其中若干关键技术问题和解决思路,包括艺术风格神经辐射场几何问题、漂浮伪影抑制和主体物几何结构正则关键技术等。

关键词:

三维生成;艺术风格建模;几何正则;神经辐射场;扩散模型

0 引言

在三维模型生成领域,众多研究深入探讨了各种不同的三维表示形式,例如三维体素网格、点云、网格、隐式表现,以及八叉树表示。这些方法大都需要依赖于 3D 资源形式的训练数据,但大规模 3D资源的获取颇为困难。得益于神经辐射场(neural radiance fileds,NeRF)技术的成功应用,近期的研究开始将目光转向 3D 感知图像合成,其优势在于能够直接从图像中学习并生成 3D 模型。并且,依托可微分渲染技术,神经辐射场可被转换为适用于工业的 3D 资产形式。

另一方面,文本- 图像扩散模型已成为图像生成领域中先进的模型。扩散模型通过前向过程和后向过程模拟物理扩散现象,取得了优秀的画面效果。随着文本- 图像生成模型的突破,文本-3D 生成开始受到学术界的广泛关注。众多3D 生成方法借助扩散模型生成的图像分布,来指导神经辐射场的生成。现有的扩散模型指导下的神经辐射场生成方法,主要包括得分蒸馏采样(score distillation sampling,SDS)和变分分数蒸馏(variational score distillation,VSD)两类方法。得分蒸馏采样通过提取预训练的大规模文本 - 图像扩散模型,在文本到 3D 生成中显示出了巨大的前景,但存在过饱和、过平滑和低多样性问题。Wang et al. 提出 ProlificDreamer,将 3D 参数建模为随机变量,而不是 SDS 中的常数,并提出变分分数蒸馏——一个基于粒子的原理变分框架。ProlificDreamer 可以生成高渲染分辨率和高保真度的神经辐射场,具有丰富的结构和复杂的效果。

现有的基于扩散模型的神经辐射场生成方法,大多基于真实感图像。当基于艺术风格图像进行建模时,难以生成正确的几何结构,包括出现大量的漂浮伪影、错误的几何结构等,其中的原因如下所述。

第一,使用扩散模型生成图作为神经辐射场引导图片时,数据一致性难以保证。神经辐射场依赖于从多个视角捕获的真实世界照片来学习场景的 3D结构和颜色。这些照片通常包含复杂的光照和反射特性,这些特性在多个图片之间是一致的。扩散模型生成图可能会在不同的图片之间有不同的光照、颜色和风格表现。

第二,艺术风格图片具有独特的材质和光照。艺术风格图像通常具有独特的材质和光照模型,它们可能不遵循真实世界物理定律。例如,阴影、高光和反射可能是艺术化的,且不一定按照物理正确的方式在图像间保持一致。当神经辐射场试图基于这些不一致的视觉线索来重建 3D 场景时,可能会产生不真实的几何形状,或导致漂浮的伪影。

第三,引导图片的频率内容存在差异。例如,卡通图像通常包含大块的均匀颜色区域和锐利的边界,而不是真实世界图像中的细节纹理和渐变。神经辐射场通常依赖于图像中的细节和纹理来推断场景的深度和几何信息。这种高对比度和低频内容,可能会导致神经辐射场难以正确推断出连续的几何结构。

第四,扩散模型生成图可能缺乏视角多样性,生成图像可能无法提供足够的视角变化来让神经辐射场捕捉到准确的深度信息。例如,卡通图像通常是手绘的,可能没有与现实世界相对应的准确的视角变化。这会进一步加剧重建过程中的不准确性。

为了形成艺术风格的三维模型,需要对神经辐射场捕捉到准确的深度信息进行修改,以更好地适应艺术风格的图像,或者开发专门针对非真实图像的 3D 重建技术。

1 理论基础

2 艺术风格三维物体几何正则

通常,神经辐射场的更新规则包含几何正则损

失函数,这些损失函数利用神经辐射场的几何信息(通常是深度、密度等)对神经辐射场的参数θ 进行正则化,从而达到几何校正的目的。进行几何正则一种常用的损失函数为

图1 深度估计模糊性示意图

3 应用案例

以插画风为案例,基于上述改进几何正则的变分分数蒸馏方法,进行三维物体的生成。具体地,使用runwayml/stable-diffusion-v1-5 作为基准文本- 图像扩散模型,并在此基础上使用10 张左右的目标物体图像进行DreamBooth 方法微调,额外的深度条件由lllyasviel/

图 2 本文艺术风格三维物体生成方法

本文提出的基于文本 - 图像扩散模型的艺术风格三维物体生成方法的定性样本如图 3 所示,其中设置了已有代表性方法作为对照组,所有的生成均设置为 1 万步迭代。其中,前三行图片中,偶数列图片是前一张图片三维模型采样得到的密度图片。定性来说,本文方法生成的艺术风格三维物体具有更好的质量。具体来说,本文方法生成的三维物体在纹理样式和颜色上与扩散模型的引导图片更加接近。此外,在几何结构上,从密度图中可以发现,本文方法生成的三维物体具有与目标意象更一致的几何结构,且几乎完全抑制了漂浮伪影。

4 未来挑战

目前,基于文本 - 图像扩散模型的三维物体生成技术方兴未艾,已有方法在三维生成质量上仍然与工业生产标准有所差距,具体包括高分辨率生成、推理速度、多视角一致性、几何一致性等。本文提出了一种基于文本 - 图像扩散模型的艺术风格三维物体生成方法,在艺术风格三维物体生成任务上,表现出了优于以往方法的几何、纹理生成效果。然而,由于时间和精力的限制,本工作还存在许多不足,主要包括:① 由于引入了额外的推理模型,尽管引入了加速收敛的损失函数,提出的三维物体生成方法存在更高的算力需求和更高的推理时延;② 文本 - 图像扩散模型驱动的三维物体生成方法还是基于扩散模型先验的方法,因此难以从数据一致性方面去保证生成质量,光照和反射特性在多个图片之间仍然存在较多差异;③ 扩散模型生成图仍然缺乏视角多样性,生成图像无法提供足够的视角变化来让 NeRF 捕捉到足够的几何信息。

图3 本文方法与已有代表性方法的实验结果

根据本文的优势和不足,还可以根据现有的工作做出改进,后续的研究可以从下述几个方面考虑。第一,对基于语义分割的漂浮伪影抑制进行优化,以提升算法的效率。在三维物体生成任务上,相比于复杂场景,语义分割的任务更加简单。使用类似SAM 的复杂模型引入的额外推时延,或许可以通过具体任务的微调和蒸馏进行加速。第二,在使用基于扩散模型引导的三维物体生成方法时,对多视角一致性进行解决。基于扩散模型引导的三维物体生成方法在训练时缺乏引导图片视图的信息。此外,在风格化微调任务上,小样本微调在视角上缺乏多样性,导致多视角一致性不如传统神经辐射场。后续工作应针对蒸馏扩散模型的三维生成方法进行多视角一致性的解决。

5 结束语

艺术风格三维物体生成是三维物体生成领域的一大垂直命题,基于艺术风格图像的三维物体生成可应用于草图辅助设计、非真实感模型构建等方面。已有的基于扩散模型分数蒸馏的方法,难以在艺术图像上进行三维模型的生成。本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了基于扩散模型的艺术风格三维物体生成方法及其技术构想,列举了使用扩散模型指导艺术风格三维生成存在的问题,并提出了基于漂浮伪影抑制和主体物几何结构正则的艺术风格三维物体生成关键技术。最后,本文展望艺术风格三维生成领域仍然面临的关键问题和技术挑战,为未来的研究提供了可行的方向。

(参考文献略)

徐浩然

浙江大学硕士研究生。主要研究方向为数字内容生成。

顾鹏云

麻省理工学院博士,浙江绿色智行科创有限公司首席科学家。主要研究计算机辅助工程和机械动力学。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被打服了!掘金主帅喊话东部球队:赶紧交易走特雷・墨菲三世

被打服了!掘金主帅喊话东部球队:赶紧交易走特雷・墨菲三世

夜白侃球
2026-01-14 22:19:08
近期,油管上出现一个时长高达140年的视频引热议

近期,油管上出现一个时长高达140年的视频引热议

随波荡漾的漂流瓶
2026-01-14 19:08:36
双汇创始人万隆:偷情女助理20年,向美国转移35亿,却被儿子揭露

双汇创始人万隆:偷情女助理20年,向美国转移35亿,却被儿子揭露

牛牛叨史
2026-01-15 00:12:05
中国量子芯片正式投产,美芯降价90%恐慌抛售,外媒:始料未及

中国量子芯片正式投产,美芯降价90%恐慌抛售,外媒:始料未及

芯火相承
2026-01-14 20:16:32
英媒:解雇弗兰克至少需要800万镑,他还有两年半的合同在身

英媒:解雇弗兰克至少需要800万镑,他还有两年半的合同在身

懂球帝
2026-01-13 19:39:12
苹果今天又发布大量新系统更新,太突然了!

苹果今天又发布大量新系统更新,太突然了!

XCiOS俱乐部
2026-01-14 14:07:42
1984年贺子珍在上海病逝,市委不敢定丧葬规格,邓小平看后只说了一句话,结局出人意料

1984年贺子珍在上海病逝,市委不敢定丧葬规格,邓小平看后只说了一句话,结局出人意料

历史回忆室
2026-01-11 22:43:10
沈腾林允恋爱瓜被站姐实锤了!?

沈腾林允恋爱瓜被站姐实锤了!?

八卦疯叔
2026-01-14 11:27:50
国台办:将按照一个中国原则和APEC有关谅解备忘录规定和惯例处理台湾地区参会事宜

国台办:将按照一个中国原则和APEC有关谅解备忘录规定和惯例处理台湾地区参会事宜

环球网资讯
2026-01-14 11:05:56
张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

寒士之言本尊
2026-01-14 17:24:33
他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

磊子讲史
2026-01-14 14:24:39
伊朗抗议血腥镇压:数百青年头颈中枪殒命,23岁女大学生遗体被扣

伊朗抗议血腥镇压:数百青年头颈中枪殒命,23岁女大学生遗体被扣

译言
2026-01-13 11:00:50
伊朗抗议难动摇伊斯兰共和国根基,但美以军事干涉变量不可控

伊朗抗议难动摇伊斯兰共和国根基,但美以军事干涉变量不可控

澎湃新闻
2026-01-12 10:04:30
韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

干史人
2024-11-25 19:30:03
海浴:一场自我的归零仪式

海浴:一场自我的归零仪式

疾跑的小蜗牛
2026-01-14 21:14:07
睡了等于没睡!长期这样睡觉的人,大脑加速衰老、全身炎症水平上升

睡了等于没睡!长期这样睡觉的人,大脑加速衰老、全身炎症水平上升

桂林生活网
2026-01-13 19:24:34
委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

大风新闻
2026-01-14 10:15:03
高盛、摩根、瑞银首次联手加仓,A股唯一隐形王炸浮出水面

高盛、摩根、瑞银首次联手加仓,A股唯一隐形王炸浮出水面

财报翻译官
2026-01-14 14:45:09
2026年有贵人,有靠山,3生肖地上生金,转大运连连

2026年有贵人,有靠山,3生肖地上生金,转大运连连

人閒情事
2026-01-11 16:33:42
就在刚刚,33家A股上市公司发布重大利空消息,看看都有哪些?

就在刚刚,33家A股上市公司发布重大利空消息,看看都有哪些?

股市皆大事
2026-01-14 18:02:10
2026-01-15 01:11:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3822文章数 1489关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

媒体:公开鼓动抗议者 特朗普新表态让全球嗅到火药味

头条要闻

媒体:公开鼓动抗议者 特朗普新表态让全球嗅到火药味

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

手机
房产
艺术
亲子
军事航空

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

亲子要闻

有好东西要大家一起分享哦

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版