网易首页 > 网易号 > 正文 申请入驻

扩散模型进军专业图层,斯坦福提出LayerDiffuse实现分层扩散,效果直逼商业网站

0
分享至


大数据文摘受权转载自将门创投


目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对图像进行透明分层制作,现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作,本文提出了一种名为LayerDiffuse的新型扩散方法,LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”(隐透明度)的概念,通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中,并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改,这样可以保留预训练扩散隐空间的图像生成质量。作者表示,LayerDiffuse可以应用在多种不同的开源图像生成模型中,来实现图像前景/背景条件层生成、结构引导生成等复杂的功能。

此外,本文的实验结果也表明,相比普通做法(先生成图像再抠图),LayerDiffuse直接生成的透明图层图像在大多数情况下(97%)更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比,本文方法生成的图像也具有一定的竞争力。


论文题目: Transparent Image Layer Diffusion using Latent Transparency 论文链接: https://arxiv.org/abs/2402.17113 代码仓库: https://github.com/layerdiffusion/LayerDiffuse

一、引言

目前,绝大多数图像内容编辑软件和工作流程都基于图层进行设计,但现有的图像生成大模型仍然不具备这方面的能力,这一现象与庞大的市场需求形成了鲜明的对比。本文提出的LayerDiffuse应运而生,本文作者了解到,制作可以训练图层生成模型的数据集成本非常高昂,互联网上的高质量透明图像元素往往都有很高的下载费用,这不像普通的配对文本图像数据集(例如LAION)那样好获取。


此外,对于大多数开源的图像生成模型,例如Stable Diffusion。即使仅用少量的训练数据对其微调,也会对其潜在空间带来巨大的偏差,从而严重降低微调性能。为此,本文作者提出了一种latent transparency(潜在透明度)方法,可以将图像透明度编码为潜在偏移量,该偏移量经过明确调节可以防止对已有扩散模型的潜在分布造成破坏。LayerDiffuse的生成效果如上图所示,用户可以通过输入文本来生成图像,并且实现前景和背景的分离。


为了降低LayerDiffuse的整体质量和训练成本,作者还引入了共享注意力机制来确保图像层之间的一致性,并且使用LoRA框架对模型进行训练。值得一提的是,本文的两位作者Lvmin Zhang和Maneesh Agrawala同样也是ICCV 2023最佳论文《ControlNet》的作者,在图像生成领域有着丰富的经验。

二、本文方法

LayerDiffuse的核心思路是在已有预训练扩散模型的基础上,进一步扩展模型以同时生成多个透明层,整体框架如下图所示,作者将前三个RGB色彩通道图像定义为 ,将alpha通道定义为 ,要生成的透明RGBA图像定义为 。其中 可以被转换为“premultiplied image”: 。后模型的生成解码器可以根据premultiplied image来将图像的透明通道和RGB色彩通道分离开来实现图层分层效果


2.1 潜在透明度(latent transparency)

latent transparency是本文新提出的一个概念,它可以应用在预训练的扩散模型中,例如Stable Diffusion。这类模型通常使用一个latent编码器(VAE)来将RGB图像转换为latent向量,然后再将其输入扩散模型中进行生成。为了加入latent transparency,必须保证尽可能的保留原有扩散模型的latent空间分布。具体来说,给定图像 、预训练且冻结参数的扩散编码器 和解码器 ,假设透明偏移量为 ,经过修改后的图像特征为 ,我们可以直接测量透明偏移量的大小:


直观上,如果 相对较高,则 可能是有害的,并且会破坏扩散模型编码器-解码器的重建功能。相反则表明偏移量 的加入不会影响扩散模型原有的生成效果。因而作者将作为一个新的条件参数,并从头训练一个latent transparency编码器,同时将RGB通道和alpha通道作为输入,将像素空间透明度转换为latent偏移量: 。随后训练可以理解透明图层的扩散解码器以实现 ,其中 分别表示重构得到的RGB图层和alpha图层。


作者通过联合执行L2重构损失和PatchGAN判别损失来优化加入latent transparency后的扩散模型编码器和解码器。

2.2 加入latent transparency的扩散过程

LayerDiffuse的扩散过程首先从透明图像出发,并且可以在已有的潜在空间上进行明确微调。在给定透明调整偏移量后,扩散算法逐渐向透明图像添加噪声并生成噪声图像,其中表示添加噪声的次数,当足够大时,图像会近似于纯噪声。此时将扩散步骤 和文本提示 作为联合条件输入到扩散模型 中进行生成,网络根据已有图像预测得到添加到透明图像上的噪声,优化损失函数可以表示如下:

网络的训练过程如下图所示,其中Stable Diffusion模型在这一过程中参数可以进行更新。


2.3 实现图层之间的扩散

在扩散模型具有理解latent transparency概念之后,就可以实现图层之间的分层扩散。作者使用注意力共享机制和低秩LoRA策略将基础模型扩展为多层模型,如下图所示。


这里将图像分为前景层和背景层,前景的潜在表示向量为 ,背景潜在表示向量为 ,并设置两套LoRA参数对潜在图像实现去噪,去噪扩散目标可以表示为:


其中 分别表示添加在前景和背景中的潜在噪声,由于共享注意力注意力机制的存在,模型可以对前景和背景的扩散过程进行同时优化,对于其中的每个注意力层,作者将前景和背景图像激活的所有 拼接起来,将前景和背景的模型参数合并得到一个可以联合优化的大模型 ,优化目标函数可以表示如下:


此外,还可以对上述目标函数进行简单的修改来实现一些进阶的条件生成,例如将 设置为0就可以将整体框架变为前景条件生成器,此时模型仅对前景进行调整。相反也可以将 设置为0,此时模型仅对背景进行调整,这方便用户对不同图层进行个性化的调整。

2.4 数据集准备和模型训练

本文使用了基于人机交互的方法来收集透明图像数据集进行训练,该数据集的初始版本是从在线图像库购买和免费下载的 20k 个高质量透明 PNG 图像。首先使用初始数据集微调SDXL扩散模型使其具有理解latent transparency的能力。随后使用该模型根据随机文本提示进行图像生成,生成结束后,人工挑选其中的1000个样本添加回训练数据集,并使用LAION美学阈值[2]进行筛选,重复执行25轮以增加样本数量,对于每个生成图像,作者还使用开源的多模态大模型LLaVA[3]生成图像caption来作为文本提示。


随后作者开始构建多图层训练数据集,如上图(b)所示,数据集格式从上一步的{文本,透明图像}扩展为{文本,前景层,背景层},作者首先使用ChatGPT和LLaMA模型对给定图像的前景和背景生成结构化的提示对,例如上图左侧的前景提示为“一只可爱的猫”,中间的整体图像提示为“花园里的猫”,右侧的背景提示为“花园里什么都没有”。在得到提示后,可以使用上一步训练好的透明扩散模型分别生成前景和背景图层。本文的训练设备为4xA100(80G NV-link),整体的训练时间为一周。

三、实验效果

下图展示了本文方法的扩散生成效果,LayerDiffuse模型实现了近乎完美的透明图像感知效果,包括高质量的玻璃透明度、头发、毛皮和半透明效果,如发光、火焰、魔法效果等,同时具有泛化到不同场景不同主题中的能力。


此外,作者还展示了LayerDiffuse的前景和背景条件生成效果,如下图所示,模型能够生成具有几何对称和光线一致的前背景构图。以下图第二行中的“教堂中的灯泡”为例,模型具有基础的对称审美特点。第一行的“坐在长凳上”的例子也表明,LayerDiffuse能够推断出前景和背景之间的相互作用,从而提高图像的层次感


除了可视化效果,作者还从视觉感知层面对本文方法进行了评估,作者设置了一个完善的用户评估方,具体来说,用户评估共有14人参与,其中11人为网络众包工作者,1人为计算机专业学生,2人为专业内容创作者。作者将LayerDiffuse与SD+方法(SD+表示先使用Stable Diffusion生成RGB图像,然后进行抠图)进行对比,用户需要对100个图像样本进行主观偏好打分,随后计算平均偏好率进行对比,结果如下表group1所示,可以看到,LayerDiffuse在97%的情况下均优于其他方法。


此外,作者还进行了一个group2实验,使用与group1相同的评价指标,但是对比样本是从商业网站Adobe Stock上下载得到的,从上表的对比结果可以看出,本文方法的用户偏好率非常接近于商业网站(45.3%vs.54.7%)

四、总结

本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。

参考

[1] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

[2] C. Schuhmann, R. Beaumont, R. Vencu, C. W. Gordon, R. Wightman, and J. Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.

[3] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. In NeurIPS, 2023.

Illustration From IconScout By Delesign Graphics

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩勇被逮捕!

韩勇被逮捕!

新京报
2024-04-29 10:24:01
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
冉莹颖浴室照曝光!冉莹颖身材太好了,网友:邹市明这能忍住吗?

冉莹颖浴室照曝光!冉莹颖身材太好了,网友:邹市明这能忍住吗?

拳击时空
2024-04-29 06:21:09
后续!穿和服跳日本舞原因找到了,两女子不简单,知情人透露内情

后续!穿和服跳日本舞原因找到了,两女子不简单,知情人透露内情

影孖看世界
2024-04-28 19:44:30
哪吒宣布改名并发起投票,新名字合众却被网友调侃为“乌合之众”

哪吒宣布改名并发起投票,新名字合众却被网友调侃为“乌合之众”

映射生活的身影
2024-04-29 10:16:31
新冠疫苗之父杨晓明被抓,带队研制科兴疫苗,曾9个月抽60管血!

新冠疫苗之父杨晓明被抓,带队研制科兴疫苗,曾9个月抽60管血!

闲事杂说
2024-04-28 02:12:03
科研人员被迫搬离实验室?上海市公共卫生临床中心回应

科研人员被迫搬离实验室?上海市公共卫生临床中心回应

界面新闻
2024-04-29 07:20:39
“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

古希腊掌管松饼的神
2024-04-28 09:10:08
丈夫、弟弟、儿子均遇难!家属质疑“华为问界M7刚买仨月事故后起火”,回应→

丈夫、弟弟、儿子均遇难!家属质疑“华为问界M7刚买仨月事故后起火”,回应→

鲁中晨报
2024-04-28 15:49:03
网传上海某公募基金食堂超豪华的自助餐,直言是散户的血和泪…

网传上海某公募基金食堂超豪华的自助餐,直言是散户的血和泪…

火山诗话
2024-04-28 15:33:02
76人1-3尼克斯濒临出局 布伦森47+10创6纪录恩比德末节5中0

76人1-3尼克斯濒临出局 布伦森47+10创6纪录恩比德末节5中0

醉卧浮生
2024-04-29 05:20:45
遭到重创!Shams:森林狼主帅芬奇可能遭遇髌腱撕裂

遭到重创!Shams:森林狼主帅芬奇可能遭遇髌腱撕裂

懂球帝
2024-04-29 13:04:14
990万元!周鸿祎迈巴赫成交!市场价不到100万,本人回应:我都懵了

990万元!周鸿祎迈巴赫成交!市场价不到100万,本人回应:我都懵了

每日经济新闻
2024-04-28 20:41:34
悲催!广州南沙环宇城跳楼女子自杀动机公布:52岁,因情所困…

悲催!广州南沙环宇城跳楼女子自杀动机公布:52岁,因情所困…

火山诗话
2024-04-29 06:44:33
三位拉美外长几乎同时访华!阿根廷总统米莱派来的她,该学谁?

三位拉美外长几乎同时访华!阿根廷总统米莱派来的她,该学谁?

新民晚报
2024-04-29 10:41:20
张颂文人设崩了?首档综艺播出后,网友辣评:又丑又油又装

张颂文人设崩了?首档综艺播出后,网友辣评:又丑又油又装

趣吃娱
2024-04-28 22:21:28
看完问界M7的高速事故,我最想骂的其实是营销号

看完问界M7的高速事故,我最想骂的其实是营销号

差评
2024-04-29 11:04:33
彭博社:iOS 18将彻底改变苹果的许多内置应用

彭博社:iOS 18将彻底改变苹果的许多内置应用

威锋网
2024-04-28 23:08:06
同样是争议言行,田馥甄遭抵制,蔡依林却能稳稳捞金,原因太简单

同样是争议言行,田馥甄遭抵制,蔡依林却能稳稳捞金,原因太简单

萌神木木
2024-04-28 19:59:58
汪小菲开心!马筱梅与张兰同桌吃饭,乖巧敬酒获得张兰欢心

汪小菲开心!马筱梅与张兰同桌吃饭,乖巧敬酒获得张兰欢心

素素娱乐
2024-04-29 07:04:16
2024-04-29 13:16:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6207文章数 94254关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

牛弹琴:总理在钓鱼台会见马斯克 向美国释放明确信号

头条要闻

牛弹琴:总理在钓鱼台会见马斯克 向美国释放明确信号

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

健康
房产
教育
亲子
游戏

春天野菜不知不识莫乱吃

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

教育要闻

17岁艺考生被老师压断腿,致十级伤残影响高考,学校回应赔偿事宜

亲子要闻

妈妈不知道台阶大烫 让娃坐下,宝宝:让我坐肯定有她的道理

《Goodnight Universe》Steam页面 不支持简中

无障碍浏览 进入关怀版