网易首页 > 网易号 > 正文 申请入驻

扩散模型进军专业图层,斯坦福提出LayerDiffuse实现分层扩散,效果直逼商业网站

0
分享至

大数据文摘受权转载自将门创投


目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对图像进行透明分层制作,现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作,本文提出了一种名为LayerDiffuse的新型扩散方法,LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”(隐透明度)的概念,通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中,并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改,这样可以保留预训练扩散隐空间的图像生成质量。作者表示,LayerDiffuse可以应用在多种不同的开源图像生成模型中,来实现图像前景/背景条件层生成、结构引导生成等复杂的功能。

此外,本文的实验结果也表明,相比普通做法(先生成图像再抠图),LayerDiffuse直接生成的透明图层图像在大多数情况下(97%)更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比,本文方法生成的图像也具有一定的竞争力。

论文题目: Transparent Image Layer Diffusion using Latent Transparency 论文链接: https://arxiv.org/abs/2402.17113 代码仓库: https://github.com/layerdiffusion/LayerDiffuse

一、引言

目前,绝大多数图像内容编辑软件和工作流程都基于图层进行设计,但现有的图像生成大模型仍然不具备这方面的能力,这一现象与庞大的市场需求形成了鲜明的对比。本文提出的LayerDiffuse应运而生,本文作者了解到,制作可以训练图层生成模型的数据集成本非常高昂,互联网上的高质量透明图像元素往往都有很高的下载费用,这不像普通的配对文本图像数据集(例如LAION)那样好获取。

此外,对于大多数开源的图像生成模型,例如Stable Diffusion。即使仅用少量的训练数据对其微调,也会对其潜在空间带来巨大的偏差,从而严重降低微调性能。为此,本文作者提出了一种latent transparency(潜在透明度)方法,可以将图像透明度编码为潜在偏移量,该偏移量经过明确调节可以防止对已有扩散模型的潜在分布造成破坏。LayerDiffuse的生成效果如上图所示,用户可以通过输入文本来生成图像,并且实现前景和背景的分离。

为了降低LayerDiffuse的整体质量和训练成本,作者还引入了共享注意力机制来确保图像层之间的一致性,并且使用LoRA框架对模型进行训练。值得一提的是,本文的两位作者Lvmin Zhang和Maneesh Agrawala同样也是ICCV 2023最佳论文《ControlNet》的作者,在图像生成领域有着丰富的经验。

二、本文方法

LayerDiffuse的核心思路是在已有预训练扩散模型的基础上,进一步扩展模型以同时生成多个透明层,整体框架如下图所示,作者将前三个RGB色彩通道图像定义为 ,将alpha通道定义为 ,要生成的透明RGBA图像定义为 。其中 可以被转换为“premultiplied image”: 。后模型的生成解码器可以根据premultiplied image来将图像的透明通道和RGB色彩通道分离开来实现图层分层效果

2.1 潜在透明度(latent transparency)

latent transparency是本文新提出的一个概念,它可以应用在预训练的扩散模型中,例如Stable Diffusion。这类模型通常使用一个latent编码器(VAE)来将RGB图像转换为latent向量,然后再将其输入扩散模型中进行生成。为了加入latent transparency,必须保证尽可能的保留原有扩散模型的latent空间分布。具体来说,给定图像 、预训练且冻结参数的扩散编码器 和解码器 ,假设透明偏移量为 ,经过修改后的图像特征为 ,我们可以直接测量透明偏移量的大小:

直观上,如果 相对较高,则 可能是有害的,并且会破坏扩散模型编码器-解码器的重建功能。相反则表明偏移量 的加入不会影响扩散模型原有的生成效果。因而作者将作为一个新的条件参数,并从头训练一个latent transparency编码器,同时将RGB通道和alpha通道作为输入,将像素空间透明度转换为latent偏移量: 。随后训练可以理解透明图层的扩散解码器以实现 ,其中 分别表示重构得到的RGB图层和alpha图层。

作者通过联合执行L2重构损失和PatchGAN判别损失来优化加入latent transparency后的扩散模型编码器和解码器。

2.2 加入latent transparency的扩散过程

LayerDiffuse的扩散过程首先从透明图像出发,并且可以在已有的潜在空间上进行明确微调。在给定透明调整偏移量后,扩散算法逐渐向透明图像添加噪声并生成噪声图像,其中表示添加噪声的次数,当足够大时,图像会近似于纯噪声。此时将扩散步骤 和文本提示 作为联合条件输入到扩散模型 中进行生成,网络根据已有图像预测得到添加到透明图像上的噪声,优化损失函数可以表示如下:

网络的训练过程如下图所示,其中Stable Diffusion模型在这一过程中参数可以进行更新。

2.3 实现图层之间的扩散

在扩散模型具有理解latent transparency概念之后,就可以实现图层之间的分层扩散。作者使用注意力共享机制和低秩LoRA策略将基础模型扩展为多层模型,如下图所示。

这里将图像分为前景层和背景层,前景的潜在表示向量为 ,背景潜在表示向量为 ,并设置两套LoRA参数对潜在图像实现去噪,去噪扩散目标可以表示为:

其中 分别表示添加在前景和背景中的潜在噪声,由于共享注意力注意力机制的存在,模型可以对前景和背景的扩散过程进行同时优化,对于其中的每个注意力层,作者将前景和背景图像激活的所有 拼接起来,将前景和背景的模型参数合并得到一个可以联合优化的大模型 ,优化目标函数可以表示如下:

此外,还可以对上述目标函数进行简单的修改来实现一些进阶的条件生成,例如将 设置为0就可以将整体框架变为前景条件生成器,此时模型仅对前景进行调整。相反也可以将 设置为0,此时模型仅对背景进行调整,这方便用户对不同图层进行个性化的调整。

2.4 数据集准备和模型训练

本文使用了基于人机交互的方法来收集透明图像数据集进行训练,该数据集的初始版本是从在线图像库购买和免费下载的 20k 个高质量透明 PNG 图像。首先使用初始数据集微调SDXL扩散模型使其具有理解latent transparency的能力。随后使用该模型根据随机文本提示进行图像生成,生成结束后,人工挑选其中的1000个样本添加回训练数据集,并使用LAION美学阈值[2]进行筛选,重复执行25轮以增加样本数量,对于每个生成图像,作者还使用开源的多模态大模型LLaVA[3]生成图像caption来作为文本提示。

随后作者开始构建多图层训练数据集,如上图(b)所示,数据集格式从上一步的{文本,透明图像}扩展为{文本,前景层,背景层},作者首先使用ChatGPT和LLaMA模型对给定图像的前景和背景生成结构化的提示对,例如上图左侧的前景提示为“一只可爱的猫”,中间的整体图像提示为“花园里的猫”,右侧的背景提示为“花园里什么都没有”。在得到提示后,可以使用上一步训练好的透明扩散模型分别生成前景和背景图层。本文的训练设备为4xA100(80G NV-link),整体的训练时间为一周。

三、实验效果

下图展示了本文方法的扩散生成效果,LayerDiffuse模型实现了近乎完美的透明图像感知效果,包括高质量的玻璃透明度、头发、毛皮和半透明效果,如发光、火焰、魔法效果等,同时具有泛化到不同场景不同主题中的能力。

此外,作者还展示了LayerDiffuse的前景和背景条件生成效果,如下图所示,模型能够生成具有几何对称和光线一致的前背景构图。以下图第二行中的“教堂中的灯泡”为例,模型具有基础的对称审美特点。第一行的“坐在长凳上”的例子也表明,LayerDiffuse能够推断出前景和背景之间的相互作用,从而提高图像的层次感

除了可视化效果,作者还从视觉感知层面对本文方法进行了评估,作者设置了一个完善的用户评估方,具体来说,用户评估共有14人参与,其中11人为网络众包工作者,1人为计算机专业学生,2人为专业内容创作者。作者将LayerDiffuse与SD+方法(SD+表示先使用Stable Diffusion生成RGB图像,然后进行抠图)进行对比,用户需要对100个图像样本进行主观偏好打分,随后计算平均偏好率进行对比,结果如下表group1所示,可以看到,LayerDiffuse在97%的情况下均优于其他方法。

此外,作者还进行了一个group2实验,使用与group1相同的评价指标,但是对比样本是从商业网站Adobe Stock上下载得到的,从上表的对比结果可以看出,本文方法的用户偏好率非常接近于商业网站(45.3%vs.54.7%)

四、总结

本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。

参考

[1] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

[2] C. Schuhmann, R. Beaumont, R. Vencu, C. W. Gordon, R. Wightman, and J. Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.

[3] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. In NeurIPS, 2023.

Illustration From IconScout By Delesign Graphics

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员王志文:不留骨灰,不设墓地,他的选择值得无数人深思

演员王志文:不留骨灰,不设墓地,他的选择值得无数人深思

以茶带书
2026-04-06 14:11:30
魔术大胜东部第一活塞获3连胜:班凯罗31+5贝恩25分 杜伦18+8

魔术大胜东部第一活塞获3连胜:班凯罗31+5贝恩25分 杜伦18+8

醉卧浮生
2026-04-07 09:41:48
中小银行存款利率下调节奏加快

中小银行存款利率下调节奏加快

财联社
2026-04-07 06:20:23
醉翁之意不在酒!以色列意外披露: 美军营救飞行员实则抢夺浓缩铀

醉翁之意不在酒!以色列意外披露: 美军营救飞行员实则抢夺浓缩铀

铁锤简科
2026-04-07 12:15:59
东契奇治伤更多细节:在西班牙接受注射 里夫斯情比他更不确定

东契奇治伤更多细节:在西班牙接受注射 里夫斯情比他更不确定

罗说NBA
2026-04-07 05:30:50
记一次“约炮”被骗的详细经过

记一次“约炮”被骗的详细经过

云上南安
2026-04-06 17:11:46
北京一老人去世,养女被遗物吓得求助政府,揭开隐藏60年的秘密

北京一老人去世,养女被遗物吓得求助政府,揭开隐藏60年的秘密

米果说识
2026-04-06 19:33:03
数学的本质到底是什么?看完这篇文章你会爱上数学

数学的本质到底是什么?看完这篇文章你会爱上数学

真相Truth
2026-04-06 06:30:12
59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

丹妮观
2026-04-06 14:49:48
女子剖腹产生下双胞胎,因为娘家人没去帮忙照顾坐月子,被丈夫一顿暴打!

女子剖腹产生下双胞胎,因为娘家人没去帮忙照顾坐月子,被丈夫一顿暴打!

张晓磊
2026-04-07 11:22:59
头孢克肟的“肟”不读kuī,太多人不知道!正确读音意思一次讲清

头孢克肟的“肟”不读kuī,太多人不知道!正确读音意思一次讲清

未央看点
2026-04-05 15:50:19
毛主席83岁时写下的13个铅笔字,网友争议其美丑!

毛主席83岁时写下的13个铅笔字,网友争议其美丑!

书画相约
2026-04-05 07:55:25
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

最新声音
2026-04-06 08:32:33
福建一车辆坠河致5人死亡,当地回应:共造成“3名小孩,2个大人”死亡,其中包括一家三口,事故原因等情况将进一步通报

福建一车辆坠河致5人死亡,当地回应:共造成“3名小孩,2个大人”死亡,其中包括一家三口,事故原因等情况将进一步通报

潇湘晨报
2026-04-07 12:48:14
韩国女星怀孕后,每天和丈夫一起洗澡,节目画面公开后惊呆全场

韩国女星怀孕后,每天和丈夫一起洗澡,节目画面公开后惊呆全场

好贤观史记
2026-04-07 11:26:38
陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

极目新闻
2026-04-06 21:04:20
台湾普通家庭到底啥水平?我去了才知道,答案很现实也让人意外

台湾普通家庭到底啥水平?我去了才知道,答案很现实也让人意外

复转这些年
2026-04-06 23:34:04
美军宣称摸清中国导弹库存!俄专家:中国解放军可以半小时定胜负

美军宣称摸清中国导弹库存!俄专家:中国解放军可以半小时定胜负

共工之锚
2026-04-07 00:20:47
法国央行卖出所有在美托管金条 黄金储备战略转移且实现三赢

法国央行卖出所有在美托管金条 黄金储备战略转移且实现三赢

财联社
2026-04-07 11:48:04
郑丽文来大陆,马英九题字瞬间爆红,书法爱好者该如何入门?

郑丽文来大陆,马英九题字瞬间爆红,书法爱好者该如何入门?

书画相约
2026-04-07 08:09:24
2026-04-07 14:28:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6848文章数 94539关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

陈丽华47岁倒追迟重瑞 财富传承披露:1儿2女均在富华

头条要闻

陈丽华47岁倒追迟重瑞 财富传承披露:1儿2女均在富华

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

教育
家居
时尚
游戏
艺术

教育要闻

学校的校规真的可以这么离谱吗?

家居要闻

雅致惬意 感知生活之美

今年最火的4双平底鞋,配白裙子穿好看又松弛!

PS6真要2027年发售了?AMD重大爆料 芯片验证已启动

艺术要闻

美丽风光看不尽

无障碍浏览 进入关怀版