AIGC领域中的一项重要子任务就是对图像进行风格化处理,一般涉及到对图像视觉外观和纹理进行编辑(被视为是风格信息),同时保留其底层对象、结构和概念不变(被视为是内容信息)。为了达到这种编辑效果,就需要实现对图像中风格和内容进行分离。现有的方法通常需要训练专门的分离模型或者需要进行大量的优化,使用成本较高。
本文介绍一篇全新的图像风格化工作,本文作者巧妙的将LoRA(低秩适应)机制引入到图像编辑领域,提出了一种称为B-LoRA的框架,该框架可以隐式分离单个图像中的风格和内容组件,同时继承了LoRA的各种优势,包括轻量化训练和即插即用等功能。此外,作者通过深度分析现有流行扩散模型(Stable Diffusion XL,SDXL)的内部架构,发现仅需要联合设置两个B-LoRA块即可以实现图像内容和风格的分离,从而显著的提升各种下游图像风格化任务的性能和效果。
论文题目: Implicit Style-Content Separation using B-LoRA 论文链接: https://arxiv.org/abs/2403.14572 项目主页: https://b-lora.github.io/B-LoRA/ 代码仓库: https://github.com/yardenfren1996/B-LoRA
一、引言
在图像生成和编辑领域,内容一般特指图像的语义信息和结构,而风格通常是指视觉特征和模式,例如颜色和纹理。由于风格和内容信息紧密相连,导致模型对图像进行操作时需要在风格转换和内容保留之间进行权衡。现有的方法需要对模型进行微调训练以适应到新的样式或内容中,但是这种方法非常容易过拟合。
与现有的技术路线不同,本文提出了一种称为B-LoRA的风格转换框架,如上图所示,由于B-LoRA继承了原始LoRA[1]的优势,具有高度的任务灵活性,同时不容易出现过拟合(仅优化模型注意层中新加入的低秩权重,预训练模型的参数保持冻结)。通过对SDXL内部结构进行分析,作者发现仅需要对两个特定的transformer层设置B-LoRA块就可以实现对图像内容和风格的分离。
B-LoRA的另一个优点是即插即用的灵活性,它可以作为单独的组件应用到各种下游图像编辑任务中,而不需要任何额外的训练或微调。例如上图展示的风格迁移、文本引导的风格操作和条件图像生成等任务。
二、本文方法
2.1 对SDXL架构进行分析
作者首先对预训练的SDXL模型架构进行分析,SDXL是一个基于扩散的文本到图像生成模型,其主干网络采用了一个大型UNet架构,由70个注意力层组成,这些注意力层可以被分成11个transformer块,前两个和最后三个块分别包含4个和6个注意力层,中间6个块各包含10个注意力层,细节如下图所示。
SDXL可以接受文本作为条件进行生成,具体来说,给定文本提示 ,首先使用OpenCLIP ViT-bigG和CLIP ViT-L两个模型对其进行编码,然后将两个编码拼接起来作为最终的文本条件,随后将通过交叉注意力层馈入到网络中。由于本文的目标是将输入图像 的风格和内容解耦为单独的信号再进行处理,因而需要对SDXL中每个层对生成图像的风格或内容的贡献进行判定。
判定方法非常简单,即将不同的文本提示注入到每个SDXL Transformer块的交叉注意层中,随后计算这些提示与生成图像之间的语义相似度。当只改变第 个块对应的输入提示时,如果观察到生成图像的变化较为明显,则表明该块对图像质量变化占主导地位。在实际操作时,作者重点检查了SDXL的6个中间Transformer块 ,并且定义了两组随机的文本提示 和 ,其中前者通过修改对象类别来定义内容,后者通过修改颜色来定义风格,然后使用CLIP来计算生成图像的变化程度。对于一对提示 ,作者通过将变化提示 的嵌入注入到 中,同时将原始提示 的嵌入注入到其他层 中来生成新图像 。对6个Transformer块均执行后可以得到6幅图像,可以计算得到每对提示的变化相似度得分:
其中 和 分别是生成图像的 CLIP 图像嵌入和文本提示的 CLIP 嵌入。作者总共挑选了400对内容和风格提示进行了实验,实验结果表明SDXL模型中的第2、4个Transformer块对生成内容的影响最大,而第5个块对生成风格的影响最大,如下图所示。
基于上述发现,作者认为仅需要对第2、4和第5个块进行优化就可以实现隐层特征的解耦,而无需对整体模型微调。作者引入了LoRA模块[1]来对这两部分进行单独优化,令表示预训练SDXL模型的冻结权重,令表示每个块的低秩适应矩阵,优化过程主要分为两部分,第一部分优化 ,第二部分优化 。
优化过程和生成结果如上图所示,可以看出,更倾向于控制图像中内容信息,且可以更好的捕获到图像中的细节信息。作者将这种解耦方式称为B-LoRA,因为其只对两个Transformer块进行了LoRA微调,这样可以节省70%的显存占用。
2.3 B-LoRA的风格化操作
在实验图像内容和风格的解耦后,作者重点对 和 两层进行微调,其中 捕获内容, 捕获风格,通过微调它们的参数来实现图像的风格化操作,整体过程如下图所示。
给定一个内容图像 和一个风格图像 ,分别学习它们对应的 B-LoRA 权重和。然后将这两个B-LoRA权重组合到预训练的SDXL模型中,就可以将 的内容与 的风格进行融合,来生成一个新的风格化图像(如上图1所示)。
为了实现文本为条件的图像风格化效果(如上图2所示),只要使用内容图像对应的B-LoRA权重,将其与用户输入的文本提示进行融合就可以实现对图像风格的编辑,这样可以很好的保留 的内容特征。
此外还可以通过排除仅使用的方式来调整模型仅关注图像中的特定风格,这样允许用户通过输入不同的文本来单独控制生成内容(如上图3所示)。
三、实验效果
本文的实验主要围绕B-LoRA方法在三种下游图像风格化任务上的效果:
(1)图像风格迁移:给定一个内容图像和一个风格图像,通过组合两个B-LoRA的权重实现风格迁移。
(2)基于文本的图像风格编辑:仅使用内容图像的B-LoRA权重,加上文本提示实现对图像风格的编辑。
(3)一致的风格生成:使用风格图像的B-LoRA权重,生成具有相同风格的新图像。
作者选取了目前较为流行的SOTA方法作为对比baseline,其中包括ZipLoRA、StyleDrop 和 StyleAligned等方法,这些方法均依赖于大型预训练扩散模型的先验,视觉生成对比实验如下图所示。
其中前两行展示了图像风格迁移的效果,即要求模型迁移style图像中的风格,同时保留content图像中的内容。可以看到,本文的方法相比其他方法更加稳定。此外,第三行图像展示了基于文本的图像风格编辑的效果,可以看到本文方法对输入对象的内容进行了良好的保留,而其他方法(例如Style-Aligned)则完全丢失了图像主体内容。
作者还进行了数值定量实验,评估指标使用DINO ViT-B/8 特征来计算生成图像与原始图像之间的相似度。实验结果如上表所示,本文的B-LoRA获得了最佳的风格对齐分数,这表明本文方法具有优越的风格迁移适应能力。
作者也展示了B-LoRA方法的一些局限性,例如对一些风格和内容紧密结合的图像来说,风格信息对目标身份起到了决定性作用,因此当对这种图像的内容进行风格化处理时,很容易丢失目标的身份信息,如上图(a)(b)所示。此外,B-LoRA在面对一些复杂场景时也会出现难以准确捕获场景结构的情况,如上图(c)所示。作者表明这些局限性可以通过进一步探索LoRA解耦的属性来解决,例如在解耦时考虑更加细粒度的结构、形状、颜色、纹理等属性。
四、总结
本文的主要研究目标是隐式地将单个图像分解为其风格和内容表征,从而更加灵活的处理各种图像风格化任务。作者通过分析现有SDXL (Stable Diffusion XL)模型的架构发现,可以利用LoRA (Low-Rank Adaptation)技术来捕获图像的风格和内容成分,因而作者提出了B-LoRA框架来对图像的风格和内容信息进行分别编码,通过对不同的LoRA权重进行更新和融合就可以实现各种下游编辑效果。由于B-LoRA仅需要对少量的Transformer块进行优化,可以有效避免过拟合问题,同时大大提高了训练效率。
参考资料
[1] J. Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen- Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. ArXiv, abs/2106.09685, 2021.
llustration From IconScout By roundsquid
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.