网易首页 > 网易号 > 正文 申请入驻

生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

0
分享至

机器之心专栏

机器之心编辑部

扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。

此外,奇点问题也会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。

通过大量的实验验证表明,仅需训练一次,SingDiffusion 模块即可无缝应用到现有的扩散模型中,显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下,SingDiffusion 能够显著提升当前方法的生成质量,特别是在应用于 Stable Diffusion1.5(SD-1.5)后,其生成的图像质量更是提升了 33%



论文地址:https://arxiv.org/pdf/2403.08381.pdf

项目地址:https://pangzecheung.github.io/SingDiffusion/

论文题目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性





奇点时刻的采样



即插即用的 SingDiffusion 模块



奇点处的采样会影响扩散模型生成图像的质量。例如,在输入高或低亮度的提示时,现有方法往往只能生成平均灰度的图像,这被称为平均灰度问题。这个问题源于现有方法忽略了 t=0 时奇点处的采样,而是在 1-ϵ 时刻使用标准高斯分布作为初始分布进行采样。然而,正如上图所示,标准高斯分布与实际的 1-ϵ 时刻的数据分布存在较大的差距。



在这样的差距下,根据 Proposition 3,现有方法等同于在 t=1 时朝着一个均值为 0 的图像进行生成,即平均灰度图像。因此,现有方法难以生成亮度极强或极弱的图像。为了解决这个问题,该研究提出了一个即插即用的 SingDiffusion 方法,通过拟合标准高斯分布与实际数据分布之间的转换来弥补这一差距。

SingDiffuion 的算法如下图所示:





实验

首先,该研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三个模型上验证了 SingDiffusion 解决平均灰度问题的能力。该研究选择了四个极端的提示,包括 「纯白 / 黑背景」 和 「单色线条艺术标志在白 / 黑背景上」,作为条件进行生成,并计算生成图像的平均灰度值,如下表所示:



从表格中可以看出,该研究能够显著地解决平均灰度值问题,生成符合输入文字描述亮度的图像。此外,该研究还可视化了在这四个提示语句下的生成结果,如下图所示:



从图中可以看出,加入该方法后,现有的扩散模型能够生成偏黑或者偏白的图像。

为了进一步研究该方法对于图像质量的提升,该研究在 COCO 数据集上选择了 30,000 个描述进行了测试。首先,该研究展示了在不使用无分类器引导下,模型本身的生成能力,如下表所示:



从表格中可以看出,所提出的方法能够显著降低生成图像的 FID,并提升 CLIP 指标。值得注意的是,在 SD-1.5 模型中,该论文中的方法相比于原模型在 FID 指标上降低了 33%。

进一步地,为了验证所提出方法在无分类器引导下的生成能力,该研究还在下图中展示了在不同引导大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲线:



从图中可以看出,在相同的 CLIP 水平下,所提出的方法能够获得更低的 FID 数值,生成更逼真的图像。

此外,该研究还展示了所提出方法在不同 CIVITAI 预训练模型下的泛化能力,如下图所示:



可以看出,该研究所提出的方法仅需进行一次训练,即可轻松地应用到已有的扩散模型中,解决平均灰度问题。

最后,该研究所提出的方法还能够无缝地应用到预训练的 ControlNet 模型上,如下图所示:



从结果中可以看出,该方法能有效解决 ControlNet 的平均灰度问题。

参考文献:

[1] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems (NeurIPS), pages 26565–26577, 2022. 3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
服务京津冀医疗协同发展  北大医疗将新建一所三甲综合医院

服务京津冀医疗协同发展 北大医疗将新建一所三甲综合医院

央广网
2024-05-15 10:20:28
恭喜! 广东宏远拒绝重建,金主出千万续约周琦,重金引入超级外援!

恭喜! 广东宏远拒绝重建,金主出千万续约周琦,重金引入超级外援!

开心体育站
2024-05-15 13:05:31
计划退役?樊振东深夜摊牌,4字表态上热搜,官宣决定,王皓祝福

计划退役?樊振东深夜摊牌,4字表态上热搜,官宣决定,王皓祝福

东球弟
2024-05-15 08:55:37
江苏一儿媳被公公摁地上5刀捅死,哭求:别捅了,我再也不敢了

江苏一儿媳被公公摁地上5刀捅死,哭求:别捅了,我再也不敢了

莉雅细细谈
2024-05-14 21:05:08
网友发现冯提莫的秘密,户外直播永远要穿着它,里面构造有秘密

网友发现冯提莫的秘密,户外直播永远要穿着它,里面构造有秘密

新游戏大妹子
2024-05-14 12:47:30
问界M7高速上拉起遮阳挡自动驾驶后续 车主发视频致歉

问界M7高速上拉起遮阳挡自动驾驶后续 车主发视频致歉

三言科技
2024-05-13 16:43:05
流民,铸就了诡谲的历史

流民,铸就了诡谲的历史

我是历史其实挺有趣
2024-05-14 13:18:52
热搜第一!约基奇40+13创纪录有望大翻盘 最佳防守球员被打成笑话

热搜第一!约基奇40+13创纪录有望大翻盘 最佳防守球员被打成笑话

厝边人侃体育
2024-05-15 13:03:21
懂球!詹姆斯赛前支招掘金:包夹华子,戈贝尔在三秒区没威胁

懂球!詹姆斯赛前支招掘金:包夹华子,戈贝尔在三秒区没威胁

懂球帝
2024-05-15 15:03:08
长城炮车主被车顶电动帐篷卡脖身亡,帐篷厂商秋野地发布声明

长城炮车主被车顶电动帐篷卡脖身亡,帐篷厂商秋野地发布声明

潇湘晨报
2024-05-15 15:00:14
打败美元的不是人民币,而是电动车?73%石油进口的我们没有退路

打败美元的不是人民币,而是电动车?73%石油进口的我们没有退路

户外小阿隋
2024-05-15 00:33:03
被约基奇打爆!掘金记者:戈贝尔会做噩梦吧 太残暴了

被约基奇打爆!掘金记者:戈贝尔会做噩梦吧 太残暴了

直播吧
2024-05-15 13:15:08
幽默段子:给表婶打电话,听她说话气喘吁吁的。我坏笑着说让她忙吧,但手机没挂。没想到,表婶也没挂……

幽默段子:给表婶打电话,听她说话气喘吁吁的。我坏笑着说让她忙吧,但手机没挂。没想到,表婶也没挂……

微法官
2024-05-15 00:03:23
俄媒:俄罗斯国防部长库兹涅佐夫被拘留,引发轰动

俄媒:俄罗斯国防部长库兹涅佐夫被拘留,引发轰动

亡海中的彼岸花
2024-05-14 17:39:03
华为余承东亲自为用户交付新问界M5 网友称赞:平易近人

华为余承东亲自为用户交付新问界M5 网友称赞:平易近人

手机中国
2024-05-15 11:36:09
新疆各级干部集体看“警示录”!马兴瑞提要求,纪委书记通报案件情况

新疆各级干部集体看“警示录”!马兴瑞提要求,纪委书记通报案件情况

政知新媒体
2024-05-15 12:41:42
山西省省长:山西每年财政支出超过80%用于民生事业

山西省省长:山西每年财政支出超过80%用于民生事业

红星新闻
2024-05-15 11:45:11
大S的模仿者又出道了,不得不说大S确实是流量密码

大S的模仿者又出道了,不得不说大S确实是流量密码

娱乐的小灶
2024-05-15 08:33:23
事实证明,美貌的天敌并不是长相,而是“长期运动”,显老又发福

事实证明,美貌的天敌并不是长相,而是“长期运动”,显老又发福

时尚穿搭生活馆
2024-05-14 16:31:06
从5月起,部分退休老人免费乘车待遇,高龄补贴迎来新动态,看看

从5月起,部分退休老人免费乘车待遇,高龄补贴迎来新动态,看看

社保小达人
2024-05-15 12:27:42
2024-05-15 15:12:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8987文章数 141917关注度
往期回顾 全部

科技要闻

谷歌回击OpenAI:搜索大改 新品剑指GPT-4o

头条要闻

车主提车半个月被车顶帐篷卡脖身亡 涉事帐篷仍在销售

头条要闻

车主提车半个月被车顶帐篷卡脖身亡 涉事帐篷仍在销售

体育要闻

乔丹-贝尔:CBA外援的另一种用法?

娱乐要闻

欧阳娜娜营销才女人设却没拿到学位?

财经要闻

“20只东北虎”魂断资本局

汽车要闻

无感胜有感 驾驶沃尔沃EX30竟与众不同?

态度原创

艺术
健康
教育
游戏
公开课

艺术要闻

湖山放怀——牛朝山水画作品展 呈现10年间160余幅山水佳作

在中国,到底哪些人在吃“伟哥”?

教育要闻

萌叔说健康|师生同场 快乐健康

尘埃落定!《地狱潜者2》新补丁将PSN设为"可选"项

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版