网易首页 > 网易号 > 正文 申请入驻

ICML 2024 | 即插即用无需训练,几行代码提升Diffusion性能!DSG:基于球面高斯约束引导的条件扩散模型

0
分享至

近期,Guidance技术尝试通过预训练的扩散模型实现无需训练的条件生成,但面临样本质量下降和采样过程长的问题。本文揭示了其背后的原因是采样过程中的流形偏离,并提出了基于球形高斯约束的Guidance方法(DSG)。DSG通过优化策略限制步长在数据流形内,提高了采样效率。此外,DSG具有闭式解,易于集成到现有方法中,且几乎不增加计算成本。我们在多种条件生成任务中验证了DSG的有效性。

论文标题: Guidance with Spherical Gaussian Constraint for Conditional Diffusion 论文链接: https://arxiv.org/abs/2402.03201 代码链接: https://github.com/LingxiaoYang2023/DSG2024

一、摘要

最近的Guidance方法试图通过利用预训练的扩散模型实现损失函数引导的、无需训练的条件生成。虽然这些方法取得了一定的成功,但它们通常会损失生成样本的质量,并且只能使用较小的Guidance步长,从而导致较长的采样过程

在本文中,我们揭示了导致这一现象的原因,即采样过程中的流形偏离(Manifold Deviation)。我们通过建立引导过程中估计误差的下界,从理论上证明了流形偏离的存在。

为了解决这个问题,我们提出了基于球形高斯约束的Guidance方法(DSG),通过解决一个优化问题将Guidance步长约束在中间数据流形内,使得更大的引导步长可以被使用。

此外,我们提出了该DSG的闭式解(Closed-Form Solution), 仅用几行代码,就能够使得DSG可以无缝地插入(Plug-and-Play)到现有的无需训练的条件扩散方法,在几乎不产生额外的计算开销的同时大幅改善了模型性能。我们在各个条件生成任务(Inpainting, Super Resolution, Gaussian Deblurring, Text-Segmentation Guidance, Style Guidance, Text-Style Guidance, and FaceID Guidance)中验证了DSG的有效性。

二、背景:无需训练的条件扩散模型

Classifier guidance首先提出使用预训练的扩散模型进行条件生成。它利用贝叶斯公式 ,通过引入额外的似然项 来实现条件生成:

目前无需训练的方法,将time-dependent classifier替换成某个定义在 上的可微损失函数 ,并利用Tweedie’s formula求解额外的似然项:

这里 表示加噪t步的data, 表示引导步长。因此,总体的采样过程可以被写成

三、损失函数引导过程中的流形偏离(Manifold Deviation)

尽管先前的工作由于其灵活的特性在各种条件生成任务中取得了巨大成功,但它们会牺牲生成样本的质量。在本文中,我们提出这种现象产生的原因是线性流形假设(Linear Manifold Assumption)和Jensen Gap导致的流形偏离:

1. 线性流形假设:线性流形假设是一个相当强的假设,因此在实践中通常会引入误差。

2. Jensen Gap:在实际情况下, 的分布是未知的,将其简单地用Tweedie’s formula的估计均值替代会引入Jensen Gap:

本文指出,即使DPS提供了Jensen Gap的上界,它仍然具有下界,也会引入估计误差:

四、基于球面高斯约束引导的条件扩散模型(DSG)

既然无论Jensen Gap还是线性流形假设都会不可避免地引入估计误差,那么为什么不在已经无条件的中间数据流形(Intermediate Data Manifold)中,找到那个最接近条件采样的点呢?

因此,我们提出了DSG(Diffusion withSphericalGaussian constraint),一种在无条件中间流形 的高置信区间内进行Guidance的优化方法:

这里 表示高斯分布的概率为( )的置信区间。在这个优化问题中目标函数倾向于让采样过程在梯度下降方向进行,约束则是将采样约束在高斯分布的高置信区间。

然而,当高置信区间包含 n 维空间中时,优化问题就变得具有挑战性。幸运的是,高维各向同性高斯分布的高置信区间集中在一个超球上,我们可以通过用这个超球近似它来简化约束,称为球面高斯约束(Spherical Gaussian Constraint):

这里表示n维高斯分布近似的超球。通过这种近似方法,我们能够得到优化问题的闭式解:

这个闭式解的求得能够表明,DSG可以无缝插入目前的无需训练的条件扩散模型,如DPS、Freedom、UGD,而不造成额外的计算复杂度。并且,只需要修改几行代码就能够产生更好的样本和达到更快的推理速度。

另外,从另一个角度看,DSG也可以看成在预测均值 上进行梯度下降。而且,由于 与 正相关,DSG可以看作是自适应的梯度下降方法,在一开始下降步长大,在最后下降步长小。在实验中,我们发现DSG最大的步长能够达到DPS的400倍,因此能够在更小的DDIM steps下相比于DPS更加鲁棒。

此外,我们发现DSG虽然增强了对齐能力和真实性,但是在多样性方面有所损失。因此,我们对原始采样方向和梯度下降方向的进行加权,就像Classifier-free Guidance那样:

这里 表示无条件采样方向, 表示最速梯度下降方向。另外, 会被缩放以满足球面高斯约束。

算法流程图如下:

五、实验结果

我们验证了DSG在各个任务上的性能都能够显著地超过baseline。

Linear Inverse Problems in FFHQ with DDIM steps=1000

Linear Inverse Problems in FFHQ with DDIM steps=100,50,20

可以看到,DPS+DSG在DDIM steps=1000,100,50,20都远超DPS,并且在DDIM steps较小的时候能够观察到与DPS更大的性能差距。这种现象可归因于DPS的局限性,即为了不远离流形使用的小步长。因此,随着guidance步数的减少,测量结果的对齐变得越来越具有挑战性。

相比之下,我们的模型在性能上只有轻微的下降。这是因为DSG允许更大的步长,同时仍然保留在中间流形上。因此,即使减少了去噪步骤,我们仍然可以在生成真实样本的同时实现与测量结果的精确对齐,如图6所示。

FaceID Guidance in Celeba-HQ

Text-Segmentation Guidance

Style Guidance

Text-Style Guidance

Other Tasks

由于篇幅限制,更多实验结果、实验设置请查看原文以获取更多细节。

六、总结

在本文中,我们揭示了无需训练的条件扩散模型中的一个关键问题:在使用基于损失函数的引导时,在采样过程中会出现流形偏移现象。为解决这一问题,我们提出了一种 基于球面高斯约束引导的条件扩散(DSG)方法,灵感来源于高维高斯分布中的集中现象。DSG通过优化有效地限制引导步骤在中间数据流形内,从而减轻流形偏移问题,并能够使用更大的引导步长。

此外,我们为基于球形高斯约束的DSG去噪过程提供了一个封闭形式的解决方案。值得注意的是,DSG可以作为一个即插即用的模块,用于无需训练的条件扩散模型(CDM)。将DSG整合到这些CDM中,仅涉及修改几行代码,几乎不增加额外的计算成本,但却显著提高了性能。我们已将DSG整合到几个最新的CDM中,用于各种条件生成任务。实验结果验证了DSG在样本质量和时间效率方面的优越性和适应性。

作者:杨凌霄 来源:公众号【PaperWeekly】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

往史过眼云烟
2026-04-05 16:45:07
普通家庭给孩子最好的托举是什么?张雪峰:做到这7点少走十年弯路

普通家庭给孩子最好的托举是什么?张雪峰:做到这7点少走十年弯路

户外阿毽
2026-04-06 06:09:27
田曦薇从小就是班花级别,这美貌不要太出众!

田曦薇从小就是班花级别,这美貌不要太出众!

动物奇奇怪怪
2026-04-05 17:08:34
苏莱曼尼亲属遭美严惩:给中国外逃贪官敲响丧钟!

苏莱曼尼亲属遭美严惩:给中国外逃贪官敲响丧钟!

达文西看世界
2026-04-05 18:25:08
暴雨!大反转!江苏天气从30℃直降……

暴雨!大反转!江苏天气从30℃直降……

新浪财经
2026-04-06 09:57:07
“自动铅笔”事件火了,面相学果然权威,带入同学视角天都塌了!

“自动铅笔”事件火了,面相学果然权威,带入同学视角天都塌了!

番外行
2026-04-04 12:52:45
赵心童10-3小特,可怕不是大胜,而是7进决赛7冠!卫冕世锦赛有戏

赵心童10-3小特,可怕不是大胜,而是7进决赛7冠!卫冕世锦赛有戏

球场没跑道
2026-04-06 05:12:37
普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

胡华成
2026-04-05 09:42:07
李先念到了晚年曾跟人交底:我这辈子真正让我心服口服的就俩

李先念到了晚年曾跟人交底:我这辈子真正让我心服口服的就俩

鉴史录
2026-04-06 00:05:06
马来西亚的“保护费”,比亚迪凭什么交?

马来西亚的“保护费”,比亚迪凭什么交?

民间胡扯老哥
2026-04-05 21:52:01
6岁女童失踪后续:有新线索,知情人士曝更多细节,父母反被波及

6岁女童失踪后续:有新线索,知情人士曝更多细节,父母反被波及

小娱乐悠悠
2026-04-06 09:54:49
“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

番外行
2026-04-03 09:00:51
王楚钦战胜松岛,首夺世界杯男单冠军,日本球迷用四个字盛赞他

王楚钦战胜松岛,首夺世界杯男单冠军,日本球迷用四个字盛赞他

二爷台球解说
2026-04-06 10:30:02
材料学家、中山大学教授陈振兴逝世,享年60岁

材料学家、中山大学教授陈振兴逝世,享年60岁

澎湃新闻
2026-04-05 19:02:27
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
突发!曝58岁香港知名男星去世,2年前醉酒摔倒做了开颅手术

突发!曝58岁香港知名男星去世,2年前醉酒摔倒做了开颅手术

小徐讲八卦
2026-04-06 05:16:05
周杰伦演唱会遭吐槽划水,3小时实际演唱不足90分钟

周杰伦演唱会遭吐槽划水,3小时实际演唱不足90分钟

风月得自难寻
2026-04-06 06:45:26
伊朗最高领袖顾问警告美国:或将封锁曼德海峡作为反制

伊朗最高领袖顾问警告美国:或将封锁曼德海峡作为反制

财联社
2026-04-06 09:25:26
女老师穿亮片裙上课,阳光一照天花板秒变星空顶!学生看傻眼:还听啥课

女老师穿亮片裙上课,阳光一照天花板秒变星空顶!学生看傻眼:还听啥课

鬼菜生活
2026-04-04 05:59:33
美国宇航员代表人类首次肉眼看见月球背面:六小时里他们在找什么

美国宇航员代表人类首次肉眼看见月球背面:六小时里他们在找什么

楠楠自语
2026-04-06 02:37:49
2026-04-06 12:51:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2334文章数 596关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

美以被指欲借库尔德人攻入伊朗 库区官员:绝不会介入

头条要闻

美以被指欲借库尔德人攻入伊朗 库区官员:绝不会介入

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

时尚
亲子
教育
房产
军事航空

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

亲子要闻

这位年轻的伊朗女士,请求革命卫队指挥官用粉红色的导弹瞄准敌人

教育要闻

单位邀请函 | 2026上海高校“春季促就业攻坚行动”暨艺术人才专场招聘会

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版