网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

0
分享至

在这篇论文中,作者讨论了无需训练的扩散加速方法,并提出AdaptiveDiffusion。这个方法可以根据给定的提示动态选择去噪路径。作者还分析了跳步策略中的误差,提出使用三阶估计器来说明计算冗余。大量实验结果表明,这种方法在保证图像质量的同时,能有效降低推理成本,达到了很好的平衡。

论文题目: Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy 论文链接: https://arxiv.org/abs/2410.09873 代码链接: https://github.com/UniModal4Reasoning/AdaptiveDiffusion 项目主页: https://jiakangyuan.github.io/AdaptiveDiffusion-project-page/

一、背景

近年来,扩散模型在高质量图像和视频合成领域崭露头角,展现出强大的生成能力。从艺术创作到数据增强,扩散模型的应用范围不断扩大。然而,传统的去噪技术需要逐步预测噪声,计算量大,导致显著的延迟。

为了解决这一瓶颈,研究者们提出了多种扩散加速方法,主要集中在减少采样步骤、优化模型架构和并行化生成等方式。然而,这些策略大多针对所有prompt采用固定的加速模式。

二、动机:提示词自适应(Prompt-adaptive)加速

图一:不同的潜变量更新策略:(a) 原始 SDXL 执行 50 步的噪声预测与对应的50步潜变量更新得到的结果。(b) AdaptiveDiffusion 根据三阶估计器跳过 25 步噪声预测,而在全部 50 步中都执行潜变量更新得到的结果。(c) SDXL 仅执行 25 步的噪声预测和对应的25步潜变量更新得到的结果。(d) SDXL 在原始 50 步中跳过其中 25 步的噪声预测和对应的潜变量更新得到的结果。

在本文实验中,作者首先发现在保留原有去噪步数的情况下减少噪声预测次数仍然可以生成与原始图像非常相似的生成效果,如图一所示。在此基础上,实验发现不同的提示词可能需要不同的噪声预测路径来达到与原始去噪过程相似或相同的生成效果。图二以 SDXL 模型为例,当输入两个不同的提示词时,为了在减少噪声预测次数的情况下最大程度保留原本生成图像的生成效果,Prompt 1 和 Prompt 2 所需的噪声预测路径呈现出不同的分布。当 Prompt 2 使用与 Prompt 1 相同的噪声预测路径时,其生成效果在视觉和量化指标上(LPIPS,PSNR)均有明显的改进。

图二:不同提示词存在潜在不同的最优跳步路径。
三、方法:AdaptiveDiffusion

基于上述观察,作者提出了AdaptiveDiffusion,一种可以根据不同输入提示词自适应加速生成过程的新加速模式。其核心思想是在去噪过程中,根据输入提示词自适应地减少噪声预测的步数,同时保持最终输出的质量以及与原图的相似度。

为了探索自适应的跳步准则,作者进一步实验发现噪声预测的冗余与潜变量的三阶差分分布显著相关。利用这一关系,作者设计了一种有效的噪声跳步策略来决定何时复用上一步中的噪声预测结果,何时进行更新噪声的计算。该方法使用三阶潜变量差分来评估每个时间步的噪声预测是否冗余,考虑了对输入prompt的依赖性,从而实现了 prompt-adaptive 的加速模式,该加速框架如图三所示。

图三:AdaptiveDiffusion整体加速框架。3.1 跳步单元定义

如图一中所示,在给定总体去噪步数的情况下,对于每个时间步中的噪声预测和潜变量更新而言,噪声预测步数的减少所带来的影响显著小于潜变量更新次数所带来的影响。因此,不同于过去的加速算法选择减少去噪步数或减少每一步噪声预测中的计算量,该工作提出新的跳步策略:对于每个时间步而言,以跳过完整的噪声预测模型为跳步单元来探索每个时间步冗余性,而每一步中的潜变量更新均保留,从而保证充分去噪

3.2 跳步误差估计

在给定上述跳步单元定义后,一种直观的想法是根据跳步误差来判断是否可以跳过当前步的噪声预测。对此,作者从理论和实验结果分析得出下述结论:连续跳任意步数后(以 步为例),得到的去噪图像(或更新后的潜变量)相较于原始不跳步所生成的图像(或潜变量)而言,其潜变量的误差上界可以近似为过去 步之间时间隐变量(timestep embedding)和潜变量(latent)一阶差分的 范数的等价无穷小量,即潜变量的误差近似由过去步之间的潜变量差异和时间步差异累计而成。因此,可以推断当过去连续若干个潜变量变化较小时,可以跳过当前的噪声预测,直接通过复用上一步的噪声来更新当前时间步的潜变量。

图四:不同变量不同阶数差分分布与最优跳步路径的相关性分析。

为了定量分析跳步策略和潜变量之间变化的关系,作者首先利用贪婪算法来近似最优跳步路径。跳步路径定义为由若干 0 / 1 元素组成的序列,其中第 个元素为 1 表示第 步不跳步,为 0 则表示跳步并复用上一步的噪声预测。对于给定跳 步的总体目标,贪婪算法首先遍历搜索出跳一步的最优路径,再基于该路径遍历搜索出跳两步的最优路径,依此类推,逐渐遍历搜索出跳 步的最优路径。其评判准则为最小化跳步后最终生成的图像和原始生成的图像之间的差异。

以贪婪算法得到的跳步路径近似全局最优的跳步路径,作者探索了不同变量不同阶数的差分分布与跳步路径之间的相关性。其结果如图四所示。图四(a)探索了噪声的一阶差分分布和最优跳步路径之间的关系,可以看出无明显的相关性。类似地,图四(b)中展示了潜变量的一阶和二阶差分分布,其中一阶差分分布也无明显的相关性,而二阶差分分布的变化趋势反映了一定的相关性。即,当二阶差分值减小时,对应当前时间步的噪声预测可以复用上一步的结果,当二阶差分值增大时,当前时间步的噪声预测需要更新。

然而,由于二阶差分的增量相对于二阶差分值来说非常小,因此很难在其中抽取出有效信号作为普遍的跳步准则。为此,图四(c)进一步探索了三阶潜变量差分分布和最优跳步路径的关系,可以发现三阶差分和最优跳步路径呈相似并且显著的波动趋势,尤其在早期去噪阶段。同时,考虑到早期潜变量的一阶差分数值较大,早期的跳步路径需要准确地评估,而这可以通过三阶差分来进行估计。(跳步策略和三阶差分之间的定量关系分析见论文附录)

3.3 跳步准则设计

基于上述实验观察和定量分析,作者提出了三阶差分估计器(third-order estimator)作为跳步准则。其表达式如下式所示。

其中, 是一个指示函数,它以 以及过去的潜变量 作为输入,用来估计是否可以跳过下一步的噪声预测。如果 返回 False,那么将会重复使用上一步的噪声来更新 。 表示在时间步 的三阶潜变量差分,

其中 ,定义为 和 之间的差分( )。 是对 的相对尺度进行阈值处理的超参。由于 实际上描述了 和 之间的距离,因此作者提出使用相对于 的差异来表明去噪过程的稳定性。图四(c)展示了 (蓝色虚线)与最优跳步路径之间的强相关性。

3.4 有效性分析

为了验证所提出的三阶估计器的有效性,作者将三阶估计器所得路径与通过贪婪算法搜索得到的最优跳步路径进行对比,如图五(a)所示。可以看出,三阶估计器估计的路径与最优跳步路径的分布大致相似。图五(b)中展示了跳步所导致的累积误差。可以发现,在连续跳过噪声预测后,误差开始迅速增加。因此,作者引入另一个超参 ,即连续跳步的最大步数,来控制累积误差。

此外,论文分析了估计路径与最优路径之间的统计相关性,以测试所设计的准则是否与最优跳步准则显著相关。图五(c)展示了在不同跳步步数下的 统计量和 值。结果表明,当跳步步数适中时,估计的跳步路径与最优跳步路径显著相关。

图五:三阶估计器的有效性分析。四、实验4.1 实验设置

  • 测试任务:Text-to-image, image-to-video, text-to-video, conditional / unconditional image generation;

  • 测试模型:SD-1-5, SDXL, I2VGen-XL, ModelScopeT2V, LDM-4;

  • 测试采样器:DDIM, DPM-Solver++, Euler;

  • 基准数据集:COCO2017, ImageNet-256x256, AIGCBench, MSR-VTT, CIFAR10, LSUN;

  • 评价指标:PSNR, LPIPS, FID, FVD, MACs, Memory, Latency。

4.2 实验结果

图六:COCO2017上T2I任务的加速结果比较。

图七:ImageNet-256x256上加速结果比较。

图八:视频生成数据集上I2V和T2V任务的加速效果比较。

图九:超参敏感性分析。4.3 可视化结果

图十:左边三列为SDXL在COCO2017上的生成样本比较,右边三列为SD-1-5在COCO2017上的生成样本比较。

图十一:I2VGen-XL在AIGCBench上的视频生成样本比较。

图十二:不同跳步步数下最优跳步路径和估计得到的跳步路径比较。(a) 通过贪婪搜索算法在不同跳步目标下获得的跳步路径。(b) 通过三阶估计器在不同跳步阈值下获得的跳步路径。(c) 在COCO2017基准测试上,SDXL生成图像时噪声更新步骤的跳步次数的频率分布。

五、总结

在这篇论文中,作者探讨了无需训练的扩散加速方法,并提出了AdaptiveDiffusion。该方式能够根据给定的prompt动态选择去噪路径。同时,作者进行了跳步策略的误差分析,并进一步提出使用三阶估计器来表明计算冗余。大量广泛的实验结果显示该方法在保证高图像质量的同时有效降低了推理成本,达到了良好的平衡效果。

llustration From IconScout By Kawalan Studio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个“过气”APP,吃透已婚女人的钱包

一个“过气”APP,吃透已婚女人的钱包

DT商业观察
2026-04-21 11:58:59
刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

老玮是个手艺人
2026-03-27 14:46:10
鸡下蛋后为什么要咯咯哒的叫一阵子,是因为痛,还是下蛋后兴奋了才叫?

鸡下蛋后为什么要咯咯哒的叫一阵子,是因为痛,还是下蛋后兴奋了才叫?

农夫也疯狂
2026-05-23 16:27:55
林志玲遭封杀?剧组除名,综艺下架,内地捞金成奢望,国台办回应

林志玲遭封杀?剧组除名,综艺下架,内地捞金成奢望,国台办回应

笑一个吧
2026-05-28 07:20:52
笑死!张雪师父牙哥要单挑德比斯?张雪:你是幼儿园想打大学生!

笑死!张雪师父牙哥要单挑德比斯?张雪:你是幼儿园想打大学生!

兰妮搞笑分享
2026-05-28 00:00:47
全新问界M9售47.98-65.98万!华为余承东:领先友商2年

全新问界M9售47.98-65.98万!华为余承东:领先友商2年

网上车市
2026-05-28 09:49:38
原来窦靖童姑姑是她,是著名歌手,把侄女当女儿养,感情超过王菲

原来窦靖童姑姑是她,是著名歌手,把侄女当女儿养,感情超过王菲

暖心萌阿菇凉
2026-05-26 01:43:39
勇士黄蜂马刺活塞都有意密歇根大六锋线,但他们都可能要向上交易

勇士黄蜂马刺活塞都有意密歇根大六锋线,但他们都可能要向上交易

稻谷与小麦
2026-05-28 09:55:33
颠覆认知!19年研究:每周吃鸡超300克,癌症死亡风险升高127% ,尤其是男性!

颠覆认知!19年研究:每周吃鸡超300克,癌症死亡风险升高127% ,尤其是男性!

梅斯医学
2026-05-28 07:54:38
细糠!!太通透了,这才是对孩子真正的托举!

细糠!!太通透了,这才是对孩子真正的托举!

另子维爱读史
2026-05-25 19:44:13
风波升级!马英九金溥聪恐双双入狱,郑丽文联手台商借势反杀绿营

风波升级!马英九金溥聪恐双双入狱,郑丽文联手台商借势反杀绿营

阿腩讲娱乐
2026-05-28 05:22:02
超费德勒创历史第一!德约3-1连21年进法网32强 120场里程碑

超费德勒创历史第一!德约3-1连21年进法网32强 120场里程碑

醉卧浮生
2026-05-28 07:15:17
武契奇小儿子学中文走红,少有人知他另有儿女,后妈态度很特别

武契奇小儿子学中文走红,少有人知他另有儿女,后妈态度很特别

阿莱美食汇
2026-05-28 07:24:09
男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

闪电新闻
2026-05-27 20:40:12
地市级及以上事业单位管理岗职员等级晋升制度,落地大概率已不远

地市级及以上事业单位管理岗职员等级晋升制度,落地大概率已不远

解说阿洎
2026-05-27 12:01:57
不满中超金哨!蓉城投诉海港逃4红 足协驳回:仅漏判鲍世蒙第2黄

不满中超金哨!蓉城投诉海港逃4红 足协驳回:仅漏判鲍世蒙第2黄

我爱英超
2026-05-27 20:39:26
课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

贱议你读史
2026-05-26 06:20:03
深圳交警通报“南坪快速发生3车刮碰事故”:一车辆着火,引燃道路隔音棚起火,无人员受伤被困,明火已扑灭

深圳交警通报“南坪快速发生3车刮碰事故”:一车辆着火,引燃道路隔音棚起火,无人员受伤被困,明火已扑灭

大象新闻
2026-05-27 19:56:25
《主角》一物降一物,能帮易青娥治楚嘉禾的人,终于出现了!

《主角》一物降一物,能帮易青娥治楚嘉禾的人,终于出现了!

星宿影视鸭
2026-05-27 18:22:16
美论坛:为什么中国人如此害怕印度军队?外国网友给出答案

美论坛:为什么中国人如此害怕印度军队?外国网友给出答案

每一次点击
2026-04-19 00:14:10
2026-05-28 10:23:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2393文章数 596关注度
往期回顾 全部

科技要闻

拼多多股价跌10%:管理层称业绩难免波动

头条要闻

牛弹琴:伊朗180度转弯先发制人 美国迅速回应

头条要闻

牛弹琴:伊朗180度转弯先发制人 美国迅速回应

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

一线调查丨燃油车“甩卖”也难卖

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

时尚
教育
家居
艺术
亲子

丑到离谱的牛马鞋,新中产抢疯了

教育要闻

微信才是学英语的神器,不懂的话就亏大了!看完涨知识

家居要闻

古老而持久 石影扶手椅

艺术要闻

于右任草书对联:标准草书天花板,爱好者如何不写成“天书”?

亲子要闻

孩子没被幼儿园录取没学上!网友:晚生二十年怕是只有幼儿园文凭

无障碍浏览 进入关怀版