网易首页 > 网易号 > 正文 申请入驻

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】扩散概率生成模型(Diffusion Models)已成为AIGC时代的重要基础,但其推理速度慢、训练与推理之间的差异大,以及优化困难,始终是制约其广泛应用的关键问题。近日,被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法:来自华南理工大学曾德炉教授「统计推断,数据科学与人工智能」研究团队跳出了传统的数值求解思维,首次从信息感知的推理视角,将去噪过程重构为实时熵减优化问题。

从Stable Diffusion的文生图到Sora的文生视频,扩散模型凭借其卓越的生成质量始终占据着图像和视频生成领域的主导地位。然而,这种高质量的生成往往伴随着巨大的代价(包括最近的扩散语言模型),它需要通过数十甚至上百步的迭代,从纯噪声中逐步恢复图像。

这就带来了两个让业界头疼的核心矛盾:

更棘手的是,现有的许多SOTA加速算法(如LD3,DPM-Solver-v3)都依赖于参考轨迹(Reference Trajectory)进行优化或者蒸馏。

也就是说,为了优化这10步的生成路径,你需要先跑一遍高精度的路径 (比如200步下的结果) 作为「参考答案」。

在实际应用中,不仅增加了巨大的计算开销,也限制了基础模型的泛化能力。

华南理工大学「统计推断,数据科学与人工智能」团队提出的EVODiff,正是为了解决这两种核心的问题,不再修补ODE求解器的数值误差,而是回到了扩散模型的物理本源——熵(Entropy)。


论文链接:https://openreview.net/forum?id=rKASv92Myl

EVODiff的核心洞察非常深刻:扩散模型的去噪过程,本质上就是一个不断减少不确定性、恢复信息的过程。


EVODiff的熵减路径的直观理解

在物理学中,熵代表系统的混乱程度。前向扩散过程是向图像中加噪,熵不断增加;反向去噪过程则是从混乱中恢复秩序,条件熵(Conditional Entropy)应当不断降低。

研究团队不仅在数学上严格证明了数据预测在推理生成过程中优于噪声预测,还提出了一种「免参考」(Reference-free)的自适应方差优化框架(EVODiff)。

该框架首次展现出,在不依赖于高成本「参考轨迹」优化的前提下,就能够获得比一些依赖参考轨迹的方法(如DPM-Solver-v3, LD3)更高效、且更优的生成质量。

在CIFAR-10上,仅需10步推理,FID评测指标即达到惊人的2.78,相比于同样是无需参考轨迹优化的DPM-Solver++,生成误差率降低了45.5% (从5.10到2.78)。


在CIFAR-10上与「Referenc-free」方法DPM-Solver++的视觉对比

论文作者李仕贵和陈炜均是华南理工大学数学学院的博士研究生。通讯作者是华南理工大学电子与信息学院的曾德炉教授。

为何「数据预测」完胜「噪声预测」?

在扩散模型社区,存在一个长期的经验性共识:在做推理生成时,直接使用预测干净数据(Data Prediction)的参数化方案,往往比使用噪声预测(Noise Prediction)的推理范式效果更好,这种现象尤其在较低步数下特别显著。

值得关注的是,这一现象与 MIT 何恺明(Kaiming He)团队最新发布的JiT架构 “Back to Basics: Let Denoising Generative Models Denoise” 中的核心洞察不谋而合! 何恺明团队从「流形假设」的角度出发,指出自然数据位于低维流形上,而噪声弥漫于整个高维空间,因此神经网络直接预测干净数据要比预测噪声容易得多。

如果说Back to Basics是从直觉和实证角度呼吁回归本源,那么EVODiff则是在数学层面为这一趋势提供了坚实的理论支撑。

此前,这个现象只是被经验地验证。而在EVODiff这个研究中,论文首次给出了严格的数学证明。

根据信息论推导,EVODiff团队发现:

团队数学证明了 「数据预测参数化」能更直接地最小化重建误差,并能更有效地降低条件熵。

这一理论贡献,不仅解释了 EVODiff 的高效性,也从理论上侧面印证了何恺明团队 最新的JiT 架构,为未来扩散模型的设计提供了坚实且有原则的数学基础,明确了关于参数化选择的争论。

寻找最优路径

熵感知方差优化

既然目标是「降低熵」,那么更准确地熵减便能提高推理效率。同时既然预测数据在理论上更高效,那么在具体的迭代中该怎么更高效地降低数据预测的条件熵呢?

EVODiff首先回顾了扩散模型高斯建模中条件熵与条件方差(Conditional Variance)正相关的特点。

也就是说,只要在每一步推理中动态调整方差至最小,就能以最快的速度逼近真实图像。

基于此,EVODiff构建了一个「无参考」的自适应优化框架。它无需任何昂贵的预计算「参考轨迹」,而是仅利用当前迭代步骤的状态差异,通过一个计算开销极低的闭式解(Closed-form Solution),就能动态且实时地计算出最优的方差控制参数。这确保了每一步都朝着最高效的收敛路径。

EVODiff框架解析

更优、更快、更智能

EVODiff(Entropy-aware Variance Optimized Diffusion Inference)不仅仅是一个理论框架,更是一套可以直接落地的实时指导算法。

EVODiff框架的先进性在于,它首次展现出在无须参考轨迹优化的前提下,就能获得比一些(如DPM-Solver-v3)基于参考轨迹优化的方法更高效、且更优的生成质量。

其核心特性可以概括为「三板斧」:

1. Reference-free(免参考)的极致轻量化

与需要预先计算高成本轨迹的EMS(经验模型统计)类方法不同,EVODiff完全依靠在线(On-the-fly) 计算。它利用当前迭代步骤中的状态差异,动态优化方差。这意味着它没有任何额外的训练成本或预处理开销,做到了真正的「拿来即用」。

2. 闭式解(Closed-form Solution)的极速计算

许多优化算法需要复杂的迭代求解,会拖慢推理速度。但EVODiff团队推导出了方差优化目标的闭式解。这意味着,获得最优参数几乎不需要消耗计算资源。实验数据显示,EVODiff在获得SOTA画质的同时,推理时间甚至略快于DPM-Solver++。

3. 普适性(Universality)

无论是像素空间的传统扩散模型(如EDM),还是目前最火的隐空间扩散模型(如Stable Diffusion),亦或是不同的噪声调度策略(LogSNR, EDM schedule),EVODiff都能无缝适配并带来提升。

SOTA战绩

「免参考」全面超越「有参考」

EVODiff的「免参考」框架并非空洞理论。在NeurIPS 2025的评审中,实验数据显示,免参考路径在质量和效率上均超越了依赖参考轨迹的方法(DPM-Solver-v3),并在8-10NFE左右就超过了依赖参考轨迹的LD3方法(ICLR 2025 Oral),给审稿人留下了深刻印象。

CIFAR-10 (EDM模型):刷新纪录的低步数表现

在极低步数(NFE=10)的挑战下,EVODiff的表现堪称「降维打击」:

ImageNet-256 (ADM模型):高分辨率下的稳健

在高分辨率图像生成上,EVODiff同样展现了统治力。为了达到相同的SOTA级画质:

LSUN-Bedrooms (隐空间扩散模型):工业级模型的完美适配

针对当前工业界主流的隐空间模型(Latent Diffusion Model),EVODiff在LSUN-Bedrooms数据集上:

这是一个非常关键的信号:EVODiff不仅适用于学术小模型,更能直接赋能Stable Diffusion等工业级大模型。




EVODiff与Reference-free方法在不同指标下的全面对比


EVODiff与Reference-free和Reference-based的方法的全面对比评估

视觉实测:告别「多手多脚」的伪影噩梦

除了冷冰冰的数据,EVODiff在视觉感官上的提升更为直观。

在文本生成图像(Text-to-Image)任务中,低步数推理往往会导致图像结构崩坏,比如生成出扭曲的肢体或模糊的背景。

论文展示了一个经典的测试案例:提示词"An astronaut riding a horse"(宇航员骑马)。


EVODiff在高效文生图上的表现



在文生图上仅用简单的Prompt,例如「Giant caterpillar riding a bicycle」和「a photograph of an astronaut riding a horse」,EVODiff能生成高保真、语义连贯且正确的图像,而其他竞争方法则有严重伪影

德国AI公司Mindverse在其专题报道中特别指出了这一点:「EVODiff在文本生成图像任务中展现了‘更自然、更一致、更少伪影’的优势,即使在使用简单的提示词时也是如此。」

影响力与未来

从学术突破到工业落地

EVODiff的发表,不仅仅是多了一个SOTA算法框架,它标志着扩散模型推理的研究进入了理论驱动的新阶段。

以往,我们为了加速,往往是在「盲改」求解器或者特定的优化和适当的蒸馏。而EVODiff告诉我们:只要你从熵感知信息流优化的角度去理解去噪过程,便能从原则上去设计一个既有效率提升又有生成质量提升的双赢范式。

德国Mindverse的报道评价道:「EVODiff的引入代表着扩散推理优化向前迈出了一步……它系统地降低条件熵的能力,为更高效、更高质量的生成模型开辟了新的可能性。」

参考资料:

https://openreview.net/forum?id=rKASv92Myl

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果折叠屏 iPhone 机模曝光,新形态来了

苹果折叠屏 iPhone 机模曝光,新形态来了

全是技能
2025-12-24 15:21:53
重磅!这次中央企业负责人会议,释放出的信号和政策动向极其深刻

重磅!这次中央企业负责人会议,释放出的信号和政策动向极其深刻

识局Insight
2025-12-24 07:16:50
郑丽文正式聘请王金平,担任国民党重要职务,还澄清一件大事

郑丽文正式聘请王金平,担任国民党重要职务,还澄清一件大事

DS北风
2025-12-24 15:46:05
国家一级演员 男高音歌唱家 歌剧表演艺术家 戴玉强

国家一级演员 男高音歌唱家 歌剧表演艺术家 戴玉强

韩驰
2025-12-24 17:07:11
中国和乌克兰什么仇什么怨?泽连斯基为何如此提到中国?

中国和乌克兰什么仇什么怨?泽连斯基为何如此提到中国?

新民周刊
2025-12-24 09:14:47
教育部动真格了。新规明确:小学一至六年级,全面取消跨校联考…

教育部动真格了。新规明确:小学一至六年级,全面取消跨校联考…

放开他让wo来
2025-12-23 13:23:55
吃他汀,不吃柚子,能吃桔子、橙子和柠檬吗?医生解答

吃他汀,不吃柚子,能吃桔子、橙子和柠檬吗?医生解答

健康之光
2025-12-24 09:12:42
摩尔线程、沐曦股份撑不住了,盘中闪崩大跌,抄底的亏惨了!

摩尔线程、沐曦股份撑不住了,盘中闪崩大跌,抄底的亏惨了!

财经智多星
2025-12-24 14:37:59
广东女护士林楚欣,因淤青确诊癌症,年仅18岁,两个月共花费13万

广东女护士林楚欣,因淤青确诊癌症,年仅18岁,两个月共花费13万

温辞韫
2025-12-23 10:42:08
确诊了!右肩静脉血栓!火箭扔掉的NBA首轮秀

确诊了!右肩静脉血栓!火箭扔掉的NBA首轮秀

篮球实战宝典
2025-12-24 07:19:33
KD22+5末节却遭DNP!休媒开始质疑斯通交易选择 美球迷狂喷乌度卡

KD22+5末节却遭DNP!休媒开始质疑斯通交易选择 美球迷狂喷乌度卡

颜小白的篮球梦
2025-12-24 13:49:59
泰国的聪明,不亚于朝鲜和巴基斯坦,打完泰柬冲突后,铁定上桌了

泰国的聪明,不亚于朝鲜和巴基斯坦,打完泰柬冲突后,铁定上桌了

离离言几许
2025-12-23 16:03:54
突发利好!特朗普家族入局核电,A股14个核电龙头集体涨停

突发利好!特朗普家族入局核电,A股14个核电龙头集体涨停

鹏哥投研
2025-12-24 12:19:23
私聊发黄图也犯法?

私聊发黄图也犯法?

凯利经济观察
2025-12-23 09:32:57
网友吐槽沈阳扫雪车弄脏路旁私家车,当地回应:难免出现该情况,表示歉意

网友吐槽沈阳扫雪车弄脏路旁私家车,当地回应:难免出现该情况,表示歉意

极目新闻
2025-12-24 18:41:04
中国军队回撤时越军为何不追击?越南少将阮德辉回忆:并非不敢打

中国军队回撤时越军为何不追击?越南少将阮德辉回忆:并非不敢打

古书记史
2025-12-22 19:50:50
大地色系的权威:棕色战袍的静默宣言

大地色系的权威:棕色战袍的静默宣言

疾跑的小蜗牛
2025-12-23 15:34:21
中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

知法而形
2025-12-23 21:29:02
乌总统:一定条件下可考虑在顿涅茨克设自由经济区

乌总统:一定条件下可考虑在顿涅茨克设自由经济区

界面新闻
2025-12-24 17:50:42
约基奇29+14掘金丢绝杀遭独行侠双杀 弗拉格33+9+9浓眉31+9

约基奇29+14掘金丢绝杀遭独行侠双杀 弗拉格33+9+9浓眉31+9

醉卧浮生
2025-12-24 11:28:14
2025-12-24 22:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1806075文章数 5045关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

怀孕增重30斤!阚清子惊传诞一女夭折?

财经要闻

北京进一步放松限购 沪深是否会跟进?

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

房产
数码
旅游
游戏
健康

房产要闻

硬核!央企海口一线江景顶流红盘,上演超预期交付!

数码要闻

手机太小,平板太大?华为MatePad Mini给出年终出行最优解

旅游要闻

北海市海丝首港将上演跨年烟花秀

《风水喵将》评测:高自由度构筑破传统

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版