网易首页 > 网易号 > 正文 申请入驻

何恺明带领三位大一新生提出扩散模型新思路:去除噪声调节不仅可行,有时还能提升性能

0
分享至

扩散模型的工作原理是在训练过程中,将不同程度的噪声添加到原始数据中,然后训练神经网络学习如何逐步去除这些噪声。在这个过程中,噪声水平(用 t 表示)作为额外的条件信息输入给神经网络。这种设计自 2015 年 Sohl-Dickstein 等人提出以来就被视为扩散模型的标配,并在后续的 DDPM、Stable Diffusion 等知名模型中得到继承。

但美国 MIT 副教授何恺明团队最近但一项成果却对扩散模型的基础架构提出了一个根本性的质疑:被广泛认为不可或缺的噪声调节,真的那么重要吗?

他们的灵感来自传统的图像处理中的“盲去噪”(blind denoising)技术。在计算机视觉研究中,科研人员早已发现,即使不知道具体的噪声水平,仅从被污染的图像本身也能较好地完成去噪任务。这促使研究团队思考:这一发现是否也适用于扩散模型?

为了系统研究这个问题,团队首先构建了一个统一的数学框架,将各类去噪生成模型统一描述。他们的核心动机是孤立神经网络 NN_θ,使我们能够专注于其在噪声条件下的行为。

在这个框架下,模型的训练过程可以表示为:首先从数据分布中采样一张原始图像 x,再加入随机噪声 ε 生成训练样本:

z=a(t)x+b(t)ε

其中 t 表示噪声水平,服从某个预设分布 p(t),而 a(t)和 b(t)则是不同模型采用的 schedule 函数。例如,对于改进版的 DDPM(iDDPM) 来说:

a(t)=√α(t)b(t)=√(1-α(t))

这里的 α(t)采用余弦调度:α(t)=1/2(1+cos(πt/T))。

模型的训练目标是最小化如下损失函数:

L(θ)=Ex,ε,t[w(t)||NNθ(z|t)-r(x,ε,t)||²]

其中 NNθ 代表神经网络,r(x,ε,t)是回归目标,w(t)是权重函数。不同模型主要在这些参数的选择上存在差异。

图丨现有不同模型使用的调度函数(来源:arXiv)

在给定训练好的神经网络 NNθ 后,生成过程中的采样器会进行迭代去噪。具体来说,对于初始噪声 x0~N(0,b(t_max)²I),采样器会迭代计算:

xi+1=κixi+ηiNNθ(xi|ti)+ζiϵi

基于前述数学框架,研究团队对移除噪声调节的影响进行了系统的理论分析。这个分析包含三个关键部分:

首先是有效目标分析。传统的带噪声调节的模型中,损失函数可以重写为:

L(θ)=Ez~p(z),t~p(t|z)[||NNθ(z|t)-R(z|t)||²]

这里 R(z|t)是一个唯一的有效目标,它代表了所有可能产生相同噪声图像 z 的(x,ε,t)三元组的期望。

当移除噪声调节后,网络 NNθ(z)不再接收 t 作为条件输入,此时其有效目标变为:

L(θ)=Ez~p(z)[||NNθ(z)-R(z)||²]

其中:R(z)=Et~p(t|z)[R(z|t)]

这两个公式揭示了一个重要见解:如果条件分布 p(t|z)接近于狄拉克 δ 函数,那么带条件和无条件的有效目标实际上是等价的。

其次是后验分布集中性分析。研究者进一步证明,对于高维数据(如图像),p(t|z)确实表现出高度集中的特性。具体来说,他们推导出在 Flow Matching 框架下:

给定数据点 x∈[-1,1]ᵈ,噪声 ε~N(0,I),时间 t~U[0,1],以及噪声图像 z=(1-t*)x + t*ε,条件分布 p(t|z)下 t 的方差近似为:

Vart~p(t|z)[t] ≈ t*²/2d

这个结果表明,随着数据维度 d 的增加,方差会迅速减小,这就解释了为什么网络能够准确推断噪声水平,即使没有直接的条件输入。

第三是误差传播分析。研究团队还推导出了无条件模型在采样过程中的误差上界。假设从相同的初始噪声 x₀ 出发:

  • 有条件模型:xᵢ₊₁=κᵢxᵢ+ηᵢR(xᵢ|tᵢ)+ζᵢε̃ᵢ

  • 无条件模型:x'ᵢ₊₁=κᵢx'ᵢ+ηᵢR(x'ᵢ)+ζᵢε̃ᵢ

如果满足以下条件:

  • ||R(x'ᵢ|tᵢ)-R(xᵢ|tᵢ)|| / ||x'ᵢ-xᵢ|| ≤ Lᵢ

  • ||R(x'ᵢ)-R(x'ᵢ|tᵢ)||≤δᵢ

那么最终输出的误差满足:||xₙ-x'ₙ||≤A₀B₀+A₁B₁+...+Aₙ₋₁Bₙ₋₁

其中:Aᵢ=∏ⱼ₌ᵢ₊₁ᴺ⁻¹(κᵢ+|ηᵢ|Lᵢ), Bᵢ=|ηᵢ|δᵢ

在此理论分析的指导下,团队进一步设计并实现了一种针对无噪声条件场景的扩散模型变体——uEDM(unconditional EDM)。uEDM 模型在延续传统 EDM 架构优势的基础上,对关键的预处理步骤做出了如下改进:传统 EDM 中,网络输出通常会乘以一个依赖于 t 和数据统计量的系数 cout(t),以调整不同噪声水平下的尺度;而在 uEDM 中,这一系数被直接固定为常数 1,从而迫使网络在没有 t 条件辅助的情况下自行学习数据分布的特征。这一改动不仅简化了模型结构,也降低了由于噪声调节参数估计不准确而引起的误差累积风险。

在实验部分,研究团队对多个主流模型进行了全面评估。在 CIFAR-10 数据集上,他们比较了有无噪声条件下的模型表现。结果令人意外:大多数模型在去除噪声条件后仍能保持相当的性能。具体来看,EDM 模型的 FID 从 1.99 略微上升到 3.36;Flow Matching(1-RF)的 FID 反而从 3.01 下降到 2.61,表现出了性能提升;而研究者提出的 uEDM 模型则将 FID 维持在 2.23 的较低水平。

图丨在没有噪声条件下,不同方法在 CIFAR-10 上的 FID 分数变化。这里“w/o t”表示没有噪声条件。黄色表示非灾难性(通常是相当不错的)退化;绿色表示改善;红色表示失败(来源:arXiv)

在模型的具体行为方面,研究发现虽然失去噪声条件会导致某种程度的性能衰退,但大多数模型都展现出了“优雅的退化”(graceful degradation)。

生成的图像仍然保持着清晰的形状和结构,只是在细节表现上可能略有不足。特别值得注意的是,基于流的方法(Flow Matching)在无噪声条件下反而获得了更好的效果,这可能与其独特的回归目标设计有关。

不过也存在例外情况。当 DDIM 模型配合确定性 ODE 采样器使用时,去除噪声条件会导致 FID 显著恶化至 40.90。通过对生成样本的分析发现,模型虽然仍能理解基本的形状和结构,但会出现“过冲”或“欠冲”现象,导致图像过度饱和或带有噪声。这种灾难性失败可以通过理论分析得到解释:DDIM 在这种配置下的误差边界会比其他模型高出几个数量级。

研究者还探索了随机性对模型表现的影响。有意思的是,增加采样过程中的随机性能够显著改善无噪声条件模型的性能。例如,当将 DDIM 的随机性参数 λ 从 0(确定性)调整到 1(完全随机)时,模型的性能逐步提升,最终接近 iDDPM 的水平。这一发现意味着随机采样可能通过某种机制帮助补偿了失去噪声条件带来的影响。

图丨噪声条件模型与噪声无条件模型的样本。样本由 (a) DDIM、(b) EDM、(c) FM (1-RF) 和 (d) uEDM 生成,基于 CIFAR-10 类无条件情况。对于每个子图,左侧面板是噪声条件情况,右侧面板是噪声无条件对应情况,使用相同的随机种子。FID 的变化是从“w/t”到“w/o t”(来源:arXiv)

为了验证结论的普适性,研究团队还在 ImageNet 32×32 和 FFHQ 64×64 等数据集上进行了测试。结果显示,无噪声条件模型的表现模式在这些数据集上也保持一致。在类别条件生成任务中,EDM 的 FID 从 1.76 上升到 3.11,而 FM 则从 2.72 改善到 2.55,进一步证实了之前的发现。

研究团队认为,这项工作不仅挑战了扩散模型中的一个基本假设,也为未来研究开辟了新的方向。首先,去除噪声条件简化了模型架构,这可能有助于我们更好地理解扩散模型的本质。其次,这种简化也可能带来计算效率的提升。更重要的是,正如研究者指出的,只有在没有噪声条件的情况下,基于分数的模型才能学习到真正独特的分数函数,实现经典的朗之万动力学。

(来源:arXiv )

相关论文以《噪声调节对于去噪生成模型是必要的吗?》(Is Noise Conditioning Necessary for Denoising Generative Models?)为题发表预印本网站 arXiv 上,三位 MIT 大一新生孙启傲(Qiao Sun)、姜志成(Zhicheng Jiang)、赵瀚宏(Hanhong Zhao)为共同一作。其中,孙启傲、姜志成是 IMO(国际数学奥林匹克竞赛)金牌得主,赵瀚宏是 IPhO(国际物理奥林匹克竞赛)金牌得主。

参考资料:

https://arxiv.org/abs/2502.13129

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民进党高层竟敢偷偷离台,大陆火速行动!美国来阴的,郑丽文拼了

民进党高层竟敢偷偷离台,大陆火速行动!美国来阴的,郑丽文拼了

阿器谈史
2026-04-26 20:10:00
玄学:一个让你运气越来越好的秘诀(很灵)

玄学:一个让你运气越来越好的秘诀(很灵)

白浅娱乐聊
2026-04-27 08:33:09
金价跌得吓人!4月26日实测行情,普通人别盲目抄底

金价跌得吓人!4月26日实测行情,普通人别盲目抄底

三农老历
2026-04-26 18:21:11
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
皇马今夏第一签:37场造20球,身价6500万中场,只需900万欧元!

皇马今夏第一签:37场造20球,身价6500万中场,只需900万欧元!

越岭寻踪
2026-04-26 16:26:02
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
官宣 | 张效瑞,临时接手主教练!

官宣 | 张效瑞,临时接手主教练!

砚底沉香
2026-04-27 13:21:39
多国反对,中国专机抵美,G20 峰会出现变故,80岁总统硬刚特朗普

多国反对,中国专机抵美,G20 峰会出现变故,80岁总统硬刚特朗普

知鉴明史
2026-04-26 17:15:14
2次遭世界第2逆转!郑钦文不服:我实力摆在那 很多机会没把握住

2次遭世界第2逆转!郑钦文不服:我实力摆在那 很多机会没把握住

我爱英超
2026-04-27 07:43:16
中美两军在黄岩岛激烈斗法,解放军的庞大舰队,与美菲“肩并肩”

中美两军在黄岩岛激烈斗法,解放军的庞大舰队,与美菲“肩并肩”

杰丝聊古今
2026-04-27 14:11:49
林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

浩渺青史
2026-04-17 13:55:15
赖清德已被摁住,4天过后,台当局高层偷偷离岛,解放军准时反制

赖清德已被摁住,4天过后,台当局高层偷偷离岛,解放军准时反制

小涛叨叨
2026-04-27 15:33:42
原贵州省农村信用社联合社远程集中授权中心主任蒙国友被查

原贵州省农村信用社联合社远程集中授权中心主任蒙国友被查

界面新闻
2026-04-27 11:48:22
立夏将至,这菜遇到使劲吃!叶酸是黄瓜46倍,高钾低钠,做馅真香

立夏将至,这菜遇到使劲吃!叶酸是黄瓜46倍,高钾低钠,做馅真香

花小厨
2026-04-27 11:43:49
于和伟评价《八千里路云和月》黄澄澄,只字不提演技,却一针见血

于和伟评价《八千里路云和月》黄澄澄,只字不提演技,却一针见血

陈述影视
2026-04-26 23:52:56
“这个世界太不公平了”,36E女孩晒考研北大,数学满分全网羡慕

“这个世界太不公平了”,36E女孩晒考研北大,数学满分全网羡慕

妍妍教育日记
2026-04-27 11:30:07
季后赛打到现在!16支球队实力一目了然:S档3队、A档6队!

季后赛打到现在!16支球队实力一目了然:S档3队、A档6队!

运筹帷幄的篮球
2026-04-27 15:57:50
立夏吃饺子,提醒大家:少吃茴香荠菜,多吃4样,应季鲜嫩又好吃

立夏吃饺子,提醒大家:少吃茴香荠菜,多吃4样,应季鲜嫩又好吃

阿龙美食记
2026-04-25 12:58:04
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明一个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明一个问题

大熊欢乐坊
2026-04-19 12:07:22
国内多地开启五一超长假,中小学“春假+五一”最高可连休11天,新疆5月可休15天,最早放假的游客已在路上

国内多地开启五一超长假,中小学“春假+五一”最高可连休11天,新疆5月可休15天,最早放假的游客已在路上

极目新闻
2026-04-26 22:51:26
2026-04-27 17:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16630文章数 514902关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

吉林突现200万豪华住宅式墓地 独门独户地上地下两层

头条要闻

吉林突现200万豪华住宅式墓地 独门独户地上地下两层

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

张纯伟:奇瑞油电同进不做选择题 重新定义新燃油

态度原创

艺术
旅游
家居
房产
公开课

艺术要闻

你绝对想不到,摄影能让她成为女神!

旅游要闻

慕田峪长城夜游即将启动,“五一”假期将推出多种活动

家居要闻

江景风格 流动的秩序

房产要闻

信号!海南商业版图,迎来大变局!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版