网易首页 > 网易号 > 正文 申请入驻

扩散模型里的噪声,原来还有这样作用:DRDD重新定义统一图像翻译

0
分享至



在图像到图像翻译(Image-to-Image Translation, I2I)这个任务上,扩散模型过去几年几乎形成了一套默认逻辑:先把输入图像和噪声混合,再一步步去噪,把目标图像 “还原” 出来。

这条路线很自然,也很成功。无论是超分辨率、去雨、去雾、低光增强,还是风格转换,扩散模型都凭借更强的生成质量和多样性,逐渐成为 I2I 任务里的重要范式。

但最近一篇来自香港大学、中国科学院沈阳自动化研究所、UC Santa Cruz 等团队的工作,提出了一个非常有意思的问题:

我们是不是一直忽视了 “噪声” 的作用?

更准确地说,扩散模型里的高斯噪声,可能不只是一个等待被移除的扰动,也不只是把数据从低维流形中抬升的工具。它还可能扮演一个此前被忽略的角色:域协调器(Domain Harmonizer)。论文提出的 DRDD,全称为Decoupled Residual Denoising Diffusion Models,正是围绕这个发现,重新设计了统一且数据高效的 I2I 翻译框架。



  • 论文标题:Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
  • project:https://github.com/HKU-HealthAI/DRDD
  • arxiv 链接:https://arxiv.org/html/2606.01048v1
  • CVPR 链接:https://cvpr.thecvf.com/virtual/2024/poster/31373

从 “移除噪声” 到 “利用噪声”:

I2I 扩散模型的核心机制被重新理解

过去的 I2I 扩散方法,大体可以分成两类。

早期方法,比如 SR3、WeatherDiff,通常从纯高斯噪声开始反向生成,把输入图像当作条件信号。后来的方法,比如 RDDM、IR-SDE,则意识到直接从纯噪声出发不够稳定,于是改成从 “带噪输入图像” 开始反向采样,以更好保留输入结构、减少推理不确定性。

但这些方法背后有一个共同点:

它们都把图像翻译过程压进了一个单一、耦合的反向扩散过程里。

也就是说,在每一步采样中,模型一边去噪,一边去残差,一边完成源域到目标域的转换。这样的转换看起来很自然,但问题也出在这里。

对于单一任务,这样做可能还算有效;但一旦进入统一 I2I 场景,也就是一个模型要同时处理低光增强、去雨、去雾、去模糊、去噪等多个任务,问题就会变得棘手:不同任务、不同退化类型、不同图像域之间存在明显 domain gap。模型需要在多个差异很大的分布之间找到统一映射。

这正是 DRDD 的切入点:

既然加噪能让不同域的特征分布靠得更近,为什么要在核心翻译还没完成之前,就急着把噪声去掉?

别急着去噪:

高斯噪声其实在帮不同域 “对齐”

DRDD 重新解释了高斯噪声在 I2I 翻译里的作用。

传统观点里,噪声主要有两个功能:一是把数据从低维流形中移出,二是为 score estimation 提供更丰富的训练信号。但论文进一步从理论和实验上证明:注入一定水平的高斯噪声,可以降低不同域特征分布之间的差距。

简单说,原本低光、去雨、去雾这些任务,在特征空间里可能分得很开;但当它们都被注入适当噪声之后,分布会变得更接近。论文在 Figure 1 中用 t-SNE 可视化展示了这一点:源域之间 gap 明显,而加入噪声后的 Source+Noise domain 中,不同任务的特征明显靠近。



图 1:DRDD 的流程拆解,不同特征的 t-SNE 可视化

这件事对统一的 I2I 很关键。

因为统一模型最怕的不是某一个任务难,而是不同任务之间互相 “打架”。如果噪声可以先把不同域拉到一个更协调的空间里,那么模型学习统一映射的难度就会下降。

问题是,现有耦合扩散模型虽然也加噪,但它们在反向过程中会一边做源到目标的转换,一边把噪声去掉。结果就是:

噪声刚刚带来的域协调效果,还没来得及真正服务于核心图像翻译,就被模型提前擦掉了。

这就像刚为来自不同领域的图像搭建起一座 “中间桥梁”,翻译过程还没真正通过这座桥完成迁移,桥本身却先被拆掉了。



图 2:DRDD 的正向扩散和反向生成

DRDD 的核心:

把 “去残差” 和 “去噪” 拆开

DRDD 的做法是这样的:不要再把残差去除和噪声去除塞进同一个过程,而是把它们拆成两个阶段。

具体来说,DRDD 将传统单一扩散过程解耦为两个顺序执行、彼此独立的扩散阶段:

  • 第一阶段是随机噪声扩散(Noise Diffusion)。这一阶段向目标图像中注入高斯噪声,让目标域进入一个 “带噪但更协调” 的空间。这个阶段负责实现域协调。
  • 第二阶段是确定性残差扩散(Residual Diffusion)。这一阶段在固定噪声水平下学习目标到源的残差变化,也就是把图像翻译所需的语义映射放到 noise-carrying domain 里完成。

反向过程也对应拆成两步:

先在带噪域里做残差去除,完成核心的源域到目标域转换;再做去噪,把已经完成语义转换的带噪目标图像变成干净目标图像。

这和传统耦合扩散最大的区别在于:

传统方法是一边换域,一边去噪;

DRDD 是先在噪声还在的时候完成换域,再最后去噪。

这个设计看似只是顺序变了,但本质上改变了扩散模型做 I2I 翻译的几何路径。它让噪声的域协调效果完整保留到核心映射阶段,而不是在中途被提前消耗掉。论文 Figure 2 也清晰展示了这个流程:前向过程先加噪、再加残差;反向过程先去残差、再去噪。



图 3:DRDD 的公式

DRDD 的 “两个优势”:

域协调 + 数据效率

DRDD 的优势可以概括成两件事。

第一,它让统一映射更容易学。

在统一 I2I 任务里,不同退化类型和不同图像域之间的 gap 会让模型很难用一个共享参数空间同时覆盖所有任务。DRDD 通过固定噪声域完成残差去除,相当于先把不同任务拉到一个更协调的中间空间,再学习源到目标的核心变换。

这不是简单地 “多加点噪声”,而是把噪声变成了有辅助作用的中间域。

第二,它显著提高了数据效率。

DRDD 的去噪阶段只需要目标域干净图像训练,不需要成对的源域 - 目标域样本。换句话说,只要有大量 unpaired target-domain images,就可以训练或增强去噪模块,从而提升最终图像保真度。论文也指出,DRDD 的 denoising network 可以只在干净图像上训练,并且能够使用大规模自然图像预训练权重初始化。

I2I 任务最贵的往往不是图像本身,而是成对数据。比如真实低光图和正常曝光图、真实模糊图和清晰图,都不容易大规模收集。DRDD 把 “必须依赖配对数据” 的部分缩小到残差映射阶段,而把去噪质量提升交给更容易获得的非配对目标域图像。

实验结果:统一修复、多域任务、

少数据都能打

DRDD 的实验设计覆盖了多个层面:多任务统一图像修复、多域单任务 I2I、单域单任务 I2I、少量配对数据、跨扩散范式兼容性,以及噪声强度分析。整体来看,它不是只在一个 benchmark 上刷分,而是在多个维度验证 “解耦” 这件事确实有效。

1)All-in-One-5:统一图像修复平均表现领先

在 All-in-One-5 统一图像修复 benchmark 上,DRDD 同时处理低光增强、去雨、去噪、去模糊、去雾五类任务。

结果显示,DRDD 在平均指标上取得 0.916 SSIM / 0.073 LPIPS / 18.3 FID,整体优于 DA-CLIP、DiffuIR、AdAIR、VLUNet、DFPIR 等方法。尤其在感知质量指标上,DRDD 的优势更加明显。

这组结果说明,DRDD 并不是为了某一个单独任务定制,而是真的具备 all-in-one restoration 的统一建模能力。



2)少量配对数据:数据越少,优势越明显

DRDD 另一个重点是 data-efficient I2I。

论文在 Low-Light 和 All-in-One-3 上做了数据裁剪实验,将训练集随机下采样到 75%、50%、25%,验证少量配对数据下的表现。结果显示,随着训练数据减少,DRDD 的性能下降明显小于 DiffUIR 和 VLUNet 等基线。Figure 5 中也可以看到,在低光增强和 All-in-One-3 上,DRDD 在 SSIM 和 LPIPS 上都保持了更稳定的曲线。

这传递了一个很明确的信号:

DRDD 的提升不是靠 “吃更多配对数据” 堆出来的,而是靠把配对映射和目标域去噪拆开,让每类数据承担更合适的角色。





3)噪声不是越大越好:DRDD 也给出了 “加多少” 的答案

当然,如果说噪声能协调域分布,一个自然问题是:

那是不是噪声越大越好?

答案是否定的。

噪声太小,域协调效果不够;噪声太大,又会过度破坏输入结构,让翻译任务变得更难。DRDD 因此从理论和实验两侧分析了噪声强度。

论文定义了两个距离:一个衡量带噪源域和带噪目标域之间的距离,另一个衡量带噪源域和原始源域之间的距离。前者希望小,因为域 gap 小更好翻译;后者也不能太大,否则输入被破坏太多。最终,DRDD 通过一个 trade-off objective 来寻找合适噪声水平。

在 All-in-One-5 上,理论分析得到的最优噪声强度大约在 1.1 到 1.2;实际实验中,模型在噪声强度为 1.0 时达到最优,并且在 0.8 到 1.3 范围内表现稳定。

这也让 DRDD 的 “用噪声” 不是玄学,而是有理论约束、有实验验证的可控设计。



从 “噪声是负担” 到 “噪声是中间域”,

DRDD 改变了 I2I 扩散的观察角度

很多扩散模型工作都在追求更好的网络、更快的采样、更强的条件控制。但 DRDD 的有趣之处在于,它没有把重点放在 “怎么更快去噪” 上,而是反过来问:

为什么一定要这么早去噪?

在传统耦合扩散框架里,噪声和残差被绑定在一起移除;而 DRDD 把它们拆开,让噪声先完成域协调,让残差去除在这个协调后的空间里发生,最后再做保真度恢复。

这就把 I2I 扩散模型里的噪声,从一个 “必须尽快清理掉的扰动”,变成了一个 “帮助不同域对齐的工作空间”。

DRDD 给出的路线非常清晰:

  1. 先利用噪声缩小域间差异,
  2. 再在带噪域里完成核心语义映射,
  3. 最后去噪提升图像保真度。

这套顺序让扩散模型不再只是 “加噪 — 去噪” 的生成机器,而更像是一个分阶段的视觉翻译系统:噪声负责协调,残差负责转换,去噪负责精修。

当统一 I2I 逐渐从单任务 benchmark 走向真实复杂场景,模型面对的将不再是单一、干净、边界明确的退化类型,而是多任务、多域、多退化、多数据约束同时存在的现实世界。DRDD 的意义就在于,它为这种场景提供了一个更自然的框架:

不要把所有困难都塞进一个耦合反向过程里,而是让每个阶段分别做自己最擅长的事。

从这个角度看,DRDD 不只是一个新的 I2I 方法,更像是对扩散模型内部机制的一次重新拆解。

噪声不是敌人。

用得好,它可能正是统一图像翻译所缺的那座桥。

作者介绍

本文作者包括 Ziyue Lin、Jiahe Hou、Hongyu Xia、Xinrui Xie、Feifei Wang、Yuyin Zhou、Wei Wang、Jiawei Liu 和 Liangqiong Qu。作者团队来自香港大学、中国科学院沈阳自动化研究所、香港中文大学和 UC Santa Cruz。其中 Ziyue Lin、Jiahe Hou、Hongyu Xia 为共同一作,Jiawei Liu 和 Liangqiong Qu 为通讯作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张学友缺席胡枫九五至尊演唱会最后大合唱,是不是因为刘德华…

张学友缺席胡枫九五至尊演唱会最后大合唱,是不是因为刘德华…

慧翔百科
2026-06-09 08:10:20
反腐风暴过后,国企出现5大反常现象!

反腐风暴过后,国企出现5大反常现象!

职场资深秘书
2026-06-11 15:37:58
两名男子在泰国被判死刑 中方表态:支持!

两名男子在泰国被判死刑 中方表态:支持!

看看新闻Knews
2026-06-11 18:24:30
中国台东执法第3天!日本回应了:官木原稔表态,小泉表态

中国台东执法第3天!日本回应了:官木原稔表态,小泉表态

击你的心灵深处
2026-06-10 13:15:28
宋珍珍自曝陪7个富豪细节:收到最贵的礼物,居然是199元的丝巾!

宋珍珍自曝陪7个富豪细节:收到最贵的礼物,居然是199元的丝巾!

川渝视觉
2026-06-11 13:00:15
生育率的“回旋镖”还是呼啦啦来了

生育率的“回旋镖”还是呼啦啦来了

新浪财经
2026-05-18 07:42:35
“这就是晚育的好处!”人大附中出考场火了,家长都是高龄白发

“这就是晚育的好处!”人大附中出考场火了,家长都是高龄白发

妍妍教育日记
2026-06-10 11:35:09
美国恢复对霍尔木兹海峡的伊朗基础设施发动全面攻击

美国恢复对霍尔木兹海峡的伊朗基础设施发动全面攻击

一种观点
2026-06-10 15:40:15
2026年起,取消中高级职称评审!

2026年起,取消中高级职称评审!

新浪财经
2026-06-07 04:42:39
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
“清淡饮食”正在毁掉中老年人的血管!我国近20%的老年人患有肌少症,不吃肉,血管反而越来越脆

“清淡饮食”正在毁掉中老年人的血管!我国近20%的老年人患有肌少症,不吃肉,血管反而越来越脆

消化石医生
2026-06-05 21:28:28
董路带队只拿了个第四!但巴萨签他一人,国少半壁江山都出自他

董路带队只拿了个第四!但巴萨签他一人,国少半壁江山都出自他

十点体坛
2026-06-11 20:09:49
大反转!雨雨雨,重返无锡!

大反转!雨雨雨,重返无锡!

江南晚报
2026-06-11 18:08:42
德国外长:台海有事就是德国有事,我们不接受用暴力改变台海现状

德国外长:台海有事就是德国有事,我们不接受用暴力改变台海现状

補懂事的孩紙
2026-06-11 06:04:07
又一起!大学生买滑板8个月后申请“仅退款”!老板拒绝,平台同意退货退款

又一起!大学生买滑板8个月后申请“仅退款”!老板拒绝,平台同意退货退款

上观新闻
2026-06-10 14:06:09
别瞎攀比!2026年满60岁,退休金拿到这个数就很不错了

别瞎攀比!2026年满60岁,退休金拿到这个数就很不错了

白浅娱乐聊
2026-06-11 17:24:14
中央选中浙江:宁波城市定位再升级,或将成世界级城市群中心城市

中央选中浙江:宁波城市定位再升级,或将成世界级城市群中心城市

娱乐圈见解说
2026-06-11 18:23:43
马刺被尼克斯29分逆转!听听各媒体人都怎么说,福克斯上篮太致命

马刺被尼克斯29分逆转!听听各媒体人都怎么说,福克斯上篮太致命

林子说事
2026-06-11 13:53:38
伦敦高端公寓36层坠下的一家三口:9岁独子刚被拒绝治疗

伦敦高端公寓36层坠下的一家三口:9岁独子刚被拒绝治疗

红星新闻
2026-06-10 19:33:17
丈夫不定期出差,小区女业主和未成年女儿被保安持续骚扰,涉事男子被警方带走

丈夫不定期出差,小区女业主和未成年女儿被保安持续骚扰,涉事男子被警方带走

封面新闻
2026-06-11 18:54:10
2026-06-11 21:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13236文章数 142667关注度
往期回顾 全部

科技要闻

淘宝、京东、拼多多、抖音、小红书被约谈

头条要闻

两名男子因参与曼谷恐袭案在泰国被判死刑 外交部表态

头条要闻

两名男子因参与曼谷恐袭案在泰国被判死刑 外交部表态

体育要闻

比起总冠军,更大的悬念成了FMVP?

娱乐要闻

《花少8》阵容大揭秘!秒杀前一季

财经要闻

干细胞生意:17万一针的希望

汽车要闻

奔驰C350L纯电长轴距版申报信息曝光 双电机 轴距超3米

态度原创

数码
时尚
本地
艺术
公开课

数码要闻

联想YOGA真无线耳机发售:-40dB降噪、支持开盖即连,509.15元

惊了!花7千块请的“高考规划师”,上个月竟然还是卖房中介

本地新闻

世界杯还没开始,苏超已经火到爆梗

艺术要闻

东汉隶书出土!远比学习“唐楷”靠谱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版