网易首页 > 网易号 > 正文 申请入驻

清华与NVIDIA合作推出DiffusionNFT,训练效率提升25倍!

0
分享至



清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。



  • 论文标题:DiffusionNFT: Online Diffusion Reinforcement with Forward Process
  • 论文链接:https://arxiv.org/abs/2509.16117
  • 代码仓库:https://github.com/NVlabs/DiffusionNFT

背景 | 扩散模型的 RL 困境

近年来,强化学习在大语言模型(LLMs)后训练中的巨大成功,催生了人们将类似方法迁移到扩散模型的探索。例如,FlowGRPO 等方法通过将扩散采样过程离散化为多步决策问题,从而在反向过程上应用策略梯度优化。然而,这一思路存在多重根本性局限:

1.似然估计困难:自回归模型的似然可精确计算,而扩散模型的似然只能以高开销近似,导致 RL 优化过程存在系统性偏差。

2.前向–反向不一致:现有方法仅在反向去噪过程中施加优化,没有对扩散模型原生的前向加噪过程的一致性进行约束,模型在训练后可能退化为与前向不一致的级联高斯。

3.采样器受限:需要依赖特定的一阶 SDE 采样器,无法充分发挥 ODE 或高阶求解器在效率与质量上的优势。

4.CFG 依赖与复杂性:现有 RL 方案在集成无分类器引导 (CFG) 时需要在训练中对双模型进行优化,效率低下。

因此,如何设计一种既能保留扩散模型原生训练框架,又能高效融入强化学习信号的统一方法,是亟待探索的问题。

方法 | 基于前向过程的负例感知微调



DiffusionNFT 提出了一个全新的思路:把强化学习直接作用于扩散的前向加噪过程,而非反向去噪轨迹。这一设计带来了范式性的转变。

核心机制包括:

正负对比的改进方向:在采样生成中,利用奖励信号将样本划分为正例与负例,从而定义出一个隐式的 “改进方向”。与只使用正样本的拒绝采样微调(Rejection FineTuning, RFT)不同,DiffusionNFT 显式利用负样本信号,确保模型有效 “避开” 低质量区域。



负例感知微调 (Negative-aware FineTuning, NFT):通过一种巧妙的隐式参数化方式,从目标模型同时定义正向策略与负向策略,将正负分布对比转化为单一网络的训练目标,不需额外判别器或引导模型。



强化指导 (Reinforcement Guidance):在数学上,DiffusionNFT 将优化目标刻画为对旧策略分布的偏移量 ∆,这一过程与 CFG 类似,但不依赖双模型结构,而是内生于训练目标中。

这样的设计使 DiffusionNFT 同时满足以下优势:

1.前向一致性:训练目标严格符合扩散的 Fokker–Planck 方程,不破坏与前向过程的一致性,使得训练后的模型仍然是良定义的扩散模型。

2.采样器自由:训练与采样彻底解耦,可使用任意黑盒 ODE/SDE 求解器,摆脱对一阶 SDE 的依赖;同时在训练时只需存储最终样本与对应奖励值,无需整条采样轨迹。

3.似然无关:不再需要变分下界或反向轨迹似然估计,训练只依赖生成图像与奖励。

4.CFG-free 原生优化:直接学习到奖励引导的生成能力,避免 CFG 的推理开销,同时仍可兼容 CFG 进一步提升性能。

实验 | 高效性与生成质量

研究团队在多个奖励模型上验证了 DiffusionNFT 的有效性。主要结果包括:

大幅效率提升:在 GenEval 任务上,DiffusionNFT 仅需1k步 即可将得分从0.24 → 0.98,而 FlowGRPO 需超过5k步才能达到 0.95。整体上,DiffusionNFT 在不同任务上表现出3×~25× 的训练效率优势。



CFG-free 场景下显著提升:即便完全不依赖 CFG,DiffusionNFT 也能在美感、对齐度等方面显著优于原始模型。

多奖励联合优化:在 SD3.5-Medium 上同时优化 GenEval、OCR、PickScore、ClipScore、HPSv2.1 等多种奖励,最终模型在所有指标上均超越原始模型,与只针对单一奖励进行优化的 FlowGRPO 持平,并超过更大规模的 SD3.5-L 与 FLUX.1-Dev 模型。



展望 | 向统一的生成对齐范式迈进

DiffusionNFT 的提出,不仅为扩散模型的强化学习提供了一个高效、简洁且理论完备的新框架,也对更广泛的生成模型对齐研究具有启发意义。从语言模型到视觉生成,DiffusionNFT 展示了负例感知 + 前向一致性普适价值。它打破了似然估计与反向轨迹的限制,建立起监督学习与强化学习之间的桥梁。在未来,DiffusionNFT 有望推广至多模态生成、视频生成以及大模型对齐等更复杂场景,成为统一的生成优化范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球最安全城市排名出炉:旧金山第15,中国未上榜!

全球最安全城市排名出炉:旧金山第15,中国未上榜!

凑近看世界
2025-10-31 14:53:52
有谁能想到,吴石长子吴韶成苦苦寻找的恩人“陈明德”,竟会是他

有谁能想到,吴石长子吴韶成苦苦寻找的恩人“陈明德”,竟会是他

云霄纪史观
2025-10-22 11:41:38
年薪4600万,场均仅18+8!NBA伪巨头伤停,3.5亿超级顶薪没戏了

年薪4600万,场均仅18+8!NBA伪巨头伤停,3.5亿超级顶薪没戏了

世界体育圈
2025-11-02 16:58:56
女单爆大冷!黑马创历史,中国名将3:4被大逆转,日本女单4人出局

女单爆大冷!黑马创历史,中国名将3:4被大逆转,日本女单4人出局

观察鉴娱
2025-11-02 10:10:00
天助C罗:4-4,吉达联合4轮不胜,落后利雅得胜利7分

天助C罗:4-4,吉达联合4轮不胜,落后利雅得胜利7分

侧身凌空斩
2025-11-02 00:39:37
小米车没人收,安全问题惹祸,二手市场慌了

小米车没人收,安全问题惹祸,二手市场慌了

周哥一影视
2025-10-31 00:18:45
泰州全城共庆苏超捧杯,喊“夺冠同喜”可免费进店喝饮料,数百人排队望不到头

泰州全城共庆苏超捧杯,喊“夺冠同喜”可免费进店喝饮料,数百人排队望不到头

极目新闻
2025-11-02 17:36:59
他出身京剧世家,再婚娶单身妈妈,没亲生娃也幸福,今71岁不显老

他出身京剧世家,再婚娶单身妈妈,没亲生娃也幸福,今71岁不显老

素衣读史
2025-10-31 18:00:44
苹果 Pro 新品来了,真的很强

苹果 Pro 新品来了,真的很强

科技堡垒
2025-11-01 10:37:01
许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

良工说
2025-09-04 00:53:34
ASML专利不保?中企对外“警告”,回购已购光刻机,荷兰陷入两难

ASML专利不保?中企对外“警告”,回购已购光刻机,荷兰陷入两难

深析古今
2025-11-01 11:08:24
詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

醉卧浮生
2025-11-02 13:17:10
导演张纪中辟谣身家300亿:我一普通导演能挣多少钱;面对孩子问“你什么时候死”,74岁张纪中回应称有决心陪孩子到30岁

导演张纪中辟谣身家300亿:我一普通导演能挣多少钱;面对孩子问“你什么时候死”,74岁张纪中回应称有决心陪孩子到30岁

极目新闻
2025-11-02 17:21:33
天啦噜!深圳48岁女子怀孕7-8周了,24岁女儿坚决反对,引发争议

天啦噜!深圳48岁女子怀孕7-8周了,24岁女儿坚决反对,引发争议

火山诗话
2025-10-31 22:27:50
大陆若实施“武统”,韩国是否采取行动? 李在明的回答相当干脆

大陆若实施“武统”,韩国是否采取行动? 李在明的回答相当干脆

奥字侃剧
2025-10-25 17:05:36
中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

慎独赢
2025-06-11 12:35:48
上海71岁老太卖房自驾旅游 , 9年没回家 , 坦言:不会给亲人留一分钱

上海71岁老太卖房自驾旅游 , 9年没回家 , 坦言:不会给亲人留一分钱

小影的娱乐
2025-10-30 05:53:12
谷爱凌,头发变黑,脸变精致,胸围傲人,气质变得更优?

谷爱凌,头发变黑,脸变精致,胸围傲人,气质变得更优?

娱乐领航家
2025-10-27 22:00:06
北京楼市大获全胜,北京楼市东直门板块房价从10.7万降至8.7万

北京楼市大获全胜,北京楼市东直门板块房价从10.7万降至8.7万

有事问彭叔
2025-10-31 18:56:28
2025年11月3日-11月9日 十二星座周运

2025年11月3日-11月9日 十二星座周运

星座不求人
2025-11-02 19:56:04
2025-11-02 21:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
时尚
教育
健康
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

最近很火的发型,原来这么简单!

教育要闻

全科无水印!绵阳高三一诊试卷及答案

核磁VS肌骨超声,谁更胜一筹?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版