网易首页 > 网易号 > 正文 申请入驻

清华与NVIDIA合作推出DiffusionNFT,训练效率提升25倍!

0
分享至

来源:市场资讯

(来源:机器之心Pro)

清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。


背景 | 扩散模型的 RL 困境

近年来,强化学习在大语言模型(LLMs)后训练中的巨大成功,催生了人们将类似方法迁移到扩散模型的探索。例如,FlowGRPO 等方法通过将扩散采样过程离散化为多步决策问题,从而在反向过程上应用策略梯度优化。然而,这一思路存在多重根本性局限:

1.似然估计困难:自回归模型的似然可精确计算,而扩散模型的似然只能以高开销近似,导致 RL 优化过程存在系统性偏差。

2.前向–反向不一致:现有方法仅在反向去噪过程中施加优化,没有对扩散模型原生的前向加噪过程的一致性进行约束,模型在训练后可能退化为与前向不一致的级联高斯。

3.采样器受限:需要依赖特定的一阶 SDE 采样器,无法充分发挥 ODE 或高阶求解器在效率与质量上的优势。

4.CFG 依赖与复杂性:现有 RL 方案在集成无分类器引导 (CFG) 时需要在训练中对双模型进行优化,效率低下。

因此,如何设计一种既能保留扩散模型原生训练框架,又能高效融入强化学习信号的统一方法,是亟待探索的问题。

方法 | 基于前向过程的负例感知微调


DiffusionNFT 提出了一个全新的思路:把强化学习直接作用于扩散的前向加噪过程,而非反向去噪轨迹。这一设计带来了范式性的转变。

核心机制包括:

正负对比的改进方向:在采样生成中,利用奖励信号将样本划分为正例与负例,从而定义出一个隐式的 “改进方向”。与只使用正样本的拒绝采样微调(Rejection FineTuning, RFT)不同,DiffusionNFT 显式利用负样本信号,确保模型有效 “避开” 低质量区域。


负例感知微调 (Negative-aware FineTuning, NFT):通过一种巧妙的隐式参数化方式,从目标模型同时定义正向策略与负向策略,将正负分布对比转化为单一网络的训练目标,不需额外判别器或引导模型。


强化指导 (Reinforcement Guidance):在数学上,DiffusionNFT 将优化目标刻画为对旧策略分布的偏移量 ∆,这一过程与 CFG 类似,但不依赖双模型结构,而是内生于训练目标中。

这样的设计使 DiffusionNFT 同时满足以下优势:

1.前向一致性:训练目标严格符合扩散的 Fokker–Planck 方程,不破坏与前向过程的一致性,使得训练后的模型仍然是良定义的扩散模型。

2.采样器自由:训练与采样彻底解耦,可使用任意黑盒 ODE/SDE 求解器,摆脱对一阶 SDE 的依赖;同时在训练时只需存储最终样本与对应奖励值,无需整条采样轨迹。

3.似然无关:不再需要变分下界或反向轨迹似然估计,训练只依赖生成图像与奖励。

4.CFG-free 原生优化:直接学习到奖励引导的生成能力,避免 CFG 的推理开销,同时仍可兼容 CFG 进一步提升性能。

实验 | 高效性与生成质量

研究团队在多个奖励模型上验证了 DiffusionNFT 的有效性。主要结果包括:

大幅效率提升:在 GenEval 任务上,DiffusionNFT 仅需1k步 即可将得分从0.24 → 0.98,而 FlowGRPO 需超过5k步才能达到 0.95。整体上,DiffusionNFT 在不同任务上表现出3×~25× 的训练效率优势。


CFG-free 场景下显著提升:即便完全不依赖 CFG,DiffusionNFT 也能在美感、对齐度等方面显著优于原始模型。

多奖励联合优化:在 SD3.5-Medium 上同时优化 GenEval、OCR、PickScore、ClipScore、HPSv2.1 等多种奖励,最终模型在所有指标上均超越原始模型,与只针对单一奖励进行优化的 FlowGRPO 持平,并超过更大规模的 SD3.5-L 与 FLUX.1-Dev 模型。


展望 | 向统一的生成对齐范式迈进

DiffusionNFT 的提出,不仅为扩散模型的强化学习提供了一个高效、简洁且理论完备的新框架,也对更广泛的生成模型对齐研究具有启发意义。从语言模型到视觉生成,DiffusionNFT 展示了负例感知 + 前向一致性普适价值。它打破了似然估计与反向轨迹的限制,建立起监督学习与强化学习之间的桥梁。在未来,DiffusionNFT 有望推广至多模态生成、视频生成以及大模型对齐等更复杂场景,成为统一的生成优化范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!整个A股被格力电器的公告吓坏了,暂时停止补涨行情…

难以置信!整个A股被格力电器的公告吓坏了,暂时停止补涨行情…

火山詩话
2026-02-26 15:33:19
掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

懂球帝
2026-02-26 13:49:51
巨额赔偿500万!小米起诉自媒体账号实控人竟是李斌?蔚来回应

巨额赔偿500万!小米起诉自媒体账号实控人竟是李斌?蔚来回应

金石随笔
2026-02-26 08:25:02
开炮真管用!中国海警船果断开炮,菲律宾50多艘舰船夺命而逃!

开炮真管用!中国海警船果断开炮,菲律宾50多艘舰船夺命而逃!

头条爆料007
2026-02-26 08:30:30
春节后,这4种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

春节后,这4种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

阿龙美食记
2026-02-26 10:37:19
中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:46:48
欧冠16强出炉,阿森纳喜提大礼包!巴黎下下签,头号夺冠热门诞生

欧冠16强出炉,阿森纳喜提大礼包!巴黎下下签,头号夺冠热门诞生

球场没跑道
2026-02-26 12:07:39
3-2险爆冷!1号种子惊险过关,陈熠蒯曼输得不冤,没莎头还真不行

3-2险爆冷!1号种子惊险过关,陈熠蒯曼输得不冤,没莎头还真不行

体育就你秀
2026-02-26 15:21:28
日经225指数涨幅扩大至超1%,首次站上59000点

日经225指数涨幅扩大至超1%,首次站上59000点

每日经济新闻
2026-02-26 08:17:04
俄粉的好机会来了?中国总领馆:在俄长期居留男性须至少服役1年

俄粉的好机会来了?中国总领馆:在俄长期居留男性须至少服役1年

瑜说还休
2026-02-26 12:52:45
日本2025年新生儿数量再创新低

日本2025年新生儿数量再创新低

上观新闻
2026-02-26 16:34:30
德国总理参观宇树科技 德国高管们争相和机器人合影:不要弄坏 很贵

德国总理参观宇树科技 德国高管们争相和机器人合影:不要弄坏 很贵

快科技
2026-02-26 15:57:10
四川甘孜州色达县发生3.2级地震,震源深度8千米

四川甘孜州色达县发生3.2级地震,震源深度8千米

界面新闻
2026-02-26 17:34:42
"绿卡"变"炮灰",中使馆紧急提醒俄罗斯移民新政

"绿卡"变"炮灰",中使馆紧急提醒俄罗斯移民新政

凤眼论
2026-02-26 11:05:09
巴拿马赌输了?撕毁长和租约后,中国占21.4%货运量或成致命一击

巴拿马赌输了?撕毁长和租约后,中国占21.4%货运量或成致命一击

凡知
2026-02-26 05:30:28
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
平顶山“夫妻打人事件”,最狠毒者是老太

平顶山“夫妻打人事件”,最狠毒者是老太

方清云
2026-02-25 17:44:53
外交部:中方支持伊朗政府和人民维护国家稳定和正当权益

外交部:中方支持伊朗政府和人民维护国家稳定和正当权益

环球网资讯
2026-02-26 15:25:31
中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

快科技
2026-02-25 18:52:04
大反转!三只羊“上市”成功

大反转!三只羊“上市”成功

首席品牌评论
2026-02-25 23:00:11
2026-02-26 18:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2277260文章数 5548关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币离岸价升破6.83 什么原因?

汽车要闻

40岁的吉利,不惑于内外

态度原创

本地
教育
手机
公开课
军事航空

本地新闻

津南好·四时总相宜

教育要闻

南京公办、民办中小学2026最新收费标准!4所民办改革试点自主制定收费标准!

手机要闻

OPPO Find X9 Ultra四月见:首发史上最强10倍光变 机圈望远镜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版