网易首页 > 网易号 > 正文 申请入驻

提速4.6倍!NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

0
分享至



当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。



Sol-RL(Speed-of-light RL)是一种将 NVFP4 推理融合进 Diffusion 强化学习微调的高效训练框架。该方法并不是用量化推理结果直接训练,而是让 NVFP4 rollout 承担高吞吐的大规模探索任务,先在海量候选中筛出最有对比性的样本的初始噪声集合,再让 BF16 对这些关键初始噪声进行高保真再生成并完成策略优化。实验结果表明,该设计在 SANA、FLUX.1 和 SD3.5-L 模型上都带来了明显收益:在相同 GPU-hour 预算下,达到等效 reward 水平的收敛速度最高提升 4.64x,同时基本保持了 BF16 高精度 pipeline 的训练保真度。本文将深入探讨 Sol-RL 的核心思路、方法设计、实验结果与实际意义。



  • 论文名称:FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
  • 论文地址:https://arxiv.org/abs/2604.06916
  • 项目主页:https://nvlabs.github.io/Sana/Sol-RL/
  • 代码链接:https://github.com/NVlabs/Sana/

效果展示

Sol-RL 在速度和性能上表现出色,下图展示了经过 Sol-RL 优化后 SANA 模型的整体效果,以及与基础模型相比在复杂细节、语义一致性和整体审美上的改善。



研究背景


在文生图模型的后训练阶段,强化学习正在成为提升人类偏好对齐能力的重要路径。现有研究不断表明,扩大 rollout,也就是为同一个 prompt 生成更多候选图像,再从中筛选高对比样本(例如其中表现最好的 n 个和最差的 n 个构成的 2n 个图像)进行优化,能够显著提升模型的对齐效果。对于基于 GRPO 的 Diffusion RL 来说,更多候选意味着更强的对比信号,也意味着更可靠的梯度更新。

但问题在于:rollout 一旦增大,训练瓶颈很快就会从参数更新转移到海量候选样本生成。尤其在 FLUX.1、SD3.5-L 这类参数量较大、需要多次迭代推理的文生图 Diffusion 模型上,想真正把 rollout scaling 做起来,rollout 阶段生成候选样本的计算成本会迅速上升。为了提高海量 rollout 效率,团队引入 nvfp4 量化推理,但论文进一步指出,如果直接把低比特 rollout 样本当作训练目标,训练稳定性和最终效果都会受到明显影响。因此,关键并不只是「能不能用 FP4」,而是「FP4 应该在训练流程里扮演什么角色」。

核心创新

Sol-RL 的核心创新在于其双阶段解耦框架。与直接把低精度计算贯穿整个训练流程不同,Sol-RL 把 rollout 样本的「探索」和「生成」拆开处理,让不同精度承担不同职责。

量化 rollout 不适合直接训练:论文首先指出,直接将 FP4 量化推理样本用作优化目标,会带来训练退化和不稳定性的隐患,如下图实验中红色曲线所示。



FP4 适合作为探索代理:尽管 FP4 样本在像素层面会引入偏差,但研究发现,给定相同的初始噪声,在同组候选样本的相对 reward 排序上,NVFP4 推理样本依然保持了和 BF16 推理样本足够高的一致性。因此,它非常适合用来承担「大规模探索」和「候选筛选」的任务,也就是在大量初始噪声中快速识别出哪些会产生「最好」或者「最坏」的最终图像。




方法概述

Sol-RL 的整体流程可以概括为两个阶段。第一阶段,框架使用 NVFP4 rollout 和更少的采样步数快速生成一个大规模候选池,并根据 reward 对候选样本做排序,筛选出对应图像得分最高 / 最低的初始噪声种子集合。第二阶段,框架并不会直接拿这些低精度样本做训练,而是只保留第一阶段筛出的关键种子,再用 BF16 精度重新生成高保真样本,并仅基于这些高保真样本完成策略优化。这样一来,FP4 负责快速找方向,BF16 负责对其中一小部分高对比度样本做高质量生成用于训练,效率和稳定性被重新组织到同一个框架中。这样的流程让高成本 BF16 计算只集中在真正会影响梯度更新的部分,而不是平均浪费在大量最终不会参与训练的候选图像上。



实验结果


实验结果表明,Sol-RL 在多个基础模型和多个 reward 指标上都展现出明显优势。在相同 GPU-hour 预算下,Sol-RL 在 SANA、FLUX.1 和 SD3.5-L 上持续优于基线方法,并将达到等效 reward 水平的收敛速度最高提升至 4.64x。如下图所示,Sol-RL 在相同 wall-clock 预算下能够更快达到基线性能,在有限时间内达到更高对齐质量。



进一步做时间拆解,相对于直接使用高精度进行 rollout scaling,Sol-RL 在 rollout 阶段的加速最高达到 2.41x,训练迭代时间最高提升 1.62x。Sol-RL 通过探索 - 重生成的两阶段设计,显著缓解了完全使用 BF16 rollout scaling 带来的计算瓶颈,并且避免了直接使用低精度样本进行训练带来的不稳定性,相对于全程 NVFP4 低精度推理版本仅带来约为 2% 的额外开销。



结论与展望

当大规模 rollout 已经被证明能够持续提升生成模型偏好对齐能力,接下来的关键问题就是如何以更低成本释放这种扩展带来的收益。Sol-RL 给出的答案是:让低精度负责探索,让高精度负责优化。这也意味着,FP4 在生成式模型后训练中的角色被重新定义了。它不再只是一个推理加速工具,而是开始成为强化学习探索阶段的有效代理。对于文生图后训练、偏好对齐、低比特量化以及系统级优化方向的研究者和工程团队来说,这个方案为生成模型后训练提供了一条更现实的落地路径,具备持续关注的价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

扬子晚报
2026-06-03 07:37:03
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

深圳梦
2026-06-02 20:54:51
女子借网贷转账给辅警男友,“利滚利”后还不上3万元自缢身亡 男方被判赔17万余元

女子借网贷转账给辅警男友,“利滚利”后还不上3万元自缢身亡 男方被判赔17万余元

红星新闻
2026-06-03 18:05:18
NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

醉卧浮生
2026-06-03 00:41:39
陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

大象新闻
2026-06-03 16:47:13
问界回应M9起火事件:前车掉落金属部件拖行引燃,非车辆自身原因

问界回应M9起火事件:前车掉落金属部件拖行引燃,非车辆自身原因

热点科技
2026-06-03 14:01:20
特朗普政府提议对来自包括中国内地及中国香港在内的60个经济体的进口商品征收额外税赋,外交部:关税战、贸易战不符合任何一方的利益

特朗普政府提议对来自包括中国内地及中国香港在内的60个经济体的进口商品征收额外税赋,外交部:关税战、贸易战不符合任何一方的利益

农民日报
2026-06-03 15:50:00
今日最惨股,是一只券商股,股价已跌83%,今天又闪崩跌停!

今日最惨股,是一只券商股,股价已跌83%,今天又闪崩跌停!

丁丁鲤史纪
2026-06-03 16:32:22
31条中日航线5月取消全部航班

31条中日航线5月取消全部航班

财联社
2026-06-03 15:56:05
百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

扬子晚报
2026-06-02 22:40:00
太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

火山詩话
2026-06-03 11:47:35
欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

火山詩话
2026-06-03 11:06:12
里克尔梅:我想看到巴萨降入西乙,只希望皇马赢

里克尔梅:我想看到巴萨降入西乙,只希望皇马赢

懂球帝
2026-06-03 15:03:47
痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

小鋭有话说
2026-06-03 11:19:08
晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

大鱼简科
2026-06-03 11:38:09
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
89岁魏宗万逝世,他与二婚妻子走过50年金婚,这才是德艺双馨

89岁魏宗万逝世,他与二婚妻子走过50年金婚,这才是德艺双馨

社会日日鲜
2026-06-03 08:07:39
网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

文忆天下
2026-06-03 07:09:35
2026-06-03 18:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
时尚
亲子
教育
房产

旅游要闻

文旅新探|寻味隆福寺

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

亲子要闻

想让孩子长高,到底怎么运动?专家一次讲透

教育要闻

【草原英雄征途】锡林郭勒·少年那达慕成长营

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

无障碍浏览 进入关怀版