网易首页 > 网易号 > 正文 申请入驻

港科联合快手可灵提出高效强化学习后训练扩散模型新范式

0
分享至



在使用强化学习(RL)微调扩散模型(如 Stable Diffusion, Flux)以对齐人类偏好时,我们常面临一个棘手的 “两难困境”:追求高奖励会导致图像质量崩坏(即 Reward Hacking),而为了防止崩坏引入的 KL 正则化又会严重阻碍模型的探索和收敛。

最近,来自于香港科技大学,快手可灵 AI,港中文以及爱丁堡大学的研究团队提出了一种全新的框架 GARDO。它通过门控自适应正则化和多样性感知优化,成功在防止 Reward Hacking 的同时,实现了高效的样本探索和多样性生成。研究工作已经全面开源。

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和多模态基础模型等,研究目标是开发下一代可扩展强化学习后训练算法。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。



  • 论文标题:GARDO: Reinforcing Diffusion Models without Reward Hacking
  • 项目主页:https://tinnerhrhe.github.io/gardo_project
  • 论文链接:https://arxiv.org/pdf/2512.24138

背景与动机:RL 后训练中的陷阱

强化学习(RL)在视觉领域的后训练中展现出了不错的效果,逐渐成为当前研究的热点。最近半年,如 flow-grpo,dancegrpo 以及 DiffusionNFT 等工作受到了大家广泛关注。

然而,在视觉任务中,定义一个完美的 “奖励函数(Reward Function)” 极其困难。我们通常使用的是一个代理奖励(Proxy Reward),例如 ImageReward、Aesthetic Score 或者 OCR 识别率。

这就导致了一个典型的问题:Reward Hacking。当模型过度优化这个代理奖励时,它会找到奖励模型的漏洞(Out-of-Distribution, OOD 区域)。结果就是,代理分数(Proxy Score)极高,但生成的图像充满了噪点、伪影,甚至完全失去了真实感。



Reward Hacking 定义

下面展示文生图出现 hacking 的例子:



为了解决这个问题,传统方法(如 DPOK, Flow-GRPO)通常引入 KL 散度正则化,强迫微调后的策略 π_θ 不要偏离原始参考策略 π_ref 太远。但研究团队发现,这种 “一刀切” 的 KL 正则化带来了新的问题:

  1. 样本效率低:RL 目标函数会被 KL 惩罚项的 π_ref 拖后腿,学习速度变慢。
  2. 阻碍探索:π_ref 本身通常是次优的,强制 π_θ 贴近它会阻止模型探索那些参考模型 π_ref 未发现的高奖励区域。

核心问题来了,能否在不牺牲样本效率和探索能力的前提下,防止 Reward Hacking?

GARDO:门控、自适应与多样性

为了打破上述困境,作者提出了GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization) 框架



GARDO 方法概览图

KL-regularized RL 的最优解可以写成:







基于上述观察,GARDO 的框架基于三个核心洞察:

洞察一:正则化不需要 “雨露均沾”

方法:门控 KL 机制 (Gated KL Mechanism)

根据定义 1,只有当模型 π_θ 生成的样本落在代理奖励不可靠的区域(即 OOD 区域)时,才真正需要 KL 正则化。对于那些既高质量又在分布内的样本,施加惩罚只会阻碍学习。

GARDO 引入了不确定性估计(通过奖励模型集成 ranking 差异来衡量)。





  • 做法:只对那些具有高不确定性 (Reward Model 拿不准,可能是 Hacking)的样本施加 KL 惩罚。
  • 效果:实验发现,仅对约 10% 的高不确定性样本进行惩罚,就足以有效防止 Reward Hacking,让其余 90% 的样本自由探索。从而实现在不牺牲样本效率的情况下,有效抑制 hacking 现象的出现。

洞察二:静态的 π_ref 会限制 RL 优化的上限

方法:自适应正则化目标 (Adaptive Regularization Target)

如果 π_ref 一直不变,随着 π_θ 的变强,KL 惩罚会主导整个 learning Loss,导致优化停滞。

  • 做法:定期更新 Reference Model π_ref(将其重置为当前的策略)。
  • 效果:这就像给模型设立了动态更新的 “锚点”,既保证了训练的稳定性,又允许模型持续进化,探索更广阔的空间。

洞察三:RL 容易 mode collapse,需要鼓励多样性生成

方法:多样性感知优势重塑 (Diversity-Aware Advantage Shaping)

RL 训练容易导致 Mode Collapse(模式坍塌),即模型发现一种高分画法后就只会画这一种。这不仅降低了生成质量,也加剧了 Reward Hacking。

  • 做法:利用 DINOv3 提取特征,计算样本在特征空间中的稀疏度作为 “多样性分数”。将此分数以乘法形式作用于优势函数(Advantage)。



  • 注意:只奖励那些既有正向优势(高质量)又具有高多样性的样本,防止模型为了多样性而生成乱七八糟的东西。

研究团队在高斯混合分布(预训练分布)上训练了一个包含三层 MLP 的扩散模型,目标是捕捉奖励景观中所示的多模态高奖励聚类。使用较大 KL 系数 β 的传统强化学习方法约束过强,无法提升奖励。与之相对,过小的 β 则会导致严重的模式坍缩。团队提出的多样性感知优化方法单独使用时,已成功捕捉到多模态聚类,包括参考策略 π_ref 中概率密度最低的中心聚类。而团队提出的完整的 GARDO 框架则能同时实现奖励最大化并发现所有高奖励聚类。



实验结果:全方位的提升

作者在 SD3.5-Medium 和 Flux.1-dev 等多个基底模型上,针对不同的奖励任务(GenEval, OCR, Aesthetic 等)和不同的 RL 算法(flow-grpo,DiffusioNFT 等)进行了广泛实验。

定量评估

相比于 Flow-GRPO 等基线方法,GARDO 展现了显著的优势:

  1. 拒绝 Hacking:在 OCR 等易被 Hack 的任务中,GARDO 在保持高识别率的同时,图像质量指标(如 Aesthetic, PickScore)没有下降,甚至有所提升。
  2. 样本效率:学习曲线显示,GARDO 能够以更少的步数达到更高的奖励水平。
  3. 泛化性:在未见过的测试指标上(Unseen Metrics),GARDO 表现出极强的鲁棒性。



GARDO 和 baseline 在不同 metric 上的表现。训练优化代理任务黄色高亮。



涌现能力

最令人印象深刻的是 GARDO 激发了模型的涌现能力(Emergent Behavior)。

在极具挑战性的 “数数任务”(生成特定数量的物体)中,基底模型和传统 RL 方法很难生成超过 9 个物体。

而 GARDO 成功学会了生成 10 个甚至 11 个物体。



总结

GARDO 针对扩散模型 RL 后训练中的痛点,提出以下解决方案:

  • 拒绝盲目正则化 →→ 门控 KL(只惩罚不可靠的)
  • 拒绝静态锚点 →→ 自适应更新(不断提升上限)
  • 拒绝模式坍塌 →→ 多样性感知(鼓励百花齐放)

这项工作证明了:在视觉生成的强化学习中,精准的控制比强力的约束更重要。对于希望利用 RL 进一步释放扩散模型潜力的研究者和开发者来说,GARDO 提供了一个极具价值的通用框架。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雨绮凉凉!和于适一起上辽宁春晚被反噬,葛晓倩公布警方新调查

张雨绮凉凉!和于适一起上辽宁春晚被反噬,葛晓倩公布警方新调查

嫹笔牂牂
2026-01-26 07:14:54
干涸43年后复苏!曾经我国第二大内流河,为何能重现生机?

干涸43年后复苏!曾经我国第二大内流河,为何能重现生机?

百科密码
2026-01-06 15:04:30
29岁女子被丈夫砍死!受害者完全可以逃生,3条生路被堵死

29岁女子被丈夫砍死!受害者完全可以逃生,3条生路被堵死

细品名人
2026-01-26 07:36:25
白宫“新丑”惊呆网友,新华社“神回复”

白宫“新丑”惊呆网友,新华社“神回复”

世家宝
2026-01-26 17:08:53
我国的“斤”用了3000年,为何与国际接轨后,恰好相当于500克?

我国的“斤”用了3000年,为何与国际接轨后,恰好相当于500克?

鹤羽说个事
2026-01-24 14:02:31
蔡允革,赴任广西

蔡允革,赴任广西

新京报政事儿
2026-01-26 09:29:33
学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

健康科普365
2026-01-25 12:55:09
真当中国不敢动手?中方向全世界宣布,退出5000亿大项目,菲慌了

真当中国不敢动手?中方向全世界宣布,退出5000亿大项目,菲慌了

趣生活
2026-01-25 19:23:56
小菲儿子箖箖爱玩北京的雪 和兰姐玩到天黑箖玥奶奶家吃饭特别香

小菲儿子箖箖爱玩北京的雪 和兰姐玩到天黑箖玥奶奶家吃饭特别香

好贤观史记
2026-01-26 11:58:18
库里26+7勇士大胜送森林狼5连败 爱德华兹32+11难阻单节输21分

库里26+7勇士大胜送森林狼5连败 爱德华兹32+11难阻单节输21分

醉卧浮生
2026-01-26 08:51:22
患有精神疾病不能担任美国总统,特朗普要被民主党人弹劾了!

患有精神疾病不能担任美国总统,特朗普要被民主党人弹劾了!

达文西看世界
2026-01-25 10:45:18
美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

影孖看世界
2026-01-26 14:58:31
多家宣布:春节不放假

多家宣布:春节不放假

珠海发布
2026-01-25 22:31:45
普京打够了?美国开最后条件:乌克兰割让顿巴斯,获得8000亿美元

普京打够了?美国开最后条件:乌克兰割让顿巴斯,获得8000亿美元

霁寒飘雪
2026-01-26 11:35:23
退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

阿纂看事
2026-01-26 10:20:53
美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

面包夹知识
2026-01-26 13:04:20
吃一斤它等于吃10只鸡!一降血脂、二降血糖、三降胆固醇,要常吃

吃一斤它等于吃10只鸡!一降血脂、二降血糖、三降胆固醇,要常吃

江江食研社
2026-01-26 14:30:07
特斯拉再次变相降价!

特斯拉再次变相降价!

电动知家
2026-01-25 11:14:56
林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

黎兜兜
2026-01-24 21:21:39
300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

泠泠说史
2026-01-06 18:56:19
2026-01-26 17:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

头条要闻

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

本地
数码
手机
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

全球电视市场格局生变:TCL份额达16% 与三星相差1%

手机要闻

消息称三星Galaxy S26 Ultra手机将有纯白色版本

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版