网易首页 > 网易号 > 正文 申请入驻

快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

0
分享至



论文第一作者为王晶,中山大学二年级博士生,研究方向为强化学习与视频生成;通讯作者为中山大学智能工程学院教授梁小丹。

目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

在此过程中,重要性比值的 clip 机制被引入,用于约束过于自信的正负样本梯度,避免破坏性的策略更新,从而维持训练的稳定性。然而,实证分析显示,该机制存在系统性偏差:其均值长期低于 1,导致过度自信的正梯度无法得到有效限制;同时,不同去噪步下比值的分布方差差异显著,使得部分步骤的 clip 机制失效。

结果,模型在训练过程中容易陷入过度优化状态——即代理奖励持续上升,但图像质量及文本与提示的对齐度反而下降,导致优化后的模型在实际应用中效果不佳。

图像质量随优化过程的变化如下:

为此,中山大学、快手可灵以及港中文 MMLab 等团队联合提出了 GRPO-Guard,这是首个针对 GRPO 在流模型中出现的过度优化问题而设计的解决方案。GRPO-Guard 能在保证快速收敛的同时,大幅降低过度优化的风险。

在 Flow-GRPO、DanceGRPO 等多种 GRPO 变体、不同扩散骨干模型(如 SD3.5-M、FLUX1.dev),GRPO-Guard 在文本渲染、GenEval、PickScore 等多种代理任务中均展现出稳定显著的提升,同时有效缓解 reward hacking 现象,提高优化后模型的实际应用价值。

目前该项目的论文和代码均已开源:



  • 论文标题:GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
  • 论文链接:https://arxiv.org/abs/2510.22319
  • 代码地址:https://github.com/yifan123/flow_grpo



核心问题:

比值分布偏移破坏 Clip 约束





由于二阶项的引入,log-importance ratio 在 off-policy 情况下会受到二次项的影响,表现出均值低于 1 且不同去噪步骤(denoising step)方差差异显著的现象。







理想情况下,重要性比值的均值应接近 1,以保证左右 clip 区间均衡,使有害的正负样本梯度能够被有效约束。然而,均值偏移和方差差异会导致预先设定的 clip 机制失效:一方面,正样本梯度无法被充分约束;另一方面,部分步骤的 clip 机制失效,从而使策略(policy)陷入过度优化状态。

此外,FlowGRPO 中不同去噪步骤的梯度存在显著差异。具体而言







解决思路:

RatioNorm 和跨步梯度平衡

针对上述问题,为每个去噪步骤单独设定特定的 clip 范围显得过于繁琐。为此,我们提出GRPO-Guard,在原有 GRPO 框架上引入两项关键改进:

  • 比率归一化(RatioNorm):对每个去噪步骤的重要性比值分布进行标准化,使其均值接近 1,方差保持一致,从而恢复 clip 机制的有效性,避免因正样本裁剪失效而引发的过度优化。



该机制对梯度的影响如下所示:





经过 RatioNorm 调整后的重要性比值分布对比:



FlowGRPO:均值小于 1,破坏性正样本约束失效



GRPO-Guard:均值接近 1,破坏性正样本得到约束

实验结果:

显著缓解过优化

我们在 FlowGRPO 和 DanceGRPO 两种不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 两种扩散骨干模型,以及 GenEval、PickScore 和文本渲染等多种任务上验证了 GRPO-Guard 的有效性。实验结果表明,GRPO-Guard 能显著缓解过度优化现象,同时保持与 baseline 相近的性能提升。

具体而言,不同任务的 proxy score 与 gold score 对比显示:在 baseline 方法中,gold score 存在明显下降趋势,而在 GRPO-Guard 下,这一下降趋势被显著缓解。





训练过程图像质量可视化:FlowGRPO/DanceGRPO 等算法随着训练的进行,策略(policy)过度优化问题明显,导致图像质量显著下降。GRPO-Guard 则在训练过程后期仍然保持了较高的图像质量。



更多可视化样例显示,在 baseline 方法下,在文本响应和图像质量都呈现出明显的退化,而GRPO-Guard 能在提升目标 reward 的同时较好地保持文本响应和图像质量。





在 PickScore 任务中,baseline 方法在训练后期生成的人体比例存在不一致现象,且多人脸型过于相似,极大影响了生成多样性,GRPO-Guard 显著缓解了这个问题。



总结与展望:

迈向更稳健的视觉生成式强化学习

作为首先关注 GRPO 在视觉生成中过优化现象的研究,GRPO-Guard 通过比率归一化(RatioNorm)和跨步梯度平衡,有效稳定策略更新,恢复裁剪机制对正样本的约束,并缓解过度优化。实验表明,无论在不同 GRPO 变体、扩散骨干模型,还是多种代理任务中,GRPO-Guard 都能保持甚至提升生成质量,并提升训练的稳定性和多样性。

本质上过优化问题的出现是由于 proxy score 和 gold score 的巨大差距而导致的,虽然 GRPO-Guard 从优化过程上缓解了过优化现象,但并未彻底根治。未来,应该构建更精确的奖励模型,使代理分数更接近真实评估(gold score),从而进一步减少 reward hacking 并提升优化效果。这将为 GRPO 在流模型及更广泛的生成任务中的实际应用提供更可靠的技术保障。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
-4℃!湖南多地将出现雨雪天气

-4℃!湖南多地将出现雨雪天气

芒果都市
2026-01-14 15:39:44
幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

懂球帝
2026-01-14 14:33:05
一轮游!周杰伦澳网一球制胜遭约维奇ACE淘汰 无缘战前世界第一

一轮游!周杰伦澳网一球制胜遭约维奇ACE淘汰 无缘战前世界第一

醉卧浮生
2026-01-14 17:16:25
狂赚 7 亿也不给面子!合川文旅正面 “刚” 流量,太解气!

狂赚 7 亿也不给面子!合川文旅正面 “刚” 流量,太解气!

有范又有料
2026-01-14 13:53:11
工程师拒绝调岗至流水线操作工,仍在原岗打卡被辞退,法院判了

工程师拒绝调岗至流水线操作工,仍在原岗打卡被辞退,法院判了

澎湃新闻
2026-01-14 11:42:29
贺娇龙工作时意外坠马,仍在救治中!曾身披红衣策马雪原火爆全网,网友:希望只是虚惊一场

贺娇龙工作时意外坠马,仍在救治中!曾身披红衣策马雪原火爆全网,网友:希望只是虚惊一场

新民晚报
2026-01-14 12:36:39
美国总统特使寻求赴俄见普京

美国总统特使寻求赴俄见普京

新华社
2026-01-14 17:28:06
阿维塔电车失控在市区道路时速超100km/h连撞15车,肇事司机称系驾驶辅助系统失控,阿维塔否定车辆问题,认定为人工驾驶,责任认定引争议

阿维塔电车失控在市区道路时速超100km/h连撞15车,肇事司机称系驾驶辅助系统失控,阿维塔否定车辆问题,认定为人工驾驶,责任认定引争议

极目新闻
2026-01-14 12:08:00
韧性贯穿神剧本,北京现代21万销量与“逆天改命”

韧性贯穿神剧本,北京现代21万销量与“逆天改命”

线外邦
2026-01-14 17:13:43
真相大白!11级新疆班学生发声,辟谣林傲霏是同学,班级名单曝光

真相大白!11级新疆班学生发声,辟谣林傲霏是同学,班级名单曝光

古希腊掌管月桂的神
2026-01-14 16:28:57
震惊!一沪漂网友公布2025全年税后收入超420000,称进入精英阶层

震惊!一沪漂网友公布2025全年税后收入超420000,称进入精英阶层

火山诗话
2026-01-14 15:01:46
被要求判死刑,尹锡悦涨红了脸,抓起麦克风陈述89分钟,拍桌怒骂特检组

被要求判死刑,尹锡悦涨红了脸,抓起麦克风陈述89分钟,拍桌怒骂特检组

红星新闻
2026-01-14 12:58:18
痛心!河南帅哥小张去世,仅25,因母亲病重公司不批假想不开跳楼

痛心!河南帅哥小张去世,仅25,因母亲病重公司不批假想不开跳楼

鋭娱之乐
2026-01-14 08:52:03
实探欠租风波中的嫣然天使儿童医院:仍在正常营业,房东称已被拖欠超2668万元,法院判决腾房至今无果

实探欠租风波中的嫣然天使儿童医院:仍在正常营业,房东称已被拖欠超2668万元,法院判决腾房至今无果

极目新闻
2026-01-14 17:42:44
彻底爆单!浙江老板娘每天卖出2万件,火遍全球!网友:被戳中了……

彻底爆单!浙江老板娘每天卖出2万件,火遍全球!网友:被戳中了……

环球网资讯
2026-01-14 15:51:10
湖人大胜老鹰超火箭升第五 詹姆斯31+9+10东契奇27+12创纪录

湖人大胜老鹰超火箭升第五 詹姆斯31+9+10东契奇27+12创纪录

醉卧浮生
2026-01-14 13:53:50
北京将迎两场降雪!

北京将迎两场降雪!

美丽大北京
2026-01-14 17:36:42
同意加装电梯但一直没有出资,一户人家被全楼“孤立”!积怨太深,卖房时尴尬了

同意加装电梯但一直没有出资,一户人家被全楼“孤立”!积怨太深,卖房时尴尬了

扬子晚报
2026-01-14 11:27:18
触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

史政先锋
2026-01-14 16:36:18
2025年汽车产销量再创历史新高 连续17年稳居全球第一

2025年汽车产销量再创历史新高 连续17年稳居全球第一

环球网资讯
2026-01-14 14:16:13
2026-01-14 19:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

沙特官员向德黑兰承诺:不会向美军开放领空

头条要闻

沙特官员向德黑兰承诺:不会向美军开放领空

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

姚振华举报:观致汽车资产被低价拍卖

汽车要闻

曝Model Y或降到20万以内!

态度原创

家居
游戏
时尚
艺术
公开课

家居要闻

心之所向 现代建构之美

天下贰经典版一场天域合成战,点燃两个服务器的“经济核爆”

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

艺术要闻

八大山人『山水花鸟册』

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版