快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化|梯度|比值|算法|方差|grpo卫兵|快手(软体)

快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

2025-11-13 15:17:19　来源: 机器之心Pro

天津举报

分享至

论文第一作者为王晶，中山大学二年级博士生，研究方向为强化学习与视频生成；通讯作者为中山大学智能工程学院教授梁小丹。

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

在此过程中，重要性比值的 clip 机制被引入，用于约束过于自信的正负样本梯度，避免破坏性的策略更新，从而维持训练的稳定性。然而，实证分析显示，该机制存在系统性偏差：其均值长期低于 1，导致过度自信的正梯度无法得到有效限制；同时，不同去噪步下比值的分布方差差异显著，使得部分步骤的 clip 机制失效。

结果，模型在训练过程中容易陷入过度优化状态——即代理奖励持续上升，但图像质量及文本与提示的对齐度反而下降，导致优化后的模型在实际应用中效果不佳。

图像质量随优化过程的变化如下：

为此，中山大学、快手可灵以及港中文 MMLab 等团队联合提出了 GRPO-Guard，这是首个针对 GRPO 在流模型中出现的过度优化问题而设计的解决方案。GRPO-Guard 能在保证快速收敛的同时，大幅降低过度优化的风险。

在 Flow-GRPO、DanceGRPO 等多种 GRPO 变体、不同扩散骨干模型（如 SD3.5-M、FLUX1.dev），GRPO-Guard 在文本渲染、GenEval、PickScore 等多种代理任务中均展现出稳定显著的提升，同时有效缓解 reward hacking 现象，提高优化后模型的实际应用价值。

目前该项目的论文和代码均已开源：

论文标题：GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
论文链接：https://arxiv.org/abs/2510.22319
代码地址：https://github.com/yifan123/flow_grpo

核心问题：

比值分布偏移破坏 Clip 约束

由于二阶项的引入，log-importance ratio 在 off-policy 情况下会受到二次项的影响，表现出均值低于 1 且不同去噪步骤（denoising step）方差差异显著的现象。

理想情况下，重要性比值的均值应接近 1，以保证左右 clip 区间均衡，使有害的正负样本梯度能够被有效约束。然而，均值偏移和方差差异会导致预先设定的 clip 机制失效：一方面，正样本梯度无法被充分约束；另一方面，部分步骤的 clip 机制失效，从而使策略（policy）陷入过度优化状态。

此外，FlowGRPO 中不同去噪步骤的梯度存在显著差异。具体而言

解决思路：

RatioNorm 和跨步梯度平衡

针对上述问题，为每个去噪步骤单独设定特定的 clip 范围显得过于繁琐。为此，我们提出GRPO-Guard，在原有 GRPO 框架上引入两项关键改进：

比率归一化（RatioNorm）：对每个去噪步骤的重要性比值分布进行标准化，使其均值接近 1，方差保持一致，从而恢复 clip 机制的有效性，避免因正样本裁剪失效而引发的过度优化。

该机制对梯度的影响如下所示：

经过 RatioNorm 调整后的重要性比值分布对比：

FlowGRPO：均值小于 1，破坏性正样本约束失效

GRPO-Guard：均值接近 1，破坏性正样本得到约束

实验结果：

显著缓解过优化

我们在 FlowGRPO 和 DanceGRPO 两种不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 两种扩散骨干模型，以及 GenEval、PickScore 和文本渲染等多种任务上验证了 GRPO-Guard 的有效性。实验结果表明，GRPO-Guard 能显著缓解过度优化现象，同时保持与 baseline 相近的性能提升。

具体而言，不同任务的 proxy score 与 gold score 对比显示：在 baseline 方法中，gold score 存在明显下降趋势，而在 GRPO-Guard 下，这一下降趋势被显著缓解。

训练过程图像质量可视化：FlowGRPO/DanceGRPO 等算法随着训练的进行，策略（policy）过度优化问题明显，导致图像质量显著下降。GRPO-Guard 则在训练过程后期仍然保持了较高的图像质量。

更多可视化样例显示，在 baseline 方法下，在文本响应和图像质量都呈现出明显的退化，而GRPO-Guard 能在提升目标 reward 的同时较好地保持文本响应和图像质量。

在 PickScore 任务中，baseline 方法在训练后期生成的人体比例存在不一致现象，且多人脸型过于相似，极大影响了生成多样性，GRPO-Guard 显著缓解了这个问题。

总结与展望：

迈向更稳健的视觉生成式强化学习

作为首先关注 GRPO 在视觉生成中过优化现象的研究，GRPO-Guard 通过比率归一化（RatioNorm）和跨步梯度平衡，有效稳定策略更新，恢复裁剪机制对正样本的约束，并缓解过度优化。实验表明，无论在不同 GRPO 变体、扩散骨干模型，还是多种代理任务中，GRPO-Guard 都能保持甚至提升生成质量，并提升训练的稳定性和多样性。

本质上过优化问题的出现是由于 proxy score 和 gold score 的巨大差距而导致的，虽然 GRPO-Guard 从优化过程上缓解了过优化现象，但并未彻底根治。未来，应该构建更精确的奖励模型，使代理分数更接近真实评估（gold score），从而进一步减少 reward hacking 并提升优化效果。这将为 GRPO 在流模型及更广泛的生成任务中的实际应用提供更可靠的技术保障。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.