网易首页 > 网易号 > 正文 申请入驻

多奖励场景全面领先!清华新作高熵驱动,强化学习效率飙升

0
分享至


新智元报道

编辑:LRST

【新智元导读】面对流模型强化学习中奖励信号稀疏、归因模糊的核心痛点,清华大学团队提出熵感知的E-GRPO框架,通过合并低熵步骤、聚焦高熵探索,在单奖励与多奖励场景下均实现性能突破,相比主流方法HPS指标提升10.8%,ImageReward指标最高提升32.4%,为视觉生成的人类偏好对齐提供了更高效的解决方案。

近年来,扩散模型与流匹配模型等生成式 AI 技术在视觉内容创作领域取得突破性进展,从艺术设计到医疗成像,应用场景不断拓展。而强化学习从人类反馈(RLHF)技术的引入,更是让生成模型能够精准对齐人类偏好,大幅提升内容质量。

然而,当前基于分组相对策略优化(GRPO)的流模型强化学习方法,在多步去噪过程中面临严重的奖励信号稀疏与归因模糊问题,低熵步骤的探索价值有限,却占用大量计算资源,导致模型优化效率低下、偏好对齐效果不佳。

近日,清华大学团队提出熵感知分组相对策略优化(E-GRPO)框架,通过深入分析去噪步骤的熵特性,创新性地将连续低熵步骤合并为高熵有效步骤,同时保留确定性ODE采样的稳定性,成功解决了奖励归因模糊难题,实现了更高效的探索与更精准的偏好对齐。


论文地址:https://arxiv.org/abs/2601.00423v1

代码地址:https://github.com/shengjun-zhang/VisualGRPO

模型地址:https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型训练中,会对所有去噪时间步进行均匀优化,但清华大学团队通过实验发现,不同去噪步骤的探索价值存在显著差异:

高熵步骤具有更大的探索空间,能够生成多样性丰富、奖励差异明显的样本,是模型优化的核心驱动力;

低熵步骤的样本差异极小,奖励信号区分度低,类似给最终图像添加10%随机噪声的效果,不仅难以引导有效优化,还会因累积随机性导致奖励归因模糊 —— 某一步的有效探索可能被后续轨迹偏差「惩罚」,使模型优化方向跑偏。

实验数据显示,仅优化前8个高熵步骤的模型性能,显著优于优化全部16个步骤的模型,证实了低熵步骤的「无效性」。如何充分利用高熵步骤的探索价值,同时避免低熵步骤带来的干扰,成为提升流模型强化学习效率的关键。


熵对采样步骤的影响

E-GRPO框架通过熵驱动的步骤合并策略与多步分组归一化优势估计两大核心创新。

1. 熵驱动自适应步骤合并:低熵「打包」,高熵聚焦

团队设计了自适应熵阈值,将所有去噪步骤划分为高熵组与低熵组。对于连续的低熵步骤,通过合并形成单一高熵有效步骤,在保留总扩散效果的前提下,将多个低熵 SDE 步骤转化为一个高熵 SDE 步骤,其余步骤则采用确定性 ODE 采样。

这种合并策略不仅大幅减少了无效计算,还通过扩大单一步骤的探索范围提升了熵值,同时避免了多步 SDE 采样带来的累积随机性,让奖励信号能够精准归因到有价值的探索步骤上。

2. 多步分组归一化优势:奖励信号更密集、更可靠

针对合并后的高熵步骤,E-GRPO引入多步分组归一化优势估计方法。在每个合并步骤对应的样本组内,直接计算组内相对优势,确保奖励信号能够一致归因到合并步骤,避免了跨步骤的奖励混淆。这种设计让模型获得了更密集、更可靠的反馈信号,能够快速锁定优化方向,提升训练效率与稳定性。


E-GRPO采样策略

性能亮点

在HPD数据集上,以FLUX.1-dev为骨干模型,在单奖励和多奖励两种设置下,对E-GRPO进行了全面评估,结果显示其性能超越现有主流方法。


E-GRPO数值结果测评

单奖励设置下,E-GRPO的HPS指标达到0.391,相比DanceGRPO提升10.8%,ImageScore指标达到1.324,稳居同类方法第一;多奖励设置下(有效避免奖励作弊),E-GRPO不仅保持HPS指标领先,还在跨域指标上实现突破:ImageReward提升32.4%,PickScore提升4.4%,展现出更强的泛化能力。


训练奖励曲线

E-GRPO的训练奖励曲线呈现更快的早期增长与更平滑的收敛趋势,相比基线方法能够更快达到稳定性能,同时因减少了无效步骤的计算,降低了训练成本。


可视化结果

在定性对比中,E-GRPO生成的内容更精准贴合文本提示,兼具语义一致性与细节丰富度:

对于「装扮成水手的木瓜」提示,E-GRPO成功将木瓜结构与人形服饰自然融合,而基线方法或生成「手持木瓜的人」,或出现视觉逻辑混乱;对于「带眼睛和微笑的勺子」提示,E-GRPO在保留勺子金属质感的同时,生成了表情生动、视觉协调的拟人化效果,其他方法则存在面部融合不自然或材质失真问题。

总结与展望

E-GRPO通过深入挖掘去噪步骤的熵特性,创新性地提出步骤合并与分组优势估计方法,成功解决了流模型强化学习中奖励稀疏与归因模糊的核心痛点,为视觉生成模型的人类偏好对齐提供了更高效、更稳定的解决方案。

未来研究将聚焦于更鲁棒的奖励模型设计。当前奖励模型仍存在「奖励作弊」风险,模型可能通过奖励函数漏洞获取高分,而非真正满足人类偏好。开发能够精准捕捉审美、语义一致性、上下文适配性等复杂人类偏好的奖励模型,将是视觉生成强化学习的重要发展方向。

E-GRPO的提出,不仅为流模型的优化提供了新范式,也为其他生成模型的强化学习训练提供了重要启发:基于熵等物理特性引导探索,或许是提升AI模型效率的关键路径。

参考资料:

https://arxiv.org/abs/2601.00423v1


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪机车发布安全隐患公告, 旅狼500RR/500F车主可享三项免费维保服务

张雪机车发布安全隐患公告, 旅狼500RR/500F车主可享三项免费维保服务

界面新闻
2026-05-11 09:20:57
中国赛车+中国车手再夺世界冠军!吉利星瑞TCR首战即夺冠

中国赛车+中国车手再夺世界冠军!吉利星瑞TCR首战即夺冠

扬子晚报
2026-05-10 21:25:15
爸爸想把房子送给"干女儿"保姆 儿子扣房产证

爸爸想把房子送给"干女儿"保姆 儿子扣房产证

看看新闻Knews
2026-05-11 13:12:03
他舍弃中国国籍加入日本队!助日乒逆袭崛起,如今成国乒头号威胁

他舍弃中国国籍加入日本队!助日乒逆袭崛起,如今成国乒头号威胁

八斗小先生
2026-05-11 15:40:40
《主角》主角差评如潮,出场十几秒,网友评价:双眼无神像瞎子

《主角》主角差评如潮,出场十几秒,网友评价:双眼无神像瞎子

剧芒芒
2026-05-11 12:21:15
特朗普宣布访华!带1500吨行李和豪华天团,这波是避难还是谈判?

特朗普宣布访华!带1500吨行李和豪华天团,这波是避难还是谈判?

李将平老师
2026-05-11 13:30:25
普京放话,远东问题不能再拖!搁置70年,要完成斯大林的未竟之业

普京放话,远东问题不能再拖!搁置70年,要完成斯大林的未竟之业

朝子亥
2026-05-11 13:40:03
3:2击败日本后,王曼昱对孙颖莎用了特殊称呼,王励勤也难以反驳

3:2击败日本后,王曼昱对孙颖莎用了特殊称呼,王励勤也难以反驳

寒律
2026-05-11 12:40:11
外交部:为维护相关决议严肃性和权威性,中方决定不同意台湾地区参加今年世卫大会

外交部:为维护相关决议严肃性和权威性,中方决定不同意台湾地区参加今年世卫大会

澎湃新闻
2026-05-11 15:32:33
多地市委书记调整

多地市委书记调整

上海法治声音
2026-05-11 15:46:11
31亿,207米!中国第一大民企的深圳总部,封顶!

31亿,207米!中国第一大民企的深圳总部,封顶!

GA环球建筑
2026-05-10 23:25:38
男子酒后与女友游玩时跳河溺亡,家属起诉女友及两公司索赔28万 法院判了

男子酒后与女友游玩时跳河溺亡,家属起诉女友及两公司索赔28万 法院判了

红星新闻
2026-05-11 14:58:23
为什么一定要用伤病缠身的梁靖崑?日本摄影师一句话戳穿真相!

为什么一定要用伤病缠身的梁靖崑?日本摄影师一句话戳穿真相!

石辰搞笑日常
2026-05-11 12:28:09
华裔日本主帅:孙颖莎这道墙很高!但张本美和能在洛奥战胜她

华裔日本主帅:孙颖莎这道墙很高!但张本美和能在洛奥战胜她

念洲
2026-05-11 12:40:08
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
上海地铁两老太撕扯女孩后续!老人正脸流出,身份被扒,评论炸了

上海地铁两老太撕扯女孩后续!老人正脸流出,身份被扒,评论炸了

八斗小先生
2026-05-11 15:20:56
《新华社》霸气认证肖战全球火爆!还达成历史第一成就,实力强悍

《新华社》霸气认证肖战全球火爆!还达成历史第一成就,实力强悍

悦君兮君不知
2026-05-10 15:27:02
“专坑中国”,世界杯这回撞墙了

“专坑中国”,世界杯这回撞墙了

南风窗
2026-05-11 14:11:47
文旅部整治摆渡车,奈何中西部早就“养不起”景区了

文旅部整治摆渡车,奈何中西部早就“养不起”景区了

冰川思想库
2026-05-11 11:16:20
2026-05-11 17:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15183文章数 66862关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
数码
游戏
本地
公开课

教育要闻

一招教你差倍问题的解法!

数码要闻

罗技“超便携”无线鼠标曝光:无物理滚轮,支持对折

《巫师4》曝重磅消息:《天国:拯救》核心主创加盟!

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版