网易首页 > 网易号 > 正文 申请入驻

多奖励场景全面领先!清华新作高熵驱动,强化学习效率飙升

0
分享至


新智元报道

编辑:LRST

【新智元导读】面对流模型强化学习中奖励信号稀疏、归因模糊的核心痛点,清华大学团队提出熵感知的E-GRPO框架,通过合并低熵步骤、聚焦高熵探索,在单奖励与多奖励场景下均实现性能突破,相比主流方法HPS指标提升10.8%,ImageReward指标最高提升32.4%,为视觉生成的人类偏好对齐提供了更高效的解决方案。

近年来,扩散模型与流匹配模型等生成式 AI 技术在视觉内容创作领域取得突破性进展,从艺术设计到医疗成像,应用场景不断拓展。而强化学习从人类反馈(RLHF)技术的引入,更是让生成模型能够精准对齐人类偏好,大幅提升内容质量。

然而,当前基于分组相对策略优化(GRPO)的流模型强化学习方法,在多步去噪过程中面临严重的奖励信号稀疏与归因模糊问题,低熵步骤的探索价值有限,却占用大量计算资源,导致模型优化效率低下、偏好对齐效果不佳。

近日,清华大学团队提出熵感知分组相对策略优化(E-GRPO)框架,通过深入分析去噪步骤的熵特性,创新性地将连续低熵步骤合并为高熵有效步骤,同时保留确定性ODE采样的稳定性,成功解决了奖励归因模糊难题,实现了更高效的探索与更精准的偏好对齐。


论文地址:https://arxiv.org/abs/2601.00423v1

代码地址:https://github.com/shengjun-zhang/VisualGRPO

模型地址:https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型训练中,会对所有去噪时间步进行均匀优化,但清华大学团队通过实验发现,不同去噪步骤的探索价值存在显著差异:

高熵步骤具有更大的探索空间,能够生成多样性丰富、奖励差异明显的样本,是模型优化的核心驱动力;

低熵步骤的样本差异极小,奖励信号区分度低,类似给最终图像添加10%随机噪声的效果,不仅难以引导有效优化,还会因累积随机性导致奖励归因模糊 —— 某一步的有效探索可能被后续轨迹偏差「惩罚」,使模型优化方向跑偏。

实验数据显示,仅优化前8个高熵步骤的模型性能,显著优于优化全部16个步骤的模型,证实了低熵步骤的「无效性」。如何充分利用高熵步骤的探索价值,同时避免低熵步骤带来的干扰,成为提升流模型强化学习效率的关键。


熵对采样步骤的影响

E-GRPO框架通过熵驱动的步骤合并策略与多步分组归一化优势估计两大核心创新。

1. 熵驱动自适应步骤合并:低熵「打包」,高熵聚焦

团队设计了自适应熵阈值,将所有去噪步骤划分为高熵组与低熵组。对于连续的低熵步骤,通过合并形成单一高熵有效步骤,在保留总扩散效果的前提下,将多个低熵 SDE 步骤转化为一个高熵 SDE 步骤,其余步骤则采用确定性 ODE 采样。

这种合并策略不仅大幅减少了无效计算,还通过扩大单一步骤的探索范围提升了熵值,同时避免了多步 SDE 采样带来的累积随机性,让奖励信号能够精准归因到有价值的探索步骤上。

2. 多步分组归一化优势:奖励信号更密集、更可靠

针对合并后的高熵步骤,E-GRPO引入多步分组归一化优势估计方法。在每个合并步骤对应的样本组内,直接计算组内相对优势,确保奖励信号能够一致归因到合并步骤,避免了跨步骤的奖励混淆。这种设计让模型获得了更密集、更可靠的反馈信号,能够快速锁定优化方向,提升训练效率与稳定性。


E-GRPO采样策略

性能亮点

在HPD数据集上,以FLUX.1-dev为骨干模型,在单奖励和多奖励两种设置下,对E-GRPO进行了全面评估,结果显示其性能超越现有主流方法。


E-GRPO数值结果测评

单奖励设置下,E-GRPO的HPS指标达到0.391,相比DanceGRPO提升10.8%,ImageScore指标达到1.324,稳居同类方法第一;多奖励设置下(有效避免奖励作弊),E-GRPO不仅保持HPS指标领先,还在跨域指标上实现突破:ImageReward提升32.4%,PickScore提升4.4%,展现出更强的泛化能力。


训练奖励曲线

E-GRPO的训练奖励曲线呈现更快的早期增长与更平滑的收敛趋势,相比基线方法能够更快达到稳定性能,同时因减少了无效步骤的计算,降低了训练成本。


可视化结果

在定性对比中,E-GRPO生成的内容更精准贴合文本提示,兼具语义一致性与细节丰富度:

对于「装扮成水手的木瓜」提示,E-GRPO成功将木瓜结构与人形服饰自然融合,而基线方法或生成「手持木瓜的人」,或出现视觉逻辑混乱;对于「带眼睛和微笑的勺子」提示,E-GRPO在保留勺子金属质感的同时,生成了表情生动、视觉协调的拟人化效果,其他方法则存在面部融合不自然或材质失真问题。

总结与展望

E-GRPO通过深入挖掘去噪步骤的熵特性,创新性地提出步骤合并与分组优势估计方法,成功解决了流模型强化学习中奖励稀疏与归因模糊的核心痛点,为视觉生成模型的人类偏好对齐提供了更高效、更稳定的解决方案。

未来研究将聚焦于更鲁棒的奖励模型设计。当前奖励模型仍存在「奖励作弊」风险,模型可能通过奖励函数漏洞获取高分,而非真正满足人类偏好。开发能够精准捕捉审美、语义一致性、上下文适配性等复杂人类偏好的奖励模型,将是视觉生成强化学习的重要发展方向。

E-GRPO的提出,不仅为流模型的优化提供了新范式,也为其他生成模型的强化学习训练提供了重要启发:基于熵等物理特性引导探索,或许是提升AI模型效率的关键路径。

参考资料:

https://arxiv.org/abs/2601.00423v1


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭艾伦徐昕加时狂轰18-8,辽宁主场爆冷失利

郭艾伦徐昕加时狂轰18-8,辽宁主场爆冷失利

暗香暗香
2026-01-24 17:43:45
李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

复转这些年
2026-01-21 23:19:37
传奇告别!曝C罗退役时间确认,放弃2亿欧高薪,还有3大遗憾

传奇告别!曝C罗退役时间确认,放弃2亿欧高薪,还有3大遗憾

夏侯看英超
2026-01-23 19:56:44
全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局四年

全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局四年

科普100克克
2026-01-23 18:15:06
降温后才发现:没人穿大衣、冲锋衣!满街都是这3件上装,特保暖

降温后才发现:没人穿大衣、冲锋衣!满街都是这3件上装,特保暖

汪巗的创业之路
2026-01-24 17:35:08
听牢A直播再看黄多多!跟以前完全不一样了。

听牢A直播再看黄多多!跟以前完全不一样了。

大秦共和国
2026-01-24 17:10:29
97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

以茶带书
2025-12-02 18:11:43
收入腰斩,正在大量返贫的3个行业,早点转行吧

收入腰斩,正在大量返贫的3个行业,早点转行吧

李舟
2026-01-23 18:39:48
1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

元哥说历史
2026-01-23 09:30:03
股民坐稳扶好了,下周周一周二两天,或将再次重演19年历史行情!

股民坐稳扶好了,下周周一周二两天,或将再次重演19年历史行情!

云鹏叙事
2026-01-24 13:37:23
南京又要下雪了!

南京又要下雪了!

南京择校
2026-01-24 14:53:00
第二代,集体谢世……

第二代,集体谢世……

力哥说
2026-01-18 00:38:43
高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

红豆讲堂
2025-07-14 17:21:43
差距大!中国队VS日本队,亚足联给出6大对比,冠军已失去悬念?

差距大!中国队VS日本队,亚足联给出6大对比,冠军已失去悬念?

何老师呀
2026-01-23 20:45:18
越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

磊子讲史
2026-01-21 12:01:14
赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

土澳的故事
2026-01-20 22:21:57
山姆499元羽绒服被抢购,我们对比了16款羽绒服发现:同充绒量价差最高达46倍

山姆499元羽绒服被抢购,我们对比了16款羽绒服发现:同充绒量价差最高达46倍

消费者报道
2026-01-24 17:33:23
郭晶晶代言暴雷迄今没公开道歉 媒体估算她与霍启刚家庭资产超66亿

郭晶晶代言暴雷迄今没公开道歉 媒体估算她与霍启刚家庭资产超66亿

劲爆体坛
2026-01-24 10:02:05
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
新一代小米SU7,预售半月订单近10万

新一代小米SU7,预售半月订单近10万

鲁中晨报
2026-01-23 16:15:27
2026-01-24 18:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14400文章数 66527关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

健康
教育
时尚
本地
游戏

耳石脱落为何让人天旋地转+恶心?

教育要闻

谷歌Gemini变身免费家教​ 谷歌Gemini上线免费SAT全真AI模考,考完即时反馈并生成专属学...

不一定能掀桌男主,但一定是个好演员!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

《小镇惊魂:复刻版合集》更新 修复BUG优化界面

无障碍浏览 进入关怀版