网易首页 > 网易号 > 正文 申请入驻

多奖励场景全面领先!清华新作高熵驱动,强化学习效率飙升

0
分享至


新智元报道

编辑:LRST

【新智元导读】面对流模型强化学习中奖励信号稀疏、归因模糊的核心痛点,清华大学团队提出熵感知的E-GRPO框架,通过合并低熵步骤、聚焦高熵探索,在单奖励与多奖励场景下均实现性能突破,相比主流方法HPS指标提升10.8%,ImageReward指标最高提升32.4%,为视觉生成的人类偏好对齐提供了更高效的解决方案。

近年来,扩散模型与流匹配模型等生成式 AI 技术在视觉内容创作领域取得突破性进展,从艺术设计到医疗成像,应用场景不断拓展。而强化学习从人类反馈(RLHF)技术的引入,更是让生成模型能够精准对齐人类偏好,大幅提升内容质量。

然而,当前基于分组相对策略优化(GRPO)的流模型强化学习方法,在多步去噪过程中面临严重的奖励信号稀疏与归因模糊问题,低熵步骤的探索价值有限,却占用大量计算资源,导致模型优化效率低下、偏好对齐效果不佳。

近日,清华大学团队提出熵感知分组相对策略优化(E-GRPO)框架,通过深入分析去噪步骤的熵特性,创新性地将连续低熵步骤合并为高熵有效步骤,同时保留确定性ODE采样的稳定性,成功解决了奖励归因模糊难题,实现了更高效的探索与更精准的偏好对齐。


论文地址:https://arxiv.org/abs/2601.00423v1

代码地址:https://github.com/shengjun-zhang/VisualGRPO

模型地址:https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型训练中,会对所有去噪时间步进行均匀优化,但清华大学团队通过实验发现,不同去噪步骤的探索价值存在显著差异:

高熵步骤具有更大的探索空间,能够生成多样性丰富、奖励差异明显的样本,是模型优化的核心驱动力;

低熵步骤的样本差异极小,奖励信号区分度低,类似给最终图像添加10%随机噪声的效果,不仅难以引导有效优化,还会因累积随机性导致奖励归因模糊 —— 某一步的有效探索可能被后续轨迹偏差「惩罚」,使模型优化方向跑偏。

实验数据显示,仅优化前8个高熵步骤的模型性能,显著优于优化全部16个步骤的模型,证实了低熵步骤的「无效性」。如何充分利用高熵步骤的探索价值,同时避免低熵步骤带来的干扰,成为提升流模型强化学习效率的关键。


熵对采样步骤的影响

E-GRPO框架通过熵驱动的步骤合并策略与多步分组归一化优势估计两大核心创新。

1. 熵驱动自适应步骤合并:低熵「打包」,高熵聚焦

团队设计了自适应熵阈值,将所有去噪步骤划分为高熵组与低熵组。对于连续的低熵步骤,通过合并形成单一高熵有效步骤,在保留总扩散效果的前提下,将多个低熵 SDE 步骤转化为一个高熵 SDE 步骤,其余步骤则采用确定性 ODE 采样。

这种合并策略不仅大幅减少了无效计算,还通过扩大单一步骤的探索范围提升了熵值,同时避免了多步 SDE 采样带来的累积随机性,让奖励信号能够精准归因到有价值的探索步骤上。

2. 多步分组归一化优势:奖励信号更密集、更可靠

针对合并后的高熵步骤,E-GRPO引入多步分组归一化优势估计方法。在每个合并步骤对应的样本组内,直接计算组内相对优势,确保奖励信号能够一致归因到合并步骤,避免了跨步骤的奖励混淆。这种设计让模型获得了更密集、更可靠的反馈信号,能够快速锁定优化方向,提升训练效率与稳定性。


E-GRPO采样策略

性能亮点

在HPD数据集上,以FLUX.1-dev为骨干模型,在单奖励和多奖励两种设置下,对E-GRPO进行了全面评估,结果显示其性能超越现有主流方法。


E-GRPO数值结果测评

单奖励设置下,E-GRPO的HPS指标达到0.391,相比DanceGRPO提升10.8%,ImageScore指标达到1.324,稳居同类方法第一;多奖励设置下(有效避免奖励作弊),E-GRPO不仅保持HPS指标领先,还在跨域指标上实现突破:ImageReward提升32.4%,PickScore提升4.4%,展现出更强的泛化能力。


训练奖励曲线

E-GRPO的训练奖励曲线呈现更快的早期增长与更平滑的收敛趋势,相比基线方法能够更快达到稳定性能,同时因减少了无效步骤的计算,降低了训练成本。


可视化结果

在定性对比中,E-GRPO生成的内容更精准贴合文本提示,兼具语义一致性与细节丰富度:

对于「装扮成水手的木瓜」提示,E-GRPO成功将木瓜结构与人形服饰自然融合,而基线方法或生成「手持木瓜的人」,或出现视觉逻辑混乱;对于「带眼睛和微笑的勺子」提示,E-GRPO在保留勺子金属质感的同时,生成了表情生动、视觉协调的拟人化效果,其他方法则存在面部融合不自然或材质失真问题。

总结与展望

E-GRPO通过深入挖掘去噪步骤的熵特性,创新性地提出步骤合并与分组优势估计方法,成功解决了流模型强化学习中奖励稀疏与归因模糊的核心痛点,为视觉生成模型的人类偏好对齐提供了更高效、更稳定的解决方案。

未来研究将聚焦于更鲁棒的奖励模型设计。当前奖励模型仍存在「奖励作弊」风险,模型可能通过奖励函数漏洞获取高分,而非真正满足人类偏好。开发能够精准捕捉审美、语义一致性、上下文适配性等复杂人类偏好的奖励模型,将是视觉生成强化学习的重要发展方向。

E-GRPO的提出,不仅为流模型的优化提供了新范式,也为其他生成模型的强化学习训练提供了重要启发:基于熵等物理特性引导探索,或许是提升AI模型效率的关键路径。

参考资料:

https://arxiv.org/abs/2601.00423v1


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
众星悼念张雪峰,朱伟长文看哭网友!猝逝前直播画面竟成最后影像

众星悼念张雪峰,朱伟长文看哭网友!猝逝前直播画面竟成最后影像

露珠聊影视
2026-03-25 13:32:19
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
55集谍战大剧燃情来袭!双面间谍无缝切换,谍影重重,一触即发

55集谍战大剧燃情来袭!双面间谍无缝切换,谍影重重,一触即发

阿乐乐电影v
2026-03-26 16:30:09
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
面相这东西真藏不住,停播一个半月的李亚鹏,

面相这东西真藏不住,停播一个半月的李亚鹏,

小光侃娱乐
2026-03-26 16:05:08
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

仰卧撑FTUer
2026-03-25 23:05:29
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
太堵了!网友盼早日修成都地铁29号线,官方回应

太堵了!网友盼早日修成都地铁29号线,官方回应

天府观察
2026-03-26 16:00:34
伊朗据悉要求希望通过霍尔木兹海峡的船舶提供船员和货物详情

伊朗据悉要求希望通过霍尔木兹海峡的船舶提供船员和货物详情

财联社
2026-03-25 18:48:03
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

醉卧浮生
2026-03-26 07:54:15
特朗普撑腰没人领情,当着全美的面,欧尔班宣告:中国不可战胜

特朗普撑腰没人领情,当着全美的面,欧尔班宣告:中国不可战胜

小童历史
2026-03-26 17:06:12
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
2026-03-26 17:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
手机
游戏
公开课

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

又一经典最终幻想游戏将停运!开服至今已六年有余

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版