网易首页 > 网易号 > 正文 申请入驻

给大模型生图“去油”,腾讯混元新研究 SRPO 公布

0
分享至

IT之家 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。

根据介绍,该项目在发布后登上了 Hugging Face 热度榜榜首,社区量化版本下载量达 25K,Github Star 超过了 700。

当前,Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题,SRPO(全称为 Semantic Relative Preference Optimization,语义相对偏好优化)的解决手段包括在线调整奖励偏好优化早期生成轨迹等。



官方揭秘了背后的技术:腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说,SRPO 通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力


进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。

研究团队发现,传统方法(如 ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2 奖励模型会偏好偏红色调的图像,PickScore 倾向于紫色图像,而 ImageReward 则容易对过曝区域给出较高评分

基于这些发现,研究团队提出 Direct-Align 策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题


根据介绍,SRPO 具有极高的训练效率,只需 10 分钟训练即可全面超越 DanceGRPO 的效果。


▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象,显著提升模型真实感


▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超过 3 倍,训练时间相比 DanceGRPO 降低 75 倍。



IT之家附上有关链接如下:

  • 论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
  • 论文链接:https://arxiv.org/abs/2509.06942
  • 项目主页:https://tencent.github.io/srpo-project-page/
  • GitHub:https://github.com/Tencent-Hunyuan/SRPO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
秦岚身材惊变引热议!网友直呼:这腰是真实存在的吗?

秦岚身材惊变引热议!网友直呼:这腰是真实存在的吗?

山野卢员外
2025-11-14 12:59:16
值班室事件后续,年迈的父母发声,曾某是最大的受害者

值班室事件后续,年迈的父母发声,曾某是最大的受害者

平老师666
2025-11-13 12:23:21
我偷偷给父母存102万养老,中秋回家发现车库停2辆新车,我爸憨笑

我偷偷给父母存102万养老,中秋回家发现车库停2辆新车,我爸憨笑

阿凯销售场
2025-11-13 07:30:09
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
全线大跌,黄金跳水!美联储,降息前景突变!

全线大跌,黄金跳水!美联储,降息前景突变!

证券时报e公司
2025-11-14 07:52:37
快船总裁:医生说比尔的伤势像遭遇了车祸,这非常少见

快船总裁:医生说比尔的伤势像遭遇了车祸,这非常少见

懂球帝
2025-11-13 15:45:12
大兵小将!伤兵满营的活塞,如何八连胜?

大兵小将!伤兵满营的活塞,如何八连胜?

篮球盛世
2025-11-14 13:02:41
闹大了!佛山一家长“炮轰”春秋假,提出四个不理解,引发热议…

闹大了!佛山一家长“炮轰”春秋假,提出四个不理解,引发热议…

火山诗话
2025-11-13 18:42:49
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

艾米手工作品
2025-11-11 13:27:27
给员工降薪50%却在外面捐款一个亿!对自己人好一点就这么难吗?

给员工降薪50%却在外面捐款一个亿!对自己人好一点就这么难吗?

翻开历史和现实
2025-10-17 09:54:36
国企高层、中层与基层的收入差距

国企高层、中层与基层的收入差距

三十而翘
2025-11-14 09:00:38
2.26米张子宇颁奖稳居C位:夺冠后兴奋舞蹈 将金牌送给教练超暖

2.26米张子宇颁奖稳居C位:夺冠后兴奋舞蹈 将金牌送给教练超暖

颜小白的篮球梦
2025-11-14 12:55:15
杨振宁和杜致礼,在欣赏自家院子里盛开的花,杜致礼满身富贵气

杨振宁和杜致礼,在欣赏自家院子里盛开的花,杜致礼满身富贵气

大江
2025-11-14 10:55:47
再见赵睿!再见锋线二老!广东3将告别战,徐杰扛大旗,2将获夸赞

再见赵睿!再见锋线二老!广东3将告别战,徐杰扛大旗,2将获夸赞

林子说事
2025-11-14 11:38:47
全场不得100分?约基奇首节25分创NBA中锋首节最高得分纪录

全场不得100分?约基奇首节25分创NBA中锋首节最高得分纪录

懂球帝
2025-11-13 12:37:22
江队如何以绝对优势夺得男女4×100米混合泳接力金牌?

江队如何以绝对优势夺得男女4×100米混合泳接力金牌?

大眼瞄世界
2025-11-14 08:11:15
54岁王学兵罕见露面,头发眉毛胡子都花白了,胖了不少,沧桑油腻

54岁王学兵罕见露面,头发眉毛胡子都花白了,胖了不少,沧桑油腻

心静物娱
2025-11-14 11:31:54
43分狂揽MVP!郭艾伦用统治级表现打脸质疑,杨鸣后悔了吗?

43分狂揽MVP!郭艾伦用统治级表现打脸质疑,杨鸣后悔了吗?

安海客
2025-10-19 23:43:52
曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

子芫伴你成长
2025-11-09 22:05:23
郑丽文会见三国驻台代表,国民党副主席张荣恭访陆,侯友宜不装了

郑丽文会见三国驻台代表,国民党副主席张荣恭访陆,侯友宜不装了

娱乐督察中
2025-11-14 09:42:47
2025-11-14 13:36:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
315125文章数 606746关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

荒野求生选手林北称将退赛 母亲喊话:希望你能坚持

头条要闻

荒野求生选手林北称将退赛 母亲喊话:希望你能坚持

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

游戏
健康
亲子
手机
教育

《战地6》减少地图最大玩家:减慢游戏节奏

金振口服液助力科学应对呼吸道疾病

亲子要闻

儿童专用盐或为营销噱头 专家:普通盐少放即可

手机要闻

iPhone Pocket正式开售 夕夕平替版只要39.9

教育要闻

傲慢与偏见英文原版语音课13:贝内特拜访宾利先生

无障碍浏览 进入关怀版