网易首页 > 网易号 > 正文 申请入驻

给大模型生图“去油”,腾讯混元新研究 SRPO 公布

0
分享至

IT之家 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。

根据介绍,该项目在发布后登上了 Hugging Face 热度榜榜首,社区量化版本下载量达 25K,Github Star 超过了 700。

当前,Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题,SRPO(全称为 Semantic Relative Preference Optimization,语义相对偏好优化)的解决手段包括在线调整奖励偏好优化早期生成轨迹等。



官方揭秘了背后的技术:腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说,SRPO 通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力


进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。

研究团队发现,传统方法(如 ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2 奖励模型会偏好偏红色调的图像,PickScore 倾向于紫色图像,而 ImageReward 则容易对过曝区域给出较高评分

基于这些发现,研究团队提出 Direct-Align 策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题


根据介绍,SRPO 具有极高的训练效率,只需 10 分钟训练即可全面超越 DanceGRPO 的效果。


▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象,显著提升模型真实感


▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超过 3 倍,训练时间相比 DanceGRPO 降低 75 倍。



IT之家附上有关链接如下:

  • 论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
  • 论文链接:https://arxiv.org/abs/2509.06942
  • 项目主页:https://tencent.github.io/srpo-project-page/
  • GitHub:https://github.com/Tencent-Hunyuan/SRPO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州一羽毛球馆内有人昏倒,大三医学生挺身而出,父亲:起初不理解他学医,现在很支持

广州一羽毛球馆内有人昏倒,大三医学生挺身而出,父亲:起初不理解他学医,现在很支持

环球网资讯
2025-09-18 16:44:05
暴雨大暴雨局部特大暴雨!广东紧急通知!

暴雨大暴雨局部特大暴雨!广东紧急通知!

金湾通
2025-09-18 15:03:55
上海大叔在日本打黑工15年,称一天工资顶中国十个月,如今怎样

上海大叔在日本打黑工15年,称一天工资顶中国十个月,如今怎样

博览历史
2025-09-18 11:15:52
重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

奇思妙想草叶君
2025-09-16 21:36:54
中央拍板!退休新规今年起实行,2029将是分水岭,你会被影响吗

中央拍板!退休新规今年起实行,2029将是分水岭,你会被影响吗

深析古今
2025-09-18 16:34:25
黄仁勋称对有关中国企业被要求不得购买该公司芯片失望,中方回应

黄仁勋称对有关中国企业被要求不得购买该公司芯片失望,中方回应

澎湃新闻
2025-09-18 15:28:27
担心库明加成为球星!巴特勒急了!致电勇士管理层:计划是什么?

担心库明加成为球星!巴特勒急了!致电勇士管理层:计划是什么?

Haviven聊球
2025-09-18 18:04:06
上海校园餐争议:要多少家长投诉才可能影响到招投标结果?

上海校园餐争议:要多少家长投诉才可能影响到招投标结果?

南方都市报
2025-09-18 14:16:05
傅崇碧回忆铁原阻击战,曾多次提到187师,师长88年晋升上将军衔

傅崇碧回忆铁原阻击战,曾多次提到187师,师长88年晋升上将军衔

蜉蝣说
2025-09-18 11:09:16
42岁相声演员修明炎去世,父母已不在,搭档发文悼念

42岁相声演员修明炎去世,父母已不在,搭档发文悼念

极目新闻
2025-09-17 12:03:33
田径世锦赛18号赛程:单日4金全为中国弱项

田径世锦赛18号赛程:单日4金全为中国弱项

吕醿极限手工
2025-09-18 05:21:25
“25基点太少,50基点太多”:美联储降息“走钢丝”,“特朗普代言人”投下唯一反对票

“25基点太少,50基点太多”:美联储降息“走钢丝”,“特朗普代言人”投下唯一反对票

每日经济新闻
2025-09-18 06:55:05
​必胜客被指19元果汁是果粒橙倒杯里,网友吐槽:钱太好赚

​必胜客被指19元果汁是果粒橙倒杯里,网友吐槽:钱太好赚

商业透镜
2025-09-18 15:54:03
盲人夫妻带导盲犬爬山惹众怒:导盲犬把台阶认成障碍物,用身体挡住主人,主人却用盲杖敲打它,基地:收回

盲人夫妻带导盲犬爬山惹众怒:导盲犬把台阶认成障碍物,用身体挡住主人,主人却用盲杖敲打它,基地:收回

观威海
2025-09-18 16:15:09
9月23日前一直“雨淅淅” 四川继续发布暴雨蓝色预警

9月23日前一直“雨淅淅” 四川继续发布暴雨蓝色预警

封面新闻
2025-09-18 17:04:02
欧盟制裁以色列,内塔尼亚胡反问:为何忽视美国在阿富汗的侵略?

欧盟制裁以色列,内塔尼亚胡反问:为何忽视美国在阿富汗的侵略?

铁锤简科
2025-09-18 18:12:54
说一个悖论,其实不生孩子根本不会引发人口危机。

说一个悖论,其实不生孩子根本不会引发人口危机。

流苏晚晴
2025-09-17 18:12:19
热点城市聚焦:拆迁无望!上海近200个小区官宣:不拆了!

热点城市聚焦:拆迁无望!上海近200个小区官宣:不拆了!

石辰搞笑日常
2025-09-18 12:03:50
进口影片《同甘共苦》官宣撤档

进口影片《同甘共苦》官宣撤档

界面新闻
2025-09-18 13:25:04
 商务部:今年以来中方未对欧盟发起任何原审调查,但欧盟对中国已发起7起原审调查

 商务部:今年以来中方未对欧盟发起任何原审调查,但欧盟对中国已发起7起原审调查

澎湃新闻
2025-09-18 16:24:28
2025-09-18 19:31:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
306477文章数 606556关注度
往期回顾 全部

科技要闻

DeepSeek称R1训练费200万,不依赖蒸馏对手

头条要闻

沪漂小伙带残障父母庆生 陌生人帮买单:我女儿听哭了

头条要闻

沪漂小伙带残障父母庆生 陌生人帮买单:我女儿听哭了

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

旅游
时尚
家居
教育
军事航空

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

家居要闻

多维交集 简意雅情结合

教育要闻

长期过度夸奖孩子有什么危害?武大事件中的杨某某就是典型案例

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版