网易首页 > 网易号 > 正文 申请入驻

腾讯最新开源太牛了,AI一键去油、告别塑料感!登顶Hugging Face模型榜

0
分享至


智东西
作者 陈骏达
编辑 心缘

那些画风“油腻”的AI生图,终于有救了?

智东西9月16日报道,腾讯近期开源势头太猛了,最新发布的图像模型算法SRPO登上Hugging Face趋势榜首,并在趋势榜前3占2。


目前Hugging Face模型趋势榜前6中,有5个均来自国内企业,被腾讯、百度、阿里包揽

SRPO由腾讯混元生图团队联合香港中文大学(深圳)、清华大学联合开发,9月13日开源,已发布完整训练代码及技巧,社区量化版本下载量达1.6万次,Github Star数量超过600。


SRPO的全称是Semantic Relative Preference Optimization(语义相对偏好优化),旨在解决当前开源社区中热门AI生图模型Flux生成人像时皮肤质感差、过于油腻的问题。

通过在线调整奖励偏好、优化早期生成轨迹等手段,SRPO可改善图像生成效果,能将模型生成图片的真实度、美学优秀率的人类评估提升超300%。


▲Flux与SRPO生成效果对比

在取得更好效果的同时,SRPO大幅提升了训练效率,在32卡设置下,仅需10分钟(5.3GPU卡时)就可以完成训练,效率相比DanceGRPO提升了75倍。


开发者可在ComfyUI中使用SRPO,仅需将下图导入ComfyUI即可获取完整工作流,或者直接加载SRPO-workflow的JSON文件。


目前,SRPO已被上传至Hugging Face、Github等开源托管平台,相关技术报告已发布。

论文链接:

https://arxiv.org/abs/2509.06942

项目主页:

https://tencent.github.io/srpo-project-page/

GitHub:

https://github.com/Tencent-Hunyuan/SRPO

Hugging Face:

https://huggingface.co/tencent/SRPO

开源社区还在其基础上制作了多个量化版本。


量化版本链接:

https://huggingface.co/wikeeyang/SRPO-Refine-Quantized-v1.0

https://huggingface.co/befox/SRPO-GGUF

https://huggingface.co/rockerBOO/flux.1-dev-SRPO

一、引入新型采样策略,给去噪提供“标准答案”

在SRPO中,研究团队引入了一种用于扩散微调的新型采样策略Direct-Align,可以有效地恢复高度噪声的图像,从而使优化过程更加稳定且计算要求更低,尤其是在初始时间步骤中。

当前主流的方法主要依赖多步采样器(如DDIM)结合直接梯度反传来将生成过程与奖励偏好对齐,计算成本高且容易出现梯度爆炸和优化不稳定。因此,现有方法通常只能优化生成轨迹的后半段。

这种“仅优化后半段”的策略极易导致奖励模型在高频信息上的过拟合问题。实验结果表明,模型会逐渐学会“钻奖励模型的空子”——具体表现为:HPSv2奖励模型会偏好偏红色调的图像,PickScore倾向于紫色图像,而ImageReward则容易对过曝区域给出过高评分。

SRPO的研究团队发现,解决采样瓶颈的秘密就在于扩散模型的前向公式:中间图像是噪声和干净图像的插值。这一发现表明只要掌握噪声先验的参考信息,就可以通过精确插值重建扩散轨迹上的任意中间状态。

基于这一理论发现,该团队创新性地提出了Direct-Align方法:首先对输入图像进行可控的噪声注入,随后通过单步模型推理,最后借助预先注入的噪声作为“参考锚点”进行图像重建。


这种带有“标准答案”的去噪方式,相比ReFL等直接依赖模型预测的传统方法,显著降低了重建误差,实现了更精准的奖励信号传导。


二、有效避免奖励破解,给模型加上“语义方向盘”

SRPO的研究团队改进了直接利用奖励信号进行反向传播的方法(例如ReFL和DRaFT)的训练策略,并直接使用负奖励对模型进行正则化,无需KL散度或单独的奖励系统。同时,该团队还首次在模型中加入了动态可控的文本条件,能够在奖励模型范围内动态调整对风格的奖励偏好。

上述调整的原因是,文生图的在线强化学习方法(如ReFL、DRaFT)通过直接采样图片并反传可微奖励梯度,训练效率高,但高度依赖预训练奖励模型,这些模型难以满足多样化、高质量的后训练需求。

例如,用旧奖励模型优化新架构(如SD3、Flux)或提升特定美学维度时,效果有限。传统做法需大量离线优化、微调奖励模型或手工设计复合奖励函数,耗时且难以快速应对新需求。

SRPO的研究团队发现,当前主流的图像-文本双分支奖励模型,可以视为以文本分支的输出为模型参数关于图片特征的函数。这样一来,通过调整文本分支的语义特征,就能有效引导整个奖励模型的偏好方向。

基于此,SRPO的研究团队性提出了“语义引导偏好”机制,通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,某些精心设计的控制词能够增强奖励模型在真实感等特定维度的优化能力。


然而,研究团队进一步发现,单纯的语义引导仍存在奖励破解(reward hacking)的风险,而奖励偏差主要源自图像分支(因为文本分支不参与梯度反传)。

针对这一问题,团队提出了创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。

在具体实现上,为了平衡训练效率和负向词强度,团队采用了加权奖励公式的设计,其实现机制类似于无分类器引导(classifier-free guidance)。

实验结果显示,SRPO显著增强奖励模型在真实度等特定维度的优化能力。这一突破性方法为长期受困于高质量数据获取难题的研究者,提供了一条更加直接高效的优化路径,有望显著降低模型优化的门槛和成本。

三、美学优秀率、真实度提升超300%,未出现明显奖励破解

SRPO的研究团队在HPDv2基准测试上对方法进行了评估。HPDv2是一个文生图领域广泛使用的基准,用来衡量模型生成图像的质量,特别是与人类偏好(human preferences)对齐的程度。

在测试中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流评测指标上均已达到SOTA水平,而结合SRPO后,在AE和PickScore等关键指标上更是取得明显提升。


在人类评估方面,与Direct-Align等直接优化奖励偏好的方法不同,SRPO不会因奖励破解而牺牲真实感,能够在不依赖额外训练数据的情况下,将模型的美学优秀率从8.2%提升至38.9%,提升幅度超过300%,图像感知真实度提升同样超过300%

用SRPO增强后的FLUX.1.dev超过了最新的开源模型FLUX.1.krea,仅需不到1500张图像即可实现有效训练。


更为关键的是,SRPO未出现明显的奖励破解现象,验证了Direct-Align的设计能够有效去除奖励偏差,模型真实感显著提升。


在主流奖励模型上,SRPO也未出现偏色等奖励破解问题。


SRPO具备细粒度的人类偏好优化能力,通过引入控制词能够显著提升在常见风格(如亮度调整、漫画、概念艺术)上的可控性,但在低频风格(如赛博朋克)中则受到奖励模型识别能力的限制。


最后,研究还发现Direct-Align具备类似监督微调的拟合特性,当结合真实照片作为离线数据时,SRPO能进一步增强图像真实感。

结语:系统提升扩散模型真实感,可控性与可解释性将成优化方向

与单纯的数据拟合方法不同,SRPO同时整合了人类偏好信号与强化学习优化。SRPO研究团队认为,这是首个大规模扩散模型中系统性提升真实感的完整方法。

不过,SRPO在可控性和可解释性上仍存在一定局限。该团队计划通过更系统的控制策略、可学习的控制词以及针对控制信号优化的视觉语言模型奖励来提升方法的可控性与泛化能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2009年,陈炳德将军开会时用的茶杯,竟然是一个吃完的罐头瓶子

2009年,陈炳德将军开会时用的茶杯,竟然是一个吃完的罐头瓶子

小女子不简单
2024-12-29 13:25:09
中国强盛远未到顶!历史告诉你:国运转折点藏在这个残酷规律里!

中国强盛远未到顶!历史告诉你:国运转折点藏在这个残酷规律里!

愚鉴
2025-10-18 12:20:03
曾辉单手抱韩雨彤,黄晓明眼看直了,余茵柯淳贴脸,杨幂羞红了脸

曾辉单手抱韩雨彤,黄晓明眼看直了,余茵柯淳贴脸,杨幂羞红了脸

阿纂看事
2025-11-03 21:53:21
面相又变了,50岁赵薇近照曝光婚礼上用心打扮,却走不了回头路

面相又变了,50岁赵薇近照曝光婚礼上用心打扮,却走不了回头路

洲洲影视娱评
2025-11-03 18:18:49
许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

诗意世界
2025-09-26 10:31:06
星巴克中国的“新合伙人”,博裕资本是什么来头?

星巴克中国的“新合伙人”,博裕资本是什么来头?

零售氪星球
2025-11-04 10:51:30
戴口罩也挡不住的清纯时尚!白色褶皱连衣裙一穿,街头美成风景线

戴口罩也挡不住的清纯时尚!白色褶皱连衣裙一穿,街头美成风景线

小乔古装汉服
2025-11-02 16:09:10
村官贪腐6亿!家中搜出700万现金62斤金砖,豪华私人园林堪比皇宫

村官贪腐6亿!家中搜出700万现金62斤金砖,豪华私人园林堪比皇宫

易玄
2025-11-03 11:55:56
北京“穆斯林大厦”更名为“环新大厦”

北京“穆斯林大厦”更名为“环新大厦”

老友科普
2025-11-03 14:56:59
美国前副总统切尼去世 被认为曾鼓动伊拉克战争

美国前副总统切尼去世 被认为曾鼓动伊拉克战争

看看新闻Knews
2025-11-04 23:41:04
全运男篮-广东16分大胜,诞生6个没想到,杜锋差点被鞠维松给爆冷

全运男篮-广东16分大胜,诞生6个没想到,杜锋差点被鞠维松给爆冷

萌兰聊个球
2025-11-04 22:10:56
找到了!网红馆长原名陈之汉,祖籍在漳州、宜兰陈家还是望族

找到了!网红馆长原名陈之汉,祖籍在漳州、宜兰陈家还是望族

疯说时尚
2025-11-04 11:14:34
iOS 26.1 正式版发布:带来 7 大新变化

iOS 26.1 正式版发布:带来 7 大新变化

小柱解说游戏
2025-11-04 11:52:57
阿斯:2020年皇马接近敲定维尔茨转会,但疫情导致未能成功

阿斯:2020年皇马接近敲定维尔茨转会,但疫情导致未能成功

懂球帝
2025-11-04 23:53:17
古二得了渐冻症,在语言功能退化且站立困难之际,他选择蚍蜉撼树

古二得了渐冻症,在语言功能退化且站立困难之际,他选择蚍蜉撼树

芊手若
2025-11-04 00:30:07
蒋介石败逃台湾之前,谁在掌管台湾,为啥老蒋一去他要拱手奉上?

蒋介石败逃台湾之前,谁在掌管台湾,为啥老蒋一去他要拱手奉上?

鹤羽说个事
2025-10-27 15:55:30
越南学者:早知中国科技这么强大,当初就应该选择中国而不是日本

越南学者:早知中国科技这么强大,当初就应该选择中国而不是日本

放开他让wo来
2025-10-30 22:57:14
无语!荷兰拒不接受中方善意,欧盟要中国用稀土当关税?

无语!荷兰拒不接受中方善意,欧盟要中国用稀土当关税?

兵国大事
2025-11-05 00:05:16
普京震怒,红军村局势被他俩搞砸了!

普京震怒,红军村局势被他俩搞砸了!

听风听你
2025-11-03 21:21:38
印度吞并了锡金没事,为啥伊拉克吞并科威特挨打?原因非常简单

印度吞并了锡金没事,为啥伊拉克吞并科威特挨打?原因非常简单

凡人侃史
2025-11-04 16:09:01
2025-11-05 00:32:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10696文章数 116892关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

男子被警方扣押1000万元无罪后申诉要求返还 警方回应

头条要闻

男子被警方扣押1000万元无罪后申诉要求返还 警方回应

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

马斯克"万亿薪酬"计划,突爆重大利空

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

本地
手机
教育
房产
公开课

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

手机要闻

vivo新机突然官宣:2亿像素主摄+7000mAh电池,11月10日见

教育要闻

高中文言文,到底难在哪?

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版