网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | 奖励模型新突破:ICT-HP让文生图更懂人类审美

0
分享至

在文本到图像生成的革命性浪潮中,我们见证了从模糊到高清,从单一到细节丰富的飞跃。

然而,一个令人困惑的挑战也随之浮现:当我们生成越来越精美的图像时,现有的评估模型,例如那些基于 CLIP 或 BLIP 的模型,似乎开始“不买账”了。它们可能会给细节丰富的艺术大作打低分,反而青睐那些仅仅忠实于文本描述的简单图像。

这种与人类实际审美偏好相悖的“评分悖论”,迫使我们重新审视当前的评估框架。

为此,作者提出了一套全新的 ICT-HP 评估框架,让奖励模型能够更精准地捕捉和理解人类的审美偏好,从而生成真正高品质、高细节的符合人类审美标准的视觉艺术。


论文标题: Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment 论文地址: https://www.arxiv.org/abs/2507.19002 项目代码地址: https://github.com/BarretBa/ICTHPPick-High

数据集链接: https://huggingface.co/datasets/8y/Pick-High-Dataset 公开模型权重: https://huggingface.co/8y/ICT https://huggingface.co/8y/HP

一、核心挑战:为何现有奖励模型“失灵”?

随着先进的文生图模型不断涌现,我们对生成图像的期待早已超越了简单的“图文对齐”。我们渴望的是细节更丰富、美学质量更高、更符合人类偏好的艺术作品。然而,现有奖励模型存在三大根本缺陷:

“对齐陷阱”:错误的等价假设:现有的奖励模型在评估文本-图像对齐时,错误地假设图像中的信息内容与文本描述存在潜在的等价关系 。但实际上,语言的表达边界远无法涵盖视觉的无限可能——一幅画中的光影变化、质感细节、情感氛围,往往是文字难以完全描述的。

“评分悖论”:简单胜过精美:这种对齐陷阱造成了与人类审美矛盾的结果,对于同一个提示词,一个只包含基本描述的简单图像往往会获得比拥有更丰富细节和美学元素的高质量图像更高的分数。

优化困境:先进模型被误导:这个现象不仅存在于 CLIP 和 BLIP 等基础模型中,也影响了像 ImageReward 和 PickScore 这样经过人类偏好微调的模型 。这使得它们在优化像 Stable Diffusion-3.5 这样的先进大型模型时,可能会导致生成的图像视觉稀疏、美学不足。


上图直观地展示了这种“评分悖论”,在 CLIP/BLIP 和基于此继续微调的奖励模型,在面对经过大型语言模型 CoT 优化后的更丰富的提示词生成的图像时,现有奖励模型会给出更低的不合理评分。

二、本文方法:ICT-HP框架如何突破局限?

为了解决这一挑战,作者们提出了一个超越传统文本-图像对齐的全新优化目标,包括两个核心组成部分:ICT 评分模型和 HP 评分模型5。

2.1 ICT 评分(Image-Contained-Text Score)

多模态模型如 CLIP 在预训练时,旨在最大化图像与文本之间的互信息。这种“评分悖论”的产生源于当图像信息量增加时,图像中超出文本描述的额外信息增长得更快,导致模型倾向于给忠实反映文本内容的简单图像高分,却给富含细节的高质量图像打低分。


ICT 不再强求图像与文本的双向等价,而是专注评估“图像包含了多少文本信息”。具体地:

  • 通过阈值机制量化图像对文本内容的表达程度

  • 当图像完美体现文本内容时,ICT 评分达到上限

  • 关键突破:不会因图像包含超出提示词的丰富细节而进行“惩罚”


原文中给出关于 ICT 的详细训练方法:ICT 模型通过对 CLIP 模型进行微调,利用精心构建的 Pick-High 数据集进行训练。该数据集包含了由大语言模型(LLM)“思维链”(chain-of-thought)方法生成的,经过精炼提示词生成的高质量图像,从而解决了现有数据集中高质量图像不足的问题。


2.2 HP 评分(High-Preference Score)

当 ICT 评分达到上限,即文图对齐任务完成后,HP 评分模型开始发挥作用。它是一个纯粹基于图像模态的评分模型,只评估图像本身的视觉美学和细节质量。HP 模型使用边际排序损失(margin ranking loss)进行微调,通过比较同一提示词生成的不同质量图像,来学习并量化图像的美学偏好 12。

2.3 ICT-HP 组合模型

两个模型的输出通过乘积运算形成综合评估函数,确保在保证完整文本表达的基础上,持续提升图像的美学品质。

实验结果:

该研究通过多项实验,有力地验证了 ICT-HP 框架的优越性:

  • 评分准确率:在 Pick-High 和 Pickapic_v2 测试集上,ICT-HP 模型的平均准确率比现有最佳模型 PickScore 高出近 10% 16 。


  • 优化效果:当使用 ICT-HP 模型优化 Stable Diffusion-3.5-turbo 时,它在纹理细节和色彩美学上均实现了显著提升。相比之下,HPS_v2 仅微调了图像色调,PickScore 增加了细节但引入了风格和色彩失真,而 ImageReward 几乎没有带来实质性改进 17 。


  • 用户研究:在一项对 300 个随机样本的人类评估中,与 Base 模型 SD3.5-turbo 以及 PickScore 优化过的 SD3.5-turbo 模型相比,ICT-HP 优化过的生图模型胜率更高,证实了该方法在实际人类偏好上的有效性 18 。


三、论文贡献与价值:重塑AI美学标准的突破性成果

这项研究为图像生成领域带来了四个层面的重要突破:

  1. 发现了评估模型的根本缺陷:首次揭示了现有奖励模型的核心缺陷——错误地惩罚高质量图像,越精美的图像反而获得越低的评分,从根本上阻碍了生图模型艺术创作的进步。

  2. 提出了新的双重评估方法:提出 ICT-HP 双重评估框架,巧妙解耦图文包含文本程度与美学品质,让奖励模型不再拘泥于文本的字面对齐,而是真正学会了欣赏超越文字描述的视觉美感

  3. 显著效果提升:实验数据证实:评估准确率提升 10%,成功优化先进文生图模型 Stable-Diffusion-3.5-Turbo,生成图像在美学质量和细节表现上实现质的飞跃。

  4. 社区贡献:秉承推动 AI 技术共同进步的理念,研究团队将所有核心资源完全开放:

    600GB 高质量 Pick-High 数据集,包含 360,000 个通过大语言模型链式思维优化的图像-文本对:

    https://huggingface.co/datasets/8y/Pick-High-Dataset

    开源了 ICT 和 HP 模型的完整权重:

    https://huggingface.co/8y/ICT

    https://huggingface.co/8y/HP

    提供了从训练到推理的全套代码实现:

    https://github.com/BarretBa/ICTHP

来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普想通了,美军连夜通告全球,对中国不能来硬的,要上点手段

特朗普想通了,美军连夜通告全球,对中国不能来硬的,要上点手段

boss外传
2026-01-30 06:00:03
这是姚笛和吴镇宇当年的合照,当时确实非常火

这是姚笛和吴镇宇当年的合照,当时确实非常火

喜欢历史的阿繁
2026-01-28 16:29:16
涉嫌严重违纪违法!广西林业集团党委委员、副总经理黄建丹被查

涉嫌严重违纪违法!广西林业集团党委委员、副总经理黄建丹被查

潇湘晨报
2026-01-30 17:23:26
“仿佛是僵尸”!浙江两家人接连中招,大人小孩皮肤“报废”!元凶找到了

“仿佛是僵尸”!浙江两家人接连中招,大人小孩皮肤“报废”!元凶找到了

上观新闻
2026-01-29 22:59:13
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
第二、三批市属国企搬迁至北京城市副中心,时间表明确

第二、三批市属国企搬迁至北京城市副中心,时间表明确

新京报
2026-01-30 19:54:40
看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

娱乐圈见解说
2026-01-29 10:06:00
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
美国下最后通牒,以色列一言不发,伊朗放狠话:敢打就谁都别想活

美国下最后通牒,以色列一言不发,伊朗放狠话:敢打就谁都别想活

可乐谈情感
2026-01-31 03:33:51
这些人要发抖了!中纪委再次出动,剑指这些歪风和腐败问题!

这些人要发抖了!中纪委再次出动,剑指这些歪风和腐败问题!

细说职场
2026-01-29 14:47:17
纳斯达克中国金龙指数收跌2.36%

纳斯达克中国金龙指数收跌2.36%

财联社
2026-01-31 05:08:10
逼自己看完,你的衣品直接起飞,日常穿搭万能公式

逼自己看完,你的衣品直接起飞,日常穿搭万能公式

书写传奇
2026-01-29 16:02:57
没人看好穆里尼奥!皇马附加赛再战本菲卡,克罗斯:不可能再爆冷

没人看好穆里尼奥!皇马附加赛再战本菲卡,克罗斯:不可能再爆冷

夏侯看英超
2026-01-31 02:12:33
美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

证券时报e公司
2026-01-30 08:13:06
明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

半解智士
2026-01-30 17:14:17
不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

云中浮生
2026-01-24 21:37:46
19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

老马拉车莫少装
2026-01-29 21:27:05
洛杉矶反ICE出魔障!TSA员工去韩国餐厅吃饭遭肆意滋扰

洛杉矶反ICE出魔障!TSA员工去韩国餐厅吃饭遭肆意滋扰

大洛杉矶LA
2026-01-30 06:09:08
安徽13米高“鬼柳”,驮着一座300年石桥,主根穿过桥墩直扎河底

安徽13米高“鬼柳”,驮着一座300年石桥,主根穿过桥墩直扎河底

雪灵谷
2026-01-30 14:31:00
3-0!第961球!C罗打空门得手!沙特联最新积分榜出炉!

3-0!第961球!C罗打空门得手!沙特联最新积分榜出炉!

郭揦包工头
2026-01-31 04:16:12
2026-01-31 05:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

亲子
教育
游戏
本地
公开课

亲子要闻

婴儿的性格是天生的吗?网友:还没生出来 大夫就说肚子里不是善茬

教育要闻

教育部:严控冷热搭配专业组,考生如何应对?

向全体二游策划宣战,你们能不能直接把我推删了?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版