ICCV 2025 | 奖励模型新突破：ICT-HP让文生图更懂人类审美|hp|ict|深度思考模型

ICCV 2025 | 奖励模型新突破：ICT-HP让文生图更懂人类审美

2025-09-09 08:26:14　来源: 将门创投

北京举报

分享至

在文本到图像生成的革命性浪潮中，我们见证了从模糊到高清，从单一到细节丰富的飞跃。

然而，一个令人困惑的挑战也随之浮现：当我们生成越来越精美的图像时，现有的评估模型，例如那些基于 CLIP 或 BLIP 的模型，似乎开始“不买账”了。它们可能会给细节丰富的艺术大作打低分，反而青睐那些仅仅忠实于文本描述的简单图像。

这种与人类实际审美偏好相悖的“评分悖论”，迫使我们重新审视当前的评估框架。

为此，作者提出了一套全新的 ICT-HP 评估框架，让奖励模型能够更精准地捕捉和理解人类的审美偏好，从而生成真正高品质、高细节的符合人类审美标准的视觉艺术。

论文标题： Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment 论文地址： https://www.arxiv.org/abs/2507.19002 项目代码地址： https://github.com/BarretBa/ICTHPPick-High

数据集链接： https://huggingface.co/datasets/8y/Pick-High-Dataset 公开模型权重： https://huggingface.co/8y/ICT https://huggingface.co/8y/HP

一、核心挑战：为何现有奖励模型“失灵”？

随着先进的文生图模型不断涌现，我们对生成图像的期待早已超越了简单的“图文对齐”。我们渴望的是细节更丰富、美学质量更高、更符合人类偏好的艺术作品。然而，现有奖励模型存在三大根本缺陷：

“对齐陷阱”：错误的等价假设：现有的奖励模型在评估文本-图像对齐时，错误地假设图像中的信息内容与文本描述存在潜在的等价关系。但实际上，语言的表达边界远无法涵盖视觉的无限可能——一幅画中的光影变化、质感细节、情感氛围，往往是文字难以完全描述的。

“评分悖论”：简单胜过精美：这种对齐陷阱造成了与人类审美矛盾的结果，对于同一个提示词，一个只包含基本描述的简单图像往往会获得比拥有更丰富细节和美学元素的高质量图像更高的分数。

优化困境：先进模型被误导：这个现象不仅存在于 CLIP 和 BLIP 等基础模型中，也影响了像 ImageReward 和 PickScore 这样经过人类偏好微调的模型。这使得它们在优化像 Stable Diffusion-3.5 这样的先进大型模型时，可能会导致生成的图像视觉稀疏、美学不足。

上图直观地展示了这种“评分悖论”，在 CLIP/BLIP 和基于此继续微调的奖励模型，在面对经过大型语言模型 CoT 优化后的更丰富的提示词生成的图像时，现有奖励模型会给出更低的不合理评分。

二、本文方法：ICT-HP框架如何突破局限？

为了解决这一挑战，作者们提出了一个超越传统文本-图像对齐的全新优化目标，包括两个核心组成部分：ICT 评分模型和 HP 评分模型5。

2.1 ICT 评分（Image-Contained-Text Score）

多模态模型如 CLIP 在预训练时，旨在最大化图像与文本之间的互信息。这种“评分悖论”的产生源于当图像信息量增加时，图像中超出文本描述的额外信息增长得更快，导致模型倾向于给忠实反映文本内容的简单图像高分，却给富含细节的高质量图像打低分。

ICT 不再强求图像与文本的双向等价，而是专注评估“图像包含了多少文本信息”。具体地：

通过阈值机制量化图像对文本内容的表达程度
当图像完美体现文本内容时，ICT 评分达到上限
关键突破：不会因图像包含超出提示词的丰富细节而进行“惩罚”

原文中给出关于 ICT 的详细训练方法：ICT 模型通过对 CLIP 模型进行微调，利用精心构建的 Pick-High 数据集进行训练。该数据集包含了由大语言模型（LLM）“思维链”（chain-of-thought）方法生成的，经过精炼提示词生成的高质量图像，从而解决了现有数据集中高质量图像不足的问题。

2.2 HP 评分（High-Preference Score）

当 ICT 评分达到上限，即文图对齐任务完成后，HP 评分模型开始发挥作用。它是一个纯粹基于图像模态的评分模型，只评估图像本身的视觉美学和细节质量。HP 模型使用边际排序损失（margin ranking loss）进行微调，通过比较同一提示词生成的不同质量图像，来学习并量化图像的美学偏好 12。

2.3 ICT-HP 组合模型

两个模型的输出通过乘积运算形成综合评估函数，确保在保证完整文本表达的基础上，持续提升图像的美学品质。

实验结果：

该研究通过多项实验，有力地验证了 ICT-HP 框架的优越性：

评分准确率：在 Pick-High 和 Pickapic_v2 测试集上，ICT-HP 模型的平均准确率比现有最佳模型 PickScore 高出近 10% 16 。

优化效果：当使用 ICT-HP 模型优化 Stable Diffusion-3.5-turbo 时，它在纹理细节和色彩美学上均实现了显著提升。相比之下，HPS_v2 仅微调了图像色调，PickScore 增加了细节但引入了风格和色彩失真，而 ImageReward 几乎没有带来实质性改进 17 。

用户研究：在一项对 300 个随机样本的人类评估中，与 Base 模型 SD3.5-turbo 以及 PickScore 优化过的 SD3.5-turbo 模型相比，ICT-HP 优化过的生图模型胜率更高，证实了该方法在实际人类偏好上的有效性 18 。

三、论文贡献与价值：重塑AI美学标准的突破性成果

这项研究为图像生成领域带来了四个层面的重要突破：

发现了评估模型的根本缺陷：首次揭示了现有奖励模型的核心缺陷——错误地惩罚高质量图像，越精美的图像反而获得越低的评分，从根本上阻碍了生图模型艺术创作的进步。
提出了新的双重评估方法：提出 ICT-HP 双重评估框架，巧妙解耦图文包含文本程度与美学品质，让奖励模型不再拘泥于文本的字面对齐，而是真正学会了欣赏超越文字描述的视觉美感
显著效果提升：实验数据证实：评估准确率提升 10%，成功优化先进文生图模型 Stable-Diffusion-3.5-Turbo，生成图像在美学质量和细节表现上实现质的飞跃。
社区贡献：秉承推动 AI 技术共同进步的理念，研究团队将所有核心资源完全开放：
600GB 高质量 Pick-High 数据集，包含 360,000 个通过大语言模型链式思维优化的图像-文本对：
https://huggingface.co/datasets/8y/Pick-High-Dataset
开源了 ICT 和 HP 模型的完整权重：
https://huggingface.co/8y/ICT
https://huggingface.co/8y/HP
提供了从训练到推理的全套代码实现：
https://github.com/BarretBa/ICTHP

来源：公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.