网易首页 > 网易号 > 正文 申请入驻

阿里开源:用冻结多模态大模型为文生图训练提供高质量Reward

0
分享至



本文作者团队来自阿里巴巴集团,共同第一作者为深度学习研究员刘锦龙和何旺贵,通讯作者为姜浩。

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

这里面最核心的问题在于:reward 信号从哪来?

传统的对齐指标如 CLIP Score 粒度过粗,无法捕捉属性绑定、空间关系、计数等复杂语义。当前一些开源的 reward 模型(PickScore、ImageReward、HPS v2 等)受限于模型规模和有限的标注数据,难以为最前沿的工业级的文生图模型提供有效反馈信号。而训练一个高质量的 reward 模型往往代价不低 —— 需要耗费大量人力和成本进行标注和训练。

另一方面,开源社区的多模态大模型(VLM)持续发展,这些模型在预训练中见过海量图文数据,本身就具备丰富的图文对齐知识,是天然的图文一致性 reward 信号来源。问题在于:如何把这些知识从 VLM 中高效地提取出来作为 reward?

为此,来自阿里巴巴的研究团队提出了PromptEcho—— 一种无需任何标注、无需训练 reward 模型,仅通过冻结 VLM 的一次前向推理就能获得高质量 reward 的方法。



  • 论文:https://arxiv.org/abs/2604.12652
  • 开源代码 & 模型权重:https://github.com/roooobotx/prompt_echo

核心方法:「PromptEcho」

一个直觉:如果图画对了,VLM 就能「复述」出 prompt

想象一下:你根据 prompt 画了一幅画,然后把画给一位朋友看,然后问他「请描述这幅画」。如果画面忠实地描绘了「一只红色的猫站在蓝色的桌子上」,他大概率能准确复述出这些内容。VLM 也是一样 —— 如果生成图像忠实遵循了 prompt,VLM 在看到图像后就能以很高的概率(似然)逐 token 复述出原始 prompt。或者说把 prompt 的内容「回响」(Echo)了回来,而这个复述的对数似然就是我们要找的 reward。

反过来,如果画面中猫的颜色搞错了,或者桌子不见了,VLM 复述出原始 prompt 的概率就会显著下降,reward 随之降低。



图 1:PromptEcho 流程。给定生成图像和引导 query,冻结 VLM 在 teacher-forcing 模式下计算原始 prompt 的 token 级交叉熵损失,取负值作为 reward。

具体而言,PromptEcho 有三个输入:



然后,将图像和 query 输入冻结的 VLM,在teacher-forcing模式下(即不让模型自由生成,而是强制输入 prompt 的每个 token),计算 VLM 对原始 prompt 中每个 token 的预测概率。最终的 reward 就是:



一句话总结:reward = VLM 看到图像后,能多大概率「复述」出原始 prompt。

这个 reward 与 VLM 预训练的损失函数完全一致,只是优化对象从 VLM 的模型权重变成了文生图模型生成的图片。这种一致性正是 PromptEcho 高效的原因,它复用了 VLM 在预训练中习得的图文对齐知识。

为什么不直接让 VLM 打分?

一个自然的问题是:既然用的是冻结 VLM,为什么不直接输入 prompt 和图片让 VLM 推理图文一致性评分做 reward?为了回答这个问题,研究团队设计了一个对比方法「InferScore」—— 使用同一个冻结 VLM,但让它以自回归方式生成对图文一致性的评分,作为 reward 信号。两者的区别在于:

  • InferScore:让 VLM 自回归生成离散评分 → 受幻觉和采样随机性影响,reward 信号不稳定;更关键的是,受限于离散打分机制,对于当前最先进的文生图模型,VLM 经常无法区分同一 prompt 下不同种子生成的多张图片在 prompt following 程度上的细微差异 —— 很多时候对所有图片都给出相同分数,导致 reward 信号几乎失效
  • PromptEcho:通过预训练损失函数计算连续的对数似然值 → 确定性、无采样噪声,天然具备细粒度区分能力

后续实验将直接验证这一点 —— 同样基于 Qwen3-VL-32B,PromptEcho 全面优于 InferScore。

实验

PromptEcho 在两个当前最前沿的开源文生图模型(Z-Image 和 QwenImage-2512)上进行了实验,使用 Qwen3-VL-32B 作为 reward VLM。

训练数据构建。 研究团队收集了约 10 万张高质量图片,使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 为每张图片生成约 200–400 词的详细描述(dense caption),涵盖对象、属性、空间关系、颜色、纹理等多维信息。这些 caption 构成了 RL 训练的 prompt 集合。

DenseAlignBench :密集描述场景下对前沿模型的大幅改进

研究团队从同源数据中划出 2000 条不在训练集中的 caption,构建了DenseAlignBench测试集。该测试集与训练数据同源同分布,用于直接验证 PromptEcho 的有效性。使用 Gemini-3-flash-preview 进行成对指令遵循维度的 GSB 评估:



在密集描述的场景下,PromptEcho 取得了对前沿模型的大幅改进。

公开 Benchmark:指令遵循能力提升的泛化测试

需要强调的是,以下公开 benchmark 的测试 prompt 与训练数据在分布上存在显著差异 PromptEcho 没有针对任何 benchmark 做针对性训练,以下结果完全反映指令遵循能力的泛化提升:



PromptEcho 在所有公开 benchmark 上均取得了一致的提升,体现了其 reward 信号源自 VLM 海量预训练数据中的图文对齐知识,具备跨分布、跨架构的泛化能力。

Reward VLM 越大越好:Scaling 有效

为了验证 VLM 模型本身的质量对 PromptEcho 效果的影响,研究团队在 Z-Image 上分别使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作为 reward VLM 进行了对比实验:



32B 在所有关键指标上领先 8B,表明 reward 质量随 VLM 规模增长。这意味着随着开源 VLM 持续进化,PromptEcho 的效果上限也会不断提高。

PromptEcho vs InferScore

同样使用 Qwen3-VL-32B,PromptEcho 和 InferScore 的对比:



InferScore 在 DenseAlignBench 上甚至不如 baseline。这个验证了前面的结论:通过预训练损失函数计算连续对数似然值,远比让 VLM 自回归生成离散评分更可靠。

文字渲染:通用性验证

PromptEcho 作为通用 Reward 范式

PromptEcho 的核心机制(VLM 交叉熵 reward)并不局限于文生图模型的指令遵循优化。为了验证其通用性,研究团队将其迁移到了一个截然不同的任务:电商海报文字渲染。

迁移过程中,PromptEcho 的核心计算完全不变,仅需适配两个输入:

  • 引导 query:从通用描述(「Describe this image in detail」)改为结构化 OCR 识别 prompt—— 要求 VLM 识别图中所有设计 / 营销文字,并按语义角色分类为主标题、副标题、卖点文案、其他文字
  • :从自然语言 caption 改为 JSON 格式的结构化文字标签(直接从编辑指令中提取)

经过 PromptEcho 强化学习之后,在 5000 条测试样本上,海报生成模型全图文字正确率从68% 提升到 75%(+7pp)。这说明 PromptEcho 是一种通用的 reward 构建范式—— 只需调整引导 query 和标签格式,同一套机制就能适配不同的图像生成模型和优化目标,无需为每个新任务重新训练专用 reward 模型。

Case 展示

下图展示了一些实际的 case: QwenImage-2512(Baseline)与经过 PromptEcho 训练后的模型在同一 prompt 下的生成对比。QwenImage-2512 作为当前最先进的开源文生图模型,整体指令遵循能力已经不错。可以看到,经过 PromptEcho 训练后,模型在画面细节、空间关系、对象计数等方面有了进一步的显著改进。



图 2:QwenImage-2512 Baseline vs PromptEcho 生成结果对比。

总结与展望

PromptEcho 揭示了一个简洁而深刻的洞察:VLM 的预训练损失函数本身就是一个高质量的文图对齐 reward 信号。 不需要标注数据,不需要训练 reward 模型,直接利用开源 VLM 的一次前向推理,就能提供高质量的指令遵循 reward 信号。

这开辟了一条全新的 reward 构建路径 —— 未来随着开源社区 VLM 持续改进,PromptEcho 将获得更高质量的 reward 信号,带来更好的优化效果。

为了方便社区的进一步研究,研究团队已开源代码、模型权重和 DenseAlignBench 测试集,详见:https://github.com/roooobotx/prompt_echo。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨毅:中国足球比篮球有希望!网友:他俩加上A股 毫无希望铁三角

杨毅:中国足球比篮球有希望!网友:他俩加上A股 毫无希望铁三角

念洲
2026-07-05 08:47:37
“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

大象新闻
2026-07-03 11:30:03
愿意底薪回归!被詹姆斯统治东部的恐惧回来了...

愿意底薪回归!被詹姆斯统治东部的恐惧回来了...

柚子说球
2026-07-05 18:51:14
韦林顿:感谢海牛把低谷中的我带到中超;要尽快备战好下一场

韦林顿:感谢海牛把低谷中的我带到中超;要尽快备战好下一场

懂球帝
2026-07-05 21:36:58
多给家人吃“7月第一鲜”,一解暑热、二养肝、三祛湿,正当季

多给家人吃“7月第一鲜”,一解暑热、二养肝、三祛湿,正当季

阿龙美食记
2026-07-03 13:43:19
27万股东狂欢!10倍光纤大牛股第二季度净利环比翻倍

27万股东狂欢!10倍光纤大牛股第二季度净利环比翻倍

21世纪经济报道
2026-07-05 19:22:03
日媒:森保一坚持让远藤航退出,哪怕后者自称能出战

日媒:森保一坚持让远藤航退出,哪怕后者自称能出战

懂球帝
2026-07-05 16:04:22
英格兰墨西哥1点开球 时间争议落幕

英格兰墨西哥1点开球 时间争议落幕

甜份超标的我
2026-07-05 01:28:47
6月领土收益继续为负,伤亡却暴增19倍!南线两万俄军要投降?

6月领土收益继续为负,伤亡却暴增19倍!南线两万俄军要投降?

鹰眼Defence
2026-07-04 16:22:34
俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

网易新闻出品
2026-07-04 11:47:04
天晴了?苏群曝杜锋因压力巨大下课,5人或在广东队重新焕发生机

天晴了?苏群曝杜锋因压力巨大下课,5人或在广东队重新焕发生机

弄月公子
2026-07-05 20:28:25
刚过11岁生日就遭山洪!网红公路母子失联,有人提出“阴谋论”

刚过11岁生日就遭山洪!网红公路母子失联,有人提出“阴谋论”

火山詩话
2026-07-05 06:47:50
快讯!台湾官员:大陆又有新动作了!

快讯!台湾官员:大陆又有新动作了!

故事终将光明磊落
2026-07-05 12:10:21
17级超强台风“巴威”下周将影响我国!气象专家:路径仍在调整,有可能绕开台湾直扑浙江

17级超强台风“巴威”下周将影响我国!气象专家:路径仍在调整,有可能绕开台湾直扑浙江

中国基金报
2026-07-05 22:07:30
亚洲第一美女泳装照流出,这身材这颜值也太完美了吧!

亚洲第一美女泳装照流出,这身材这颜值也太完美了吧!

东方不败然多多
2026-07-05 15:46:57
收礼被偷拍的县长被查!偷拍其收礼的父子此前被判刑,家属最新发声

收礼被偷拍的县长被查!偷拍其收礼的父子此前被判刑,家属最新发声

山东教育电视台
2026-07-04 20:53:52
深圳房价梯度曝光:4个片区超10万/㎡,21个片区低于3万/㎡

深圳房价梯度曝光:4个片区超10万/㎡,21个片区低于3万/㎡

深圳买房计划
2026-07-05 14:33:38
台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

流史岁月
2026-07-05 11:23:56
7年20个首轮签!联盟第二!

7年20个首轮签!联盟第二!

柚子说球
2026-07-05 18:49:44
哈梅国葬现场,中俄代表站前排,伊朗给了特殊待遇,美军不敢动手

哈梅国葬现场,中俄代表站前排,伊朗给了特殊待遇,美军不敢动手

音乐时光的娱乐
2026-07-05 21:21:37
2026-07-05 22:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13442文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
亲子
本地
旅游
公开课

家居要闻

传奇筑 日常诗

亲子要闻

奉劝大家:超市里这5种食物少给孩子吃,看似有营养,实则没好处

本地新闻

国内足球之旅?这座小城给你高分答案

旅游要闻

让更多游客留下来过夜,上海主题乐园打响加时赛

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版