网易首页 > 网易号 > 正文 申请入驻

阿里开源:用冻结多模态大模型为文生图训练提供高质量Reward

0
分享至



本文作者团队来自阿里巴巴集团,共同第一作者为深度学习研究员刘锦龙和何旺贵,通讯作者为姜浩。

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

这里面最核心的问题在于:reward 信号从哪来?

传统的对齐指标如 CLIP Score 粒度过粗,无法捕捉属性绑定、空间关系、计数等复杂语义。当前一些开源的 reward 模型(PickScore、ImageReward、HPS v2 等)受限于模型规模和有限的标注数据,难以为最前沿的工业级的文生图模型提供有效反馈信号。而训练一个高质量的 reward 模型往往代价不低 —— 需要耗费大量人力和成本进行标注和训练。

另一方面,开源社区的多模态大模型(VLM)持续发展,这些模型在预训练中见过海量图文数据,本身就具备丰富的图文对齐知识,是天然的图文一致性 reward 信号来源。问题在于:如何把这些知识从 VLM 中高效地提取出来作为 reward?

为此,来自阿里巴巴的研究团队提出了PromptEcho—— 一种无需任何标注、无需训练 reward 模型,仅通过冻结 VLM 的一次前向推理就能获得高质量 reward 的方法。



  • 论文:https://arxiv.org/abs/2604.12652
  • 开源代码 & 模型权重:https://github.com/roooobotx/prompt_echo

核心方法:「PromptEcho」

一个直觉:如果图画对了,VLM 就能「复述」出 prompt

想象一下:你根据 prompt 画了一幅画,然后把画给一位朋友看,然后问他「请描述这幅画」。如果画面忠实地描绘了「一只红色的猫站在蓝色的桌子上」,他大概率能准确复述出这些内容。VLM 也是一样 —— 如果生成图像忠实遵循了 prompt,VLM 在看到图像后就能以很高的概率(似然)逐 token 复述出原始 prompt。或者说把 prompt 的内容「回响」(Echo)了回来,而这个复述的对数似然就是我们要找的 reward。

反过来,如果画面中猫的颜色搞错了,或者桌子不见了,VLM 复述出原始 prompt 的概率就会显著下降,reward 随之降低。



图 1:PromptEcho 流程。给定生成图像和引导 query,冻结 VLM 在 teacher-forcing 模式下计算原始 prompt 的 token 级交叉熵损失,取负值作为 reward。

具体而言,PromptEcho 有三个输入:



然后,将图像和 query 输入冻结的 VLM,在teacher-forcing模式下(即不让模型自由生成,而是强制输入 prompt 的每个 token),计算 VLM 对原始 prompt 中每个 token 的预测概率。最终的 reward 就是:



一句话总结:reward = VLM 看到图像后,能多大概率「复述」出原始 prompt。

这个 reward 与 VLM 预训练的损失函数完全一致,只是优化对象从 VLM 的模型权重变成了文生图模型生成的图片。这种一致性正是 PromptEcho 高效的原因,它复用了 VLM 在预训练中习得的图文对齐知识。

为什么不直接让 VLM 打分?

一个自然的问题是:既然用的是冻结 VLM,为什么不直接输入 prompt 和图片让 VLM 推理图文一致性评分做 reward?为了回答这个问题,研究团队设计了一个对比方法「InferScore」—— 使用同一个冻结 VLM,但让它以自回归方式生成对图文一致性的评分,作为 reward 信号。两者的区别在于:

  • InferScore:让 VLM 自回归生成离散评分 → 受幻觉和采样随机性影响,reward 信号不稳定;更关键的是,受限于离散打分机制,对于当前最先进的文生图模型,VLM 经常无法区分同一 prompt 下不同种子生成的多张图片在 prompt following 程度上的细微差异 —— 很多时候对所有图片都给出相同分数,导致 reward 信号几乎失效
  • PromptEcho:通过预训练损失函数计算连续的对数似然值 → 确定性、无采样噪声,天然具备细粒度区分能力

后续实验将直接验证这一点 —— 同样基于 Qwen3-VL-32B,PromptEcho 全面优于 InferScore。

实验

PromptEcho 在两个当前最前沿的开源文生图模型(Z-Image 和 QwenImage-2512)上进行了实验,使用 Qwen3-VL-32B 作为 reward VLM。

训练数据构建。 研究团队收集了约 10 万张高质量图片,使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 为每张图片生成约 200–400 词的详细描述(dense caption),涵盖对象、属性、空间关系、颜色、纹理等多维信息。这些 caption 构成了 RL 训练的 prompt 集合。

DenseAlignBench :密集描述场景下对前沿模型的大幅改进

研究团队从同源数据中划出 2000 条不在训练集中的 caption,构建了DenseAlignBench测试集。该测试集与训练数据同源同分布,用于直接验证 PromptEcho 的有效性。使用 Gemini-3-flash-preview 进行成对指令遵循维度的 GSB 评估:



在密集描述的场景下,PromptEcho 取得了对前沿模型的大幅改进。

公开 Benchmark:指令遵循能力提升的泛化测试

需要强调的是,以下公开 benchmark 的测试 prompt 与训练数据在分布上存在显著差异 PromptEcho 没有针对任何 benchmark 做针对性训练,以下结果完全反映指令遵循能力的泛化提升:



PromptEcho 在所有公开 benchmark 上均取得了一致的提升,体现了其 reward 信号源自 VLM 海量预训练数据中的图文对齐知识,具备跨分布、跨架构的泛化能力。

Reward VLM 越大越好:Scaling 有效

为了验证 VLM 模型本身的质量对 PromptEcho 效果的影响,研究团队在 Z-Image 上分别使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作为 reward VLM 进行了对比实验:



32B 在所有关键指标上领先 8B,表明 reward 质量随 VLM 规模增长。这意味着随着开源 VLM 持续进化,PromptEcho 的效果上限也会不断提高。

PromptEcho vs InferScore

同样使用 Qwen3-VL-32B,PromptEcho 和 InferScore 的对比:



InferScore 在 DenseAlignBench 上甚至不如 baseline。这个验证了前面的结论:通过预训练损失函数计算连续对数似然值,远比让 VLM 自回归生成离散评分更可靠。

文字渲染:通用性验证

PromptEcho 作为通用 Reward 范式

PromptEcho 的核心机制(VLM 交叉熵 reward)并不局限于文生图模型的指令遵循优化。为了验证其通用性,研究团队将其迁移到了一个截然不同的任务:电商海报文字渲染。

迁移过程中,PromptEcho 的核心计算完全不变,仅需适配两个输入:

  • 引导 query:从通用描述(「Describe this image in detail」)改为结构化 OCR 识别 prompt—— 要求 VLM 识别图中所有设计 / 营销文字,并按语义角色分类为主标题、副标题、卖点文案、其他文字
  • :从自然语言 caption 改为 JSON 格式的结构化文字标签(直接从编辑指令中提取)

经过 PromptEcho 强化学习之后,在 5000 条测试样本上,海报生成模型全图文字正确率从68% 提升到 75%(+7pp)。这说明 PromptEcho 是一种通用的 reward 构建范式—— 只需调整引导 query 和标签格式,同一套机制就能适配不同的图像生成模型和优化目标,无需为每个新任务重新训练专用 reward 模型。

Case 展示

下图展示了一些实际的 case: QwenImage-2512(Baseline)与经过 PromptEcho 训练后的模型在同一 prompt 下的生成对比。QwenImage-2512 作为当前最先进的开源文生图模型,整体指令遵循能力已经不错。可以看到,经过 PromptEcho 训练后,模型在画面细节、空间关系、对象计数等方面有了进一步的显著改进。



图 2:QwenImage-2512 Baseline vs PromptEcho 生成结果对比。

总结与展望

PromptEcho 揭示了一个简洁而深刻的洞察:VLM 的预训练损失函数本身就是一个高质量的文图对齐 reward 信号。 不需要标注数据,不需要训练 reward 模型,直接利用开源 VLM 的一次前向推理,就能提供高质量的指令遵循 reward 信号。

这开辟了一条全新的 reward 构建路径 —— 未来随着开源社区 VLM 持续改进,PromptEcho 将获得更高质量的 reward 信号,带来更好的优化效果。

为了方便社区的进一步研究,研究团队已开源代码、模型权重和 DenseAlignBench 测试集,详见:https://github.com/roooobotx/prompt_echo。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五粮液闪崩,股价逼近90,68万投资者懵了,不至于这么跌吧!

五粮液闪崩,股价逼近90,68万投资者懵了,不至于这么跌吧!

丁丁鲤史纪
2026-05-06 15:48:50
人能捅多大篓子?上海迪士尼十周年手帐印错字,变身“迪土尼”!网友傻眼!

人能捅多大篓子?上海迪士尼十周年手帐印错字,变身“迪土尼”!网友傻眼!

上观新闻
2026-05-06 17:14:06
37岁把公司卖给马云,套现300亿全部用来造车,何小鹏究竟有多牛

37岁把公司卖给马云,套现300亿全部用来造车,何小鹏究竟有多牛

蓝色海边
2026-05-06 17:44:16
外长连夜来华!伊朗需要可信赖的大国提供支点

外长连夜来华!伊朗需要可信赖的大国提供支点

看看新闻Knews
2026-05-06 22:04:20
CNN创始人特德·特纳去世,享年87岁

CNN创始人特德·特纳去世,享年87岁

界面新闻
2026-05-06 22:35:32
一只青蛙如何被井外势力蛊惑

一只青蛙如何被井外势力蛊惑

黔有虎
2026-05-05 22:54:29
世乒赛再爆冷门,世界冠军遭绝杀,国乒强敌1-3止步,王楚钦横扫

世乒赛再爆冷门,世界冠军遭绝杀,国乒强敌1-3止步,王楚钦横扫

八斗小先生
2026-05-06 18:13:12
小学生赴俄庆祝胜利日一文让有的人不安了?

小学生赴俄庆祝胜利日一文让有的人不安了?

名人苟或
2026-05-06 12:51:00
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
伊朗消息人士:美方提议包含不可接受条款

伊朗消息人士:美方提议包含不可接受条款

界面新闻
2026-05-06 21:50:18
绳子断裂女游客已经死亡,事发前一直喊没绑紧,吓得快哭了

绳子断裂女游客已经死亡,事发前一直喊没绑紧,吓得快哭了

映射生活的身影
2026-05-05 21:19:42
美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

流史岁月
2026-05-06 14:25:04
近6轮仅1胜!海港1-1新鹏城 刘祝润替补绝平 安佩姆补时打人染红

近6轮仅1胜!海港1-1新鹏城 刘祝润替补绝平 安佩姆补时打人染红

我爱英超
2026-05-06 21:41:22
“出海”与“入海”:海尔全球化布局背后的战略定力与长期主义

“出海”与“入海”:海尔全球化布局背后的战略定力与长期主义

智谷趋势
2026-04-30 18:58:41
华为 FreeBuds Pro 5 众测试听挑战!到底什么才是好音质?

华为 FreeBuds Pro 5 众测试听挑战!到底什么才是好音质?

极果酷玩
2026-04-28 15:21:42
巴萨震怒!18岁亚马尔输球后飞米兰,和前任彻夜狂欢被实锤!

巴萨震怒!18岁亚马尔输球后飞米兰,和前任彻夜狂欢被实锤!

罗氏八卦
2026-05-06 18:15:03
5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

月满大江流
2026-05-06 17:01:05
吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

念洲
2026-05-06 07:42:45
人走茶凉!《陈翔六点半》赚不到钱球球退出,根本原因早已注定

人走茶凉!《陈翔六点半》赚不到钱球球退出,根本原因早已注定

橙星文娱
2026-05-06 11:09:03
打虎!合肥市委书记费高云被查

打虎!合肥市委书记费高云被查

新京报政事儿
2026-05-06 16:24:03
2026-05-06 22:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

手机
艺术
本地
旅游
数码

手机要闻

小米手机大跌!出货量下滑19%,汽车业务是「罪魁祸首」?

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

联播一瞬丨凭实力圈粉!外国游客在沉浸式打卡游里点赞中国

数码要闻

华硕天选7 Pro Max游戏本上架,搭锐龙9 9955HX处理器

无障碍浏览 进入关怀版