网易首页 > 网易号 > 正文 申请入驻

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

0
分享至

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。然而,在图像生成模型中,这种成功经验尚未得到充分探索。图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。

近期,上海科技大学、微软亚洲研究院和复旦大学提出了 ReasonGen-R1 框架,一个两阶段训练框架,将链式推理监督微调(Supervised Fine-tuning)与强化学习(Reinforcement Learning)相结合,以提升自回归图像生成模型的推理和创作能力。ReasonGen-R1 使得自回归图像生成模型可以端到端地在输出图片之前先进行文本「思考」,大幅提升了基座模型的语义遵循能力,并在多个语义指标上取得突破。

目前,ReasonGen-R1 已全面开源(包括训练、评测代码,训练数据以及模型)。

  • 论文标题:ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RL
  • Arxiv 地址:https://arxiv.org/abs/2505.24875
  • 代码地址:https://github.com/Franklin-Zhang0/ReasonGen-R1
  • 项目主页:https://reasongen-r1.github.io

方法概览

ReasonGen-R1 的训练包括两个核心阶段:监督微调阶段(SFT)以及强化学习阶段(RL)。

监督微调阶段首先构建了一个大规模图片生成推理数据集,共包含 20 万条图像-文本对。该数据集基于 LAION 美学子集,利用 GPT-4.1 根据图片自动生成两类描述:一是多样化的简洁图片描述(包括常规叙述、基于标签和以物体为中心的叙述),二是丰富的推理式 CoT(chain-of-thought)叙述。多风格的简洁图片描述设计有效避免了模型在 SFT 阶段对单一 prompt 模式的过拟合。

随后,ReasonGen-R1 按照「Prompt → CoT →

图1. ReasonGen-R1 模型架构概览。ReasonGen-R1通过监督微调(SFT)以及强化学习(RL)使得模型可以先进行链式推理,再生成最终图片。

强化学习阶段通过 Group Relative Policy Optimization(GRPO)进一步优化模型输出。为了有效评价生成输出图像的质量和输入文本-输出图像的一致性,ReasonGen-R1 采用了预训练视觉语言模型 Qwen-2.5-VL-7B 作为奖励模型,让其对于每个输出图片,根据图片以及输入文本是否一致,给出 0、1 奖励。

图2. ReasonGen-R1强化学习框架概览。

此外,为确保训练稳定性,ReasonGen-R1 提出了一种改进的自适应熵损失函数,该损失函数能够将输出 token 的熵动态调节到目标熵附近,有效防止了在文本图像混合强化训练过程中训练不稳定导致模式崩塌的问题。

图3. 自适应熵损失中用于更新熵损失参数的loss function

ReasonGen-R1 实验结果

团队基于 Janus-Pro-7B 模型对 ReasonGen-R1 进行了全方面测试,选取了三个图像生成语义遵循指标:GenEval、DPG-Bench 以及 T2I-Benchmark。

如图 4 所示,ReasonGen-R1 在所有指标上都较基座模型有了显著的提升。这些结果表明,将文本推理通过 SFT-RL 的框架应用于图片生成,能够显著提升自回归图像生成模型的性能。

图4. 左图:基座模型Janus-Pro-7B和ReasonGen-R1生成图像可视化比较;右图:三个指令遵循指标上的表现比较。ReasonGen-R1在所有指标上均超过了基座模型,体现了指令遵循能力的巨大提升。

为深入探讨 ReasonGen-R1 各个模块的贡献,研究还进行了以下消融实验:

SFT 阶段的作用:为了测试 SFT 阶段对于模型最终性能的影响,ReasonGen-R1 对比了直接强化学习的结果。如表 1 所示,仅使用强化学习(RL)而未进行监督微调(SFT)时,模型表现显著下降,证明了 SFT 阶段对模型后续强化学习阶段的重要性。

奖励模型规模影响:实验还对比了不同大小的奖励模型。如表 1 所示,较小规模的奖励模型(Qwen-2.5-VL-3B)无法提供足够精准的反馈信号,严重影响强化学习阶段的表现。因此,选择高精度、大规模的奖励模型至关重要。

表1. ReasonGen-R1在GenEval指标上对于架构设计的消融实验

自适应熵损失函数的稳定作用:如图 6 所示,在没有熵损失的情况下,模型在经过 100 步的训练后会出现熵爆炸,同时 Reward 开始缓慢下降。另一方面,施加固定熵惩罚(–0.002)会使熵持续下降,并在第 80 步时过低,进而引发图片生成模式崩塌和奖励急剧下滑。这些现象凸显了在交错文本与图像的 RL 训练中,对于熵损失正则化设置的敏感性。相比之下,采用 ReasonGen-R1 提出的自适应熵损失能够将熵保持在最佳范围内,确保训练过程的稳定性以及奖励的稳定增长。

图6. 对于各个熵正则化策略在强化学习中的效果比较

ReasonGen-R1 CoT 分析

图7. 1000次CoT输出中的单词频率。只有出现频率高于20%的单词被展示。出现频率最高的三个’a, an, the’被移除以关注保护更多信息的词语

图 7 展示了 ReasonGen-R1 推理链的模式。首先,它通过「感知」(sense)、「场景」(scene)和「自然」(natural)等高频词(在超过 140% 的 CoT 中出现)来奠定总体框架,强调整体语境和真实场景。接着,它细化视觉风格:诸如「柔和」(soft)、「高光」(highlights)、「氛围」(mood)和「流畅」(sleek)等词汇(均在超过 100% 的 CoT 中出现)用以描述光照质量、情感基调和质感。

更关键的是,「突出」(highlighting)和「强调」(emphasizing)这两个词各自在至少 70% 的 CoT 中出现,表明模型有意识地聚焦于主要主体。这揭示出 ReasonGen-R1 不仅仅是在描述物体,而是在主动规划构图焦点。

除了核心词汇外,ReasonGen-R1 还运用了大量修饰词——「背景」(background)用于建立环境氛围;「特征」(features)用于突出显著视觉元素;「宁静」(calm)用于渲染平和氛围;「瞬间」(moments)用于传达时间抓拍感;「捕捉」(captured)用于强调摄影真实感;等等——以在每条推理序列中注入细腻的、情境化的细节。

总体而言,ReasonGen-R1 的推理链通过场景框架、风格细节、主体聚焦和细节修饰等要素,有效地引导了图像生成过程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英皇老板杨受成的风流史:手下女星无数,与容祖儿梁咏琪相交甚密

英皇老板杨受成的风流史:手下女星无数,与容祖儿梁咏琪相交甚密

老范谈史
2026-01-30 18:08:46
深夜美联储释放利空!黄金暴跌10%,白银暴跌12%,黄金白银崩盘

深夜美联储释放利空!黄金暴跌10%,白银暴跌12%,黄金白银崩盘

小鬼头体育
2026-01-31 04:11:19
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
大S一家没说谎,主动放弃遗产,面相全变的具俊晔,证实她们的话

大S一家没说谎,主动放弃遗产,面相全变的具俊晔,证实她们的话

不写散文诗
2026-01-31 12:47:10
国民党派人赴陆,不到24小时,赖清德提了个要求,郑丽文斩钉截铁

国民党派人赴陆,不到24小时,赖清德提了个要求,郑丽文斩钉截铁

蓝色海边
2026-01-31 10:42:36
火箭对阵独行侠!主队双核缺阵,2人出战成疑!客队3核心同时伤缺

火箭对阵独行侠!主队双核缺阵,2人出战成疑!客队3核心同时伤缺

熊哥爱篮球
2026-01-31 11:04:45
刘强东全村发年货,父亲站房顶看热闹心情好,母亲穿儿媳新买大衣

刘强东全村发年货,父亲站房顶看热闹心情好,母亲穿儿媳新买大衣

阿纂看事
2026-01-30 16:19:16
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
楼兰是犯了什么天条吗?让中原人如此痛恨,古诗里一堆“斩楼兰”

楼兰是犯了什么天条吗?让中原人如此痛恨,古诗里一堆“斩楼兰”

收藏大视界
2025-12-16 18:48:56
河北九个月宝宝因碎肉卡喉致死,悲剧实在让人心碎!

河北九个月宝宝因碎肉卡喉致死,悲剧实在让人心碎!

眼界看视野
2026-01-30 21:40:54
太阳报:对阵曼联的赛后,阿尔特塔完整看完2遍比赛录像;卢克·肖是本赛季队内英超出场时间最多的球员

太阳报:对阵曼联的赛后,阿尔特塔完整看完2遍比赛录像;卢克·肖是本赛季队内英超出场时间最多的球员

MUREDS
2026-01-30 23:42:49
演员金晨道歉后,喜之郎悄悄恢复被隐藏的内容、娇韵诗微博置顶换成迪丽热巴,阿迪达斯宣布金晨仍为其代言人

演员金晨道歉后,喜之郎悄悄恢复被隐藏的内容、娇韵诗微博置顶换成迪丽热巴,阿迪达斯宣布金晨仍为其代言人

扬子晚报
2026-01-31 10:31:01
央视预定!又一部24集历史大剧来了!我想说:《太平年》有对手了

央视预定!又一部24集历史大剧来了!我想说:《太平年》有对手了

草本纪年
2026-01-30 20:34:54
停招初级工程师!大厂样板无实战价值、软件黑灯工厂死路一条,三位AI 编程老炮:AI越骂越灵!

停招初级工程师!大厂样板无实战价值、软件黑灯工厂死路一条,三位AI 编程老炮:AI越骂越灵!

InfoQ
2026-01-31 10:21:21
汪小菲也没想到,临近年关,具俊晔竟因一特殊举动,扭转了口碑

汪小菲也没想到,临近年关,具俊晔竟因一特殊举动,扭转了口碑

冷紫葉
2026-01-29 19:13:29
突发!2026年房价上涨序幕拉开

突发!2026年房价上涨序幕拉开

阿离家居
2026-01-31 10:41:06
现货白银跌幅收窄至10%

现货白银跌幅收窄至10%

财联社
2026-01-30 20:20:27
福建流落在柬埔寨的吴某桢工作细节流出:大部分工作时间在室内…

福建流落在柬埔寨的吴某桢工作细节流出:大部分工作时间在室内…

小嵩
2026-01-10 19:34:08
贺子珍的17岁亲弟弟犯错被枪决,毛主席听闻后沉默:他只是个孩子

贺子珍的17岁亲弟弟犯错被枪决,毛主席听闻后沉默:他只是个孩子

大运河时空
2026-01-30 08:20:03
特朗普挑明了,答应三条件就撤军,伊朗发出警告,尽管放马过来

特朗普挑明了,答应三条件就撤军,伊朗发出警告,尽管放马过来

荷兰豆爱健康
2026-01-31 11:17:03
2026-01-31 13:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142557关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

金银一夜蒸发约7.4万亿美元 相当于法国、英国GDP总和

头条要闻

金银一夜蒸发约7.4万亿美元 相当于法国、英国GDP总和

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

亲子
健康
艺术
手机
军事航空

亲子要闻

萌娃疑惑的问妈妈:爸爸不帅也没钱,你为什么嫁给他?太逗了

耳石症分类型,症状大不同

艺术要闻

15位当代国外画家的16幅具象人物绘画

手机要闻

网友自制积分榜,列出苹果未修复的陈年老bug已浪费人类多少时间

军事要闻

轰-6k在黄岩岛战备警巡示意图公布

无障碍浏览 进入关怀版