网易首页 > 网易号 > 正文 申请入驻

港大等开源GoT-R1:强化学习解锁视觉生成推理新范式

0
分享至

当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍面临挑战。

针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。

该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略。GoT 和 GoT-R1 已全面开源。

  • GoT arxiv:https://arxiv.org/pdf/2503.10639
  • GoT github:https://github.com/rongyaofang/GoT
  • GoT-R1 arxiv:https://arxiv.org/pdf/2505.17022
  • GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通过引入显式的语言推理过程,在生成图像前对语义内容和空间布局进行规划,从而提升了生成图像的准确性和可控性 。然而,GoT 的推理能力主要源于基于人工定义模板的监督微调数据,这在一定程度上限制了模型自主发现更优推理策略的潜力,有时可能导致生成的推理链条未能完全忠实于用户复杂的文本提示 。

GoT-R1 的提出,旨在克服上述局限。它将强化学习(RL)创新性地应用于视觉生成的语义 - 空间推理过程,赋予模型自主学习和优化推理路径的能力。

强化学习训练前后GoT预定义推理链与GoT-R1自由探索推理过程对比

GoT:奠定 “先思考后生成” 的基础

理解 GoT-R1 之前,有必要回顾其基础框架 GoT 。传统的文本到图像模型,如Stable Diffusion,FLUX 等,通常采用直接特征映射的方式,从文本嵌入到视觉特征,缺乏对场景内对象间复杂关系和空间布局的显式推理过程 。这使得它们在面对包含多个实体、精确空间指令和细致属性描述的复杂文本时,生成效果往往未达预期。

GoT 框架旨在应对这一挑战,其核心思想是将 “直接生成” 模式转变为 “先推理规划,后引导生成” 的两阶段过程 。具体而言,GoT 首先将用户输入的文本提示(Prompt)解析并扩展为一个详尽的 “生成思维链”(Generation Chain-of-Thought)。此思维链不仅包含对场景中各个构成元素的语义描述(例如,“一个现代风格的客厅,带有 shabby chic 风格的触感”)和具体物体(例如,“一个华丽的枝形吊灯”,“一个带框的镜子”),还附带了这些物体在图像中的精确空间坐标信息(例如,吊灯位于 (372,0), (613,254),镜子位于 (157,251), (285,519)) 。随后,这条融合了语义规划与空间布局的思维链将作为精细化指令,指导后续的图像扩散模型进行图像生成,确保最终输出与预先规划高度吻合 。

GoT 框架的实现,依赖于构建的大规模推理链图文对数据集(超过 900 万样本,包括 840 万图像生成样本和 92 万图像编辑样本 )以及先进的多模态大模型(如 Qwen2.5-VL )进行推理链的生成。此外,其独创的语义 - 空间指导模块(Semantic-Spatial Guidance Module, SSGM)进一步增强了扩散模型遵循推理链进行精确生成的能力 。

GoT模型:基于MLLM+Diffusion的图片生成与编辑

GoT-R1:通过强化学习精进推理

尽管 GoT 在提升复杂场景生成方面取得了显著成效,但其主要依赖监督学习范式,模型推理能力的提升受限于标注数据的模板和质量 。GoT-R1 则引入了强化学习,旨在突破这一瓶颈,赋予模型更强的自主学习和泛化能力。

GoT-R1 面临的关键挑战之一是为视觉生成任务设计一个全面且有效的奖励(Reward)机制。该机制需要能够准确评估生成结果的多个维度:不仅包括最终图像与文本提示的语义一致性、空间布局的准确性、对象属性的正确绑定以及图像的整体美学质量 ,更重要的是,还需要对中间生成的 “思维链” 本身的质量进行监督,避免出现推理过程存在谬误或与最终图像不一致的情况 。

针对此,GoT-R1 构建了一个基于 MLLM 的双阶段、多维度奖励框架,具体包含:

1. 推理过程评估奖励 (RPR):

  • 语义对齐奖励 (Rsem):利用 MLLM 评估所生成的 GoT 推理链在语义层面是否完整、是否忠实于原始输入文本,以及是否存在内在逻辑矛盾或表述不清晰等问题 。
  • 空间对齐奖励 (Rspa):此为 GoT-R1 的核心创新点。鉴于多数 LLM 或 MLLM 对于直接处理文本形式的坐标数据并判断其空间关系的能力有限 ,GoT-R1 提出将 GoT 推理链中规划的对象坐标信息,在虚拟的空白画布上渲染为包含具体边界框的可视化图像。随后,将此图像输入 MLLM 进行判断,评估其所展现的空间布局是否与原始文本提示中的空间关系描述(例如 “A 在 B 的左侧”)相符 。这种 “文本坐标 -> 可视化布局 -> MLLM 评估” 的转换,显著提升了空间关系奖励信号的准确性和鲁棒性 。

2. 推理至图像对齐奖励 (RRI):

旨在确保最终生成的图像能够忠实地执行 GoT 推理链中的规划。具体实现方式是,利用 MLLM 在生成的图像中定位出推理链中规划的每一个对象,并获取其在图像中的实际边界框。然后,通过计算规划边界框与图像中实际边界框之间的交并比(Intersection over Union, IoU),来量化图像对推理链的遵循程度 。

3. 文本提示至图像对齐奖励 (RPI):

作为最终结果的评估,由 MLLM 从对象、属性、布局等多个维度,综合评价生成的图像与原始输入文本提示的整体一致性与符合度 。

这些精心设计的多维度奖励信号,与高效的组相对策略优化(Group Relative Policy Optimization, GRPO)强化学习算法相结合 ,使得 GoT-R1 模型(例如,基于 Janus-Pro 模型 )在训练过程中能够主动探索并学习到更优质、更符合复杂指令的推理策略,而不仅仅是重复训练数据中的固定模式。

GoT-R1模型:AR MLLM的强化学习训练示意

惊艳效果:复杂场景生成新SOTA

GoT-R1 的效果如何?研究团队在极具挑战性的 T2I-CompBench 上进行了全面评估。

GoT-R1在T2I-Compbench下的量化评估

研究团队将其与当前主流的三类模型进行了对比,包括:1) 扩散模型(如 Stable Diffusion 系列、DALLE-3、FLUX.1 等);2) 布局引导的两阶段模型(如 Ranni、LayoutGPT);以及3) 其他先进的自回归模型(如 Emu3、Janus-Pro 等)。

评估结果显示,GoT-R1-7B 模型在该基准测试上确立了新的 SOTA 性能 。其强大之处体现在多个方面:首先,它在 T2I-CompBench 的六个评估类别中的五个(色彩、形状、纹理、非空间属性、复杂组合)取得了最高分 。尤其是在由混合自然语言组合提示构成的 “Complex” 基准测试中,GoT-R1 展现出显著优势,证明了其在处理复杂、多层次指令上的卓越能力 。

更重要的是,该成果清晰地展示了强化学习带来的提升。与仅使用 GoT 数据集进行监督微调的基线模型(Janus-Pro-7B-GoT)相比,经过强化学习优化的 GoT-R1-7B 模型在评估指标上实现了高达 15% 的提升。例如,在纹理(Texture)和形状(Shape)等类别的保真度上,GoT-R1-7B 相较于 GoT 微调模型取得了大幅度的进步 。这些显著的性能增益,有力地证明了 GoT-R1 通过强化学习引导模型自主优化推理路径的策略,对于解决复杂的组合式图像生成任务是切实有效的。

为了验证强化学习是否真正提升了模型内在的推理能力,而非仅仅优化了最终的图像输出,研究团队还对模型核心的 “思考过程”—— 即 “生成思维链”(Generation Chain-of-Thought)的质量本身进行了深入分析 。为此,团队采用 GPT-4o 作为第三方评估者 ,对 GoT-R1-7B 自主探索生成的推理链与仅经 GoT 监督微调的基线模型(Janus-Pro-7B-GoT)生成的推理链进行了一对一的比较。

评估结果具有压倒性的说服力。GPT-4o 在所有评估类别中均明确地偏好由 GoT-R1 生成的推理链。例如,在对空间关系理解要求极高的 “Spatial” 类别提示中,GoT-R1 获得了 84 票,而基线模型仅获得 16 票 。这一结果强有力地证明,GoT-R1 框架通过强化学习,不仅提升了最终图像的生成质量,更从根本上优化了模型自身的推理能力,使其能够生成更准确、更忠实于用户意图、逻辑更清晰的 “思维链”,而这正是其在复杂组合任务中取得成功的关键所在。

GPT-4o对强化学习前后推理链的一对一比较结果

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涉嫌严重违纪违法,王彬被查

涉嫌严重违纪违法,王彬被查

都市快报橙柿互动
2026-06-23 02:48:44
重磅4换1!字母哥交易落地,加盟绿军,彻底改写东部争冠格局

重磅4换1!字母哥交易落地,加盟绿军,彻底改写东部争冠格局

体育见习官
2026-06-23 08:03:41
山西运城警方通报“13岁女孩称遭男子强奸,警方不予立案”:组成联合调查组,启动复核程序,对原始卷宗、证据材料及办理过程进行全面复核

山西运城警方通报“13岁女孩称遭男子强奸,警方不予立案”:组成联合调查组,启动复核程序,对原始卷宗、证据材料及办理过程进行全面复核

大风新闻
2026-06-23 08:45:03
在佛得角的中国游客:几乎每隔一个街区就有一家中国超市,名为“迷你张”“迷你陈”

在佛得角的中国游客:几乎每隔一个街区就有一家中国超市,名为“迷你张”“迷你陈”

南方都市报
2026-06-22 18:52:42
法国巨头联合创始人坠机身亡

法国巨头联合创始人坠机身亡

第一财经资讯
2026-06-22 12:59:57
不撤案杀你全家,山西运城13岁女孩被强奸,不予立案后又调查了

不撤案杀你全家,山西运城13岁女孩被强奸,不予立案后又调查了

汉史趣闻
2026-06-23 08:23:52
三部门:支持外资企业参与提振消费行动

三部门:支持外资企业参与提振消费行动

证券时报
2026-06-22 14:35:50
闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

情感大头说说
2026-06-23 03:53:46
伊朗队再次被要求立即离开美国,临行前在洛杉矶更衣室留下感谢信:感谢洛杉矶,我们为荣誉而战,有尊严地离开

伊朗队再次被要求立即离开美国,临行前在洛杉矶更衣室留下感谢信:感谢洛杉矶,我们为荣誉而战,有尊严地离开

极目新闻
2026-06-22 15:53:41
"毒纸尿裤"调查记者发布公开信:我只为那些体内检出甲酰胺的孩子!

"毒纸尿裤"调查记者发布公开信:我只为那些体内检出甲酰胺的孩子!

记录者王文志
2026-06-22 13:41:49
三方4人大交易!尼克斯夺冠功臣,被卖掉了!

三方4人大交易!尼克斯夺冠功臣,被卖掉了!

德译洋洋
2026-06-23 11:26:39
世界杯72年奇景!3巨星同天双响+助队提前出线 金靴之争空前激烈

世界杯72年奇景!3巨星同天双响+助队提前出线 金靴之争空前激烈

我爱英超
2026-06-23 10:06:12
相当炸裂 !女子试衣遭孩童掀开帘,全身裸露,被多名男性围观!

相当炸裂 !女子试衣遭孩童掀开帘,全身裸露,被多名男性围观!

阿玲诗话
2026-06-22 21:07:47
5月失业率:16-24岁15.6%、25-29岁7.2%,创同期新高

5月失业率:16-24岁15.6%、25-29岁7.2%,创同期新高

六子吃凉粉
2026-06-23 10:03:17
夺冠大热轰然倒下,躺着都能出线却站在了出局悬崖边,球迷:窝囊

夺冠大热轰然倒下,躺着都能出线却站在了出局悬崖边,球迷:窝囊

我就是一个说球的
2026-06-22 21:12:52
【环时深度】在对华关系上犯错数年,立陶宛失去了什么

【环时深度】在对华关系上犯错数年,立陶宛失去了什么

环球网资讯
2026-06-23 06:49:10
娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

往史过眼云烟
2026-06-22 16:48:30
他是杨采钰老公,福建某集团富三代,比她小帅气多金,郎才女貌

他是杨采钰老公,福建某集团富三代,比她小帅气多金,郎才女貌

以茶带书
2026-06-22 15:38:16
字母哥重磅交易倒计时!本人晒背影照发声 即将开启生涯新篇章?

字母哥重磅交易倒计时!本人晒背影照发声 即将开启生涯新篇章?

罗说NBA
2026-06-23 06:17:53
宝妈带娃避雨后续:老顾客发声,不信保安会撵人,宝妈言论被审视

宝妈带娃避雨后续:老顾客发声,不信保安会撵人,宝妈言论被审视

以茶带书
2026-06-22 13:47:59
2026-06-23 11:59:02
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13331文章数 142677关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

上市公司40岁女副总裁突发意外去世 事发前一天还开会

头条要闻

上市公司40岁女副总裁突发意外去世 事发前一天还开会

体育要闻

哈兰德国家队52场59球 世界杯狂刷6大纪录

娱乐要闻

喜剧大师曝光肖战拍戏状态!

财经要闻

智谱万亿市值,国产Anthropic真来了?

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

房产
艺术
本地
游戏
公开课

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

艺术要闻

田卫平 2026静物油画选

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

海量套路玩出花,离谱构筑无上限!《释厄传》今日正式上线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版