网易首页 > 网易号 > 正文 申请入驻

港大等开源GoT-R1:强化学习解锁视觉生成推理新范式

0
分享至

当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍面临挑战。

针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。

该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略。GoT 和 GoT-R1 已全面开源。

  • GoT arxiv:https://arxiv.org/pdf/2503.10639
  • GoT github:https://github.com/rongyaofang/GoT
  • GoT-R1 arxiv:https://arxiv.org/pdf/2505.17022
  • GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通过引入显式的语言推理过程,在生成图像前对语义内容和空间布局进行规划,从而提升了生成图像的准确性和可控性 。然而,GoT 的推理能力主要源于基于人工定义模板的监督微调数据,这在一定程度上限制了模型自主发现更优推理策略的潜力,有时可能导致生成的推理链条未能完全忠实于用户复杂的文本提示 。

GoT-R1 的提出,旨在克服上述局限。它将强化学习(RL)创新性地应用于视觉生成的语义 - 空间推理过程,赋予模型自主学习和优化推理路径的能力。

强化学习训练前后GoT预定义推理链与GoT-R1自由探索推理过程对比

GoT:奠定 “先思考后生成” 的基础

理解 GoT-R1 之前,有必要回顾其基础框架 GoT 。传统的文本到图像模型,如Stable Diffusion,FLUX 等,通常采用直接特征映射的方式,从文本嵌入到视觉特征,缺乏对场景内对象间复杂关系和空间布局的显式推理过程 。这使得它们在面对包含多个实体、精确空间指令和细致属性描述的复杂文本时,生成效果往往未达预期。

GoT 框架旨在应对这一挑战,其核心思想是将 “直接生成” 模式转变为 “先推理规划,后引导生成” 的两阶段过程 。具体而言,GoT 首先将用户输入的文本提示(Prompt)解析并扩展为一个详尽的 “生成思维链”(Generation Chain-of-Thought)。此思维链不仅包含对场景中各个构成元素的语义描述(例如,“一个现代风格的客厅,带有 shabby chic 风格的触感”)和具体物体(例如,“一个华丽的枝形吊灯”,“一个带框的镜子”),还附带了这些物体在图像中的精确空间坐标信息(例如,吊灯位于 (372,0), (613,254),镜子位于 (157,251), (285,519)) 。随后,这条融合了语义规划与空间布局的思维链将作为精细化指令,指导后续的图像扩散模型进行图像生成,确保最终输出与预先规划高度吻合 。

GoT 框架的实现,依赖于构建的大规模推理链图文对数据集(超过 900 万样本,包括 840 万图像生成样本和 92 万图像编辑样本 )以及先进的多模态大模型(如 Qwen2.5-VL )进行推理链的生成。此外,其独创的语义 - 空间指导模块(Semantic-Spatial Guidance Module, SSGM)进一步增强了扩散模型遵循推理链进行精确生成的能力 。

GoT模型:基于MLLM+Diffusion的图片生成与编辑

GoT-R1:通过强化学习精进推理

尽管 GoT 在提升复杂场景生成方面取得了显著成效,但其主要依赖监督学习范式,模型推理能力的提升受限于标注数据的模板和质量 。GoT-R1 则引入了强化学习,旨在突破这一瓶颈,赋予模型更强的自主学习和泛化能力。

GoT-R1 面临的关键挑战之一是为视觉生成任务设计一个全面且有效的奖励(Reward)机制。该机制需要能够准确评估生成结果的多个维度:不仅包括最终图像与文本提示的语义一致性、空间布局的准确性、对象属性的正确绑定以及图像的整体美学质量 ,更重要的是,还需要对中间生成的 “思维链” 本身的质量进行监督,避免出现推理过程存在谬误或与最终图像不一致的情况 。

针对此,GoT-R1 构建了一个基于 MLLM 的双阶段、多维度奖励框架,具体包含:

1. 推理过程评估奖励 (RPR):

  • 语义对齐奖励 (Rsem):利用 MLLM 评估所生成的 GoT 推理链在语义层面是否完整、是否忠实于原始输入文本,以及是否存在内在逻辑矛盾或表述不清晰等问题 。
  • 空间对齐奖励 (Rspa):此为 GoT-R1 的核心创新点。鉴于多数 LLM 或 MLLM 对于直接处理文本形式的坐标数据并判断其空间关系的能力有限 ,GoT-R1 提出将 GoT 推理链中规划的对象坐标信息,在虚拟的空白画布上渲染为包含具体边界框的可视化图像。随后,将此图像输入 MLLM 进行判断,评估其所展现的空间布局是否与原始文本提示中的空间关系描述(例如 “A 在 B 的左侧”)相符 。这种 “文本坐标 -> 可视化布局 -> MLLM 评估” 的转换,显著提升了空间关系奖励信号的准确性和鲁棒性 。

2. 推理至图像对齐奖励 (RRI):

旨在确保最终生成的图像能够忠实地执行 GoT 推理链中的规划。具体实现方式是,利用 MLLM 在生成的图像中定位出推理链中规划的每一个对象,并获取其在图像中的实际边界框。然后,通过计算规划边界框与图像中实际边界框之间的交并比(Intersection over Union, IoU),来量化图像对推理链的遵循程度 。

3. 文本提示至图像对齐奖励 (RPI):

作为最终结果的评估,由 MLLM 从对象、属性、布局等多个维度,综合评价生成的图像与原始输入文本提示的整体一致性与符合度 。

这些精心设计的多维度奖励信号,与高效的组相对策略优化(Group Relative Policy Optimization, GRPO)强化学习算法相结合 ,使得 GoT-R1 模型(例如,基于 Janus-Pro 模型 )在训练过程中能够主动探索并学习到更优质、更符合复杂指令的推理策略,而不仅仅是重复训练数据中的固定模式。

GoT-R1模型:AR MLLM的强化学习训练示意

惊艳效果:复杂场景生成新SOTA

GoT-R1 的效果如何?研究团队在极具挑战性的 T2I-CompBench 上进行了全面评估。

GoT-R1在T2I-Compbench下的量化评估

研究团队将其与当前主流的三类模型进行了对比,包括:1) 扩散模型(如 Stable Diffusion 系列、DALLE-3、FLUX.1 等);2) 布局引导的两阶段模型(如 Ranni、LayoutGPT);以及3) 其他先进的自回归模型(如 Emu3、Janus-Pro 等)。

评估结果显示,GoT-R1-7B 模型在该基准测试上确立了新的 SOTA 性能 。其强大之处体现在多个方面:首先,它在 T2I-CompBench 的六个评估类别中的五个(色彩、形状、纹理、非空间属性、复杂组合)取得了最高分 。尤其是在由混合自然语言组合提示构成的 “Complex” 基准测试中,GoT-R1 展现出显著优势,证明了其在处理复杂、多层次指令上的卓越能力 。

更重要的是,该成果清晰地展示了强化学习带来的提升。与仅使用 GoT 数据集进行监督微调的基线模型(Janus-Pro-7B-GoT)相比,经过强化学习优化的 GoT-R1-7B 模型在评估指标上实现了高达 15% 的提升。例如,在纹理(Texture)和形状(Shape)等类别的保真度上,GoT-R1-7B 相较于 GoT 微调模型取得了大幅度的进步 。这些显著的性能增益,有力地证明了 GoT-R1 通过强化学习引导模型自主优化推理路径的策略,对于解决复杂的组合式图像生成任务是切实有效的。

为了验证强化学习是否真正提升了模型内在的推理能力,而非仅仅优化了最终的图像输出,研究团队还对模型核心的 “思考过程”—— 即 “生成思维链”(Generation Chain-of-Thought)的质量本身进行了深入分析 。为此,团队采用 GPT-4o 作为第三方评估者 ,对 GoT-R1-7B 自主探索生成的推理链与仅经 GoT 监督微调的基线模型(Janus-Pro-7B-GoT)生成的推理链进行了一对一的比较。

评估结果具有压倒性的说服力。GPT-4o 在所有评估类别中均明确地偏好由 GoT-R1 生成的推理链。例如,在对空间关系理解要求极高的 “Spatial” 类别提示中,GoT-R1 获得了 84 票,而基线模型仅获得 16 票 。这一结果强有力地证明,GoT-R1 框架通过强化学习,不仅提升了最终图像的生成质量,更从根本上优化了模型自身的推理能力,使其能够生成更准确、更忠实于用户意图、逻辑更清晰的 “思维链”,而这正是其在复杂组合任务中取得成功的关键所在。

GPT-4o对强化学习前后推理链的一对一比较结果

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大家提前做好准备,5月开始,不出意外的话,中国或将出现4大变化

大家提前做好准备,5月开始,不出意外的话,中国或将出现4大变化

猫叔东山再起
2026-04-29 09:20:21
8-8!29岁赵心童找回状态 压哨连赢2局追平墨菲 强势轰单杆117分

8-8!29岁赵心童找回状态 压哨连赢2局追平墨菲 强势轰单杆117分

我爱英超
2026-04-29 05:40:59
起底“性商教母”周媛

起底“性商教母”周媛

中国新闻周刊
2026-04-28 23:01:12
广州海珠法院《出庭通知书》被指引用已废止13年的司法解释,院方称很重视正在处理,律师解读

广州海珠法院《出庭通知书》被指引用已废止13年的司法解释,院方称很重视正在处理,律师解读

极目新闻
2026-04-29 12:31:08
美国终于下场,牵头南美6国声援巴拿马!誓要清除中国影响力?

美国终于下场,牵头南美6国声援巴拿马!誓要清除中国影响力?

近史博览
2026-04-29 13:05:00
中国羽毛球协会主席、南京体育学院副院长张军接受审查调查

中国羽毛球协会主席、南京体育学院副院长张军接受审查调查

界面新闻
2026-04-29 16:03:51
煤化工,一笔做了三十年的亏本买卖

煤化工,一笔做了三十年的亏本买卖

星船知造
2026-04-28 16:53:15
1800万存款离奇失踪,储户兑现遭银行拖延,质疑银行员工监守自盗,涉事员工曾因欠债喝药轻生,多方回应

1800万存款离奇失踪,储户兑现遭银行拖延,质疑银行员工监守自盗,涉事员工曾因欠债喝药轻生,多方回应

大风新闻
2026-04-29 14:41:10
美国拉拢一众拉美国家就涉巴拿马港口问题指责中国,外交部:完全是无中生有、颠倒黑白

美国拉拢一众拉美国家就涉巴拿马港口问题指责中国,外交部:完全是无中生有、颠倒黑白

环球网资讯
2026-04-29 15:39:07
中国召集9国,伊朗撂下一句猛话!特朗普正在等一个绝佳翻盘机会

中国召集9国,伊朗撂下一句猛话!特朗普正在等一个绝佳翻盘机会

健身狂人
2026-04-29 11:09:38
12家门店一夜关停!又一网红餐饮品牌倒下了?

12家门店一夜关停!又一网红餐饮品牌倒下了?

红餐网
2026-04-29 10:59:10
96岁奶奶摆摊10年还清2077万,但凡稍微“体面”一点,都说不口

96岁奶奶摆摊10年还清2077万,但凡稍微“体面”一点,都说不口

走读新生
2026-04-29 10:48:15
受贿数额特别巨大,广西壮族自治区党委原副书记、自治区政府原主席蓝天立被提起公诉

受贿数额特别巨大,广西壮族自治区党委原副书记、自治区政府原主席蓝天立被提起公诉

界面新闻
2026-04-29 10:03:28
难以置信!有福州家长深夜11点多接班主任电话,被宣读防溺水事项

难以置信!有福州家长深夜11点多接班主任电话,被宣读防溺水事项

火山詩话
2026-04-29 08:42:45
马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

乌娱子酱
2026-04-29 13:30:44
云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

大爱三湘
2026-04-28 19:39:12
5月1日起北京禁飞禁售无人机,大疆在京门店今日将下架相关产品

5月1日起北京禁飞禁售无人机,大疆在京门店今日将下架相关产品

界面新闻
2026-04-29 13:43:41
央视名嘴阿丘近况曝光:住老楼靠退休金度日、离婚后晚年凄凉

央视名嘴阿丘近况曝光:住老楼靠退休金度日、离婚后晚年凄凉

一盅情怀
2026-04-28 12:27:10
印度一男子为取姐姐留下的1400元,挖出姐姐尸骨背到银行取款,只因银行要求必须本人到场

印度一男子为取姐姐留下的1400元,挖出姐姐尸骨背到银行取款,只因银行要求必须本人到场

观威海
2026-04-29 10:32:12
网传Meta收购Manus交易已全部交割完成

网传Meta收购Manus交易已全部交割完成

小星球探索
2026-04-29 11:38:17
2026-04-29 16:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12889文章数 142640关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

孙杨方回应"孙杨妈妈要求删除马頔发言":毫无事实依据

头条要闻

孙杨方回应"孙杨妈妈要求删除马頔发言":毫无事实依据

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

曾经的新能源首富,希望又破了!

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

房产
数码
教育
公开课
军事航空

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

数码要闻

华为MateBook 14鸿蒙版电脑HarmonyOS 6.1版本发布

教育要闻

海淀标杆校“天花板”来了!这所学校再迎高光时刻

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版