网易首页 > 网易号 > 正文 申请入驻

腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机

0
分享至

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:

  • 论文链接:https://arxiv.org/pdf/2507.22058
  • GitHub链接:https://github.com/X-Omni-Team/X-Omni
  • 项目主页:https://x-omni-team.github.io
  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

图 1 对比主流闭源和开源模型的文字渲染效果

强化学习大幅提升

图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。

图 2 经过 200 步强化学习,图像生成质量和指令跟随能力逐步提高

方法

整体架构

如图 3 所示,该框架是一个基于离散 token 的自回归模型,其中 tokenizer 采用 SigLIP2-VQ 方法构建,在离散 token 上运行一个扩散解码器生成最终的图像。这一设计使得图像理解和生成统一在离散自回归框架中,从而实现优雅的联合图像理解与生成。

图3 X-Omni 整体网络架构

GRPO 强化学习方法

进行联合图像理解和生成的预训练和监督微调后,本文继续采用强化学习方法来提升图像生成能力。强化学习过程的整体流程如图 2 (a) 所示,由于采用离散自回归的方法,可以应用语言模型中较为成熟的 GRPO 方法来进行强化学习:

奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。
  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。
  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。
  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

实验结果

文本渲染能力评估:

表 1 在 OneIG-Bench 和 LongText-Bench 上与现有模型的比较

指令跟随能力评估:

表2 在 DPG-Bench 上与现有模型的比较

表 3 在 GenEval 上与现有模型的比较

有意思的发现

不再需要分类器无关引导(CFG):传统 AR 图像模型严重依赖 CFG 来提升生成质量,这不仅增加了推理开销,也反映了模型自身生成分布的偏差。X-Omni 在推理时,其自回归部分无需 CFG 即可生成高质量图像,这力证了其视觉与语言生成机制的高度统一与内在一致性。

图 4 主流 AR 模型对 CFG 的依赖比较

RL 在图像生成中的独特优势:研究表明,在图像生成领域,强化学习的优化效果显著超越了监督微调(SFT)配合「N 选 1(Best-of-N)」的采样策略。这揭示了 RL 在处理高维、空间依赖复杂的图像数据时,能够提供更全面、更高效的优化信号。

更多例子

图 5 更多生成图像可视化举例

一个更统一、更强大、更优雅的全模态未来,正由离散自回归图像生成方法的复兴开启。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳大利亚一家7口在悬崖底部散步遇巨浪被困:爬陡壁挤在缝隙中,海浪就在脚下

澳大利亚一家7口在悬崖底部散步遇巨浪被困:爬陡壁挤在缝隙中,海浪就在脚下

新京报
2026-04-21 21:21:40
不尊重中国领土完整!巴萨遭批:中国特供不发外网 甩锅临时工

不尊重中国领土完整!巴萨遭批:中国特供不发外网 甩锅临时工

念洲
2026-04-22 10:43:07
新款本田思域上市 现时售9.79万元起

新款本田思域上市 现时售9.79万元起

太平洋汽车
2026-04-22 17:44:34
"下单时2200,现在涨到3700",在淘宝买15张显卡,5店铺均拒发货;淘宝:无法强制,望买家理解

"下单时2200,现在涨到3700",在淘宝买15张显卡,5店铺均拒发货;淘宝:无法强制,望买家理解

大风新闻
2026-04-22 15:44:05
阿联酋动作真快!刚结束访华就高调宣布:上万亿美元重仓押注中国

阿联酋动作真快!刚结束访华就高调宣布:上万亿美元重仓押注中国

大鱼简科
2026-04-22 17:09:16
外交部发言人就台湾当局宣称赖清德 “暂缓”窜访斯威士兰答记者问

外交部发言人就台湾当局宣称赖清德 “暂缓”窜访斯威士兰答记者问

新京报
2026-04-22 10:58:07
伊朗用“不怕死”三个字,劝退特朗普

伊朗用“不怕死”三个字,劝退特朗普

国是直通车
2026-04-22 20:00:08
全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

远方风林
2026-04-22 11:56:20
中央定调!4月起公务员退休彻底取消弹性延迟,体制内真绷不住了

中央定调!4月起公务员退休彻底取消弹性延迟,体制内真绷不住了

爱下厨的阿椅
2026-04-22 17:30:09
沉默3天,日本向中国抗议,不许在东海建新设施…

沉默3天,日本向中国抗议,不许在东海建新设施…

福建睿平
2026-04-22 11:18:49
中国驻美大使谢锋:中国大蒜做梦也没想到,有朝一日会被列为“国家安全威胁”

中国驻美大使谢锋:中国大蒜做梦也没想到,有朝一日会被列为“国家安全威胁”

每日经济新闻
2026-04-22 11:09:45
2-0!申花轻取海牛,球场发生搞笑一幕,特谢拉裤子差点被扯下

2-0!申花轻取海牛,球场发生搞笑一幕,特谢拉裤子差点被扯下

汪星人哟
2026-04-22 22:00:34
伊朗处决米尔贾法里

伊朗处决米尔贾法里

新京报政事儿
2026-04-22 08:20:10
回到魏、蜀、吴三分之地,你最想去哪国?

回到魏、蜀、吴三分之地,你最想去哪国?

舆图司马
2026-04-21 21:00:03
老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

离离言几许
2026-04-21 21:41:39
英雄航天员陈冬肩章已更为少将军衔 系我国第二批航天员,在轨时长超400天

英雄航天员陈冬肩章已更为少将军衔 系我国第二批航天员,在轨时长超400天

红星新闻
2026-04-22 16:31:28
长沙拄拐老兵借个厕所被保安刁难,不服从领导安排,官方回应来了

长沙拄拐老兵借个厕所被保安刁难,不服从领导安排,官方回应来了

奇思妙想草叶君
2026-04-21 16:13:05
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
演员王大陆一审被判刑

演员王大陆一审被判刑

极目新闻
2026-04-22 12:35:08
斯坦丘世界波绝杀!大连英博1-0赢下辽宁德比,5连胜稳居第3

斯坦丘世界波绝杀!大连英博1-0赢下辽宁德比,5连胜稳居第3

中超伪球迷
2026-04-22 21:31:23
2026-04-22 22:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12831文章数 142633关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

女生3万5买的比熊犬俩月后瘫痪 给犬做治疗花了20多万

头条要闻

女生3万5买的比熊犬俩月后瘫痪 给犬做治疗花了20多万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

健康
房产
游戏
旅游
数码

干细胞抗衰4大误区,90%的人都中招

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

曝蒂法将加入《街霸6》!《铁拳》粉丝爆哭

旅游要闻

春来普陀,赴一场绣球花的河畔之约

数码要闻

Beats发布3米USB-C数据线:售229元 最高240W快充

无障碍浏览 进入关怀版