网易首页 > 网易号 > 正文 申请入驻

腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机

0
分享至

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:

  • 论文链接:https://arxiv.org/pdf/2507.22058
  • GitHub链接:https://github.com/X-Omni-Team/X-Omni
  • 项目主页:https://x-omni-team.github.io
  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

图 1 对比主流闭源和开源模型的文字渲染效果

强化学习大幅提升

图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。

图 2 经过 200 步强化学习,图像生成质量和指令跟随能力逐步提高

方法

整体架构

如图 3 所示,该框架是一个基于离散 token 的自回归模型,其中 tokenizer 采用 SigLIP2-VQ 方法构建,在离散 token 上运行一个扩散解码器生成最终的图像。这一设计使得图像理解和生成统一在离散自回归框架中,从而实现优雅的联合图像理解与生成。

图3 X-Omni 整体网络架构

GRPO 强化学习方法

进行联合图像理解和生成的预训练和监督微调后,本文继续采用强化学习方法来提升图像生成能力。强化学习过程的整体流程如图 2 (a) 所示,由于采用离散自回归的方法,可以应用语言模型中较为成熟的 GRPO 方法来进行强化学习:

奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。
  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。
  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。
  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

实验结果

文本渲染能力评估:

表 1 在 OneIG-Bench 和 LongText-Bench 上与现有模型的比较

指令跟随能力评估:

表2 在 DPG-Bench 上与现有模型的比较

表 3 在 GenEval 上与现有模型的比较

有意思的发现

不再需要分类器无关引导(CFG):传统 AR 图像模型严重依赖 CFG 来提升生成质量,这不仅增加了推理开销,也反映了模型自身生成分布的偏差。X-Omni 在推理时,其自回归部分无需 CFG 即可生成高质量图像,这力证了其视觉与语言生成机制的高度统一与内在一致性。

图 4 主流 AR 模型对 CFG 的依赖比较

RL 在图像生成中的独特优势:研究表明,在图像生成领域,强化学习的优化效果显著超越了监督微调(SFT)配合「N 选 1(Best-of-N)」的采样策略。这揭示了 RL 在处理高维、空间依赖复杂的图像数据时,能够提供更全面、更高效的优化信号。

更多例子

图 5 更多生成图像可视化举例

一个更统一、更强大、更优雅的全模态未来,正由离散自回归图像生成方法的复兴开启。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名品牌宣布关闭中国所有门店,深圳商圈已不见踪影

知名品牌宣布关闭中国所有门店,深圳商圈已不见踪影

读创
2026-03-05 11:33:10
美国打伊朗到底图什么?八成中国人以为是抢石油……

美国打伊朗到底图什么?八成中国人以为是抢石油……

基本常识
2026-03-02 23:53:16
2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

芊芊子吟
2026-02-27 07:35:05
刚下飞机行李就没了!杭州姑娘花10多万去南极旅游却崩溃:衣物全靠借

刚下飞机行李就没了!杭州姑娘花10多万去南极旅游却崩溃:衣物全靠借

环球网资讯
2026-03-03 08:53:57
人大代表建议:增加、延长中华传统节日假期

人大代表建议:增加、延长中华传统节日假期

看看新闻Knews
2026-03-05 17:18:31
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-03-05 17:11:25
迪拜首架回国航班落地广州,乘客:下飞机时,所有人都在欢呼

迪拜首架回国航班落地广州,乘客:下飞机时,所有人都在欢呼

封面新闻
2026-03-05 14:16:03
中纪委再敲警钟!干部的这些特定关系人,这些行为将被重点严查!

中纪委再敲警钟!干部的这些特定关系人,这些行为将被重点严查!

细说职场
2026-03-05 16:27:17
美军乌代德基地,被导弹击中!

美军乌代德基地,被导弹击中!

占豪
2026-03-05 00:44:20
乌克兰重创俄罗斯“北极梅塔加兹”号运输船!击沉黑海舰队导弹舰

乌克兰重创俄罗斯“北极梅塔加兹”号运输船!击沉黑海舰队导弹舰

项鹏飞
2026-03-04 20:45:07
伊朗飞行员驾机撞舰视频竟是游戏画面,网友评论:白哭一回

伊朗飞行员驾机撞舰视频竟是游戏画面,网友评论:白哭一回

历史总在押韵
2026-03-04 23:22:58
谢娜撕薛之谦,张杰前女友参战,一场瓜见三位选秀歌手的人生差距

谢娜撕薛之谦,张杰前女友参战,一场瓜见三位选秀歌手的人生差距

日不西沉
2026-03-05 07:43:56
中国终于成功了,17米钢管中国死磕了13年,终于打破国外垄断!

中国终于成功了,17米钢管中国死磕了13年,终于打破国外垄断!

南宗历史
2026-03-04 14:17:17
“桎梏”竟然不读zhì kù,正确读音是什么?你知道吗?

“桎梏”竟然不读zhì kù,正确读音是什么?你知道吗?

AI读书
2026-03-05 14:14:09
中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

有范又有料
2026-03-05 09:22:10
蛇鼠一窝!恒大二把手夏海钧的美国邻居,竟是另一个逃跑富豪

蛇鼠一窝!恒大二把手夏海钧的美国邻居,竟是另一个逃跑富豪

潇湘烟雨水
2026-03-05 15:47:07
涨幅远超黄金!铂金价格,大涨

涨幅远超黄金!铂金价格,大涨

环球网资讯
2026-03-05 16:18:09
一趟火车1500人,为何连几十份盒饭都卖不完?终于有人说实话了!

一趟火车1500人,为何连几十份盒饭都卖不完?终于有人说实话了!

猫叔东山再起
2026-03-04 11:55:09
世茂集团创始人许荣茂滞留香港

世茂集团创始人许荣茂滞留香港

地产微资讯
2026-03-05 09:12:56
吉林63岁失独妈妈剖腹产生下2.8公斤的健康女宝,“大夫夸我比年轻人身体都好,我能把这个宝宝养活大”

吉林63岁失独妈妈剖腹产生下2.8公斤的健康女宝,“大夫夸我比年轻人身体都好,我能把这个宝宝养活大”

极目新闻
2026-03-04 16:46:01
2026-03-05 19:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12418文章数 142578关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

伊朗外长:记住我的话 美国将为开创先例"后悔"

头条要闻

伊朗外长:记住我的话 美国将为开创先例"后悔"

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

家居
教育
房产
公开课
军事航空

家居要闻

奶白柔境 闲卧享时光

教育要闻

春招生源战:抢到先机的人,赢在系统能力

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版