网易首页 > 网易号 > 正文 申请入驻

腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机

0
分享至



本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:



  • 论文链接:https://arxiv.org/pdf/2507.22058
  • GitHub链接:https://github.com/X-Omni-Team/X-Omni
  • 项目主页:https://x-omni-team.github.io
  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7



图 1 对比主流闭源和开源模型的文字渲染效果

强化学习大幅提升

图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。



图 2 经过 200 步强化学习,图像生成质量和指令跟随能力逐步提高

方法

整体架构

如图 3 所示,该框架是一个基于离散 token 的自回归模型,其中 tokenizer 采用 SigLIP2-VQ 方法构建,在离散 token 上运行一个扩散解码器生成最终的图像。这一设计使得图像理解和生成统一在离散自回归框架中,从而实现优雅的联合图像理解与生成。



图3 X-Omni 整体网络架构

GRPO 强化学习方法

进行联合图像理解和生成的预训练和监督微调后,本文继续采用强化学习方法来提升图像生成能力。强化学习过程的整体流程如图 2 (a) 所示,由于采用离散自回归的方法,可以应用语言模型中较为成熟的 GRPO 方法来进行强化学习:



奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。
  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。
  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。
  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

实验结果

文本渲染能力评估:



表 1 在 OneIG-Bench 和 LongText-Bench 上与现有模型的比较

指令跟随能力评估:



表2 在 DPG-Bench 上与现有模型的比较



表 3 在 GenEval 上与现有模型的比较

有意思的发现

不再需要分类器无关引导(CFG):传统 AR 图像模型严重依赖 CFG 来提升生成质量,这不仅增加了推理开销,也反映了模型自身生成分布的偏差。X-Omni 在推理时,其自回归部分无需 CFG 即可生成高质量图像,这力证了其视觉与语言生成机制的高度统一与内在一致性。



图 4 主流 AR 模型对 CFG 的依赖比较

RL 在图像生成中的独特优势:研究表明,在图像生成领域,强化学习的优化效果显著超越了监督微调(SFT)配合「N 选 1(Best-of-N)」的采样策略。这揭示了 RL 在处理高维、空间依赖复杂的图像数据时,能够提供更全面、更高效的优化信号。

更多例子





图 5 更多生成图像可视化举例

一个更统一、更强大、更优雅的全模态未来,正由离散自回归图像生成方法的复兴开启。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江一代驾将客人送到目的地后,却被告知开错车了!代驾小哥:当时客人就在车旁边且车门也能打开

浙江一代驾将客人送到目的地后,却被告知开错车了!代驾小哥:当时客人就在车旁边且车门也能打开

台州交通广播
2026-01-17 12:40:19
3-2绝杀日本冠军!黄友政惊天逆转!薛飞再战张本!国乒男单5人出局!

3-2绝杀日本冠军!黄友政惊天逆转!薛飞再战张本!国乒男单5人出局!

好乒乓
2026-01-17 12:57:47
台岛提和统2大条件,缺一不可?大陆已满足一条,马英九做出预测

台岛提和统2大条件,缺一不可?大陆已满足一条,马英九做出预测

标体
2026-01-17 14:28:00
A股:一个重要消息来临,下周一,股市或要这样走了!

A股:一个重要消息来临,下周一,股市或要这样走了!

明心
2026-01-17 11:54:26
薛飞险胜张本智和,朱雨玲和陈熠打进八强,国乒选手5人晋级

薛飞险胜张本智和,朱雨玲和陈熠打进八强,国乒选手5人晋级

子水体娱
2026-01-17 19:02:38
刚刚!西芒杜首船铁矿,抵达中国港口!

刚刚!西芒杜首船铁矿,抵达中国港口!

信德海事
2026-01-17 18:20:42
郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

君笙的拂兮
2026-01-11 23:46:50
WTT球星赛:陈熠首局连得7分!兑现第2个局点,11-4大获全胜!

WTT球星赛:陈熠首局连得7分!兑现第2个局点,11-4大获全胜!

刘姚尧的文字城堡
2026-01-17 17:37:03
牛鬼神蛇露真相!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇露真相!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

科学发掘
2026-01-17 11:46:38
上海一市民花15800元送狗“上学”,归来却恶习依旧……法院判决!

上海一市民花15800元送狗“上学”,归来却恶习依旧……法院判决!

上观新闻
2026-01-16 14:03:07
100%关税!美国,突发威胁!事关芯片,韩国紧急回应!

100%关税!美国,突发威胁!事关芯片,韩国紧急回应!

数据宝
2026-01-17 17:49:57
玄学:无名指比食指长的人,这三样东西需要远离,否则命格会有损

玄学:无名指比食指长的人,这三样东西需要远离,否则命格会有损

一根香烟的少妇
2026-01-17 17:28:15
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

胡一舸南游y
2026-01-17 13:40:05
突然公告!000821,下周一停牌,1月20日起被ST!

突然公告!000821,下周一停牌,1月20日起被ST!

数据宝
2026-01-17 11:47:11
村书记135万接盘集体厂,儿子资本运作套现13亿,全家狂捞17亿

村书记135万接盘集体厂,儿子资本运作套现13亿,全家狂捞17亿

复转这些年
2026-01-14 22:37:51
农村养老现状:七旬夫妻5个子女,老了却活得比“五保户”还悲催

农村养老现状:七旬夫妻5个子女,老了却活得比“五保户”还悲催

人间百态大全
2026-01-17 06:50:03
“吃饭八分饱”被推翻了?医生:过了62岁,吃饭尽量要做到这4点

“吃饭八分饱”被推翻了?医生:过了62岁,吃饭尽量要做到这4点

蜉蝣说
2025-12-19 21:58:22
哈佛大学研究发现:长期太累或太穷,人会变傻

哈佛大学研究发现:长期太累或太穷,人会变傻

深度报
2025-12-20 20:58:49
又一盟友倒戈,加拿大总理访华前,公开警告特朗普:不准武力夺岛

又一盟友倒戈,加拿大总理访华前,公开警告特朗普:不准武力夺岛

兵说
2026-01-16 19:04:55
2026-01-17 19:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

亲子
教育
旅游
时尚
公开课

亲子要闻

2026宝宝奶粉解析:皇家美素佳儿好不好

教育要闻

听说很多人被这道小学题难倒了?

旅游要闻

湖南益阳:梅花飘香激发暖冬经济新活力

岁月不败美人,50岁她们比20岁更好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版