网易首页 > 网易号 > 正文 申请入驻

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。

自回归模型的新突破:首次生成2048×2048分辨率图像!

来自Meta、西北大学、新加坡国立大学等机构的研究人员,提出了TokenShuffle,为多模态大语言模型(MLLMs)设计的即插即用操作,显著减少了计算中的视觉token数量,提高效率并促进高分辨率图像合成。

图1:采用新技术的27亿参数自回归模型生成的高分辨率图像

除了实现超高分辨率图像生成外,生成质量也非常出色。

基于27亿参数的Llama模型,新方法显著超越同类自回归模型,甚至优于强扩散模型:

在GenEval基准测试中,获得0.62的综合得分,

在GenAI-Bench上,取得0.77的VQAScore,创造了新的技术标杆。

此外,大规模人类评估,也验证了该方法的有效性。

链接:https://arxiv.org/abs/2504.17789

与传统方法逐个学习和生成每个视觉token不同,新方法在局部窗口内按顺序处理和生成一组token,如图2所示。

图2:Token-Shuffle流程

Token-Shuffle包括:

token-shuffle操作,用于在Transformer输入阶段合并局部空间内的视觉token,

以及token-unshuffle操作,用于在推理阶段还原视觉token。

该方法显著减少了计算中所需的视觉token数量,同时保持了高质量的生成效果。

而且,Token-Shuffle展现的效能与效率,揭示了其在赋能多模态大语言模型(MLLMs)实现高分辨率、高保真图像生成方面的巨大潜力,为超越基于扩散的方法开辟了新路径。

GPT-4o没说的秘密:自回归图像生成

在语言生成领域,自回归(Autoregression)模型称霸多日。

在图像合成,自回归的应用虽日益增多,但普遍被认为逊色于扩散模型。

这一局限主要源于AR模型需要处理大量图像token,严重制约了训练/推理效率以及图像分辨率。

比如,,让OpenAI的GPU都「融化」了。

但遗憾的是,OpenAI并没有公开背后的技术原理。

GPT-4o生成的第一视角机器人打字图

这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。

研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。

他们设计了两项关键操作:

  1. token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数;

  2. token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。

在输入准备阶段,通过一个MLP模块将空间上相邻的token进行融合,形成一个压缩后的token,同时保留局部的关键信息。

对于打乱窗口大小为s的情况,token数量会按s的平方减少,从而大幅降低Transformer的运算量。

图3:视觉词汇维度冗余的示意图。左侧:通过两个MLP操作将视觉token的秩降低r倍。右侧:不同r值下的预训练损失(对数刻度困惑度)

在经过Transformer层处理后,token-unshuffle操作重新还原出原本的空间排列过程。这一阶段同样借助了轻量级的MLP模块。

本质上,新方法在训练和推理过程中并未真正减少序列长度,而是在Transformer计算过程中,有效减少了token数量,从而加速计算

图4直观地展示了新方法在效率上的提升。

图4:Token-Shuffle能够实现计算效率的二次提升

通过在Transformer计算期间压缩token序列,Token-Shuffle实现了高效的高分辨率图像生成,包括支持2048×2048分辨率的图像。

重要的是,这种方法无需对Transformer架构本身进行修改,也不引入辅助损失函数或需要额外预训练的编码器。

此外,该方法还集成了一个针对自回归生成专门调整的无分类器引导(Classifier-Free Guidance,CFG)调度器。

不同于传统的固定引导强度,新的CFG调度器在推理过程中逐步调整引导力度,减少早期token生成的伪影问题,并进一步提升文本与图像的对齐效果。

研究者探索了几种CFG调度策略,相关结果展示在图5中。

根据视觉质量和人类评估的反馈,默认采用「半线性」(half-linear)调度器,以获得更好的生成效果。

图5:不同CFG调度器的比较,CFG尺度从1单调增加到7.5

右侧结果显示,相较于在所有视觉token上使用固定7.5的CFG值,采用CFG调度器能够同时提升图像的美学质量和文本对齐效果。

不同无分类器引导(CFG)尺度下的生成图像示例

自回归的历史性突破

该方法通过与文本提示联合训练,无需额外预训练文本编码器,就能让MLLMs在下一个token预测框架下,支持超高分辨率图像合成,同时保持高效训练推理。

这是自回归模型首次实现2048×2048分辨率的文生图

在GenAI基准测试中,27亿参数Llama模型在困难提示下取得0.77综合得分,较AR模型LlamaGen提升0.18,超越扩散模型LDM达0.15。

大规模人工评估也证实新方法在文本对齐度、视觉缺陷率和美学质量上的全面优势。

在MLLMs高效生成高分辨率图像领域,Token-Shuffle有望成为基准设计方案。

消融实验等更多内容和细节,参阅原论文。

模型训练:3步曲

实验使用2.7B Llama模型,维度为3072,由20个自回归Transformer模块组成。

模型的预训练被分为3个阶段,从低分辨率到高分辨率图像生成。

首先,研究者使用512×512分辨率的图像进行训练,在此阶段不使用Token-Shuffle操作,因为此时视觉token的数量并不大。在这一阶段,他们训练了约50亿个token,使用4K的序列长度、512的全局批量大小和总共211K步。

接下来,研究者将图像分辨率提升到1024×1024,并引入Token-Shuffle操作,减少视觉token数量,提高计算效率。在这一阶段,他们将训练token数量扩展到2TB

最后,研究者使用之前训练的checkpoint,将分辨率进一步提升至2048×2048,训练约300亿个token,初始学习率设为4e−5。

他们引入了z-loss,用于稳定高分辨率图像生成的训练。

原文图11:在2048×2048分辨率下训练时的平均损失(左)和梯度范数(右)。在大约20K次迭代后出现训练不稳定现象

在不同阶段,研究者对所有模型进行了微调,学习率为4e−6,使用1500张精选的高美学质量图像进行展示。

默认情况下,除非另有说明,可视化和评估是基于1024×1024分辨率和2大小的token-shuffle窗口的微调结果。

量化评估:又快又好

表1中的结果突显了Token-Shuffle的强大性能。

与其他自回归模型相比,新方法在「基本」(basic)提示上整体得分超越LlamaGen 0.14分,在「高难度」(hard)提示上超越0.18分。

与扩散基准相比,新方法在「高难度」提示上超越DALL-E 3 0.7分。

表1:在GenAI-Bench上的图像生成VQAScore评估。「†」表示图像是通过Llama3重写提示生成的,保证训练与推理的一致性

除了表1中报告的VQAScore结果外,研究者还进行了额外的自动评估GenEval,并在表2中报告了详细的评估结果。

实验结果表明,除了高分辨率外,Token-Shuffle作为一个纯自回归模型,能够呈现出令人满意的生成质量。

表2:在GenEval基准测试上的评估。

人类评估

尽管自动化评估指标提供了无偏的评估,但最近的研究所指出它们可能并不能完全捕捉到人类偏好。

为此,研究者还在GenAI-Bench提示集上进行了大规模的人类评估,将新模型Token-Shuffle与LlamaGen、LuminamGPT和LDM进行了比较,分别代表了自回归模型、MLLM和扩散模型

在人类评估中,重点关注三个关键指标:

  1. 文本对齐,评估图像与文本提示的匹配准确度;

  2. 视觉缺陷,检查逻辑一致性,避免出现不完整的身体或多余的肢体等问题;

  3. 视觉外观,评估图像的美学质量。

存在视觉缺陷与结构错误的生成图像示例(红色圆圈标记处)

图6展示了结果,新模型在所有评估方面始终优于基于自回归的模型LlamaGen和LuminamGPT。

这表明,即使在大幅减少token数量以提高效率的情况下,Token-Shuffle也能有效地保留美学细节,并且能够紧密遵循文本引导,前提是进行了充分的训练。

在生成结果(无论是视觉外观还是文本对齐)上,研究者展示了基于自回归的多模态大语言模型(AR-based MLLMs)能够与扩散模型相媲美或更胜一筹

然而,研究者观察到,Token-Shuffle在视觉缺陷方面略逊于LDM。

图6:人类评估结果|在文本对齐、视觉缺陷和视觉外观方面等方面,比较了Token-Shuffle与无文本的自回归模型LlamaGen、带文本的自回归模型Lumina-mGPT以及基于扩散的模型LDM的表现

可视化示例

研究者将Token-Shuffle与其他模型进行了视觉效果对比,包括两种基于扩散的模型LDM和Pixart-LCM,以及一种自回归模型LlamaGen。

图7展示了可视化例子。

虽然所有模型的生成效果都不错,但Token-Shuffle在文本对齐方面表现得更加出色。

与自回归模型LlamaGen相比,Token-Shuffle在相同推理开销下实现了更高的分辨率,带来了更好的视觉质量和文本对齐效果。

与扩散模型相比,自回归模型Token-Shuffle在生成性能上表现出竞争力,同时还能支持高分辨率输出。

图7:与其他开源的基于扩散模型和基于自回归模型的视觉效果对比

一作简介

马旭(Xu Ma)

他是美国东北大学工程学院的博士研究生。

在此之前,他在美国德克萨斯大学北部分校计算机科学与工程系工作了两年。

在南京林业大学信息科学与技术学院, 他获得了学士和硕士学位。

他的研究兴趣包括:模型效率、多模态大语言模型(LLM)、生成式人工智能(Generative AI)。

在博士学习期间,他获得了一些奖项,包括ICME'20最佳学生论文奖、SEC'19最佳论文奖、NeurIPS'22杰出审稿人奖和CVPR'23杰出审稿人奖。

参考资料:

https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/

https://arxiv.org/abs/2504.17789

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

解读热点事件
2025-12-21 00:05:08
中国公民东京街头约4.2亿日元现金遭劫 我使馆再次提醒近期避免前往日本

中国公民东京街头约4.2亿日元现金遭劫 我使馆再次提醒近期避免前往日本

上游新闻
2026-01-30 13:03:03
中国车企和特斯拉的下一战,战场已定

中国车企和特斯拉的下一战,战场已定

虎嗅APP
2026-01-31 06:23:07
你敢信?统一台湾的关键人物,可能已经出现了!

你敢信?统一台湾的关键人物,可能已经出现了!

鹤羽说个事
2026-01-15 14:55:30
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
当“和平”被另起炉灶:新西兰的拒绝与世界的警惕

当“和平”被另起炉灶:新西兰的拒绝与世界的警惕

刘澜昌
2026-01-31 08:23:07
好落魄!49岁赵薇广东吃饭,被扒住潮州老旧小区,人生再无回头路

好落魄!49岁赵薇广东吃饭,被扒住潮州老旧小区,人生再无回头路

呆冰和章鱼
2025-12-12 15:13:02
蒋介石枪毙韩复榘前,问冯玉祥意见,冯玉祥:我早就想枪毙他了!

蒋介石枪毙韩复榘前,问冯玉祥意见,冯玉祥:我早就想枪毙他了!

千秋文化
2026-01-16 19:27:45
勇士4首轮太寒碜!拿11个首轮换字母哥?时隔3年,再组超级豪阵?

勇士4首轮太寒碜!拿11个首轮换字母哥?时隔3年,再组超级豪阵?

你的篮球频道
2026-01-31 08:19:49
1米86小伙被妈妈“抓来”当中老年装模特,因“太帅”走红,带火21年老店;妈妈发声:自家卖男装,来的多是女客户,儿子暂无女朋友

1米86小伙被妈妈“抓来”当中老年装模特,因“太帅”走红,带火21年老店;妈妈发声:自家卖男装,来的多是女客户,儿子暂无女朋友

扬子晚报
2026-01-31 07:58:30
中国帮沙特建高铁,干了九年赔了41亿,为何说如今却赚翻了?

中国帮沙特建高铁,干了九年赔了41亿,为何说如今却赚翻了?

原广工业
2026-01-30 16:28:51
得到两大盟友力挺,伊朗威胁炸沉林肯号,特朗普:不一定要动武

得到两大盟友力挺,伊朗威胁炸沉林肯号,特朗普:不一定要动武

大光观察
2026-01-31 09:00:07
这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

百态人间
2026-01-29 16:04:26
奥尼尔:我不想詹姆斯打全明星替补,应为“国王”留一份体面

奥尼尔:我不想詹姆斯打全明星替补,应为“国王”留一份体面

懂球帝
2026-01-30 17:36:06
北京SKP老铺黄金现抢购热潮,有人凌晨到商场排队,还有顾客排7小时没买到“心仪款”,店员:部分畅销款已断货

北京SKP老铺黄金现抢购热潮,有人凌晨到商场排队,还有顾客排7小时没买到“心仪款”,店员:部分畅销款已断货

极目新闻
2026-01-30 12:45:15
心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

袁医生课堂
2026-01-24 17:33:06
移英港男花完20万回流香港称教训还不算昂贵,决定成立“回流组”当群主竭尽所能协助移英港人重回香港!

移英港男花完20万回流香港称教训还不算昂贵,决定成立“回流组”当群主竭尽所能协助移英港人重回香港!

澳门月刊
2026-01-28 15:10:22
特朗普威胁对加拿大飞机加征50%关税

特朗普威胁对加拿大飞机加征50%关税

新京报
2026-01-30 08:04:04
李亚鹏直播间封神!茶厂老板全程木讷成笑点,这份实在太戳人

李亚鹏直播间封神!茶厂老板全程木讷成笑点,这份实在太戳人

李覴在北漂
2026-01-29 22:52:37
广州海珠湾隧道收费方案公布

广州海珠湾隧道收费方案公布

新快报新闻
2026-01-30 14:11:04
2026-01-31 09:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14446文章数 66549关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

旅游
健康
艺术
房产
军事航空

旅游要闻

黄河壶口瀑布旅游区(山西•吉县)临时闭园公告

耳石症分类型,症状大不同

艺术要闻

仅3秒认全14字草书,赵孟頫书法为何备受争议?

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版