网易首页 > 网易号 > 正文 申请入驻

高效又高质量!Token-Shuffle 革新图像生成方式

0
分享至

IT之家 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称 Meta AI 创新推出 Token-Shuffle,目标解决自回归(Autoregressive,AR)模型在生成高分辨率图像方面的扩展难题。

IT之家注:自回归模型是一种用于时间序列分析的统计方法,主要用于预测数据序列中的未来值。该模型的核心思想是当前的值与过去的值之间存在线性关系,因此可以用变量自身的历史数据来预测当前或未来的值。

在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率图像时,AR 模型遭遇瓶颈。

不同于文本生成仅需少量 token,图像合成中高分辨率图片往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细图像生成中的应用。

尽管扩散模型(Diffusion Models)在高分辨率上表现强劲,但其复杂的采样过程和较慢的推理速度也存在局限。

Token-Shuffle 的核心机制与优势

Meta AI 推出的 Token-Shuffle 方法直击 token 效率问题。它通过识别多模态大语言模型(MLLMs)中视觉词汇的维度冗余,提出了一种创新策略:在 Transformer 处理前,将空间上相邻的视觉 token 沿通道维度合并,推理后再恢复原始空间结构。

这种 token 融合机制大幅降低了计算成本,在保持视觉质量的同时,让自回归模型能够高效处理最高 2048×2048 分辨率的图像。Token-Shuffle 无需改动 Transformer 架构,也无需额外预训练编码器,操作简单且兼容性强。

具体而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 两个步骤。输入准备阶段,空间相邻 token 通过 MLP(多层感知机)压缩为单个 token,减少 token 数量。

以窗口大小 s 为例,token 数量可减少 s² 分之一,显著降低 Transformer 的计算量(FLOPs)。此外,该方法还引入了针对自回归生成的 classifier-free guidance(CFG)调度器,动态调整引导强度,优化文本-图像对齐效果。

实验成果与未来潜力

Token-Shuffle 在 GenAI-Bench 和 GenEval 两大基准测试中展现了强大实力。在 GenAI-Bench 上,基于 2.7B 参数的 LLaMA 模型,Token-Shuffle 在“困难”提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen(+0.18)和扩散模型 LDM(+0.15)。

在 GenEval 中,其综合得分为 0.62,为 AR 模型树立了新标杆。用户评估也显示,尽管在逻辑一致性上略逊于扩散模型,但 Token-Shuffle 在文本对齐、图像质量上优于 LlamaGen 和 Lumina-mGPT。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
叶珂生女后不再隐忍!挑明与黄晓明分手真相,原来baby才是天花板

叶珂生女后不再隐忍!挑明与黄晓明分手真相,原来baby才是天花板

橙星文娱
2026-05-14 10:26:46
央视把世界杯版权玩成印钞机:4亿成本,12天回本,净赚28亿

央视把世界杯版权玩成印钞机:4亿成本,12天回本,净赚28亿

体坛狗哥
2026-05-29 10:08:28
凌晨4点排队抢中职名额:非京籍孩子的出路,家长最后的倔强

凌晨4点排队抢中职名额:非京籍孩子的出路,家长最后的倔强

右右细毛和爸妈
2026-05-29 13:23:12
辽宁铁人连胜!会做人:徐正源挨个安抚对手,对海港主帅躬身帖耳

辽宁铁人连胜!会做人:徐正源挨个安抚对手,对海港主帅躬身帖耳

足球大腕
2026-05-29 23:07:35
美国人发现,美国近三十年来最大外交失误,可能就是阻止中国统一

美国人发现,美国近三十年来最大外交失误,可能就是阻止中国统一

呼呼历史论
2026-05-30 01:49:40
72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

树娃
2026-05-28 13:20:21
如果雷霆这次无法跨过马刺,亚历山大可能这辈子都别想拿MVP了?

如果雷霆这次无法跨过马刺,亚历山大可能这辈子都别想拿MVP了?

稻谷与小麦
2026-05-29 22:12:37
江姐临刑遭特务刁难,被逼脱去衣履,背后缘由格外残酷

江姐临刑遭特务刁难,被逼脱去衣履,背后缘由格外残酷

唠叨说历史
2026-05-27 14:45:34
我刚进省政府办,主任就把32岁女厅长介绍给我,我连忙说不敢高攀,她往椅背一靠:我让你点头你就点头

我刚进省政府办,主任就把32岁女厅长介绍给我,我连忙说不敢高攀,她往椅背一靠:我让你点头你就点头

麦子情感故事
2026-05-29 19:18:15
皇马与穆帅、本菲卡保持现状;皇马有意的利物浦中卫今夏成自由身

皇马与穆帅、本菲卡保持现状;皇马有意的利物浦中卫今夏成自由身

福酱的小时光
2026-05-30 06:38:42
连休3天!上海多校通知:下周一放假1天!期末考时间最早6.16开考

连休3天!上海多校通知:下周一放假1天!期末考时间最早6.16开考

金哥说新能源车
2026-05-29 18:31:50
亨利:瓜帅让我重新认识足球;作为枪迷解说欧冠决赛会很痛苦

亨利:瓜帅让我重新认识足球;作为枪迷解说欧冠决赛会很痛苦

懂球帝
2026-05-30 06:38:03
多人跟投大V私募几乎亏光,有人140万只赎回2732元,“不闹赔三成、闹赔四五成 威胁赔七成”

多人跟投大V私募几乎亏光,有人140万只赎回2732元,“不闹赔三成、闹赔四五成 威胁赔七成”

每日经济新闻
2026-05-30 00:29:58
人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

空谷幽幽蓝
2026-05-28 20:33:01
为28元外卖恶意投诉骑手!985女白领遭全网社死,已被公司开除

为28元外卖恶意投诉骑手!985女白领遭全网社死,已被公司开除

网络易不易
2026-05-30 06:00:32
辽宁队战胜海港,徐正源指导鼓舞士气

辽宁队战胜海港,徐正源指导鼓舞士气

十三哥侃大山
2026-05-30 05:51:13
可爱可甜可乐的俏皮女孩

可爱可甜可乐的俏皮女孩

疾跑的小蜗牛
2026-05-29 19:49:57
尿检清白、裁判换人、特训变度假:CBA一夜之间,三个反转

尿检清白、裁判换人、特训变度假:CBA一夜之间,三个反转

酷侃体坛
2026-05-29 10:02:14
竟然全胜,国羽6席闯入新加坡公开赛4强,大概能拿1冠

竟然全胜,国羽6席闯入新加坡公开赛4强,大概能拿1冠

真理是我亲戚
2026-05-29 22:50:35
老人最适合吃的高蛋白,虾肉只排第四,第一名很多人都不知道!

老人最适合吃的高蛋白,虾肉只排第四,第一名很多人都不知道!

健康科普365
2026-05-28 19:04:58
2026-05-30 07:00:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346951文章数 607249关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

健康
时尚
房产
艺术
军事航空

尝试干细胞疗法如何避免踩坑?

推广中奖名单-更新至2026年4月28日推广

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

艺术要闻

粉墙黛瓦别样美

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版