网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

近年来, AIGC 领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用 Transformer 去生成离散的 token。受到这种差异的启发,越来越多的研究(以 VQGAN 作为典型代表)开始探索这种基于离散 token 的生成范式在视觉合成中的应用。与扩散模型不同,这些方法采用类似于语言模型的离散 token 作为生成的基本单元。

为什么要探索基于离散 token 的生成模型?我们认为主要有以下几点原因:

1) 由于与语言模型范式相同,它们可以直接利用语言模型中已经成熟的训练、推理技术

2) 有助于开发更先进的、具有共享 token 空间的、scalable 的多模态基础模型

3) 有助于建构统一视觉理解与生成能力的通用视觉基础模型

在基于离散 token 的生成里,近几年非自回归 Transformer (Non-autoregressive Transformer, NAT) 展现出了显著的计算效率与生成质量方面的潜力,不同于传统的自回归生成范式,NAT 能够在仅 4 到 8 步内生成质量不错的图像。它的生成过程如下图所示:

NAT 生成过程的示意图

简单来说,这类模型从一个完全 mask 的 token map 开始,每步并行解码多个 token,直到所有的 token 被解码,然后再通过一个预训练的解码器把 token 空间变换到图像空间,得到生成结果。

虽然 “并行解码” 的机制让模型生成过程更加地高效和灵活。但它也引入了许多复杂的设计挑战,例如每一步应该解码多少 token、应该选择哪些 token、以及采样时应该有多大的随机性等。

现有的工作通过构建一套包含多个人工设计的调度函数(统一记为)的生成策略来缓解这一问题。如下图所示:

NAT 的默认生成策略,其中 T 为总生成推理步数,t 为当前推理步,均为超参数。每一行策略的具体含义可以参见原文

然而,这种人为设计的方式不仅需要大量的专业知识和人力成本,最终得到的策略函数仍然可能并非最佳。与此同时,我们认为不同样本都有其独特的特性,一个应用于所有样本的、全局共享的生成策略可能难以灵活应对样本之间的差异性。

基于上述观察,我们提出 AdaNAT,核心思想是引入一个可学习的策略网络,自动根据每个样本自适应地配置生成策略:

现有工作与 AdaNAT 的对比,这里是当前生成样本在时刻时的 token map

  • 论文标题:AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
  • 论文地址:https://arxiv.org/abs/2409.00342
  • 代码与预训练模型已经开源:https://github.com/LeapLabTHU/AdaNAT

方法介绍

然而,训练一个自适应、自动配置生成策略的网络面临一个直接的挑战:基于离散 token 的生成过程是不可微的,因此我们无法直接采用标准的端到端优化技术如梯度下降的方法来优化这个网络。为应对这一挑战,我们将生成策略的优化问题形式化为马尔可夫决策过程(MDP),在此基础上,策略网络可以自然地被定义为一个「观察生成状态,自适应地配置策略以最大化生成质量」的 agent,也因此可以通过强化学习算法(如策略梯度)进行训练。

另一个值得注意的点是,在我们的问题中,设计合适的奖励函数对于有效训练策略网络至关重要。为了解决这一问题,我们首先考虑了两种现成的设计选择:

  • 标准评估指标如 Fréchet Inception Distance (FID)
  • 预训练的图像奖励模型,如 ImageReward 模型

然而,我们的实验结果表明,尽管这些设计能够有效地最大化奖励函数,但最终的生成模型往往无法生成足够高质量或足够多样化的图像,如下图所示:

以 FID 作为奖励函数的图像生成效果 (FID=2.56)

以预训练的奖励模型作为奖励函数的图像生成效果 (FID=33.1)

换句话说,策略网络倾向于 “过拟合” 这些预先设定的、静态的奖励函数。受到这一现象的启发,我们的核心思路是在策略网络学习的同时,动态更新奖励函数以防止策略网络过拟合,让二者 “相互对抗,共同进步”。这种思想自然地让我们联想到生成对抗网络 (GAN) 的想法,因此,我们提出了一个对抗奖励模型,该模型类似于 GAN 中的判别器,以生成样本为真实图片的概率作为奖励。当策略网络学习最大化奖励时,我们同时优化奖励模型,以更好地区分真实样本和生成样本。总结来看,AdaNAT 的方法示意图如下:

AdaNAT 示意图

实验结果

我们在多个基准数据集上验证了 AdaNAT 的有效性,包括 ImageNet 的 class-conditional 生成以及 MSCOCO 和 CC3M 数据集的文到图生成。

得益于 NAT 生成范式中并行解码的优势,AdaNAT 在 ImageNet-256 和 ImageNet-512 数据集上,相较于主流的扩散模型,在低开销场景下,推理开销至少减少了 2-3 倍,同时生成效果更佳:

ImageNet-256 class-conditional 生成结果

ImageNet-512 class-conditional 生成结果

此外,在文到图生成方面,AdaNAT 也有着不错的表现:

MSCOCO 文到图生成结果

CC3M 文到图生成结果

在模型的优化过程中,我们也能明显看到生成质量随着策略网络的学习而提升,同时 FID 指标也有相应的下降:

AdaNAT 的优化过程可视化

消融实验发现,引入可学习、自适应的策略都对提升 NAT 的生成质量有所帮助:

消融实验

最后,我们也可视化了 AdaNAT 模型生成的图片,总的来看,AdaNAT 的生成样本同时具有良好的生成质量与多样性:

AdaNAT 生成结果可视化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为何老人去世后,有2件遗物不能烧?留下就是福,有何道理

为何老人去世后,有2件遗物不能烧?留下就是福,有何道理

老范谈史
2026-04-28 15:17:53
吉利银河M7上市:全系纯电续航225公里,比预售价降3万

吉利银河M7上市:全系纯电续航225公里,比预售价降3万

电动汽车观察家
2026-04-29 12:41:36
美伊“你封我也封”重压下,俄富豪5亿美元超级游艇何以顺利通过霍尔木兹?

美伊“你封我也封”重压下,俄富豪5亿美元超级游艇何以顺利通过霍尔木兹?

红星新闻
2026-04-29 13:00:41
曝王思聪还有一私生子,人在英国已十几岁,孩子生母身份被扒!

曝王思聪还有一私生子,人在英国已十几岁,孩子生母身份被扒!

古希腊掌管松饼的神
2026-04-29 07:46:07
巴黎圣日耳曼5-4拜仁,赛后评分出炉:不是登贝莱第1,拜仁9号第1

巴黎圣日耳曼5-4拜仁,赛后评分出炉:不是登贝莱第1,拜仁9号第1

侧身凌空斩
2026-04-29 04:58:07
3.2亿退休人真相:能拿5500元退休金的,仅8%!别再被网络误导了

3.2亿退休人真相:能拿5500元退休金的,仅8%!别再被网络误导了

吃货的分享
2026-04-29 01:53:54
最火“五一假期”预订:多地中小学生喜提超长假,热门景区搜索热度数倍增长

最火“五一假期”预订:多地中小学生喜提超长假,热门景区搜索热度数倍增长

澎湃新闻
2026-04-29 07:40:26
闻华盛顿一声枪响,两老人握手较劲八秒!

闻华盛顿一声枪响,两老人握手较劲八秒!

新民周刊
2026-04-29 09:11:41
视频丨核心分歧未解 美以伊冲突60天陷“不战不谈”僵局

视频丨核心分歧未解 美以伊冲突60天陷“不战不谈”僵局

国际在线
2026-04-29 06:27:44
吴三桂的覆灭:拥有顶级谋士却主打一个不听劝,四次避开正确答案

吴三桂的覆灭:拥有顶级谋士却主打一个不听劝,四次避开正确答案

文史道
2026-04-12 14:36:13
媒体宠儿!科比和库里被媒体放在高居第三、第四的位置!

媒体宠儿!科比和库里被媒体放在高居第三、第四的位置!

历史第一人梅西
2026-04-29 11:02:05
上海一日间照护中心骗取300多万元医保基金,5人被抓

上海一日间照护中心骗取300多万元医保基金,5人被抓

上游新闻
2026-04-29 11:45:05
印度这次硬气了:拒开放源代码,430亿美元阵风交易就黄了

印度这次硬气了:拒开放源代码,430亿美元阵风交易就黄了

秘密即将揭晓
2026-04-28 22:34:57
库明加拉胯!老鹰97-126尼克斯,约翰逊18+10+6,丹尼尔斯17+2+5

库明加拉胯!老鹰97-126尼克斯,约翰逊18+10+6,丹尼尔斯17+2+5

小徐讲八卦
2026-04-29 11:27:17
太火爆!中超申花对蓉城球票售罄:观众有望突破6.6万人

太火爆!中超申花对蓉城球票售罄:观众有望突破6.6万人

邱泽云
2026-04-28 19:00:39
1981年,陈伯达被判刑18年,出狱后提出唯一要求,组织:尽管提

1981年,陈伯达被判刑18年,出狱后提出唯一要求,组织:尽管提

瑾瑜聊情感
2025-07-04 18:06:06
从 Manus 收购被否,看月之暗面迟迟未上市,律师分析原因

从 Manus 收购被否,看月之暗面迟迟未上市,律师分析原因

股权律师卢庆华
2026-04-28 21:26:38
全红婵不参赛有多致命?180元门票惨遭冷落

全红婵不参赛有多致命?180元门票惨遭冷落

TVB的四小花
2026-04-29 09:44:02
史上最讽刺的五副对联,骂人不带脏字,没文化还真看不懂

史上最讽刺的五副对联,骂人不带脏字,没文化还真看不懂

长风文史
2026-04-24 21:56:31
季后赛实力分档:争冠球队就剩三支了,格局已经很明显

季后赛实力分档:争冠球队就剩三支了,格局已经很明显

老郎体育汇
2026-04-29 12:10:57
2026-04-29 13:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12887文章数 142639关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

竞拍者叫价6003万抢高端别墅悔拍 758万保证金打水漂

头条要闻

竞拍者叫价6003万抢高端别墅悔拍 758万保证金打水漂

体育要闻

巴黎5-4拜仁夜:身价1.55亿的“足坛笑话”,成了最硬的底牌

娱乐要闻

单依纯演唱会再唱“区区三万天”宣战

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

房产
健康
艺术
手机
游戏

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

揭秘干细胞抗衰美容七大谣言

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

手机要闻

谷歌Pixel 11系列手机Tensor G6芯片爆料:7核CPU

索尼漫威强强联手!全新PS5主机独占大作新消息来了

无障碍浏览 进入关怀版