网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

近年来, AIGC 领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用 Transformer 去生成离散的 token。受到这种差异的启发,越来越多的研究(以 VQGAN 作为典型代表)开始探索这种基于离散 token 的生成范式在视觉合成中的应用。与扩散模型不同,这些方法采用类似于语言模型的离散 token 作为生成的基本单元。

为什么要探索基于离散 token 的生成模型?我们认为主要有以下几点原因:

1) 由于与语言模型范式相同,它们可以直接利用语言模型中已经成熟的训练、推理技术

2) 有助于开发更先进的、具有共享 token 空间的、scalable 的多模态基础模型

3) 有助于建构统一视觉理解与生成能力的通用视觉基础模型

在基于离散 token 的生成里,近几年非自回归 Transformer (Non-autoregressive Transformer, NAT) 展现出了显著的计算效率与生成质量方面的潜力,不同于传统的自回归生成范式,NAT 能够在仅 4 到 8 步内生成质量不错的图像。它的生成过程如下图所示:

NAT 生成过程的示意图

简单来说,这类模型从一个完全 mask 的 token map 开始,每步并行解码多个 token,直到所有的 token 被解码,然后再通过一个预训练的解码器把 token 空间变换到图像空间,得到生成结果。

虽然 “并行解码” 的机制让模型生成过程更加地高效和灵活。但它也引入了许多复杂的设计挑战,例如每一步应该解码多少 token、应该选择哪些 token、以及采样时应该有多大的随机性等。

现有的工作通过构建一套包含多个人工设计的调度函数(统一记为)的生成策略来缓解这一问题。如下图所示:

NAT 的默认生成策略,其中 T 为总生成推理步数,t 为当前推理步,均为超参数。每一行策略的具体含义可以参见原文

然而,这种人为设计的方式不仅需要大量的专业知识和人力成本,最终得到的策略函数仍然可能并非最佳。与此同时,我们认为不同样本都有其独特的特性,一个应用于所有样本的、全局共享的生成策略可能难以灵活应对样本之间的差异性。

基于上述观察,我们提出 AdaNAT,核心思想是引入一个可学习的策略网络,自动根据每个样本自适应地配置生成策略:

现有工作与 AdaNAT 的对比,这里是当前生成样本在时刻时的 token map

  • 论文标题:AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
  • 论文地址:https://arxiv.org/abs/2409.00342
  • 代码与预训练模型已经开源:https://github.com/LeapLabTHU/AdaNAT

方法介绍

然而,训练一个自适应、自动配置生成策略的网络面临一个直接的挑战:基于离散 token 的生成过程是不可微的,因此我们无法直接采用标准的端到端优化技术如梯度下降的方法来优化这个网络。为应对这一挑战,我们将生成策略的优化问题形式化为马尔可夫决策过程(MDP),在此基础上,策略网络可以自然地被定义为一个「观察生成状态,自适应地配置策略以最大化生成质量」的 agent,也因此可以通过强化学习算法(如策略梯度)进行训练。

另一个值得注意的点是,在我们的问题中,设计合适的奖励函数对于有效训练策略网络至关重要。为了解决这一问题,我们首先考虑了两种现成的设计选择:

  • 标准评估指标如 Fréchet Inception Distance (FID)
  • 预训练的图像奖励模型,如 ImageReward 模型

然而,我们的实验结果表明,尽管这些设计能够有效地最大化奖励函数,但最终的生成模型往往无法生成足够高质量或足够多样化的图像,如下图所示:

以 FID 作为奖励函数的图像生成效果 (FID=2.56)

以预训练的奖励模型作为奖励函数的图像生成效果 (FID=33.1)

换句话说,策略网络倾向于 “过拟合” 这些预先设定的、静态的奖励函数。受到这一现象的启发,我们的核心思路是在策略网络学习的同时,动态更新奖励函数以防止策略网络过拟合,让二者 “相互对抗,共同进步”。这种思想自然地让我们联想到生成对抗网络 (GAN) 的想法,因此,我们提出了一个对抗奖励模型,该模型类似于 GAN 中的判别器,以生成样本为真实图片的概率作为奖励。当策略网络学习最大化奖励时,我们同时优化奖励模型,以更好地区分真实样本和生成样本。总结来看,AdaNAT 的方法示意图如下:

AdaNAT 示意图

实验结果

我们在多个基准数据集上验证了 AdaNAT 的有效性,包括 ImageNet 的 class-conditional 生成以及 MSCOCO 和 CC3M 数据集的文到图生成。

得益于 NAT 生成范式中并行解码的优势,AdaNAT 在 ImageNet-256 和 ImageNet-512 数据集上,相较于主流的扩散模型,在低开销场景下,推理开销至少减少了 2-3 倍,同时生成效果更佳:

ImageNet-256 class-conditional 生成结果

ImageNet-512 class-conditional 生成结果

此外,在文到图生成方面,AdaNAT 也有着不错的表现:

MSCOCO 文到图生成结果

CC3M 文到图生成结果

在模型的优化过程中,我们也能明显看到生成质量随着策略网络的学习而提升,同时 FID 指标也有相应的下降:

AdaNAT 的优化过程可视化

消融实验发现,引入可学习、自适应的策略都对提升 NAT 的生成质量有所帮助:

消融实验

最后,我们也可视化了 AdaNAT 模型生成的图片,总的来看,AdaNAT 的生成样本同时具有良好的生成质量与多样性:

AdaNAT 生成结果可视化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于还是走了!焦泊乔交易敲定,北京花七位数拿下当红国手内线,这笔买卖谁亏谁赚?

终于还是走了!焦泊乔交易敲定,北京花七位数拿下当红国手内线,这笔买卖谁亏谁赚?

慢歌轻步谣
2026-07-04 10:15:24
“我也拍到了!”北京市民朋友圈频现,真被咬了怎么办?

“我也拍到了!”北京市民朋友圈频现,真被咬了怎么办?

BRTV新闻
2026-07-04 22:15:48
女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

扬子晚报
2026-07-03 18:58:01
52岁男子凌晨心梗走了,医生:凌晨3-5点醒来,千万不要做三件事

52岁男子凌晨心梗走了,医生:凌晨3-5点醒来,千万不要做三件事

新时代的两性情感
2026-07-04 15:19:22
祝贺!发射成功

祝贺!发射成功

新浪财经
2026-07-04 20:42:20
大陆刚发完统一强音,郑丽文就亮出徽章:台湾的未来只能在大陆!

大陆刚发完统一强音,郑丽文就亮出徽章:台湾的未来只能在大陆!

混沌录
2026-07-03 18:30:14
霉霉与凯尔西MSG婚宴深夜散场 最后一批宾客凌晨1点离开

霉霉与凯尔西MSG婚宴深夜散场 最后一批宾客凌晨1点离开

热搜摘要官
2026-07-05 00:31:52
斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

云隐南山
2026-07-04 17:14:05
特斯拉 FSD 国内落地最新进展

特斯拉 FSD 国内落地最新进展

新浪财经
2026-07-05 03:06:38
少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

许三岁
2026-06-14 09:57:24
“幼儿园就这样了,长大还了得?”女孩美丽成熟风范,让家长蒙了

“幼儿园就这样了,长大还了得?”女孩美丽成熟风范,让家长蒙了

世界圈
2026-07-04 09:40:47
虽败犹荣!佛得角40岁门将彻底封神,阿根廷主教练赛后评价太真实

虽败犹荣!佛得角40岁门将彻底封神,阿根廷主教练赛后评价太真实

伴史缘
2026-07-04 10:56:14
金晨杀疯了!湿发+露背黑裙,海边大片又A又欲,腰臀比绝了

金晨杀疯了!湿发+露背黑裙,海边大片又A又欲,腰臀比绝了

草莓解说体育
2026-07-04 15:37:20
王力宏公开伤势:外耳软骨撞碎 脸耳共缝39针!将坚持完成所有演

王力宏公开伤势:外耳软骨撞碎 脸耳共缝39针!将坚持完成所有演

杨仔述
2026-07-05 03:50:34
出来混终要还!还2.7亿赌债,离婚,定居国外,50岁黄有龙自食恶果

出来混终要还!还2.7亿赌债,离婚,定居国外,50岁黄有龙自食恶果

叨唠
2026-07-04 02:32:29
深圳第一条带空调的绿道来了!这波操作!南方别的城市真学不来!

深圳第一条带空调的绿道来了!这波操作!南方别的城市真学不来!

金哥说新能源车
2026-07-05 02:53:31
世界杯16强全出炉!欧洲7队+南美4强 1/8决赛对阵确定:3场焦点战

世界杯16强全出炉!欧洲7队+南美4强 1/8决赛对阵确定:3场焦点战

我爱英超
2026-07-04 11:34:18
王毅成大明星了?访问丹麦途中,丹麦网友惊叹:中国的外长太帅了

王毅成大明星了?访问丹麦途中,丹麦网友惊叹:中国的外长太帅了

军机Nova
2026-07-05 00:22:28
普京宣布重要战果!普京宣布“完全解放”卢甘斯克,控制顿涅茨克乌军堡垒防线重镇,战略主动权完全掌握在俄军手中

普京宣布重要战果!普京宣布“完全解放”卢甘斯克,控制顿涅茨克乌军堡垒防线重镇,战略主动权完全掌握在俄军手中

每日经济新闻
2026-07-04 16:59:42
风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

丁丁鲤史纪
2026-07-04 17:44:46
2026-07-05 06:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
家居
健康
手机
公开课

艺术要闻

八大山人迷之印章 你认得几个?

家居要闻

传奇筑 日常诗

听说少吃点能抗衰老?专家讲解!

手机要闻

iPhone Air2再次被确认:散热、双扬声器、双摄,均迎来升级!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版