网易首页 > 网易号 > 正文 申请入驻

VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

0
分享至



视觉 Tokenizer 的困境与破局

近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。

然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:

  1. 富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。
  2. 较高的潜在空间冗余:VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。
  3. 无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。

与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。

基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?

为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。

我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。



  • 论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
  • 论文地址: https://arxiv.org/pdf/2507.08441
  • Huggingface: https://huggingface.co/papers/2507.08441
  • Github:
  • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
  • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

探索性发现

为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。

实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。

这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。



核心思想

基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs)提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。

同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。

此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为VFMTok。



VFMTok 架构图

关键技术细节

  • 多层图像特征提取 (Multi-level Features Extraction)

为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。

  • 区域自适应量化 (Region-Adaptive Quantization)

为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。

这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。



  • 语义重建目标(Semantic Reconstruction Objective)

因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。

为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:





训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。

实验亮点与分析

1.卓越的重建生成质量与效率

大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。

  • 更好的图像重建质量:相较于传统的视觉 Tokenizer,VFMTok 可以用更少的 token 数量(仅用 256 个)实现更优的重建质量(0.89 rFID, 215.4 rIS)和更高的码本利用率 (100%),超越了之前大部分传统的离散 Tokenizers。



  • 更快的生成训练收敛速度:相比于经典的 VQGAN 这类 Tokenizer,VFMTok 能够显著提升自回归模型训练阶段的收敛速度 ——训练收敛速度提升了 3 倍。



  • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任务上,VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类 LlamaGen-3B。此外,在接入更好的自回归图像生成框架 RAR 后,实现了SOTA 的图像生成性能(gFID: 1.36)。



  • CFG-free 优越性:值得注意的是,VFMTok 在有无 CFG 的情况下性能几乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性,无需 CFG 即可实现高保真度的 class-to-image 图像生成,可以进一步减少图像生成时间。
  • 更快的推理速度:由于 tokens 数量减半(256 vs. 576),自回归模型的生成过程长度减半,推理速度因此获得了约 4 倍的提升。

2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。



总结与展望

VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。

大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。

由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。

VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

作者介绍

本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长得漂亮,不如活得漂亮

长得漂亮,不如活得漂亮

说情感世界
2026-03-23 06:00:10
塔帅:我们将利用这种失望和怒火,去创造最奇妙的两个月

塔帅:我们将利用这种失望和怒火,去创造最奇妙的两个月

懂球帝
2026-03-23 04:46:02
日本迎印度游客翻车?机舱成水帘洞,大堂变候机厅,文化冲突藏不住了

日本迎印度游客翻车?机舱成水帘洞,大堂变候机厅,文化冲突藏不住了

最英国
2026-03-21 18:06:03
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
戛纳红毯惊现“闪钻女”,三分钟疯狂摆拍被工作人员强行带离

戛纳红毯惊现“闪钻女”,三分钟疯狂摆拍被工作人员强行带离

东方不败然多多
2026-03-22 18:27:36
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

观察鉴娱
2026-01-27 09:36:51
杜兰特:无论谁在数据上超越乔丹 MJ的影响力依旧无可撼动

杜兰特:无论谁在数据上超越乔丹 MJ的影响力依旧无可撼动

罗说NBA
2026-03-23 06:54:42
鲁山案新进展!女子立遗书自保,申请回避被驳,调查组已通知会面

鲁山案新进展!女子立遗书自保,申请回避被驳,调查组已通知会面

石辰搞笑日常
2026-03-23 00:55:53
国际金价“八连跌”,分析人士:全球通胀担忧成主因,摩根大通预测:年底仍可能达每盎司6300美元

国际金价“八连跌”,分析人士:全球通胀担忧成主因,摩根大通预测:年底仍可能达每盎司6300美元

纵相新闻
2026-03-22 15:44:03
教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

另子维爱读史
2026-03-21 19:52:30
4月1日医保新规大改革!双证缺一不可,少带一件报销直接砍半

4月1日医保新规大改革!双证缺一不可,少带一件报销直接砍半

复转这些年
2026-03-22 18:24:03
玄裹:一种关于存在的视觉诗学

玄裹:一种关于存在的视觉诗学

疾跑的小蜗牛
2026-03-22 23:39:35
陈晓和毛晓彤领证了!?

陈晓和毛晓彤领证了!?

八卦疯叔
2026-03-22 09:40:10
伊朗用什么秘密武器击中美军F-35战机?“慢吞吞导弹”卡“隐身神话”BUG

伊朗用什么秘密武器击中美军F-35战机?“慢吞吞导弹”卡“隐身神话”BUG

红星新闻
2026-03-21 14:38:47
《逐玉》樊长玉身世曝光!原来,这才是魏严17年前当接盘侠的真相

《逐玉》樊长玉身世曝光!原来,这才是魏严17年前当接盘侠的真相

慢半拍sir
2026-03-22 18:46:29
连续被弃用!北京队脓包找到了,许利民亲手割掉,球迷:大快人心

连续被弃用!北京队脓包找到了,许利民亲手割掉,球迷:大快人心

弄月公子
2026-03-22 09:57:19
为什么盗版音乐已被严格限制,而中国音乐却还是没有发展起来?

为什么盗版音乐已被严格限制,而中国音乐却还是没有发展起来?

小椰的奶奶
2026-03-22 11:56:34
太励志!22岁李镇全首次入选国足:3年多前还在踢业余联赛

太励志!22岁李镇全首次入选国足:3年多前还在踢业余联赛

邱泽云
2026-03-22 16:21:25
反以色列组织烧毁捷克一处生产以色列无人机的武器中心

反以色列组织烧毁捷克一处生产以色列无人机的武器中心

财联社
2026-03-21 20:04:04
取消交强险呼声高涨!交通部重磅出手,车主集体叫好:太给力

取消交强险呼声高涨!交通部重磅出手,车主集体叫好:太给力

侃故事的阿庆
2026-03-23 05:18:54
2026-03-23 09:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12557文章数 142591关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

教育
房产
手机
时尚
健康

教育要闻

南京学校最新通知:晚9点,立即启动作业“熔断机制”!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

手机要闻

一加15T 核心规格汇总,新机马上见

“这条裙子”才是今年春天的顶流,怎么搭都好看

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版