网易首页 > 网易号 > 正文 申请入驻

VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

0
分享至



视觉 Tokenizer 的困境与破局

近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。

然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:

  1. 富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。
  2. 较高的潜在空间冗余:VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。
  3. 无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。

与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。

基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?

为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。

我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。



  • 论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
  • 论文地址: https://arxiv.org/pdf/2507.08441
  • Huggingface: https://huggingface.co/papers/2507.08441
  • Github:
  • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
  • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

探索性发现

为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。

实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。

这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。



核心思想

基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs)提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。

同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。

此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为VFMTok。



VFMTok 架构图

关键技术细节

  • 多层图像特征提取 (Multi-level Features Extraction)

为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。

  • 区域自适应量化 (Region-Adaptive Quantization)

为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。

这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。



  • 语义重建目标(Semantic Reconstruction Objective)

因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。

为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:





训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。

实验亮点与分析

1.卓越的重建生成质量与效率

大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。

  • 更好的图像重建质量:相较于传统的视觉 Tokenizer,VFMTok 可以用更少的 token 数量(仅用 256 个)实现更优的重建质量(0.89 rFID, 215.4 rIS)和更高的码本利用率 (100%),超越了之前大部分传统的离散 Tokenizers。



  • 更快的生成训练收敛速度:相比于经典的 VQGAN 这类 Tokenizer,VFMTok 能够显著提升自回归模型训练阶段的收敛速度 ——训练收敛速度提升了 3 倍。



  • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任务上,VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类 LlamaGen-3B。此外,在接入更好的自回归图像生成框架 RAR 后,实现了SOTA 的图像生成性能(gFID: 1.36)。



  • CFG-free 优越性:值得注意的是,VFMTok 在有无 CFG 的情况下性能几乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性,无需 CFG 即可实现高保真度的 class-to-image 图像生成,可以进一步减少图像生成时间。
  • 更快的推理速度:由于 tokens 数量减半(256 vs. 576),自回归模型的生成过程长度减半,推理速度因此获得了约 4 倍的提升。

2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。



总结与展望

VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。

大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。

由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。

VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

作者介绍

本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴拿马总统强硬回应中方警告,外媒:中国或暂停与巴方全部协议

巴拿马总统强硬回应中方警告,外媒:中国或暂停与巴方全部协议

头条爆料007
2026-02-05 18:45:01
现货白银跌幅再度扩大至16%

现货白银跌幅再度扩大至16%

财联社
2026-02-05 22:38:07
西贝的贾总刚被解除禁言,又给自己补上一刀,网友评论炸了

西贝的贾总刚被解除禁言,又给自己补上一刀,网友评论炸了

魔都姐姐杂谈
2026-02-05 14:07:32
现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

看看新闻Knews
2026-02-04 15:23:04
打金店打扫1个月的生活垃圾,扫出1700克金粉,熔成金条价值200万

打金店打扫1个月的生活垃圾,扫出1700克金粉,熔成金条价值200万

观威海
2026-02-05 09:02:08
亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

源Sight
2026-02-05 16:46:25
净利润翻倍,科沃斯如何在成熟赛道里跑出新速度?

净利润翻倍,科沃斯如何在成熟赛道里跑出新速度?

定焦One
2026-02-05 09:29:34
至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

通文知史
2026-02-05 01:00:03
德云社岳云鹏发文,晒第四台春晚海报,收到家乡邀约,令孙越羡慕

德云社岳云鹏发文,晒第四台春晚海报,收到家乡邀约,令孙越羡慕

TVB的四小花
2026-02-06 01:55:08
随着赵心童5-4绝杀塞尔比,吴宜泽5-3,大奖赛8强全部出炉附赛程

随着赵心童5-4绝杀塞尔比,吴宜泽5-3,大奖赛8强全部出炉附赛程

小火箭爱体育
2026-02-05 22:02:05
中国反制巴拿马开始了!

中国反制巴拿马开始了!

占豪
2026-02-06 01:22:10
这些冷门城市,竟是最具幸福感的地方?

这些冷门城市,竟是最具幸福感的地方?

大象新闻
2026-02-05 19:21:08
0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

侃球熊弟
2026-02-05 22:13:13
美国罕见服软,希望中方能给个“体面”,我国防部一句话亮明态度

美国罕见服软,希望中方能给个“体面”,我国防部一句话亮明态度

空天力量
2026-02-05 13:06:52
7个省级政府领导班子调整

7个省级政府领导班子调整

上观新闻
2026-02-05 12:39:09
从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

全景体育V
2026-02-05 21:54:14
俄钾肥巨头前CEO确认身亡,遗体在塞浦路斯英军基地海滩被发现

俄钾肥巨头前CEO确认身亡,遗体在塞浦路斯英军基地海滩被发现

红星新闻
2026-02-05 18:37:26
真相:古巴粮食危机——体制才是根本原因

真相:古巴粮食危机——体制才是根本原因

老头和你随便聊聊
2026-02-05 08:09:49
米莱赌赢了!阿根廷牵手美国锁死锂铜稀土,中国供应链遭围堵

米莱赌赢了!阿根廷牵手美国锁死锂铜稀土,中国供应链遭围堵

老马拉车莫少装
2026-02-05 20:03:58
特朗普、马斯克、比尔盖茨争相否认,英国王之弟连夜搬家,爱泼斯坦案超300万页文件风波未完待续

特朗普、马斯克、比尔盖茨争相否认,英国王之弟连夜搬家,爱泼斯坦案超300万页文件风波未完待续

封面新闻
2026-02-05 19:07:19
2026-02-06 03:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12259文章数 142564关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

旅游
本地
家居
公开课
军事航空

旅游要闻

一卡绑定游客一生“情缘”!“甘孜客服”刘洪:马年对“马背上的民族”意义非凡

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

简雅序章 自然且闲适

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版