VFMTok: Visual Foundation Models驱动的Tokenizer时代来临|视觉|构造|新模型|tokenizer

VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

2025-10-28 18:00:47　来源: 机器之心Pro

北京举报

分享至

视觉 Tokenizer 的困境与破局

近年来，自回归（Autoregressive, AR）模型在语言生成领域的成功激发了其在图像生成领域的应用，涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer，它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间，是决定生成模型上限的基石。

然而，以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练，其训练目标由像素级重建损失函数主导，导致其产生的潜在空间：

富含低层细节特征却缺乏高层语义信息：能很好地还原图像细节，但潜在编码本身缺乏高层语义信息。
较高的潜在空间冗余:VAGAN 基于图像块 (patch) 逐一进行量化，而图像中的物体通常是不规则的区域，基于图像块的量化降低了 tokens 的编码效率。
无视结构特性的表征：潜在空间的组织较为混乱，使得生成模型不仅需要更长的训练时间来学习其潜在空间分布，而且往往得借助 CFG（Classifier-Free Guidance, CFG）等技巧来实现高保真度的图像生成，增加了模型推理时间。

与此同时，预训练的视觉基础模型（Visual Foundation Models, VFMs），如 CLIP、DINOv2、SigLIP2 等，在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练，它们能够有效抽象出图像中的高层语义信息，因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。

基于此，香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设：原本为视觉理解任务设计的预训练视觉基础模型，其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征？

为了验证这一猜想，我们探索了一个基础视觉模型新的应用新方向：用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer，将其应用于图像重建和自回归图像生成任务上。

我们发现，相比于传统的视觉 Tokenizer 模型，视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。

论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
论文地址: https://arxiv.org/pdf/2507.08441
Huggingface: https://huggingface.co/papers/2507.08441
Github:
https://github.com/CVMI-Lab/VFMTok.git （Vanilla version）
https://github.com/CVMI-Lab/VFMTok-RAR.git （Ultra version）

探索性发现

为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer，我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征，将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器（quantilizer）和解码器中的参数会进行更新，随后用它完成自回归图像生成任务。

实验表明：冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建，且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。

这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。

核心思想

基于我们的探索性发现：冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练，我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs)提取图像的多层特征 (Multi-level Features Extraction)，这有助于同时捕获图像中的低层细节特征和高层语义信息。

同时，我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化，而图像中物体一般都是形状不规则的，因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度，提高视觉 tokens 的利用效率。

此外，因为视觉基础模型的参数是冻结的，因此在重建图像内容的同时，我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective)，来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为VFMTok。

VFMTok 架构图

关键技术细节

多层图像特征提取 (Multi-level Features Extraction)

为了同时捕获图像低层细节特征和高层语义信息方便图像重建，VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。

区域自适应量化 (Region-Adaptive Quantization)

为了实现区域自适应量化 (Region-Adaptive Quantization) 机制，VFMTok 通过可学习「锚点查询」（Anchor Queries）结合可变形注意力机制（Deformable Attention）自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。

这种方式能聚焦于采样图像中模式一致的区域。随后，VFMToks 对可学习「锚点查询」（Anchor Queries）进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens（256）来表征一张图像。

语义重建目标（Semantic Reconstruction Objective）

因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的，因此 VFMTok 在重建图像的同时，也会重建冻结的基础模型（VFM）最后一层的语义特征。

为了实现这一点，VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer（ViT）。这个 ViT 接收区域自适应量化后的 tokens，结合一个可学习的 mask token 以及一组可学习的位置编码（Positional Embedding）作为输入，分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是：

训练完成后，VFMTok 可以被应用于图像自适应回归任务上，基于 next-token prediction 的方式生成高质量的图像内容。

实验亮点与分析

1.卓越的重建生成质量与效率

大量实验表明，基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok，具备高质量、高效率的图像重建和自回归图像生成能力。

更好的图像重建质量：相较于传统的视觉 Tokenizer，VFMTok 可以用更少的 token 数量（仅用 256 个）实现更优的重建质量（0.89 rFID， 215.4 rIS）和更高的码本利用率 (100%)，超越了之前大部分传统的离散 Tokenizers。

更快的生成训练收敛速度：相比于经典的 VQGAN 这类 Tokenizer，VFMTok 能够显著提升自回归模型训练阶段的收敛速度 ——训练收敛速度提升了 3 倍。

更好的生成性能：在 ImageNet 256x256 的 class-to-image 生成任务上，VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下，自回归生成性能超越了同类 LlamaGen-3B。此外，在接入更好的自回归图像生成框架 RAR 后，实现了SOTA 的图像生成性能（gFID: 1.36）。

CFG-free 优越性：值得注意的是，VFMTok 在有无 CFG 的情况下性能几乎一致（gFID: 2.07 vs 2.04），而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性，无需 CFG 即可实现高保真度的 class-to-image 图像生成，可以进一步减少图像生成时间。
更快的推理速度：由于 tokens 数量减半（256 vs. 576），自回归模型的生成过程长度减半，推理速度因此获得了约 4 倍的提升。

2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器，线性探针准确率（linear probing）就从 VQGAN 的 23.1% 提升至56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后，VFMTok 仅用 256 个 Token 就能在重建质量（rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。

总结与展望

VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成，同时可以提升 Tokenizer 语义表征能力，使自回归 (AR) 图像生成模型收敛更快，并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制，通过有效利用图像区域的固有冗余实现紧凑编码，在减少视觉 token 数量的同时提升性能，实现高效且高质量的自回归图像生成。

大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性，确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。

由此可见，利用 VFM 的先验知识是构建高质量潜在空间的必由之路，也是构建下一代 Tokenizer 的关键，这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘，最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。

VFMTok 论文与代码均已公开，欢迎感兴趣的同学阅读、复现以及深入讨论。

作者介绍

本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入，一起为 AIGC 社区贡献力量。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.