网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025|VFMTok: Visual Foundation Models驱动...

0
分享至

来源:市场资讯

(来源:机器之心)


视觉 Tokenizer 的困境与破局

近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。

然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:

富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。

较高的潜在空间冗余: VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。

无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。

与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。

基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?

为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。

我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。


  • 论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

  • 论文地址: https://arxiv.org/pdf/2507.08441

  • Huggingface: https://huggingface.co/papers/2507.08441

  • Github:

    https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)

    https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

探索性发现

为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。

实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。

这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。


核心思想

基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs) 提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。

同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。

此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为 VFMTok。


VFMTok 架构图

关键技术细节

  • 多层图像特征提取 (Multi-level Features Extraction)

为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。

  • 区域自适应量化 (Region-Adaptive Quantization)

为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。

这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。


  • 语义重建目标(Semantic Reconstruction Objective)

因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。

为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:


其中

是传统的视觉 Tokenizer 使用的一系列常规损失函数,


是重建出的 VFM 特征与原始 VFM 特征之间的余弦相似度损失函数。

训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。

实验亮点与分析

1.卓越的重建生成质量与效率

大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。

  • 更好的图像重建质量:相较于传统的视觉 Tokenizer,VFMTok 可以用更少的 token 数量(仅用 256 个)实现更优的重建质量(0.89 rFID, 215.4 rIS)和更高的码本利用率 (100%),超越了之前大部分传统的离散 Tokenizers。


  • 更快的生成训练收敛速度:相比于经典的 VQGAN 这类 Tokenizer,VFMTok 能够显著提升自回归模型训练阶段的收敛速度 —— 训练收敛速度提升了 3 倍。


  • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任务上,VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类 LlamaGen-3B。此外,在接入更好的自回归图像生成框架 RAR 后,实现了 SOTA 的图像生成性能(gFID: 1.36)。


  • CFG-free 优越性:值得注意的是,VFMTok 在有无 CFG 的情况下性能几乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性,无需 CFG 即可实现高保真度的 class-to-image 图像生成,可以进一步减少图像生成时间。

  • 更快的推理速度:由于 tokens 数量减半(256 vs. 576),自回归模型的生成过程长度减半,推理速度因此获得了约 4 倍的提升。

2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至 56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。


总结与展望

VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。

大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。

由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。

VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

作者介绍

本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
糖尿病最怕的早餐!医生再三强调:宁可饿着,也别碰这3种早餐

糖尿病最怕的早餐!医生再三强调:宁可饿着,也别碰这3种早餐

牛锅巴小钒
2025-11-19 09:45:31
人口不到16万的库拉索首进世界杯!

人口不到16万的库拉索首进世界杯!

扬子晚报
2025-11-19 17:47:44
广西桂林市委原书记周家斌被公诉,曾被批妄议党中央大政方针、结交政治骗子

广西桂林市委原书记周家斌被公诉,曾被批妄议党中央大政方针、结交政治骗子

极目新闻
2025-11-20 10:23:19
特朗普不去,普京也不去,中方通知日本,不会在G20见高市早苗

特朗普不去,普京也不去,中方通知日本,不会在G20见高市早苗

混沌录
2025-11-20 00:11:03
男星许凯要塌房了,以一己之力将半个娱乐圈拉下水,牵连多位艺人

男星许凯要塌房了,以一己之力将半个娱乐圈拉下水,牵连多位艺人

流年拾光
2025-08-26 20:17:22
江旻憓豪门梦碎?是霍启山绯闻女友霍震霆为她站台,却被娜然打脸

江旻憓豪门梦碎?是霍启山绯闻女友霍震霆为她站台,却被娜然打脸

白面书誏
2025-11-20 15:10:10
福建一国企董事长,拟提名为县(市、区)政府正职人选

福建一国企董事长,拟提名为县(市、区)政府正职人选

鲁中晨报
2025-11-20 17:10:06
世界杯抽签分档确定:西班牙、阿根廷、法国一档

世界杯抽签分档确定:西班牙、阿根廷、法国一档

体坛周报
2025-11-20 00:26:12
当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

浩渺青史
2025-11-12 18:34:03
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
刚刚,俞敏洪发文:在南极徒步爬山五个小时!他首次回应“全员信争议”:允许员工吐槽是新东方的传统,明年将选10个左右员工去南极

刚刚,俞敏洪发文:在南极徒步爬山五个小时!他首次回应“全员信争议”:允许员工吐槽是新东方的传统,明年将选10个左右员工去南极

每日经济新闻
2025-11-20 11:49:04
“甲流”来势汹汹,张文宏提醒:最好不要做3件事,以免身体不适

“甲流”来势汹汹,张文宏提醒:最好不要做3件事,以免身体不适

今日养生之道
2025-11-20 04:57:08
外媒:俄罗斯想办世界杯平行赛事,仅限未晋级世界杯球队参赛

外媒:俄罗斯想办世界杯平行赛事,仅限未晋级世界杯球队参赛

懂球帝
2025-11-19 15:46:08
逃离杭州,连网红也没钱了

逃离杭州,连网红也没钱了

最人物
2025-11-18 14:51:32
人类历史上经典的5个悖论,极度烧脑,你曾认真思考过吗?

人类历史上经典的5个悖论,极度烧脑,你曾认真思考过吗?

半解智士
2025-10-14 22:47:15
湖南猎豹汽车破产后一千多吨的车型模具拍卖,260万成交

湖南猎豹汽车破产后一千多吨的车型模具拍卖,260万成交

天天话事
2025-11-20 08:27:01
无愧新秀榜第一!新蜂王28+8+7破历史纪录 留给三球的时间不多了

无愧新秀榜第一!新蜂王28+8+7破历史纪录 留给三球的时间不多了

锅子篮球
2025-11-20 14:09:52
水亦诗住三层别墅卫生差,亲妈忙前忙后干活,公婆却全程坐着不动

水亦诗住三层别墅卫生差,亲妈忙前忙后干活,公婆却全程坐着不动

冷紫葉
2025-11-18 13:33:58
周恩来离开黄埔军校时,仅一人敢为他送行,后来周总理争取他多次

周恩来离开黄埔军校时,仅一人敢为他送行,后来周总理争取他多次

史之铭
2025-11-20 03:30:30
约基奇28+11+12掘金双杀鹈鹕 沃特森32+12锡安复出14+6+5

约基奇28+11+12掘金双杀鹈鹕 沃特森32+12锡安复出14+6+5

醉卧浮生
2025-11-20 11:31:04
2025-11-20 19:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1446799文章数 4587关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

媒体:中日之间交锋继续 全世界都是"当事方"

头条要闻

媒体:中日之间交锋继续 全世界都是"当事方"

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

健康
教育
艺术
本地
公开课

警惕超声报告这六大"坑"

教育要闻

成绩年级前十的男生:3年不碰手机

艺术要闻

陈洪绶:花鸟册二十开

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版