网易首页 > 网易号 > 正文 申请入驻

预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

0
分享至



近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

无独有偶,同期西安交通大学与微软亚洲研究院提出了「VFM-VAE」。二者均基于冻结的预训练视觉模型构建语义潜空间,而 VFM-VAE在结构上可视为 RAE 与 VAE 的结合:结合 VAE 的概率建模机制,将高维预训练模型特征压缩为低维潜空间表示,系统性地研究了在压缩条件下预训练视觉表征对 LDM 系统表征结构与生成性能的影响。

VFM-VAE 通过直接集成冻结的基础视觉模型作为 Tokenizer,能够显著加速模型收敛并提升生成质量,展示了 LDM Tokenizer 从像素压缩迈向语义表征的演化方向。



图 1:左:VFM-VAE 设计示意图。右:ImageNet 256×256 上生成性能比较。



  • 论文链接:https://www.arxiv.org/abs/2510.18457
  • Github 链接:https://github.com/tianciB/VFM-VAE

预训练视觉特征替代潜空间的探索

近年来,扩散模型和多模态生成系统在图像理解与合成领域持续取得突破,但其性能上限日益受限于视觉分词器的表达能力。

传统的蒸馏式方法重新训练 VAE 并对齐基础视觉模型的特征分布,虽取得了一定成果(如 VA-VAE),但由于是在有限的数据集上的蒸馏,其在旋转、缩放或轻噪声等语义保持扰动下容易失稳,导致潜空间表示偏移、系统稳健性下降。

为系统分析这一现象,研究团队提出了SE-CKNNA 指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估这种一致性对后续生成性能的影响。

实验表明,蒸馏式分词器在扰动下的语义对齐易退化,而保持潜空间与基础视觉模型特征的高度一致,对生成模型的稳健性和收敛效率至关重要。



图 2:不同 Tokenizer 在语义保持扰动下与各自视觉基础模型对齐的情况。



表 1:不同 Tokenizer 与视觉基础模型的对齐质量,以及对应的重建、生成能力对比。CKNNA* 是与 DINOv2-Giant 统一计算;其余 CKNNA 是与各自的视觉基础模型计算,SD-VAE 默认与 DINOv2-Large 计算。


如何从冻结的基础视觉模型特征中压缩语义,并进行像素重建?

「直连」虽然避免了蒸馏带来的信息损失,但基础视觉模型的高层特征虽具强语义表达,却缺乏精确的空间结构信息,直接用于重建往往导致细节模糊。为此,研究团队设计了一个兼顾语义压缩与像素还原的两阶段解码框架。

首先,编码侧通过冻结的基础视觉模型提取多层语义特征,并利用轻量的投影模块将不同层级的特征映射到潜空间 z。

接着,解码器部分采用「多尺度潜特征融合」结构:将 z 分为语义分支和空间分支,前者在各层提供全局风格与语义控制,后者在低分辨率阶段注入以确定布局与主体形状。

在具体实现上,VFM-VAE 使用调制式卷积块(modulated convolution block)与层级式 ToRGB 输出,使模型能够在8×8 → 256×256的金字塔结构中逐级恢复细节。训练目标联合 L1、LPIPS、KL 与对抗性损失,并引入基于视觉基础模型特征的表征正则,在有效防止模糊重建的同时,确保潜空间特征可被下游生成模型稳定利用。



图 3:VFM-VAE 的总体框架。

潜空间与预训练视觉表征的一致性如何影响生成性能?

研究团队进一步分析了潜空间表征在扩散模型内部的层间一致性,发现VFM-VAE 在层间平均和峰值 CKNNA 得分均高于蒸馏式分词器,表明其潜空间能更稳定地对齐基础视觉模型特征。然而,浅层语义对齐相对较弱。

为此,团队在生成模型的浅层引入与基础视觉模型特征的显式对齐机制,使 LDM 的潜空间在生成过程中始终保持与基础视觉模型特征的高度一致,从而进一步提升了语义传递的稳定性与生成质量。



图 4:左侧展示了不同分词器结合生成模型时,在未引入显式对齐机制下各层特征与基础视觉模型特征的对齐情况;右侧对比了结合显式对齐的 VFM-VAE 与仅采用显式对齐的生成模型在层间特征与基础视觉模型特征对齐上的差异。

更高质量与更快收敛:VFM-VAE 迈向可稳健对齐的生成系统

在实验中,VFM-VAE 展现出显著的性能优势与训练效率。在 ImageNet 256×256 上,该方法在相同训练阶段实现 gFID 3.80 (without CFG),优于蒸馏路线的 5.14。当与显式对齐机制结合后,仅用 80 epochs 即可达到 gFID 2.22 (without CFG),训练效率较蒸馏式 Tokenizer 系统提升约 10 倍。

研究团队还将 VFM-VAE 与多模态语言模型 BLIP3-o 结合,验证其在文生图任务中的语义一致性与生成潜力。经过 1 epoch 预训练,VFM-VAE + BLIP3-o在 DPG-Bench 上得分 59.1,较 VA-VAE 提升明显;在 MJHQ-30K 上 gFID 降至 16.98(蒸馏路线为 23.00)。

这些结果表明,VFM-VAE 不仅在潜空间扩散阶段表现出稳健语义对齐,也能在跨模态生成中有效传递这种一致性,形成从「视觉理解」到「图像生成」的闭环。



图 5:ImageNet 256x256 上各 LDM 系统的生成性能对比。



表 2:不同 Tokenizer 与 BLIP3-o 的文本生成图像结果(DPG-Bench),数值越高,代表长文本下文生图一致性越好。



表 3:不同 Tokenizer 与 BLIP3-o 的文本生成图像结果(MJHQ-30K),数值越低,代表对应类别下生成真实性越高。

从压缩到理解:VFM-VAE 重新定义潜空间的意义

长期以来,潜空间扩散模型中的 VAE 更多被视为压缩与还原的工具,而 VFM-VAE 将其转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递。

未来,微软亚洲研究院的研究员们将继续探索潜空间在多模态生成与复杂视觉理解中的潜力,推动其从像素压缩迈向语义表征。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视直播!全运会乒乓球金牌战时间表,樊振东、王曼昱力争卫冕

央视直播!全运会乒乓球金牌战时间表,樊振东、王曼昱力争卫冕

知轩体育
2025-11-16 10:35:15
化浓妆的李梦昨晚演砸了

化浓妆的李梦昨晚演砸了

陶寻爱说
2025-11-16 09:24:14
六公主紧急删除祖峰采访,另一官媒却留有提名信息,知情人称他冤

六公主紧急删除祖峰采访,另一官媒却留有提名信息,知情人称他冤

动物奇奇怪怪
2025-11-16 10:40:36
沙俄最想割,但是却一直没割走的一块土地,你们知道是哪里吗

沙俄最想割,但是却一直没割走的一块土地,你们知道是哪里吗

凡人侃史
2025-11-15 23:13:23
车晓的母亲王丽云太节俭了!北京街头被偶遇,座驾居然是20年前的

车晓的母亲王丽云太节俭了!北京街头被偶遇,座驾居然是20年前的

乐悠悠娱乐
2025-11-15 11:41:38
梅西接近900进球!他冲击1000进球和进球历史第一人!

梅西接近900进球!他冲击1000进球和进球历史第一人!

氧气是个地铁
2025-11-15 18:56:53
港媒曝钟嘉欣婚变,在加拿大起诉男方,被反诉,钟嘉欣回应了!

港媒曝钟嘉欣婚变,在加拿大起诉男方,被反诉,钟嘉欣回应了!

小咪侃娱圈
2025-11-16 09:20:49
国际刑事法院爆重大丑闻!杜特尔特案专家接连被撤,审理陷入停滞

国际刑事法院爆重大丑闻!杜特尔特案专家接连被撤,审理陷入停滞

南宫一二
2025-11-16 08:51:47
双色球132期: 跟着走势选号更有谱

双色球132期: 跟着走势选号更有谱

蓝色海边
2025-11-16 10:51:24
当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

领悟看世界
2025-11-12 01:06:46
CCTV5!樊振东林诗栋男单争金,孙颖莎对决王曼昱 11月16日赛程+最新赛果

CCTV5!樊振东林诗栋男单争金,孙颖莎对决王曼昱 11月16日赛程+最新赛果

好乒乓
2025-11-16 10:55:42
踢三镇,泰山队有望创中超唯一纪录!鲁媒:差3分,成中国足球第1

踢三镇,泰山队有望创中超唯一纪录!鲁媒:差3分,成中国足球第1

建哥说体育
2025-11-16 08:04:12
湖人大胜雄鹿!三核狂轰86分,海斯有进步,拉拉维亚+布朗尼全垮

湖人大胜雄鹿!三核狂轰86分,海斯有进步,拉拉维亚+布朗尼全垮

篮球资讯达人
2025-11-16 11:31:23
荷兰首相发声也不管用!为了安世公司,中国用新招:不怕把事闹大

荷兰首相发声也不管用!为了安世公司,中国用新招:不怕把事闹大

历史求知所
2025-11-15 11:15:10
25岁小伙邀请38岁少妇过夜!女子两小时后却不堪忍受,真的受不了

25岁小伙邀请38岁少妇过夜!女子两小时后却不堪忍受,真的受不了

特特农村生活
2025-11-09 08:47:56
还差2票?美联储内部风向有变 四周后或重按暂停键

还差2票?美联储内部风向有变 四周后或重按暂停键

中国能源网
2025-11-15 12:58:06
蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

混沌录
2025-10-26 16:11:11
5股一夜减持225亿,其中1股减持184亿,包括证券、电池、通信龙头

5股一夜减持225亿,其中1股减持184亿,包括证券、电池、通信龙头

风风顺
2025-11-16 07:29:34
7国统一战线,美国拍板军火运往台岛,话音刚落,中方在主场反击

7国统一战线,美国拍板军火运往台岛,话音刚落,中方在主场反击

林子说事
2025-11-16 10:55:23
赵少康迷途知返,邀请多位大佬挺郑丽文,卢秀燕却要一条路走到黑

赵少康迷途知返,邀请多位大佬挺郑丽文,卢秀燕却要一条路走到黑

时时有聊
2025-11-15 09:50:55
2025-11-16 12:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

中国县城的打工人,快被AI培训班包围了

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

数码
旅游
教育
公开课
军事航空

数码要闻

苹果2026 iPad路线图曝光:三款新品齐发,mini迎来史诗级升级

旅游要闻

孝义市胜溪湖

教育要闻

花钱存钱,家长必看的人生感悟

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版