网易首页 > 网易号 > 正文 申请入驻

预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

0
分享至



近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

无独有偶,同期西安交通大学与微软亚洲研究院提出了「VFM-VAE」。二者均基于冻结的预训练视觉模型构建语义潜空间,而 VFM-VAE在结构上可视为 RAE 与 VAE 的结合:结合 VAE 的概率建模机制,将高维预训练模型特征压缩为低维潜空间表示,系统性地研究了在压缩条件下预训练视觉表征对 LDM 系统表征结构与生成性能的影响。

VFM-VAE 通过直接集成冻结的基础视觉模型作为 Tokenizer,能够显著加速模型收敛并提升生成质量,展示了 LDM Tokenizer 从像素压缩迈向语义表征的演化方向。



图 1:左:VFM-VAE 设计示意图。右:ImageNet 256×256 上生成性能比较。



  • 论文链接:https://www.arxiv.org/abs/2510.18457
  • Github 链接:https://github.com/tianciB/VFM-VAE

预训练视觉特征替代潜空间的探索

近年来,扩散模型和多模态生成系统在图像理解与合成领域持续取得突破,但其性能上限日益受限于视觉分词器的表达能力。

传统的蒸馏式方法重新训练 VAE 并对齐基础视觉模型的特征分布,虽取得了一定成果(如 VA-VAE),但由于是在有限的数据集上的蒸馏,其在旋转、缩放或轻噪声等语义保持扰动下容易失稳,导致潜空间表示偏移、系统稳健性下降。

为系统分析这一现象,研究团队提出了SE-CKNNA 指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估这种一致性对后续生成性能的影响。

实验表明,蒸馏式分词器在扰动下的语义对齐易退化,而保持潜空间与基础视觉模型特征的高度一致,对生成模型的稳健性和收敛效率至关重要。



图 2:不同 Tokenizer 在语义保持扰动下与各自视觉基础模型对齐的情况。



表 1:不同 Tokenizer 与视觉基础模型的对齐质量,以及对应的重建、生成能力对比。CKNNA* 是与 DINOv2-Giant 统一计算;其余 CKNNA 是与各自的视觉基础模型计算,SD-VAE 默认与 DINOv2-Large 计算。


如何从冻结的基础视觉模型特征中压缩语义,并进行像素重建?

「直连」虽然避免了蒸馏带来的信息损失,但基础视觉模型的高层特征虽具强语义表达,却缺乏精确的空间结构信息,直接用于重建往往导致细节模糊。为此,研究团队设计了一个兼顾语义压缩与像素还原的两阶段解码框架。

首先,编码侧通过冻结的基础视觉模型提取多层语义特征,并利用轻量的投影模块将不同层级的特征映射到潜空间 z。

接着,解码器部分采用「多尺度潜特征融合」结构:将 z 分为语义分支和空间分支,前者在各层提供全局风格与语义控制,后者在低分辨率阶段注入以确定布局与主体形状。

在具体实现上,VFM-VAE 使用调制式卷积块(modulated convolution block)与层级式 ToRGB 输出,使模型能够在8×8 → 256×256的金字塔结构中逐级恢复细节。训练目标联合 L1、LPIPS、KL 与对抗性损失,并引入基于视觉基础模型特征的表征正则,在有效防止模糊重建的同时,确保潜空间特征可被下游生成模型稳定利用。



图 3:VFM-VAE 的总体框架。

潜空间与预训练视觉表征的一致性如何影响生成性能?

研究团队进一步分析了潜空间表征在扩散模型内部的层间一致性,发现VFM-VAE 在层间平均和峰值 CKNNA 得分均高于蒸馏式分词器,表明其潜空间能更稳定地对齐基础视觉模型特征。然而,浅层语义对齐相对较弱。

为此,团队在生成模型的浅层引入与基础视觉模型特征的显式对齐机制,使 LDM 的潜空间在生成过程中始终保持与基础视觉模型特征的高度一致,从而进一步提升了语义传递的稳定性与生成质量。



图 4:左侧展示了不同分词器结合生成模型时,在未引入显式对齐机制下各层特征与基础视觉模型特征的对齐情况;右侧对比了结合显式对齐的 VFM-VAE 与仅采用显式对齐的生成模型在层间特征与基础视觉模型特征对齐上的差异。

更高质量与更快收敛:VFM-VAE 迈向可稳健对齐的生成系统

在实验中,VFM-VAE 展现出显著的性能优势与训练效率。在 ImageNet 256×256 上,该方法在相同训练阶段实现 gFID 3.80 (without CFG),优于蒸馏路线的 5.14。当与显式对齐机制结合后,仅用 80 epochs 即可达到 gFID 2.22 (without CFG),训练效率较蒸馏式 Tokenizer 系统提升约 10 倍。

研究团队还将 VFM-VAE 与多模态语言模型 BLIP3-o 结合,验证其在文生图任务中的语义一致性与生成潜力。经过 1 epoch 预训练,VFM-VAE + BLIP3-o在 DPG-Bench 上得分 59.1,较 VA-VAE 提升明显;在 MJHQ-30K 上 gFID 降至 16.98(蒸馏路线为 23.00)。

这些结果表明,VFM-VAE 不仅在潜空间扩散阶段表现出稳健语义对齐,也能在跨模态生成中有效传递这种一致性,形成从「视觉理解」到「图像生成」的闭环。



图 5:ImageNet 256x256 上各 LDM 系统的生成性能对比。



表 2:不同 Tokenizer 与 BLIP3-o 的文本生成图像结果(DPG-Bench),数值越高,代表长文本下文生图一致性越好。



表 3:不同 Tokenizer 与 BLIP3-o 的文本生成图像结果(MJHQ-30K),数值越低,代表对应类别下生成真实性越高。

从压缩到理解:VFM-VAE 重新定义潜空间的意义

长期以来,潜空间扩散模型中的 VAE 更多被视为压缩与还原的工具,而 VFM-VAE 将其转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递。

未来,微软亚洲研究院的研究员们将继续探索潜空间在多模态生成与复杂视觉理解中的潜力,推动其从像素压缩迈向语义表征。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
火葬场下午三点后为啥不再烧尸体?工作人员:这不是迷信而是规矩

火葬场下午三点后为啥不再烧尸体?工作人员:这不是迷信而是规矩

千秋文化
2026-02-13 19:12:57
不当言论?日本回应中国外长的公开批评:全文连职务都不提

不当言论?日本回应中国外长的公开批评:全文连职务都不提

娱乐督察中
2026-02-15 23:32:16
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
看一下空调在新加坡的作用,就知道印度为什么很难成为超级大国

看一下空调在新加坡的作用,就知道印度为什么很难成为超级大国

旧时楼台月
2026-02-05 19:13:30
高云翔花20元在地库剪发节俭,45岁胡须已白,小酒窝和继父三亚玩

高云翔花20元在地库剪发节俭,45岁胡须已白,小酒窝和继父三亚玩

离离言几许
2026-02-13 16:43:00
36.8万起!马自达官宣:新车正式上市

36.8万起!马自达官宣:新车正式上市

高科技爱好者
2026-02-15 23:02:23
90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

小徐讲八卦
2026-02-06 16:10:03
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
国家为什么要在当下这个节点提出共同富裕?

国家为什么要在当下这个节点提出共同富裕?

流苏晚晴
2026-01-28 18:25:23
这六类人将直接成为公务员,无需考试晋升还快!

这六类人将直接成为公务员,无需考试晋升还快!

深度报
2026-02-15 23:18:45
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
卓别林在晚宴上问周总理:可以送我一瓶茅台吗?总理回答令人感动

卓别林在晚宴上问周总理:可以送我一瓶茅台吗?总理回答令人感动

柳絮忆史
2026-01-02 07:15:03
国投白银LOF出台补偿方案 1000元以下损失全额补偿

国投白银LOF出台补偿方案 1000元以下损失全额补偿

金融界
2026-02-15 21:41:21
震惊!985大学也无法拯救的专业,毕业生面临失业!

震惊!985大学也无法拯救的专业,毕业生面临失业!

特约前排观众
2026-02-16 00:10:04
揭秘:为何中国宁愿向越南输电,也不向朝鲜输电?

揭秘:为何中国宁愿向越南输电,也不向朝鲜输电?

辉辉历史记
2025-11-24 21:16:46
Let's cook,克洛普的新造型被人吐槽像绝命毒师里的“老白”

Let's cook,克洛普的新造型被人吐槽像绝命毒师里的“老白”

懂球帝
2026-02-16 00:51:05
男子收到父亲消息说猫丢了,贴了重金悬赏却收到很多美女加微信…

男子收到父亲消息说猫丢了,贴了重金悬赏却收到很多美女加微信…

爱宠物
2026-02-14 22:03:51
绿色文旅:一路新,一路美(我的绿色低碳春节)

绿色文旅:一路新,一路美(我的绿色低碳春节)

金台资讯
2026-02-15 06:31:28
解放后中国冲锋枪为何被军队淘汰,去向何处?

解放后中国冲锋枪为何被军队淘汰,去向何处?

你是我心中最美星空
2026-02-15 22:35:43
2026-02-16 02:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

健康
手机
旅游
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

手机要闻

荣耀Magic V6真机现身,圆形Deco、红色机身

旅游要闻

开放机关事业单位床位给游客,“宠客”还要善始善终

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版