网易首页 > 网易号 > 正文 申请入驻

谢赛宁新作:VAE退役,RAE当立

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

昔日风光无限的VAE,终于被宣判“退役”?

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行



其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

这种新结构不仅能提供高质量重建结果,还具备语义丰富的潜空间,同时支持可扩展的基于变换器的架构。

该方法在无需额外表示对齐损失的情况下,实现了更快的收敛速度。通过采用配备轻量级宽型DDT头部的DiT变体,他们在ImageNet上取得强劲的图像生成效果:

  • 256×256分辨率下,无引导(no guidance)FID= 1.51;
  • 256×256和512×512分辨率下,有引导(with guidance)FID=1.13。



下面具体来看。

VAE退役,RAE当立

如今,Diffusion Transformer虽已取得长足发展,但多数模型仍依赖2021年的旧版SD-VAE构建潜空间。



这引发了几大核心问题:

1、过时的骨干网络,让架构过于复杂。SD-VAE约需450 GFLOPs运算量,而简易的ViT-B编码器仅需22 GFLOPs。

2、过度压缩的潜空间(只有4个通道),严重限制信息容量。常言道压缩催生智能,但此处不然:VAE式压缩收效甚微,其信息承载能力与原始3通道像素几乎无异。

3、薄弱的表征能力。仅依赖重建训练的模式使VAE学得的特征质量低下(线性探测精度约8%),最终拖慢收敛速度并损害生成质量。现有研究已表明:表征质量直接决定生成效果。而SD-VAE的设计初衷并未涵盖此目标。

谢赛宁曾以为语义编码器主要捕获高层次抽象表征而会舍弃细粒度视觉细节,但他现在意识到这个想法是错误的。



针对上述问题,研究团队采用预训练表征编码器(如基于标准化ViT架构的DINO、SigLIP和MAE)与训练好的解码器相结合,得到了RAE——

无需额外训练或对齐阶段,没有辅助损失函数,也不引入重新压缩的适配层。

只需获取预训练语义编码器,使用L1+LPIPS+GAN损失训练解码器即可。

尽管看起来架构如此简洁,但RAE在重建质量上却能超越SD-VAE。



有意思的是,谢赛宁还以为扩散模型在高维空间中很难高效去噪,但他承认自己又错了。



由于RAE的潜空间本质上是高维的,扩散Transformer确实需要一些适配,但只需三个非常简单的调整,它们的表现就能出乎意料地好。

1、宽DiT设计:要使扩散正常运作,变换器宽度d必须至少等于潜表征维度n。若不满足此条件,模型甚至无法过拟合单个样本。



2、噪声调度:依赖分辨率的噪声调度调整早已用于高分辨率图像生成。同理,调整噪声调度可使扩散模型平滑适应增加的输入通道维度。

3、噪声解码器:为提升解码器对潜空间微小扩散误差的鲁棒性,他们在解码器训练中注入微量噪声。这使解码器能优雅处理重建表征中的细微瑕疵。

凭借这些简单调整,团队训练的DiT-XL模型已超越REPA,且无需引入任何辅助损失或额外训练阶段。

采用RAE时,收敛速度比基于SD-VAE的REPA快达16倍。



事实表明,模型确实需要足够的宽度,但单纯依靠暴力扩展DiT宽度很快就会变得低效且不切实际。

为此,他们引入了一个简单而有效的技巧,以在RAE框架内提升DiT的可扩展性。这个思路虽与解耦扩散训练(DDT)存在松散关联,但他们的出发点截然不同。

在新架构中,原始DiT作为条件化骨干网络,驱动一个极宽但极浅的扩散头部。该头部以含噪潜变量x_t为输入,直接预测速度向量。



借助RAE潜变量,DiTDH在训练计算量和模型大小方面的扩展效率,均优于基于RAE的标准DiT以及基于VAE的传统方法。



论文链接:https://t.co/FGOAP3Eg5m
参考链接:https://x.com/sainingxie/status/1977936742763094289

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

夜深爱杂谈
2026-03-26 20:09:32
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

蓝鲸新闻
2026-03-26 16:18:08
痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

魔都姐姐杂谈
2026-03-26 20:54:38
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

阅尽天下大事
2026-03-26 13:16:28
学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

医学科普汇
2026-03-26 19:55:03
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

新京报
2026-03-25 21:29:45
2026-03-26 22:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
教育
公开课
军事航空

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

骂人没有杀伤力?那不是白忙活吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版