网易首页 > 网易号 > 正文 申请入驻

谢赛宁新作:VAE退役,RAE当立

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

昔日风光无限的VAE,终于被宣判“退役”?

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行



其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

这种新结构不仅能提供高质量重建结果,还具备语义丰富的潜空间,同时支持可扩展的基于变换器的架构。

该方法在无需额外表示对齐损失的情况下,实现了更快的收敛速度。通过采用配备轻量级宽型DDT头部的DiT变体,他们在ImageNet上取得强劲的图像生成效果:

  • 256×256分辨率下,无引导(no guidance)FID= 1.51;
  • 256×256和512×512分辨率下,有引导(with guidance)FID=1.13。



下面具体来看。

VAE退役,RAE当立

如今,Diffusion Transformer虽已取得长足发展,但多数模型仍依赖2021年的旧版SD-VAE构建潜空间。



这引发了几大核心问题:

1、过时的骨干网络,让架构过于复杂。SD-VAE约需450 GFLOPs运算量,而简易的ViT-B编码器仅需22 GFLOPs。

2、过度压缩的潜空间(只有4个通道),严重限制信息容量。常言道压缩催生智能,但此处不然:VAE式压缩收效甚微,其信息承载能力与原始3通道像素几乎无异。

3、薄弱的表征能力。仅依赖重建训练的模式使VAE学得的特征质量低下(线性探测精度约8%),最终拖慢收敛速度并损害生成质量。现有研究已表明:表征质量直接决定生成效果。而SD-VAE的设计初衷并未涵盖此目标。

谢赛宁曾以为语义编码器主要捕获高层次抽象表征而会舍弃细粒度视觉细节,但他现在意识到这个想法是错误的。



针对上述问题,研究团队采用预训练表征编码器(如基于标准化ViT架构的DINO、SigLIP和MAE)与训练好的解码器相结合,得到了RAE——

无需额外训练或对齐阶段,没有辅助损失函数,也不引入重新压缩的适配层。

只需获取预训练语义编码器,使用L1+LPIPS+GAN损失训练解码器即可。

尽管看起来架构如此简洁,但RAE在重建质量上却能超越SD-VAE。



有意思的是,谢赛宁还以为扩散模型在高维空间中很难高效去噪,但他承认自己又错了。



由于RAE的潜空间本质上是高维的,扩散Transformer确实需要一些适配,但只需三个非常简单的调整,它们的表现就能出乎意料地好。

1、宽DiT设计:要使扩散正常运作,变换器宽度d必须至少等于潜表征维度n。若不满足此条件,模型甚至无法过拟合单个样本。



2、噪声调度:依赖分辨率的噪声调度调整早已用于高分辨率图像生成。同理,调整噪声调度可使扩散模型平滑适应增加的输入通道维度。

3、噪声解码器:为提升解码器对潜空间微小扩散误差的鲁棒性,他们在解码器训练中注入微量噪声。这使解码器能优雅处理重建表征中的细微瑕疵。

凭借这些简单调整,团队训练的DiT-XL模型已超越REPA,且无需引入任何辅助损失或额外训练阶段。

采用RAE时,收敛速度比基于SD-VAE的REPA快达16倍。



事实表明,模型确实需要足够的宽度,但单纯依靠暴力扩展DiT宽度很快就会变得低效且不切实际。

为此,他们引入了一个简单而有效的技巧,以在RAE框架内提升DiT的可扩展性。这个思路虽与解耦扩散训练(DDT)存在松散关联,但他们的出发点截然不同。

在新架构中,原始DiT作为条件化骨干网络,驱动一个极宽但极浅的扩散头部。该头部以含噪潜变量x_t为输入,直接预测速度向量。



借助RAE潜变量,DiTDH在训练计算量和模型大小方面的扩展效率,均优于基于RAE的标准DiT以及基于VAE的传统方法。



论文链接:https://t.co/FGOAP3Eg5m
参考链接:https://x.com/sainingxie/status/1977936742763094289

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

小乔古装汉服
2025-11-13 18:17:03
警惕!山西流感H3N2毒株流行 学生为主要高发人群

警惕!山西流感H3N2毒株流行 学生为主要高发人群

极目新闻
2025-11-15 11:22:33
谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

林子说事
2025-11-14 14:10:13
女单半决赛时间冲突,CCTV5不播陈梦对鳗鱼,节目单调整

女单半决赛时间冲突,CCTV5不播陈梦对鳗鱼,节目单调整

阅尽天下精彩
2025-11-15 10:31:18
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
就在今天!樊振东4-2王楚钦,创造全运会史无前例66年纪录,奇迹

就在今天!樊振东4-2王楚钦,创造全运会史无前例66年纪录,奇迹

侃球熊弟
2025-11-15 13:58:24
不要玩火!中国严重警告日本首相作死言论!日本网友:她惹14亿人干啥?!

不要玩火!中国严重警告日本首相作死言论!日本网友:她惹14亿人干啥?!

英国报姐
2025-11-14 20:36:59
官方公布小米汽车最新奖项:获得2025最佳结构奖

官方公布小米汽车最新奖项:获得2025最佳结构奖

手机中国
2025-11-13 10:46:03
U17世界杯16强已定8席:阿根廷爆冷出局 门将3扑点助十人巴西逆转

U17世界杯16强已定8席:阿根廷爆冷出局 门将3扑点助十人巴西逆转

我爱英超
2025-11-15 06:30:12
高市早苗彻底栽了:日本去G7告中国的状,G7的反应令人感到很意外

高市早苗彻底栽了:日本去G7告中国的状,G7的反应令人感到很意外

娱乐的宅急便
2025-11-14 11:28:22
晋江回应星落凝成糖作者求救,家属:遭遇 “杀猪盘”式精神控制

晋江回应星落凝成糖作者求救,家属:遭遇 “杀猪盘”式精神控制

韩小娱
2025-11-15 10:48:05
湖南人民医院事件新消息,祖某找借口缺席会议,院方回复遮遮掩掩

湖南人民医院事件新消息,祖某找借口缺席会议,院方回复遮遮掩掩

平老师666
2025-11-15 11:30:22
一旦出了难解决的问题,社会就鼓励娱乐和体育,轻浮令人吃惊

一旦出了难解决的问题,社会就鼓励娱乐和体育,轻浮令人吃惊

尚曦读史
2025-11-15 06:57:07
哈登力挽狂澜,鏖战51分钟,拿下40+三双,终获胜利

哈登力挽狂澜,鏖战51分钟,拿下40+三双,终获胜利

距离距离
2025-11-15 13:36:21
2战合砍91分!库里狂砍49+4+2,双杀马刺!一战他创两大历史记录

2战合砍91分!库里狂砍49+4+2,双杀马刺!一战他创两大历史记录

毒舌NBA
2025-11-15 13:34:26
美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

健身狂人
2025-10-27 01:01:13
朱德去世后,中央费尽周折在攀枝花找到一名老妇,帮他完成遗愿

朱德去世后,中央费尽周折在攀枝花找到一名老妇,帮他完成遗愿

丞丞故事汇
2025-11-02 13:43:12
厦门海上世界两大项目双双停摆 “潮汐之眼”和海洋王国为何都关了?

厦门海上世界两大项目双双停摆 “潮汐之眼”和海洋王国为何都关了?

海峡导报大生活
2025-11-15 12:50:24
酸菜再次被关注!医生发现:糖尿病患者常吃酸菜,或出现5种变化

酸菜再次被关注!医生发现:糖尿病患者常吃酸菜,或出现5种变化

今日养生之道
2025-11-15 11:21:46
央视对全红婵的称呼变了!两字之差看出差距,陈芋汐的话有人信了

央视对全红婵的称呼变了!两字之差看出差距,陈芋汐的话有人信了

泠泠说史
2025-11-12 17:24:02
2025-11-15 14:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

杭州路边锁着一只神秘行李箱长达半年 共有三道密码锁

头条要闻

杭州路边锁着一只神秘行李箱长达半年 共有三道密码锁

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

数码
教育
旅游
公开课
军事航空

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

教育要闻

作文《做过最勇敢的一件事》火了,无视考试底线,老师却给了满分

旅游要闻

“多点真诚,少点套路”,丽宁十八弯旁的两个观景台让人心生感慨

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版