网易首页 > 网易号 > 正文 申请入驻

VAE再被补刀!清华快手新模型,训练提效6200%,生成提速3500%

0
分享至

  • 闻乐 发自 凹非寺
  • 量子位 | 公众号 QbitAI

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。



VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。



下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;
  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。



具体来看,SVG选择以DINOv3预训练模型作为语义提取器。

原因是DINOv3经过大规模自监督学习,能够精准捕捉图像的高层语义信息,让猫、狗、汽车等不同类别的特征边界能够清晰可辨,从根源上解决了语义纠缠问题。

但团队也发现,DINOv3提取的特征偏重于宏观语义,会丢失颜色、纹理等高频细节,因此又专门设计了一个轻量级的残差编码器来进行细节补充,针对性地学习这些被忽略的细节信息。

而为了让「语义」和「细节补充」能够完美融合,SVG还加入了关键的分布对齐机制

这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。

实验数据也印证了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标,数值越低越优)从6.12升至9.03,生成质量大幅下滑。



实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。

训练效率方面,在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。



推理效率方面,消融实验中,5步采样时,SVG-XL的gFID为12.26,而SiT-XL(SD-VAE)为69.38、SiT-XL(VA-VAE)为74.46。这表明在较少的采样步数下,SVG-XL就能达到较好的生成质量。



不仅是生图,SVG的特征空间继承了DINOv3的能力,可直接用于图像分类、语义分割、深度估计等任务,且无需微调编码器。例如,在ImageNet-1K分类任务中Top-1精度达到81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型。



团队介绍

团队由郑文钊担任项目负责人,目前是加州大学伯克利分校博士后。此前,他在清华大学自动化系获博士学位,研究集中在人工智能和深度学习领域。

同样来自清华自动化系的史明磊和王皓霖目前均在攻读博士学位,研究重点为多模态生成模型。

其中,史明磊透露自己还在创办一家专注于人工智能应用的公司。

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan则来自快手可灵团队。

其中,Pengfei Wan是快手可灵视频生成模型负责人。

从谢赛宁团队的RAE到清华快手的SVG,尽管技术路线各有侧重,但从两者的突破可以看出,预训练视觉模型的特征空间,或许已经具备了替代VAE的能力。

论文地址:https://arxiv.org/abs/2510.15301
代码地址:https://github.com/shiml20/SVG

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连中国都嫌弃!东南亚无一国可接纳,这个族群被称为“国际孤儿”

连中国都嫌弃!东南亚无一国可接纳,这个族群被称为“国际孤儿”

嘴角上翘的弧度
2026-04-09 22:35:30
重回世界第一!石宇奇两局击退奈良冈功大,锁定亚锦赛四强席位

重回世界第一!石宇奇两局击退奈良冈功大,锁定亚锦赛四强席位

全景体育V
2026-04-10 16:36:28
人类赤裸裸的真相:我们为什么全身几乎没有体毛,却保留了头发?

人类赤裸裸的真相:我们为什么全身几乎没有体毛,却保留了头发?

探源历史
2026-04-08 08:22:22
官宣!全国多城永久取消停车费:路边+机关车位全免费,民之所向

官宣!全国多城永久取消停车费:路边+机关车位全免费,民之所向

音乐时光的娱乐
2026-04-11 07:01:42
戴森,造了个丑东西...

戴森,造了个丑东西...

放毒
2026-04-09 14:01:34
劝告邱毅:不要在错误的道路越走越远

劝告邱毅:不要在错误的道路越走越远

论事的老枢
2026-03-31 14:45:09
稳定币牌照公布,牛市旗手闻声大涨,券商股还有哪些利好?

稳定币牌照公布,牛市旗手闻声大涨,券商股还有哪些利好?

财联社
2026-04-10 18:24:07
奔驰一季度全球销量下滑6%,在华跌27%至11万辆

奔驰一季度全球销量下滑6%,在华跌27%至11万辆

澎湃新闻
2026-04-10 07:38:32
高市越赌越大,30国代表将至,日本干涉俄乌,人民日报提两个必须

高市越赌越大,30国代表将至,日本干涉俄乌,人民日报提两个必须

奥字侃剧
2026-04-11 06:43:12
努诺:保级?大胜并不会改变什么,我们仍然面临艰难的局面

努诺:保级?大胜并不会改变什么,我们仍然面临艰难的局面

懂球帝
2026-04-11 07:14:03
已婚女子与网球教练家中私会,丈夫当场捅杀,主角身份和照片被扒

已婚女子与网球教练家中私会,丈夫当场捅杀,主角身份和照片被扒

温柔看世界
2026-04-10 14:56:50
霍尔木兹海峡,大消息!特朗普突发威胁!伊朗发声!原油、黄金跳水

霍尔木兹海峡,大消息!特朗普突发威胁!伊朗发声!原油、黄金跳水

证券时报e公司
2026-04-11 07:56:12
美伊“生死谈判”即将上演!14天停火能否挺过这个周末?

美伊“生死谈判”即将上演!14天停火能否挺过这个周末?

金十数据
2026-04-10 21:52:14
“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

皓皓情感说
2026-04-10 22:54:59
“张雪是初中生,我是清华博士”:我们相互成就,学历代表不了啥

“张雪是初中生,我是清华博士”:我们相互成就,学历代表不了啥

江山挥笔
2026-04-10 09:35:30
《浪姐7》一公太离谱!孙怡痛哭,阚清子获胜,赵子琪被淘汰

《浪姐7》一公太离谱!孙怡痛哭,阚清子获胜,赵子琪被淘汰

小丸子的娱乐圈
2026-04-11 05:30:03
历经219天,97岁的唐奶奶说,我都舍不得死了

历经219天,97岁的唐奶奶说,我都舍不得死了

极目新闻
2026-04-10 21:07:59
随着阿尔卡拉斯2-0,辛纳2-0,ATP1000蒙特卡洛大师赛4强对阵出炉

随着阿尔卡拉斯2-0,辛纳2-0,ATP1000蒙特卡洛大师赛4强对阵出炉

凌空倒钩
2026-04-11 07:07:30
吴尊带 15 岁闺女拍杂志,遭网友吐槽:膈应人!父女俩颜值超高

吴尊带 15 岁闺女拍杂志,遭网友吐槽:膈应人!父女俩颜值超高

情感大头说说
2026-04-10 07:32:46
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

掠影后有感
2026-04-01 20:26:07
2026-04-11 08:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12455文章数 176449关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
健康
亲子
家居
教育

艺术要闻

曾熙『仿思翁山水册』

干细胞抗衰4大误区,90%的人都中招

亲子要闻

时间会融化所有尖锐,只剩平静

家居要闻

复古风格 自然简约

教育要闻

一年级压轴题,全班都不会

无障碍浏览 进入关怀版