网易首页 > 网易号 > 正文 申请入驻

VAE再被补刀!清华快手新模型,训练提效6200%,生成提速3500%

0
分享至

  • 闻乐 发自 凹非寺
  • 量子位 | 公众号 QbitAI

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。



VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。



下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;
  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。



具体来看,SVG选择以DINOv3预训练模型作为语义提取器。

原因是DINOv3经过大规模自监督学习,能够精准捕捉图像的高层语义信息,让猫、狗、汽车等不同类别的特征边界能够清晰可辨,从根源上解决了语义纠缠问题。

但团队也发现,DINOv3提取的特征偏重于宏观语义,会丢失颜色、纹理等高频细节,因此又专门设计了一个轻量级的残差编码器来进行细节补充,针对性地学习这些被忽略的细节信息。

而为了让「语义」和「细节补充」能够完美融合,SVG还加入了关键的分布对齐机制

这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。

实验数据也印证了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标,数值越低越优)从6.12升至9.03,生成质量大幅下滑。



实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。

训练效率方面,在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。



推理效率方面,消融实验中,5步采样时,SVG-XL的gFID为12.26,而SiT-XL(SD-VAE)为69.38、SiT-XL(VA-VAE)为74.46。这表明在较少的采样步数下,SVG-XL就能达到较好的生成质量。



不仅是生图,SVG的特征空间继承了DINOv3的能力,可直接用于图像分类、语义分割、深度估计等任务,且无需微调编码器。例如,在ImageNet-1K分类任务中Top-1精度达到81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型。



团队介绍

团队由郑文钊担任项目负责人,目前是加州大学伯克利分校博士后。此前,他在清华大学自动化系获博士学位,研究集中在人工智能和深度学习领域。

同样来自清华自动化系的史明磊和王皓霖目前均在攻读博士学位,研究重点为多模态生成模型。

其中,史明磊透露自己还在创办一家专注于人工智能应用的公司。

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan则来自快手可灵团队。

其中,Pengfei Wan是快手可灵视频生成模型负责人。

从谢赛宁团队的RAE到清华快手的SVG,尽管技术路线各有侧重,但从两者的突破可以看出,预训练视觉模型的特征空间,或许已经具备了替代VAE的能力。

论文地址:https://arxiv.org/abs/2510.15301
代码地址:https://github.com/shiml20/SVG

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

顾史
2025-11-08 18:34:04
巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

花花娱界
2025-11-07 20:53:23
阿卡独揽518万为恋爱绯闻画上句号,紫薇不想和辛纳同组遭趣评

阿卡独揽518万为恋爱绯闻画上句号,紫薇不想和辛纳同组遭趣评

网球之家
2025-11-10 22:34:21
龙头 | 锂电池原材料最核心的 10 家上市公司

龙头 | 锂电池原材料最核心的 10 家上市公司

飞跑的鹿
2025-11-10 21:27:26
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

诗意世界
2025-11-07 10:23:31
美国大豆又被中国查出问题?这回不是找茬,是抓住美国痛脚!

美国大豆又被中国查出问题?这回不是找茬,是抓住美国痛脚!

李博世财经
2025-11-10 10:26:55
五角大楼彻底懵了!大陆不动一兵一卒,竟让日本自卫队军官零距离参观解放军军营

五角大楼彻底懵了!大陆不动一兵一卒,竟让日本自卫队军官零距离参观解放军军营

健身狂人
2025-11-08 06:03:18
湘江惨败后,毛主席在担架上幡然醒悟,一个'世界巨人'从此苏醒

湘江惨败后,毛主席在担架上幡然醒悟,一个'世界巨人'从此苏醒

何氽简史
2025-11-10 12:31:58
郭晶晶开幕式举火炬,小叔子霍启山疯狂鼓掌,霍震霆一家来了五口

郭晶晶开幕式举火炬,小叔子霍启山疯狂鼓掌,霍震霆一家来了五口

疯说时尚
2025-11-10 14:02:11
“死神”嘲讽鸽武缘:太可怕!能把人脑浆扇出来,国内禁止他比赛

“死神”嘲讽鸽武缘:太可怕!能把人脑浆扇出来,国内禁止他比赛

念洲
2025-11-09 10:31:07
飞行7600公里 梅西时隔4年重回诺坎普 深情凝望:愿再归来

飞行7600公里 梅西时隔4年重回诺坎普 深情凝望:愿再归来

叶青足球世界
2025-11-10 19:35:18
副院长祖雄兵塌房后,原配护士长彭某某靠3个细节,赢得全网怒赞

副院长祖雄兵塌房后,原配护士长彭某某靠3个细节,赢得全网怒赞

热风追逐者
2025-11-10 04:45:03
六氟翻倍引爆唯一原料:磷矿!未来缺口 2000 万吨!机构 15 亿抢先卡位!

六氟翻倍引爆唯一原料:磷矿!未来缺口 2000 万吨!机构 15 亿抢先卡位!

娱乐八卦木木子
2025-11-10 04:24:22
知名网红夫妻,已被正式逮捕!

知名网红夫妻,已被正式逮捕!

财经三分钟pro
2025-11-09 17:14:40
银行App迎来关停潮

银行App迎来关停潮

澎湃新闻
2025-11-10 16:54:07
红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

今日养生之道
2025-11-08 15:13:35
16GB+1TB!新机官宣:11月14日,正式全新开售!

16GB+1TB!新机官宣:11月14日,正式全新开售!

Q科技基地
2025-11-08 12:05:11
以总理称将以强硬手段执行加沙和以黎停火协议

以总理称将以强硬手段执行加沙和以黎停火协议

财联社
2025-11-11 01:48:02
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
2025-11-11 03:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11650文章数 176329关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

家居
健康
本地
房产
数码

家居要闻

四方食事 不过人间烟火

超声探头会加重受伤情况吗?

本地新闻

这届干饭人,已经把博物馆吃成了食堂

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

数码要闻

苹果服务主管Eddy Cue:Apple TV暂不会推出“带广告的订阅服务”

无障碍浏览 进入关怀版