网易首页 > 网易号 > 正文 申请入驻

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

0
分享至

文章转载于新智元

扩散模型如何突破瓶颈?成本高又难训练的DiT/SiT模型如何提升效率?

对于这个问题,纽约大学谢赛宁团队最近发表的一篇论文找到了一个全新的切入点:提升表征(representation)的质量。

论文的核心或许就可以用一句话概括:「表征很重要!」

用谢赛宁的话来说,即使只是想让生成模型重建出好看的图像,仍然需要先学习强大的表征,然后再去渲染高频的、使图像看起来更美观的细节。

这个观点,Yann LeCun之前也多次强调过。

有网友还在线帮谢赛宁想标题:你这篇论文不如就叫「Representation is all you need」(手动狗头)

由于观点一致,这篇研究也获得了同在纽约大学的Yann LeCun的转发。

当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这篇来自纽约大学谢赛宁团队的论文表明,即使只对生成像素感兴趣(例如,使用扩散Transformer生成漂亮的图片),包含特征预测损失也是值得的,以便解码器的内部表示可以基于预训练的视觉编码器(例如 DINOv2)进行特征预测。

REPA的核心思想非常简单,就是让扩散模型中的表征与外部更强大的视觉表征进行对齐,但提升效果非常显著,颇有「他山之石,可以攻玉」的意味。

仅仅是在损失函数添加一项相似度最大化,就能将SiT/DiT的训练速度提升将近18倍,还刷新了模型的SOTA性能,在ImageNet 256x256上实现了最先进的FID=1.42。

谢赛宁表示,刚看到实验结果时,他自己也被震惊到了,因为感觉并没有发明什么全新的东西,而只是意识到了,我们几乎完全不理解扩散模型和SSL方法学习到的表示。

1

论文简介

论文地址:https://arxiv.org/abs/2410.06940

项目地址:https://sihyun.me/REPA/

在生成高维的视觉数据方面,基于去噪方法(如扩散模型)或基于流的生成模型,已经成为了一种可扩展的途径,并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。

最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目前仍落后于自监督学习方法,例如DINOv2。

作者认为,训练大规模扩散模型的一个主要瓶颈,就在于无法有效学习到高质量的内部表示。

如果能够结合高质量的外部视觉表示,而不是仅仅依靠扩散模型来独立学习,就可以使训练过程变得更容易。

为了实现这一点,论文基于经典的扩散Transformer架构,引入了一种简单的正则化方法REPA(REPresentation Alignment)。

简单来说,就是将去噪网络中从噪声输入 得到的隐藏状态的投影,与外部自监督预训练的视觉编码器从干净图像获得的视觉表示*进行对齐。

这样一个非常直给的策略,却获得了惊人的结果:应用于流行的SiT或DiT时,模型的训练效率和生成质量都得到了显著提高。

具体来说,REPA可以将SiT的训练速度加快17.5×以上,以不到40万步的训练量匹配有700万步训练的SiT-XL模型的性能,同时实现了FID=1.42的SOTA结果。

1

REPA:使用表征对齐的正则化

统一视角的扩散模型+流模型

由于论文希望同时优化基于流的模型SiT和基于去噪的扩散模型DiT,因此首先从统一的随机插值视角,对这两种模型进行简要的回顾。

考虑在t∈[0,T]的连续时间步中,对数据*~p()使用高斯分布ε~(0,)添加随机噪音:

其中,αt和σt分别表示t的递减和递增函数。在公式(1)给定的过程中,存在一个带有速度场(velocity field)的概率流常微分方程:

其中t步时的分布就等于边际概率pt()。

速度(,t)可以表示为如下两个条件期望之和:

这个值可以通过最小化如下训练目标得到近似值θ(,t):

同时,还存在一个反向的随机微分方程(SDE),带有扩散系数wt,其中的边际概率pt()与公式(2)相符:

其中,(t,t)是一个条件期望值,定义为:

对任意t>0,都可以通过速度(,t)计算出(,t)的值:

这表明,数据t也可以通过求解公式(5)的SDE来以另一种方式生成。

以上定义对类似的扩散模型变体,例如DDPM,同样适用,只是需要将连续的时间步离散化。

方法概述

令p()为数据∈的未知目标分布,我们的训练目标就是通过模型对数据的学习得到p()的近似。

为了降低计算成本,最近流行的「潜在扩散」方法(latent diffusion)提出学习潜在变量=E()的分布p(),其中E表示来自预训练自编码器(例如KL-VAE)中的编码部分。

要学习到分布p(),就需要训练扩散模型θ(t,t),训练目标是进行速度预测,具体方法如上一节所述。

放在自监督表示学习的背景中,可以将扩散模型看成编码器fθ:⭢和解码器gθ:⭢的组合,其中编码器负责隐式地学习到表示t以重建目标t。

然而,作者提出,用于生成的大型扩散模型并不擅长表征学习,因此REPA引入了外部的语义丰富的表示,从而显著提升生成性能。

模型观察

扩散模型是否真的不擅长表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。

语义差距

从图2a可知,预训练SiT的隐藏层表示在第20层达到最佳状态,这与之前的研究结果相符,但仍远远落后于DINOv2。

特征对齐

如图2b和2c所示,使用CKNNA值测量SiT和DINOv2之间的表征对齐程度后发现,SiT的对齐效果会随着模型增大和训练迭代步数增加而逐渐改善,但即使增加到7M次迭代,和DINOv2之间的对齐程度仍然不足。

事实上,这种差距不仅在SiT中存在,根据附录C.2的实验结果,DiT等其他基于去噪的生成式Transformer模型也存在类似的问题。

缩小表征差距

那么,REPA方法究竟如何缩小这种表征差距,让diffusion transformer在噪声输入中也能学到有用的语义特征?

定义N,D分别表示patch数量预训练编码器f的嵌入维度,编码器输入为无噪声的图像*,输出为*=f(*)∈ℝN×D。

Diffusion transformer将编码器输出t=fθ(t)通过一个可训练的投影头hφ(MLP)投影为hφ(t)∈ℝN×D。

之后,REPA负责将hφ(t)与*进行对齐,通过最大化两者间的patch间相似度:

在实际实现中,将这一项添加到公式(4)定义的基于扩散的训练目标中,就得到总体的训练目标:

其中超参数λ>0用于控制模型在去噪目标和表征对齐间的权衡。

从图3结果可知,REPA减少了表示中的语义差距。

有趣的是,使用REPA后,仅对齐前几个Transformer块就能实现足够程度的表示对齐,从而让diffusion transformer的靠后层专注于捕获高频细节,从而进一步提高生成性能。

1

实验结果

为了验证REPA方法的有效性,实验在两种流行的扩散模型训练目标(即velocity)上进行了实验,包括DiT中改进后的DDPM和SiT中的线性随机插值,但实际中也同样可以考虑其他的训练目标。

所用模型默认严格遵循SiT和DiT的原始结构(除非有特别说明),包括B/2、L/2、XL/2三种参数设置,如表1所示。

以下实验旨在回答3个问题:

- REPA能否显著提升diffusion transformer的训练?

- REPA在模型规模和表征质量方面是否具有可扩展性?

- 扩散模型的表征能否和多种视觉表征进行对齐?

REPA提升视觉缩放

首先比较两个SiT-XL/2模型在前400K次迭代期间生成的图像,它们共享相同的噪声、采样器和采样步数,但其中使用REPA训练的模型显示出更好的进展。

REPA在各个方面都展现出了强大的可扩展性

研究人员还改变了预训练编码器和Diffusion Transformer的模型大小来检验REPA的可扩展性。

图5a结果表明,与更好的视觉表示相结合可以改善生成效果和线性探测的结果。

此外,如图5b和c所示,增加模型大小可以在生成和线性评估方面带来更快的收益,也就是说,模型规模越大,REPA的加速效果越明显,表现出了强大的可扩展性。

REPA显著提高训练效率和生成质量

最后,论文比较了普通DiT或SiT模型在训练中使用REPA前后的FID值。

在没有指导的情况下,REPA在400K次迭代时实现了FID=7.9,优于普通模型在7M次迭代后的性能。

此外,使用无分类器引导时,带有REPA的SiT-XL/2的性能优于SOTA性能(FID=1.42),同时迭代次数减少了7倍。

1

作者介绍

Sihyun Yu

本文一作Sihyun Yu是KAIST(韩国科学技术院)人工智能专业最后一年的博士生,此前他同样在KAIST获得了数学和计算机科学的双专业学士学位。

他的研究主要集中在减少大型生成模型训练(和采样)的内存和计算负担,其中,对大规模且高效的视频生成特别感兴趣;博士期间,他还曾在英伟达和谷歌研究院担任实习生。

参考资料:

https://x.com/sainingxie/statdus/1845510163152687242

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“让整个文明在今晚灭绝!”特朗普模仿尼克松“发疯策略”,为何不灵了?

“让整个文明在今晚灭绝!”特朗普模仿尼克松“发疯策略”,为何不灵了?

红星新闻
2026-04-10 16:02:14
儿科专家林晓洁:多煮这碗“长高汤”,孩子少生病、个子往上蹿!

儿科专家林晓洁:多煮这碗“长高汤”,孩子少生病、个子往上蹿!

大明爱养生
2026-04-08 14:36:52
暴增2285%!商业航天+卫星通信+火箭回收,锁定下一个航发神话?

暴增2285%!商业航天+卫星通信+火箭回收,锁定下一个航发神话?

Thurman在昆明
2026-04-10 03:51:13
负电价席卷欧洲,德国创下-2585元/兆瓦时最低记录

负电价席卷欧洲,德国创下-2585元/兆瓦时最低记录

环球零碳
2026-04-09 20:00:45
张雪这老板真会玩!庆功宴直接在食堂和投资人开整

张雪这老板真会玩!庆功宴直接在食堂和投资人开整

阿废冷眼观察所
2026-04-10 12:03:29
Claude Opus 4.6差评如潮!思考深度暴跌67%,AMD总监6852次日志打脸

Claude Opus 4.6差评如潮!思考深度暴跌67%,AMD总监6852次日志打脸

新智元
2026-04-09 19:19:58
连丢两局止步!梁王组合输掉国羽内战,无缘亚锦赛男双四强

连丢两局止步!梁王组合输掉国羽内战,无缘亚锦赛男双四强

全景体育V
2026-04-10 18:31:54
央视《西游记》重拍!王一博出演唐僧?孙悟空全国寻找戏曲演员

央视《西游记》重拍!王一博出演唐僧?孙悟空全国寻找戏曲演员

枫尘余往逝
2026-04-08 09:01:14
5年来首派商务代表团,印度羞答答走向对华解冻之路 | 京酿馆

5年来首派商务代表团,印度羞答答走向对华解冻之路 | 京酿馆

新京报评论
2026-04-10 12:26:41
高圆圆的脚是我见过最漂亮的脚丫子。

高圆圆的脚是我见过最漂亮的脚丫子。

别人都叫我阿螫
2026-04-09 17:29:15
黎以华盛顿和谈在即!内塔尼亚胡:目标是让黎巴嫩真主党解除武装

黎以华盛顿和谈在即!内塔尼亚胡:目标是让黎巴嫩真主党解除武装

小武侃风云
2026-04-10 19:37:48
不止打伊朗!美以发动斩首行动同时,对中国电网下手,动作曝光

不止打伊朗!美以发动斩首行动同时,对中国电网下手,动作曝光

心灵得以滋养
2026-04-09 18:36:32
刚做了8个菜,公公全打包给小姑子,我抢过来全倒了,他愣住了

刚做了8个菜,公公全打包给小姑子,我抢过来全倒了,他愣住了

热心市民小黄
2026-04-10 16:23:19
西部第3至5的排名 还有很大变动可能性 火箭首轮打掘金的概率不小

西部第3至5的排名 还有很大变动可能性 火箭首轮打掘金的概率不小

大话火箭队
2026-04-10 14:45:04
郑丽文抵达北京,见到了想见的人,她想要的,大陆给的很爽快

郑丽文抵达北京,见到了想见的人,她想要的,大陆给的很爽快

林子说事
2026-04-10 17:59:27
以军在教室开枪,打死正在上课的9岁加沙女孩

以军在教室开枪,打死正在上课的9岁加沙女孩

潇湘晨报
2026-04-10 14:59:14
中国乒协主席王励勤曾言:从我本人角度,非常希望樊振东为国征战

中国乒协主席王励勤曾言:从我本人角度,非常希望樊振东为国征战

鲸鲱鱼体坛
2026-04-09 22:32:05
ST股涨跌幅放宽至10%!

ST股涨跌幅放宽至10%!

观察者网
2026-04-10 19:15:23
老妪的“妪”怎么读?不读òu,也不读yú或qū ,90%的人都读错了

老妪的“妪”怎么读?不读òu,也不读yú或qū ,90%的人都读错了

未央看点
2026-04-05 15:48:09
“枭龙”战机高光时刻!巴空军进入伊朗领空,正式为伊朗战斗护航

“枭龙”战机高光时刻!巴空军进入伊朗领空,正式为伊朗战斗护航

负面黑洞
2026-04-10 14:35:20
2026-04-10 20:04:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2997文章数 10481关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
亲子
数码
本地
公开课

艺术要闻

于小冬2026年4月油画新作《花季》

亲子要闻

产后修复顺序分五个阶段,每个生娃的妈妈都走过,你也不例外

数码要闻

选择虚空还是圣光?微星RTX 5070魔兽世界至暗之夜联名显卡评测:设计精致性能强劲 陪你继续征战艾泽拉斯

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版