网易首页 > 网易号 > 正文 申请入驻

何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍

0
分享至

机器之心报道

编辑:Panda

在建模复杂的数据分布方面,扩散生成模型表现出色,不过它的成果大体上与表征学习(representation learning)领域关联不大。

通常来说,扩散模型的训练目标包含一个专注于重构(例如去噪)的回归项,但缺乏为生成学习到的表征的显式正则化项。这种图像生成范式与图像识别范式差异明显 —— 过去十年来,图像识别领域的核心主题和驱动力一直是表征学习。

在表征学习领域,自监督学习常被用于学习适用于各种下游任务的通用表征。在这些方法中,对比学习提供了一个概念简单但有效的框架,可从样本对中学习表征。

直观地讲,这些方法会鼓励相似的样本对(正例对)之间相互吸引,而相异的样本对(负例对)之间相互排斥。研究已经证明,通过对比学习进行表征学习,可以有效地解决多种识别任务,包括分类、检测和分割。然而,还没有人探索过这些学习范式在生成模型中的有效性。

鉴于表征学习在生成模型中的潜力,谢赛宁团队提出了表征对齐 (REPA)。该方法可以利用预训练得到的现成表征模型的能力。在训练生成模型的同时,该方法会鼓励其内部表征与外部预训练表征之间对齐。有关 REPA 的更多介绍可阅读我们之前的报道《扩散模型训练方法一直错了!谢赛宁:Representation matters》。

REPA 这项开创性的成果揭示了表征学习在生成模型中的重要性;然而,它的已有实例依赖于额外的预训练、额外的模型参数以及对外部数据的访问。

简而言之,REPA 比较麻烦,要真正让基于表征的生成模型实用,必需一种独立且极简的方法。

这一次,MIT 本科生 Runqian Wang 与超 70 万引用的何恺明出手了。他们共同提出了Dispersive Loss,可译为「分散损失」。这是一种灵活且通用的即插即用正则化器,可将自监督学习集成到基于扩散的生成模型中。

  • 论文标题:Diffuse and Disperse: Image Generation with Representation Regularization
  • 论文链接:https://arxiv.org/abs/2506.09027v1

分散损失的核心思想其实很简单:除了模型输出的标准回归损失之外,再引入了一个用于正则化模型的内部表征的目标(图 1)。

直觉上看,分散损失会鼓励内部表征在隐藏空间中散开,类似于对比学习中的排斥效应。同时,原始的回归损失(去噪)则自然地充当了对齐机制,从而无需像对比学习那样手动定义正例对。

一言以蔽之:分散损失的行为类似于「没有正例对的对比损失」

因此,与对比学习不同,它既不需要双视图采样、专门的数据增强,也不需要额外的编码器。训练流程完全可以遵循基于扩散的模型(及基于流的对应模型)中使用的标准做法,唯一的区别在于增加了一个开销可忽略不计的正则化损失。

与 REPA 机制相比,这种新方法无需预训练、无需额外的模型参数,也无需外部数据。凭借其独立且极简的设计,该方法清晰地证明:表征学习无需依赖外部信息源也可助益生成式建模。

带点数学的方法详解

分散损失

新方法的核心是通过鼓励生成模型的内部表征在隐藏空间中的分散来对其进行正则化。这里,将基于扩散的模型中的原始回归损失称为扩散损失(diffusion loss),将新引入的正则化项称为分散损失(Dispersive Loss)

如果令 X = {x_i} 为有噪声图像 x_i 构成的一批数据,则该数据批次的目标函数为:

等式 (6) 中定义的基于 InfoNCE 的分散损失类似于前述先前关于自监督学习的论文中的均匀性损失(尽管这里没有对表示进行 ℓ₂ 正则化)。在那篇论文中的对比表示学习,均匀性损失被应用于输出表示,并且必须与对齐损失(即正则项)配对。而这里的新公式则更进一步,移除了中间表示上的对齐项,从而仅关注正则化视角。

该团队注意到,当 j = i 时,就不需要明确排除项 D (z_i,z_j)。由于不会在一个批次中使用同一图像的多个视图,因此该项始终对应于一个恒定且最小的差异度,例如在ℓ₂ 的情况下为 0,在余弦情况下为 -1。因此,当批次大小足够大时,这个项在那个对数中的作用是充当一个常数偏差,其贡献会变小。在实践中,无需排除该项,这也简化了实现。

分散损失的其他变体

分散损失的概念可以自然延伸到 InfoNCE 之外的一类对比损失函数。

任何鼓励排斥负例的目标都可以被视为分散目标,并实例化为分散损失的一种变体。基于其他类型的对比损失函数,该团队构建了另外两种变体。表 1 总结了所有三种变体,并比较了对比损失函数和分散损失函数。

铰链损失(Hinge Loss)

使用分散损失的扩散模型

如表 1 所示,所有分散损失的变体都比其对应的分散损失更简洁。更重要的是,所有分散损失函数都适用于单视图批次,这样就无需进行多视图数据增强。因此,分散损失可以在现有的生成模型中充当即插即用的正则化器,而无需修改回归损失的实现

在实践中,引入分散损失只需进行少量调整:

  1. 指定应用正则化器的中间层;
  2. 计算该层的分散损失并将其添加到原始扩散损失中。

算法 2 给出了训练伪代码,其中包含算法 1 中定义的分散损失的具体形式。

该团队表示:「我们相信,这种简化可极大地促进我们方法的实际应用,使其能够应用于各种生成模型。」

分散损失的实际表现如何?

表 2 比较了分散损失的不同变体及相应的对比损失。

可以看到,在使用独立噪声时,对比损失在所有研究案例中均未能提高生成质量。该团队猜想对齐两个噪声水平差异很大的视图会损害学习效果。

而分散损失的表现总是比相应的对比损失好,而前者还避免了双视图采样带来的复杂性。

另外,该团队还研究了不同模块选择以及不同 λ(控制正则化强度)和 τ(InfoNCE 中的温度)值的影响。详见原论文。

另外,不管是在 DiT(Diffusion Transformer)还是 SiT(Scalable Interpolant Transformers)上,分散损失在所有场景下都比基线方法更好。有趣的是,他们还观察到,当基线性能更强时,相对改进甚至绝对改进往往还会更大。

总体而言,这种趋势有力地证明了分散损失的主要作用在于正则化。由于规模更大、性能更强的模型更容易过拟合,因此有效的正则化往往会使它们受益更多。

图 5 展示了 SiT-XL/2 模型生成的一些示例图像。

当然,该团队也将新方法与 REPA 进行了比较。新方法的正则化器直接作用于模型的内部表示,而 REPA 会将其与外部模型的表示对齐。因此,为了公平起见,应同时考虑额外的计算开销和外部信息源,如表 6 所示。

REPA 依赖于一个预训练的 DINOv2 模型,该模型本身是从已在 1.42 亿张精选图像上训练过的 11B 参数主干网络中蒸馏出来的。

相比之下,新提出的方法完全不需要这些:无需预训练、外部数据和额外的模型参数。新方法在将训练扩展到更大的模型和数据集时非常适用,并且该团队预计在这种情况下正则化效果会非常好。

最后,新提出的方法可以直接泛化用于基于一步式扩散的生成模型。

在表 7(左)中,该团队将分散损失应用于最新的 MeanFlow 模型,然后观察到了稳定持续的改进。表 7(右)将这些结果与最新的一步扩散 / 基于流的模型进行了比较,表明新方法可增强 MeanFlow 的性能并达到了新的 SOTA。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

史之铭
2026-03-26 13:42:52
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
37:47!美国投票结果出来后,特朗普连下三条命令

37:47!美国投票结果出来后,特朗普连下三条命令

欧洲报姐
2026-03-26 16:49:00
安瓦尔:西亚争端须以和平方式解决

安瓦尔:西亚争端须以和平方式解决

亚太观澜
2026-03-26 20:40:03
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
为什么中年身材会走样?网友:心脉受损,心力不足!

为什么中年身材会走样?网友:心脉受损,心力不足!

特约前排观众
2026-03-25 00:10:05
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

浩渺青史
2026-03-16 15:02:55
浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

感觉会火
2026-03-25 18:31:22
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

闪电新闻
2026-03-26 16:10:52
我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

番外行
2026-03-24 13:04:28
钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

阿龙美食记
2026-03-26 15:22:03
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:29:55
2026-03-26 21:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
教育
时尚
公开课

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

上新|| 她们说,找到了自己的人生裙子!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版