网易首页 > 网易号 > 正文 申请入驻

李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了

0
分享至

机器之心报道

编辑:欣东、陈陈

本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 MLP)来创建新的混合架构,从而在保持模型质量的同时减少计算量。

模型架构设计在机器学习中扮演着核心角色,与数据、算法、算力和基准测试一样重要。它定义了模型函数、算子选择(如注意力机制、卷积)和配置设定(如模型深度、宽度)等等模型要素。

尽管如此,由于从头训练模型的成本过高 —— 尤其人们难以获得关于架构设计的深刻洞见(即哪些方案有效、哪些无效)。因此,研究新架构仍是一项挑战,对生成模型而言尤为如此。

在本文中,来自斯坦福大学、 Liquid AI 等机构的研究者探索了这一问题,即对预训练模型进行架构编辑来研究新架构。

  • 论文链接:https://arxiv.org/pdf/2506.05340v1
  • 论文主页:https://grafting.stanford.edu/
  • 论文标题: Exploring Diffusion Transformer Designs via Grafting

具体而言,该研究提出了一种编辑预训练扩散 transformer(DiT)的简单方法,即 Grafting(嫁接),该方法可以在较小的计算预算下实现新的架构。

嫁接过程如下:

(i)激活蒸馏:此阶段通过回归目标(regression objective)蒸馏原始算子的激活特征,将其功能迁移至新算子。该阶段核心在于实现算子间的功能传递。

(ii)轻量级调优:此阶段通过使用有限的数据进行调优,减轻了由于集成多个新算子而导致的误差传播。

此外,架构编辑还涵盖多种策略,如添加、删除和替换算子。

本文还基于 DiT-XL/2 构建了一个测试平台,以研究嫁接对模型质量的影响。

利用该测试平台,本文通过嫁接技术开发了一系列混合设计:用门控卷积、局部注意力和线性注意力取代 Softmax 注意力,用可变扩展率和卷积变体取代 MLP。

值得注意的是,许多混合设计使用不到 2% 的预训练计算资源就实现了良好的质量(FID:2.38–2.64,而 DiT-XL/2 为 2.27)。然后,本文嫁接了一个文本转图像模型 (PixArt-Σ),实现了 1.43 倍的加速,而 GenEval 分数下降不到 2%。

最后,本文展示了一个案例研究,该研究通过嫁接技术将每对序列 Transformer 模块转换为并行模块,从而重构了 DiT-XL/2。这将模型深度减少到原来一半,并获得了比其他同等深度模型更高的质量(FID:2.77)。

总而言之,该研究展示了可以通过预训练 DiT 来探索新的扩散模型设计,其修改范围涵盖从算子替换到架构重构。

嫁接扩散 Transformer

两阶段嫁接方法

嫁接旨在通过编辑预训练模型的计算图来实现新架构。由于该研究专注于用替代方案替换现有算子,这引出了两个问题:

问题 1:在将新算子集成到计算图之前,应该如何初始化?

对应第一阶段:通过激活蒸馏进行初始化。由于 DiT 的激活是连续且平滑的,这可以被视为一个回归问题:

问题 2:当多个算子集成到计算图时,如何减轻误差传播?

对应第二阶段:轻量级调优。随着更多算子被替换,初始化误差会不断传播,导致与预训练模型的行为出现偏差。

本文采用端到端微调来缓解阶段 1 的累积误差。微调目标函数如公式 1 所示。

实践中,本文发现,即使替换 DiT-XL/2 中的所有 MHA 或 MLP 层,仅使用 10% 的训练数据也能恢复竞争性能。

自嫁接基准

在研究新的架构设计之前,该研究引入了自嫁接(self-grafting),这是一种简单的对照设置:将现有算子(如 MHA、MLP)替换为相同类型但权重随机初始化的算子。这样可以保持计算图的结构 —— 包括算子类型和参数数量 —— 但改变了具体的计算过程。自嫁接有三方面作用:(1)评估在不改变架构的情况下嫁接流程本身的效果;(2)为比较不同的替换方案提供一个性能基准;(3)研究影响性能的因素,如数据规模、回归目标和超参数。

激活行为分析以及自嫁接结果

本文首先分析了 DiT-XL/2 层中的 MHA 和 MLP 算子激活行为。在这两种情况下,本文观察到激活值存在较大差异,尤其是在较深的层中(表 1 (i, ii))。

经过分析,本文得出通过选择特定于算子的回归目标,可以实现高质量的初始化。

如表 1 (iii,iv) 所示,回归目标的选择会影响性能。对于 MHA,L1 实现了最佳 FID(2.51),其次是 Huber(2.55)和 L2(2.58)。对于 MLP,L2 表现最佳(2.33),而 L1 表现不佳(2.83);值得注意的是,MLP 的参数量是 MHA 的 2 倍。

这表明高质量的初始化需要量身定制的、激活感知的策略。

研究还发现,使用 10% 的数据进行完全自嫁接可实现接近基线的性能。表明在适度的数据和计算预算下完全自嫁接是可行的。

实验

实验 I:通过嫁接实现混合架构

本节实验围绕这个问题进行:当现有算子被高效的替代方案取代时,我们能否保持模型质量?

为了探究这个问题,本文研究了以下嫁接过程:

1. 待替换算子的类型 ——MHA 或 MLP;

2. 替换算子的类型 —— 例如卷积;

3. 层选择策略 —— 替换所有层中的算子或使用启发式选择;

4. 替换率 —— 全部替换或部分替换。

为了实验,该研究构建了一个测试平台,并提出两种层选择策略:完全替换和交错替换。测试平台详见表 3。

此外,该研究还引入了 Hyena-X 和 Hyena-Y 两种新的高效门控卷积算子,并设计为 MHA 的直接替代品。Figure 3 展示了它们的结构。

MHA 结果。通过嫁接替换 DiT-XL/2 中的 MHA 算子,获得了良好的质量 - 效率权衡。主要发现如下:

在交错嫁接下,较小的感受野表现出惊人的效果。实验发现,在 50% 交错替换比例下,滑动窗口注意力(SWA)、Hyena-X/Y 和 Mamba-2 等替代方案均能保持 FID 分数与基线(2.27)差距在 0.5 以内。尤其值得注意的是,尽管 SWA 和 Hyena 变体的感受野有限(卷积核 K=4 / 窗口 w=4),其 FID 下降幅度却极小。

替换策略:交错替换 vs. 完全替换。将交错替换比例从 50% 提升至 75% 时,性能通常下降,但 SWA 在 75% 交错替换下仍有效(FID=3.09)。100% 替换时,性能急剧恶化(所有 FID > 75),这与局部性分析一致,表明只有部分层是局部且适合嫁接的。

数据规模和层选择的消融实验结果。

MLP 结果显示通过嫁接的方式替换 MLP 算子是有效的。

经过实验,得出要点 1:嫁接对于在较小的计算预算下构建具有良好生成质量的高效混合架构非常有效。交错设计尤其有效。

实验 II:通过嫁接改进文本到图像的扩散 Transformers

结果。嫁接模型在实时计算速度(wall-clock time)上实现了 1.43 倍的提升,同时生成评估分数(GenEval)仅出现小幅下降(47.78 vs. 49.75)。特定属性的指标(Attribute-specific metrics)基本保持可比,并且定性样本也展现出良好的对齐度和质量。在一些纹理区域观察到了局部性的失真(artifacts),这可能是由于 LoRA 的适应能力以及所使用的合成数据质量不高所致(失败案例详见图 D.3,D.4)

要点 2:在文生图 DiTs 中成功应用嫁接技术,构建的混合架构在实现显著加速的同时,生成质量损失极小。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

沙雕小琳琳
2026-03-26 10:31:28
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

妍妍教育日记
2026-03-20 21:33:36
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
多年努力还是白费,黄渤两个女儿近照被曝光,大女儿身高成焦点

多年努力还是白费,黄渤两个女儿近照被曝光,大女儿身高成焦点

往史过眼云烟
2026-03-25 22:23:20
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
男子参加跑步比赛摔倒后死亡 保险公司认为不属“意外”拒赔 法院判赔88万余元

男子参加跑步比赛摔倒后死亡 保险公司认为不属“意外”拒赔 法院判赔88万余元

红星新闻
2026-03-26 12:02:03
不止过亿资产,张雪峰还为女儿留下三条后路,最后一个受用一生

不止过亿资产,张雪峰还为女儿留下三条后路,最后一个受用一生

慢歌轻步谣
2026-03-25 15:12:12
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
张柏芝机场接大儿子回家!穿着卡通好俏皮,和18岁Lucas相拥好甜

张柏芝机场接大儿子回家!穿着卡通好俏皮,和18岁Lucas相拥好甜

乐悠悠娱乐
2026-03-26 10:53:10
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
朝鲜权力格局再洗牌!金正恩连任背后

朝鲜权力格局再洗牌!金正恩连任背后

新浪财经
2026-03-26 00:04:55
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
2026-03-26 14:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
游戏
教育
公开课

本地新闻

春日吃花第三站——广东

2026年了,最好看的还是“这件针织”!

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版