网易首页 > 网易号 > 正文 申请入驻

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

0
分享至


新智元报道

编辑:LRS 好困

【新智元导读】Masked Diffusion Transformer V2在ImageNet benchmark 上实现了1.58的FID score的新SoTA,并通过mask modeling表征学习策略大幅提升了DiT的训练速度。

DiT作为效果惊艳的Sora的核心技术之一,利用Difffusion Transfomer 将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。

然而,更大的模型规模导致训练成本飙升。

为此,来自Sea AI Lab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征学习策略通过学习语义表征信息来大幅加速Diffusion Transfomer的训练速度,并实现SoTA的图像生成效果。


论文地址:https://arxiv.org/abs/2303.14389

GitHub地址:https://github.com/sail-sg/MDT

近日,Masked Diffusion Transformer V2再次刷新SoTA, 相比DiT的训练速度提升10倍以上,并实现了ImageNet benchmark 上 1.58的FID score。

最新版本的论文和代码均已开源。

背景

尽管以DiT 为代表的扩散模型在图像生成领域取得了显著的成功,但研究者发现扩散模型往往难以高效地学习图像中物体各部分之间的语义关系,这一局限性导致了训练过程的低收敛效率。


例如上图所示,DiT在第50k次训练步骤时已经学会生成狗的毛发纹理,然后在第200k次训练步骤时才学会生成狗的一只眼睛和嘴巴,但是却漏生成了另一只眼睛。

即使在第300k次训练步骤时,DiT生成的狗的两只耳朵的相对位置也不是非常准确。

这一训练学习过程揭示了扩散模型未能高效地学习到图像中物体各部分之间的语义关系,而只是独立地学习每个物体的语义信息。

研究者推测这一现象的原因是扩散模型通过最小化每个像素的预测损失来学习真实图像数据的分布,这个过程忽略了图像中物体各部分之间的语义相对关系,因此导致模型的收敛速度缓慢。

方法:Masked Diffusion Transformer

受到上述观察的启发,研究者提出了Masked Diffusion Transformer (MDT) 提高扩散模型的训练效率和生成质量。

MDT提出了一种针对Diffusion Transformer 设计的mask modeling表征学习策略,以显式地增强Diffusion Transformer对上下文语义信息的学习能力,并增强图像中物体之间语义信息的关联学习。


如上图所示,MDT在保持扩散训练过程的同时引入mask modeling学习策略。通过mask部分加噪声的图像token,MDT利用一个非对称Diffusion Transformer (Asymmetric Diffusion Transformer) 架构从未被mask的加噪声的图像token预测被mask部分的图像token,从而同时实现mask modeling 和扩散训练过程。

在推理过程中,MDT仍保持标准的扩散生成过程。MDT的设计有助于Diffusion Transformer同时具有mask modeling表征学习带来的语义信息表达能力和扩散模型对图像细节的生成能力。

具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。

在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。

Asymmetric Diffusion Transformer架构


如上图所示,Asymmetric Diffusion Transformer架构包含encoder、side-interpolater(辅助插值器)和decoder。


在训练过程中,Encoder只处理未被mask的token;而在推理过程中,由于没有mask步骤,它会处理所有token。

因此,为了保证在训练或推理阶段,decoder始终能处理所有的token,研究者们提出了一个方案:在训练过程中,通过一个由DiT block组成的辅助插值器(如上图所示),从encoder的输出中插值预测出被mask的token,并在推理阶段将其移除因而不增加任何推理开销。

MDT的encoder和decoder在标准的DiT block中插入全局和局部位置编码信息以帮助预测mask部分的token。

Asymmetric Diffusion Transformer V2


如上图所示,MDTv2通过引入了一个针对Masked Diffusion过程设计的更为高效的宏观网络结构,进一步优化了diffusion和mask modeling的学习过程。

这包括在encoder中融合了U-Net式的long-shortcut,在decoder中集成了dense input-shortcut。

其中,dense input-shortcut将添加噪后的被mask的token送入decoder,保留了被mask的token对应的噪声信息,从而有助于diffusion过程的训练。

此外,MDT还引入了包括采用更快的Adan优化器、time-step相关的损失权重,以及扩大掩码比率等更优的训练策略来进一步加速Masked Diffusion模型的训练过程。

实验结果

ImageNet 256基准生成质量比较


上表比较了不同模型尺寸下MDT与DiT在ImageNet 256基准下的性能对比。

显而易见,MDT在所有模型规模上都以较少的训练成本实现了更高的FID分数。

MDT的参数和推理成本与DiT基本一致,因为正如前文所介绍的,MDT推理过程中仍保持与DiT一致的标准的diffusion过程。

对于最大的XL模型,经过400k步骤训练的MDTv2-XL/2,显著超过了经过7000k步骤训练的DiT-XL/2,FID分数提高了1.92。在这一setting下,结果表明了MDT相对DiT有约18倍的训练加速。

对于小型模型,MDTv2-S/2 仍然以显著更少的训练步骤实现了相比DiT-S/2显著更好的性能。例如同样训练400k步骤,MDTv2以39.50的FID指标大幅领先DiT 68.40的FID指标。

更重要的是,这一结果也超过更大模型DiT-B/2在400k训练步骤下的性能(39.50 vs 43.47)。

ImageNet 256基准CFG生成质量比较


我们还在上表中比较了MDT与现有方法在classifier-free guidance下的图像生成性能。

MDT以1.79的FID分数超越了以前的SOTA DiT和其他方法。MDTv2进一步提升了性能,以更少的训练步骤将图像生成的SOTA FID得分推至新低,达到1.58。

与DiT类似,我们在训练过程中没有观察到模型的FID分数在继续训练时出现饱和现象。


MDT在PaperWithCode的leaderboard上刷新SoTA

收敛速度比较


上图比较了ImageNet 256基准下,8×A100 GPU上DiT-S/2基线、MDT-S/2和MDTv2-S/2在不同训练步骤/训练时间下的FID性能。

得益于更优秀的上下文学习能力,MDT在性能和生成速度上均超越了DiT。MDTv2的训练收敛速度相比DiT提升10倍以上。

MDT在训练步骤和训练时间方面大相比DiT约3倍的速度提升。MDTv2进一步将训练速度相比于MDT提高了大约5倍。

例如,MDTv2-S/2仅需13小时(15k步骤)就展示出比需要大约100小时(1500k步骤)训练的DiT-S/2更好的性能,这揭示了上下文表征学习对于扩散模型更快的生成学习至关重要。

总结&讨论

MDT通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,能够利用图像物体的上下文信息重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,进而提升图像生成的质量和学习速度。

研究者认为,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。这正与Sora期待的通过生成模型构建物理世界模拟器的理念不谋而合。希望该工作能够激发更多关于统一表征学习和生成学习的工作。

参考资料:

https://arxiv.org/abs/2303.14389

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越老越妖!就在今天,詹姆斯创78年神迹,前无古人后无来者

越老越妖!就在今天,詹姆斯创78年神迹,前无古人后无来者

小马哥谈体育
2024-04-28 13:47:42
好消息!国足新归化正式到位,已完成入籍手续,只等伊万一声令下

好消息!国足新归化正式到位,已完成入籍手续,只等伊万一声令下

大咖唠体育
2024-04-28 15:51:04
4年2.24亿,再见太阳!保罗扯掉了你的遮羞布,KD又一次看走了眼

4年2.24亿,再见太阳!保罗扯掉了你的遮羞布,KD又一次看走了眼

呆哥聊球
2024-04-27 21:42:49
全国一半的飞行员来自河南,其中90%来自南阳方城县

全国一半的飞行员来自河南,其中90%来自南阳方城县

泸沽湖
2024-04-14 07:37:19
原来这才是lisa 疯马秀的原图

原来这才是lisa 疯马秀的原图

娱乐八卦木木子
2024-04-28 16:17:32
疯狂小杨哥回归带货,“苹果准新机”销售额破亿,激活日期显示上个世纪

疯狂小杨哥回归带货,“苹果准新机”销售额破亿,激活日期显示上个世纪

蓝鲸财经
2024-04-28 18:02:20
知名体育商标懂球帝15326元起拍卖,直播吧的运营公司2091万拿下

知名体育商标懂球帝15326元起拍卖,直播吧的运营公司2091万拿下

天天话事
2024-04-27 15:43:25
章莹颖父母现状曝光,挖笋直播忙不停,章母状态大有改善

章莹颖父母现状曝光,挖笋直播忙不停,章母状态大有改善

音乐时光的娱乐
2024-04-28 10:09:35
撑不住了?贫铀弹爆炸后,欧洲多国恢复从俄进口粮食,拒绝乌粮食

撑不住了?贫铀弹爆炸后,欧洲多国恢复从俄进口粮食,拒绝乌粮食

姗姗时频
2024-04-28 15:10:47
英甲联赛大结局:朴茨茅斯和德比郡重回英冠,博尔顿附加赛

英甲联赛大结局:朴茨茅斯和德比郡重回英冠,博尔顿附加赛

懂球帝
2024-04-28 17:12:19
西方媒体如何看待2024北京车展?集体对BYD革命性技术闭嘴!

西方媒体如何看待2024北京车展?集体对BYD革命性技术闭嘴!

户外小阿隋
2024-04-28 15:29:03
藏南在哪里?如何划分?未来希望:定实际控制之!

藏南在哪里?如何划分?未来希望:定实际控制之!

弱肉强食法则
2024-04-28 11:12:13
谷歌裁掉整个 Python 团队!PyTorch 创始人急得直骂人:“WTF!核心语言团队无可替换”

谷歌裁掉整个 Python 团队!PyTorch 创始人急得直骂人:“WTF!核心语言团队无可替换”

InfoQ
2024-04-28 15:00:54
邓肯罕见露面!才退役8年看着像60岁老人,44岁女友瓦妮莎显年轻

邓肯罕见露面!才退役8年看着像60岁老人,44岁女友瓦妮莎显年轻

百里无心
2024-04-27 00:23:27
4月28日俄乌最新:天量军援

4月28日俄乌最新:天量军援

说娱指南
2024-04-28 16:17:25
林更新被淘汰连夜赶回上海,太搞笑了,林怼怼上身

林更新被淘汰连夜赶回上海,太搞笑了,林怼怼上身

Super历史
2024-04-28 14:14:28
自驾游误入西藏神秘部落,被迫参加少女成人礼,体验蛮荒待客之道

自驾游误入西藏神秘部落,被迫参加少女成人礼,体验蛮荒待客之道

吴学华看天下
2024-04-15 12:58:11
单看陈晓林更新两人绝对是陈晓更帅,但两人放在一起看林狗赢了。

单看陈晓林更新两人绝对是陈晓更帅,但两人放在一起看林狗赢了。

娱乐圈酸柠檬
2024-04-28 10:59:56
中方宣布:三国外长,确认访华!

中方宣布:三国外长,确认访华!

鲁中晨报
2024-04-28 11:49:07
大众急了?携17款车型亮相北京车展,专家:车展是德系三强晴雨表

大众急了?携17款车型亮相北京车展,专家:车展是德系三强晴雨表

时代周报
2024-04-27 19:42:19
2024-04-28 21:12:49
新智元
新智元
AI产业主平台领航智能+时代
10967文章数 65460关注度
往期回顾 全部

科技要闻

特斯拉生死时速,马斯克西天取经

头条要闻

在中国时被BBC问"美国信誉" 布林肯的回复被嘲讽

头条要闻

在中国时被BBC问"美国信誉" 布林肯的回复被嘲讽

体育要闻

赢了!詹皇末节14分制胜咆哮 压力给到KD

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

上财万字报告深度解读Q1经济

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

游戏
本地
旅游
公开课
军事航空

米哈游又有黑科技了?原神4.6版本上线后,画面精度变强内存变小

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

旅游要闻

年轻人出游:为了爱好说走就走 好玩不贵很重要

公开课

父亲年龄越大孩子越不聪明?

军事要闻

也门胡塞击落美军"死神"无人机 并展示残骸

无障碍浏览 进入关怀版