网易首页 > 网易号 > 正文 申请入驻

出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

0
分享至

机器之心报道

编辑:杜伟

好的研究不会被埋没,只会历久弥新。

虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!

其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。



  • 论文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

这两天,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。

论文出现在 PapersWithCode 的 Trending Research 榜单上,星标数量已近 2700;还登上了 GitHub Trending 榜单,星标数量每日数百增长,Star 总量已超 3000。



来源:https://paperswithcode.com/



来源:https://github.com/facebookresearch/DiT

这篇论文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。当时,扩散模型在图像生成方面取得了惊人的成果,几乎所有这些模型都使用卷积 U-Net 作为主干。

因此,论文的目的是探究扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 transformer)取代。

具体来说,研究者提出了一种基于 transformer 架构的新型扩散模型 DiT,并训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。



研究者尝试了四种因模型深度和宽度而异的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。



他们发现,通过增加 Transformer 深度 / 宽度或增加输入 token 数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。



除了良好的可扩展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型,在后者上实现了 2.27 的 FID SOTA 数据。



质量、速度、灵活性更好的 SiT

此外,DiT 还在今年 1 月迎来了升级!谢赛宁及团队推出了 SiT(Scalable Interpolant Transformer,可扩展插值 Tranformer),相同的骨干实现了更好的质量、速度和灵活性。

谢赛宁表示,SiT 超越了标准扩散并通过插值来探索更广阔的设计空间。



该论文标题为《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。



  • 论文地址:https://arxiv.org/pdf/2401.08740.pdf
  • GitHub 地址:https://github.com/willisma/SiT

简单来讲,SiT 将灵活的插值框架集成到了 DiT 中,从而能够对图像生成中的动态传输进行细微的探索。SiT 在 ImageNet 256 的 FID 为 2.06,将基于插值的模型推向了新的高度。



论文一作、纽约大学本科生 Nanye Ma 对这篇论文进行了解读。本文认为,随机插值为扩散和流提供了统一的框架。但又注意到, 基于 DDPM(去噪扩散概率模型)的 DiT 与较新的基于插值的模型之间存在性能差异。因此,研究者想要探究性能提升的来源是什么?



他们通过设计空间中的一系列正交步骤,逐渐地从 DiT 模型过渡到 SiT 模型来解答这一问题。同时仔细评估了每个远离扩散模型的举措对性能的影响。

研究者发现,插值和采样器对性能的影响最大。当将插值(即分布路径)从方差保留切换到线性以及将采样器从确定性切换到随机性时,他们观察到了巨大的改进。



对于随机采样,研究者表明扩散系数不需要在训练和采样之间绑定,在推理时间方面可以有很多选择。同时确定性和随机采样器在不同的计算预算下各有其优势。



最后,研究者将 SiT 描述为连续、速度可预测、线性可调度和 SDE 采样的模型。与扩散模型一样,SiT 可以实现性能提升,并且优于 DiT。



更多关于 DiT 和 SiT 的内容请参阅原始论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海警方:编造“中山公园地铁站捅人”谣言及地铁行凶虚假视频,两人被行拘

上海警方:编造“中山公园地铁站捅人”谣言及地铁行凶虚假视频,两人被行拘

界面新闻
2024-06-20 12:18:04
马伊琍女儿庆祝父亲节,与爸爸文章罕见同框,40岁文章已满头白发

马伊琍女儿庆祝父亲节,与爸爸文章罕见同框,40岁文章已满头白发

橘子大娱社
2024-06-18 19:20:02
董子健陪女儿在街边跳舞超有爱,6岁大福长得像爸爸,气质随孙怡

董子健陪女儿在街边跳舞超有爱,6岁大福长得像爸爸,气质随孙怡

娱絮
2024-06-20 09:51:05
乔治:交易来哈登增强了进攻,但脏活都我和莱昂纳德来干了

乔治:交易来哈登增强了进攻,但脏活都我和莱昂纳德来干了

懂球帝
2024-06-20 13:17:09
河南女学霸2次高考查分,从627分变成335分,到底怎么回事?

河南女学霸2次高考查分,从627分变成335分,到底怎么回事?

莉雅细细谈
2024-06-17 20:44:48
会做饭的留学生地位有多高?网友:一年挣够两年学费外加两套楼房

会做饭的留学生地位有多高?网友:一年挣够两年学费外加两套楼房

糖逗在娱乐
2024-06-19 13:59:19
浙大跌出前三,武大险胜人大!2024中国综合类大学排行榜出炉

浙大跌出前三,武大险胜人大!2024中国综合类大学排行榜出炉

一口娱乐
2024-06-18 21:58:48
“中国首次将核弹头置于高度战备状态”

“中国首次将核弹头置于高度战备状态”

枢密院十号
2024-06-17 23:44:53
1953年,4架美机击落苏联客机,声称“误会”,2天后就吃了哑巴亏

1953年,4架美机击落苏联客机,声称“误会”,2天后就吃了哑巴亏

文史达观
2024-06-18 06:45:02
没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

夢婷
2024-01-05 12:09:08
北交所IPO|扬德环能提交注册超7个月仍未获批,关联方与子公司或经营混同,内控有效性屡遭问询

北交所IPO|扬德环能提交注册超7个月仍未获批,关联方与子公司或经营混同,内控有效性屡遭问询

时代商学院
2024-06-20 10:01:20
余琦被立案了!大3岁老公低调露面,同事曝光她一路高升的内幕

余琦被立案了!大3岁老公低调露面,同事曝光她一路高升的内幕

小鹿姐姐情感说
2024-06-19 17:14:53
克宫传来重磅消息,普京的野心远不止在朝鲜,美韩找中国,不管用

克宫传来重磅消息,普京的野心远不止在朝鲜,美韩找中国,不管用

千里持剑
2024-06-19 16:50:48
网友发帖:BOSS直聘这么一个小app,员工为啥要5000人?

网友发帖:BOSS直聘这么一个小app,员工为啥要5000人?

闲醉山人
2024-06-19 23:59:16
北大硕士赵斌:姜萍连题目都看不懂,点名王润秋,说错愿承担后果

北大硕士赵斌:姜萍连题目都看不懂,点名王润秋,说错愿承担后果

东东趣谈
2024-06-18 17:25:07
股市大事件,高层终于下狠手,比央妈降息还有爆发力,明天要爆了

股市大事件,高层终于下狠手,比央妈降息还有爆发力,明天要爆了

一丛深色花儿
2024-06-20 14:56:10
以色列宣布一个月内解决所有哈马斯!下一个是真主党?

以色列宣布一个月内解决所有哈马斯!下一个是真主党?

项鹏飞
2024-06-19 15:33:32
总估值达60亿!纽约记者:蔡崇信正在出售篮网少量股份给科赫家族

总估值达60亿!纽约记者:蔡崇信正在出售篮网少量股份给科赫家族

直播吧
2024-06-19 23:57:13
上海这一夜,袒胸露乳的姚晨和金晨,败给了“全裹”出镜的俞飞鸿

上海这一夜,袒胸露乳的姚晨和金晨,败给了“全裹”出镜的俞飞鸿

秋姐居
2024-06-17 12:17:39
考公的斯坦福博士父母等情况披露!岗位限5年不能流出本乡镇

考公的斯坦福博士父母等情况披露!岗位限5年不能流出本乡镇

南方都市报
2024-06-18 19:18:05
2024-06-20 18:16:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9099文章数 141946关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

老人花20万带96岁母亲长住酒店养老 起纠纷后续住被拒

头条要闻

老人花20万带96岁母亲长住酒店养老 起纠纷后续住被拒

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

深圳一网红学位房14万/平跌到4万/平

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

教育
游戏
亲子
本地
公开课

教育要闻

要说会玩,还得是当代大学生啊!

《燕云十六声》创新“单人+多人”联机模式

亲子要闻

2岁女儿装不住事!爸爸说带她去动物园玩,这家伙立马就要走

本地新闻

2024·合肥印象|用崭新视角对话城市发展

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版