网易首页 > 网易号 > 正文 申请入驻

Sora出圈,背后DiT也火了!作者NYU谢赛宁官宣全新升级版SiT

0
分享至

新智元报道

编辑:好困

【新智元导读】扩散Transformer(DiT)重磅升级——可扩展插值Transformer(SiT)!虽然核心架构没变,但在质量、处理速度和使用灵活性方面都实现了显著提升。

最近,OpenAI的视频生成模型Sora实火。

根据纽约大学计算机系助理教授谢赛宁的分析,Sora是基于自己和William Peebles共同提出的DiT框架设计而成。论文被ICCV 2023接收。

随后,William Peebles加入了OpenAI,领导了开发Sora的技术团队。

论文地址:https://arxiv.org/abs/2212.09748

与此同时,随着大家对DiT的关注越来越高,谢赛宁团队还官宣了重磅升级之后的SiT架构——Scalable Interpolant Transformer,即可扩展插值Tranformer。

虽然基于相同的骨干,但SiT实现了更好的质量、速度和灵活性。

对此,谢赛宁表示,SiT突破了传统扩散技术的限制,从而可以利用插值法开拓更加广泛的设计领域!

论文地址:https://arxiv.org/abs/2401.08740

可扩展插值Transformer(SiT),是在扩散Transformer(DiT)技术的基础上发展而来的。

SiT框架提供了一种比传统扩散模型更加灵活的方法,使得我们能够更灵活地连接两个不同的数据分布。

这种方法让我们能够从多个角度审视和优化基于动态传输的生成模型的设计,包括选择离散还是连续的时间来学习、确定模型的学习目标、挑选用于连接分布的插值方法,以及使用确定性或概率性的数据采样器。

结果显示,SiT在条件ImageNet 256x256的基准测试中,使用相同的网络架构、参数数量和计算量,实现了在不同模型规模上超越DiT的性能。

SiT通过调整不同的扩散系数(与学习过程独立),达到了2.06的FID-50K分数,展现了其卓越的图像生成能力。

流与扩散

近年来,一种全新的生成模型逐渐成为焦点,其核心思想是将纯粹的噪声ε转化为具有特定分布p(x)的数据x*。

目前,基于扩散的模型是这种转换最常用的框架,而随机插值和基于流的模型则是这个领域的新成员。

新模型将αt和σt的值限制在时间区间[0,1]内,且α0=σ1=1,α1=σ0=0。如此一来,xt就可以精确地在x*和ε之间插值。

这种方法的优点是,让插值函数插值函数的选择更加灵活,因为它们不再受制于前向SDE。

此外,这些模型还使用了更简单的概率流ODE进行推理:

其中,速度v(Xt ,t)是通过流量匹配目标进行估计的:

简单来说,这可以被看作是预测一个粒子在t时刻从某个ε开始移动的速度。

为了更好地理解这些模型,团队将关键组成部分总结在了下表中:

研究证明,在相同的αt和σt条件下,扩散和基于流的方法实际上遵循着相同的时间发展过程。也就是说,无论是基于流的ODE还是基于扩散的ODE和SDE,其对应的pt(x)都是一致的。

论文中,团队不仅揭示了这些模型组件之间的数学等价性,还探讨了它们对模型性能的影响。

并更进一步地解决了其中的「?」,即在缺少明确前向SDE的情况下,基于流的方法也可以通过反向时间SDE进行有效采样。

可扩展插值Tranformer

从上表可以看出,设计这些模型时需要考虑以下四个方面:

- 时间空间(Timespace):离散或连续的时间间隔;

- 模型预测(Model Prediction):Ls或Lv的目标;

- 插值器(Interpolant):αt和σt的选择;

- 采样器(Sampler):常微分方程(ODE)或随机微分方程(SDE)。

时间空间

首先,将模型从基于离散时间的去噪方式改进为基于连续时间的评分方式后,性能有了小幅提升。

模型预测

团队发现,速度模型与评分模型之间存在一个随时间变化的权重函数:

其中, 。

将这种线性关系应用到Lv中,可以得到:

这一发现与之前的观察一致,即不同的扩散模型预测结果相当于对普通去噪目标进行了不同时间函数的加权。

为了解决数值稳定性的问题,团队采用了与SBDM相同的方法,将训练和采样的范围限制在[ε,1]区间内。

因此,较大的λε能够弥补Ls梯度消失的问题,但这也使得优化Lv变得更加困难。

插值器

团队主要研究了三种不同的插值方法:

下面的例子将展示这些插值方法对简单的一维数据分布产生的影响。

从标准高斯分布开始的一段时间内,VP插值方法在两种情况下都引起了最显著的变化,而GVP和线性插值方法的变化则相对平缓。

直观上来说,VP插值方法的这种急剧变化增加了速度场的Lipschitz常量,从而使其学习变得更加困难。

从标准高斯分布到定义在±1处的伯努利分布

从标准高斯分布到具有两个峰值,分别位于-1和2的高斯混合分布

当从简单的示例转向更复杂的图像生成任务时,可以再次看到不同插值方法之间存在显著的性能差异:

这种差异的一个可能原因如下图所示:当从SBDM-VP改为GVP或线性插值时,路径的长度(也就是传输成本)有所减少。

采样器

在SBDM设置下,速度的反向时间SDE可按以下方式构建:

其中,用g(t)来表示SBDM模型中的扩散系数。

根据之前的讨论,也可以根据g^2(t)=2λtσt这一关系,为GVP和线性插值方法构建类似的SDE模型:

随后,团队进一步提出,扩散系数g(t)可以独立于学习过程进行调整。

实际上,任何非负的函数w(t)(不必是单调的)都可以作为扩散系数。

因此,可以将反向时间的SDE模型进行推广:

除了SBDM系数外,团队还尝试使用w(t)=σt(消除数据分布附近的分数奇异性)和w(t)=sin^2(πt)作为扩散系数,并探讨了它们对速度模型或评分模型的影响。

结果显示,选择最优的扩散系数取决于插值方法和目标,而在实验中,这也很大程度上取决于模型的大小。

经验表明,对于SiT-XL模型,最佳选择是使用线性插值方法和连续时间速度模型,并使用w(t)=σt作为扩散系数的SDE进行采样。

最后,在不同的计算资源下,ODE和SDE积分器的性能可能会有所不同。

如实验所示,相比于SDE,ODE在更少的函数评估次数下能够更快地收敛,而在更大的计算资源下,SDE能够实现更低的FID分数。

无分类器引导

在速度模型中,团队使用了「无分类器引导」的方法。可以看到,这种方法在DiT中所带来的显著性能提升,同样适用于SiT。

参考资料:

https://twitter.com/sainingxie/status/1747863734884745431

https://huggingface.co/papers/2401.08740

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

江山挥笔
2026-03-15 18:13:59
肝脂下降约60%!上交大研究:多吃这种碳水可调节肠道、改善代谢

肝脂下降约60%!上交大研究:多吃这种碳水可调节肠道、改善代谢

思思夜话
2026-03-22 11:16:29
取消石油制裁,美国政策急转弯,特朗普发现问题,打仗没卡住中国

取消石油制裁,美国政策急转弯,特朗普发现问题,打仗没卡住中国

一家说
2026-03-22 12:39:14
中美谈妥,中方深夜公布结果,禁止美国做2件事,川普不接受不行

中美谈妥,中方深夜公布结果,禁止美国做2件事,川普不接受不行

兰妮搞笑分享
2026-03-22 09:58:14
春分后,有钱没钱多吃3个“第一”,疏肝益气增免疫,平安度春

春分后,有钱没钱多吃3个“第一”,疏肝益气增免疫,平安度春

小茉莉美食记
2026-03-22 08:33:28
刚刚,特朗普做出最疯狂决定,他要孤注一掷!

刚刚,特朗普做出最疯狂决定,他要孤注一掷!

霹雳炮
2026-03-21 22:28:40
郑智:我们克服了伤病和两连客的困难,给球迷奉献了一场胜利

郑智:我们克服了伤病和两连客的困难,给球迷奉献了一场胜利

懂球帝
2026-03-21 23:13:01
费玉清哥哥现状:75岁须发黑浓密,单身享受晚年,姐弟仨相亲相爱

费玉清哥哥现状:75岁须发黑浓密,单身享受晚年,姐弟仨相亲相爱

查尔菲的笔记
2026-03-20 16:09:17
古代的公主出嫁前,宫女为何要先去驸马家过一夜?原因其实很简单

古代的公主出嫁前,宫女为何要先去驸马家过一夜?原因其实很简单

千秋文化
2026-03-17 22:17:10
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
0-1丢冠!澳大利亚球员哭了,中国女足打破日本队对亚洲杯垄断

0-1丢冠!澳大利亚球员哭了,中国女足打破日本队对亚洲杯垄断

何老师呀
2026-03-21 19:29:45
美以或联合登陆:美国再增两栖舰群、内塔尼亚胡称会有地面行动

美以或联合登陆:美国再增两栖舰群、内塔尼亚胡称会有地面行动

邵旭峰域
2026-03-22 10:53:06
于东来,撕毁1亿欠条…

于东来,撕毁1亿欠条…

看书有道
2026-03-21 12:17:49
中国不记隔夜仇!第八波反制到了,巴直呼受不了,请中方放过

中国不记隔夜仇!第八波反制到了,巴直呼受不了,请中方放过

谛听骨语本尊
2026-03-21 18:11:27
喜提13亿彩票大奖逆天改命!结果老婆跑3个,事业全失败,儿子都差点没了??

喜提13亿彩票大奖逆天改命!结果老婆跑3个,事业全失败,儿子都差点没了??

英国那些事儿
2026-03-21 23:15:58
后母与17岁继子偷尝禁果!相当有 c 度!

后母与17岁继子偷尝禁果!相当有 c 度!

电影分享会
2026-03-21 11:14:18
开国第一少将、第一中将、第一上将、第一大将、第一元帅都是谁

开国第一少将、第一中将、第一上将、第一大将、第一元帅都是谁

兴趣知识
2026-03-21 18:56:40
2026网购大变化!旗舰店和官方店根本不是一回事,好多人白花钱

2026网购大变化!旗舰店和官方店根本不是一回事,好多人白花钱

夜深爱杂谈
2026-03-17 22:08:51
上古羌人是哪来的?为何商朝抓到羌人都要对其处刑?考古发现答案

上古羌人是哪来的?为何商朝抓到羌人都要对其处刑?考古发现答案

铭记历史呀
2026-03-20 17:44:48
2-0到3-3,成都蓉城无缘3连胜,1人是罪魁,球迷:他咋进的国家队

2-0到3-3,成都蓉城无缘3连胜,1人是罪魁,球迷:他咋进的国家队

我就是一个说球的
2026-03-21 22:34:02
2026-03-22 14:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14782文章数 66706关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

《澎湖海战》重启宣传 上映时间确定了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

游戏
房产
艺术
亲子
健康

《黑神话》官方上新春季新品!3月23日正式开售

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

艺术要闻

第四届深圳大芬国际油画双年展 | 入选油画选刊(四)

亲子要闻

看看谁运气好

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版