网易首页 > 网易号 > 正文 申请入驻

详解Latte:去年底上线的全球首个开源文生视频DiT

0
分享至

机器之心专栏

机器之心编辑部

随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。

然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领域却是一个挑战,来自上海人工智能实验室的研究团队联合其他机构通过大规模的实验回答了这个问题。

早在去年 11 月,该团队就已经开源了一款与 Sora 技术相似的自研模型:Latte。作为全球首个开源文生视频 DiT,Latte 受到了广泛关注,并且模型设计被众多开源框架所使用与参考,如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。



  • 开源链接:https://github.com/Vchitect/Latte
  • 项目主页:https://maxin-cn.github.io/latte_project/
  • 论文链接:https://arxiv.org/pdf/2401.03048v1.pdf

先来看下Latte的视频生成效果。



方法介绍

总体上,Latte 包含两个主要模块:预训练 VAE 和视频 DiT。预训练 VAE 编码器将视频逐帧从像素空间压缩到隐空间,视频 DiT 对隐式表征提取 token 并进行时空建模,最后 VAE 解码器将特征映射回像素空间生成视频。为了得到最优的视频质量,作者着重探究了 Latte 设计中两个重要内容,(1) 视频 DiT 模型整体结构设计以及 (2) 模型与训练细节的最优设计(The best practices)。

(1)Latte 整体模型结构设计探究



图 1. Latte 模型结构及其变体

作者提出了 4 种不同的 Latte 变体 (图 1),从时空注意力机制的角度设计了两种 Transformer 模块,同时在每种模块中分别研究了两种变体(Variant):

1.单注意力机制模块,每个模块中只包含时间或者空间注意力

  • 时空交错式建模 (Variant 1): 时间模块插入到各个空间模块之后。
  • 时空顺序式建模 (Variant 2): 时间模块整体置于空间模块之后。

2.多注意力机制模块,每个模块中同时包含时间与空间注意力机制 (Open-sora所参考变体)

  • 串联式时空注意力机制 (Variant 3): 时空注意力机制串行建模。
  • 并联式时空注意力机制 (Variant 4): 时空注意力机制并行建模并特征融合。

实验表明 (图 2),通过对 4 种模型变体设置相同的参数量,变体 4 相较于其他三种变体在 FLOPS 上有着明显的差异,因此 FVD 上也相对最高,其他 3 种变体总体性能类似,变体 1 取得了最优异的性能,作者计划未来在大规模的数据上做更加细致的讨论。



图 2. 模型结构 FVD

(2)Latte 模型与训练细节的最优设计探究(The best practices)

除了模型总体结构设计,作者还探究了其他模型与训练中影响生成效果的因素。

1.Token 提取:探究了单帧 token(a)和时空 token(b)两种方式,前者只在空间层面压缩 token,后者同时压缩时空信息。实验显示单帧 token 要优于时空 token(图 4)。与 Sora 进行比较,作者猜测 Sora 提出的时空 token 是通过视频 VAE 进行了时间维度的预压缩,而在隐空间上与 Latte 的设计类似都只进行了单帧 token 的处理。



图 3. Token 提取方式,(a) 单帧 token 和 (b) 时空 token



图 4. Token 提取 FVD

2.条件注入模式:探究了(a)S-AdaLN 和(b)all tokens 两种方式 (图 5)。S-AdaLN 通过 MLP 将条件信息转换为归一化中的变量注入到模型中。All token 形式将所有条件转化为统一的 token 作为模型的输入。实验证明,S-AdaLN 的方式相较于 all token 对于获得高质量的结果更加有效(图 6)。原因是,S-AdaLN 可以使信息被直接注入到每一个模块。而 all token 需要将条件信息从输入逐层传递到最后,存在着信息流动过程中的损失。



图 5. (a) S-AdaLN 和 (b) all tokens。



图 6. 条件注入方式 FVD

3.时空位置编码:探究了绝对位置编码与相对位置编码。不同的位置编码对最后视频质量影响很小(图 7)。由于生成时长较短,位置编码的不同不足以影响视频质量,对于长视频生成,这一因素需要被重新考虑。



图 7. 位置编码方式 FVD

4.模型初始化:探究使用 ImageNet 预训练参数初始化对模型性能的影响。实验表明,使用 ImageNet 初始化的模型具有较快的收敛速度,然而,随着训练的进行,随机初始化的模型却取得了较好的结果(图 8)。可能的原因在于 ImageNet 与训练集 FaceForensics 存在着比较大的分布差异,因此未能对模型的最终结果起到促进作用。而对于文生视频任务而言,该结论需要被重新考虑。在通用数据集的分布上,图像与视频的内容空间分布相似,使用预训练 T2I 模型对于 T2V 可以起到极大的促进作用。



图 8. 初始化参数 FVD

5.图像视频联合训练:将视频与图像压缩为统一 token 进行联合训练,视频 token 负责优化全部参数,图像 token 只负责优化空间参数。联合训练对于最终的结果有着显著的提升(表 2 和表 3),无论是图片 FID,还是视频 FVD,通过联合训练都得到了降低,该结果与基于 UNet 的框架 [2][3] 是一致的。

6.模型尺寸:探究了 4 种不同的模型尺寸,S,B,L 和 XL (表 1)。扩大视频 DiT 规模对于提高生成样本质量有着显著的帮助(图 9)。该结论也证明了在视频扩散模型中使用 Transformer 结构对于后续 scaling up 的正确性。



表 1. Latte 不同尺寸模型规模



图 9. 模型尺寸 FVD

定性与定量分析

作者分别在 4 个学术数据集(FaceForensics,TaichiHD,SkyTimelapse 以及 UCF101)进行了训练。定性与定量(表 2 和表 3)结果显示 Latte 均取得了最好的性能,由此可以证明模型整体设计是具有优异性的。



表 2. UCF101 图片质量评估



表 3. Latte 与 SoTA 视频质量评估

文生视频扩展

为了进一步证明 Latte 的通用性能,作者将 Latte 扩展到了文生视频任务,利用预训练 PixArt-alpha [4] 模型作为空间参数初始化,按照最优设计的原则,在经过一段时间的训练之后,Latte 已经初步具备了文生视频的能力。后续计划通过扩大规模验证 Latte 生成能力的上限。

讨论与总结

Latte 作为全世界首个开源文生视频 DiT,已经取得了很有前景的结果,但由于计算资源的巨大差异,在生成清晰度,流畅度上以及时长上与 Sora 相比还具有不小的差距。团队欢迎并在积极寻求各种合作,希望通过开源的力量,打造出性能卓越的自主研发大规模通用视频生成模型。

参考文献

[1] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[2] Ho, Jonathan, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)

[3] Wang, Yaohui, et al. "Lavie: High-quality video generation with cascaded latent diffusion models." arXiv preprint arXiv:2309.15103 (2023).

[4] Chen, Junsong, et al. "PixArt-$\alpha $: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis." arXiv preprint arXiv:2310.00426 (2023).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

今天说故事
2024-04-22 16:00:06
母亲是著名演员,父亲上亿家产,他却跑龙套10年,33岁终成实力派

母亲是著名演员,父亲上亿家产,他却跑龙套10年,33岁终成实力派

橘子大娱社
2024-04-26 20:10:03
老友再聚:郭冬临亲述与江中14年的那些事儿

老友再聚:郭冬临亲述与江中14年的那些事儿

8字路口
2021-09-27 21:55:36
哈马斯高官:可以放下武器,如能按照1967年以前的边界建立一个独立的巴勒斯坦国

哈马斯高官:可以放下武器,如能按照1967年以前的边界建立一个独立的巴勒斯坦国

红星新闻
2024-04-26 14:53:20
女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

39健康网
2024-04-19 22:00:03
4球6助攻,加拉格尔蓝军生涯首次单赛季英超参与进球上双

4球6助攻,加拉格尔蓝军生涯首次单赛季英超参与进球上双

直播吧
2024-04-28 06:10:17
恐怖如斯!下赛季太阳三巨头薪水超1.5亿美元

恐怖如斯!下赛季太阳三巨头薪水超1.5亿美元

直播吧
2024-04-27 12:58:17
周继红官宣决定,全红婵去向被曝光,陈若琳直接秒懂

周继红官宣决定,全红婵去向被曝光,陈若琳直接秒懂

诚哥说教育
2024-04-27 17:11:23
再见橡树!苏宁融资4亿欧,难保国米,最新下家曝光

再见橡树!苏宁融资4亿欧,难保国米,最新下家曝光

条条爱侃球
2024-04-27 22:27:05
广州:女子在两辆货车的夹缝中骑行,车被碾压,命就这么不值钱?

广州:女子在两辆货车的夹缝中骑行,车被碾压,命就这么不值钱?

矛盾话外事
2024-04-27 22:23:48
罕见老照片:名妓服务完客人还没穿衣服,被嫖客拍了“羞耻”画面

罕见老照片:名妓服务完客人还没穿衣服,被嫖客拍了“羞耻”画面

智慧天气通
2024-04-27 21:46:24
2-2!1-0!维拉遭绝平,英超争4有变,拉齐奥进前六,大巴黎爆冷

2-2!1-0!维拉遭绝平,英超争4有变,拉齐奥进前六,大巴黎爆冷

体育知多少
2024-04-28 05:28:12
事大了!这一巴掌下去不仅把自己身份打了出来,还把前途打没了!

事大了!这一巴掌下去不仅把自己身份打了出来,还把前途打没了!

石辰搞笑日常
2024-04-27 16:56:40
重磅!三少面临解体,孙铭徽或加盟山西,赵嘉义回归挤掉赵岩昊!

重磅!三少面临解体,孙铭徽或加盟山西,赵嘉义回归挤掉赵岩昊!

最爱生活汇
2024-04-27 13:47:29
媒体:美国瞄准在战争中帮助俄罗斯的中国银行

媒体:美国瞄准在战争中帮助俄罗斯的中国银行

老马拉车莫少装
2024-04-23 23:50:07
大虹桥二手房砸盘了,你还敢买二手房吗!

大虹桥二手房砸盘了,你还敢买二手房吗!

翔哥说地产
2024-04-27 21:23:26
金运会还是奥运会?创始国很尴尬!3次奥运会停办,都与战争有关

金运会还是奥运会?创始国很尴尬!3次奥运会停办,都与战争有关

大风文字
2024-04-27 16:53:25
最强女海王!河南已婚女子同时交13名男友,颜值照曝光,网友:确实长得美……

最强女海王!河南已婚女子同时交13名男友,颜值照曝光,网友:确实长得美……

鱼乐星鲜事
2024-04-08 20:38:06
60岁女人再过夫妻生活,3位女人说出了真心话

60岁女人再过夫妻生活,3位女人说出了真心话

胥洋洋爱唱歌
2024-04-07 04:14:14
民企反腐是关乎国民经济大事:广东检察预防惩治民企腐败成功经验

民企反腐是关乎国民经济大事:广东检察预防惩治民企腐败成功经验

庞九林律师
2024-04-26 18:15:36
2024-04-28 06:42:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

体育要闻

绝杀球被吹!赛后切尔西众将围堵主裁讨说法!

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

健康
教育
时尚
数码
旅游

这2种水果可降低高血压死亡风险

教育要闻

从懵懂的9年级到大学走进范德堡,每一步都有TD陪伴的感觉真好 | TD申请案例

容貌玄学,适合我这样的普通人

数码要闻

永诺推出 150W 补光灯 YN150:小体积高亮度,259 元起

旅游要闻

散装河北,冀北、冀东、冀中、冀南如何划分?

无障碍浏览 进入关怀版