网易首页 > 网易号 > 正文 申请入驻

科学家打造文生视频大模型,含四个高效变种可更好处理时空维度,将Transformers与扩散模型完美结合

0
分享至

“有点遗憾的是,从 Sora 所放出的技术报告来看,OpenAI 的整体设计和我们的成果遵循了相似的技术路线,如果我们能拥有同等级别的计算规模,会不会 Sora 就可以诞生在中国了(苦笑)。”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。


图 | 王耀晖(来源:王耀晖)

2023 年 11 月,王耀晖等人将代码加以开源,并于 2024 年 1 月将论文放在网上。

他说:“当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示:“其实这也是我一直所坚持的观点,好的研究要超出目前人们的认知去定义未来。”


图 | 王耀晖使用自己的模型生成的内容(来源:arXiv)

研究中,他和同事通过大规模的实验,论证了视频 DiT 模型的可行性,并给出了一系列的模型结构设计与训练优化方法,最终证明本次模型具有通用的能力。

目前,视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟,预计视频生成技术会成为影视制作的重要辅助工具,助力于减少制作成本。

同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时,GAN 是生成模型中最有效的方法,因此他在读博期间的所有工作都是基于 GAN 开展。

当时,他的一系列工作曾定义了关于视频生成的一些基础任务,也设计了一些网络结构和学习方法。

王耀晖表示:“我在当时的很多设计,也成了目前视频生成模型所使用的一些基本技术,但是因为太过古早,可能目前很多人并不了解。”

回国之后,扩散模型与通用人工智能逐渐兴起,他便将之前在 GAN 上的积累,慢慢地转移设计视频扩散模型。

一开始,他主要生成一些专有内容比如人脸的视频,后来开始尝试生成关于人体的视频,目前则致力于解决通用视频生成的现有问题。

据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代,在设计模型时往往需要展现出潜在的 Scalability 能力,这时 UNet 结构就无法再顺应时代发展。

所以,王耀晖和同事一直在思考,是否可以像大语言模型那样,设计出基于 Transformer 的通用扩散模型,从而实现大规模的视频生成?

当王耀晖等人正在构思上述课题的时候,Sora 的相关论文的作者之一比尔·皮布尔斯(Bill Peebles),发表了使用 DiT(Diffusion Transformer)进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

事实上,王耀晖想要解决的问题很简单:即希望将 Transformer 的结构用于视频扩散模型之中,从而让模型具备通用性,进而能在超大规模算力和数据加持下,实现持续的扩展性。

与此同时,他们希望在视频生成模型中也能观察到一些能力的涌现,并探寻出类似于大语言模型中的 Scaling Law。

然而,文生视频比文生图更加复杂。并且在时空层面上,文生视频需要使用结构化程度更高的的数据形式。

因此,如何设计模型结构和学习方法,让模型能够很好地学习时空分布,并能生成高质量内容一直一个难题。

2022 年,课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展,那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识,他和同事首先设计了基本的模型结构大框架,并在小规模数据上开展实验。

由于没有可以明确参考的前期工作,课题组并不知道所构想的模型是否有效。

为此,他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性,也提出了好几种模型变体。


(来源:arXiv)

通过前期实验他们验证了视频 DiT 结构的可行性,随后开始着手优化模型与训练中的细节。

他们发现:很多实现方式上的不同,会影响模型的最终性能。

于是,该团队进一步地探究模型训练方式、token 的提取设计、条件的注入方法等。

有些借鉴了 GAN 的思想,有些借鉴了图像 DiT 的设计,还有一些是他们在其他视频生成成果中借鉴的技巧。

开展大规模实验之后,他们基本明确了整个模型的训练方式和设计细节,并在学术数据集上取得了最优的量化评测。

在学术集上取得的实验成功,将他们带到了一个更大的十字路口:即通过继续放大模型规模,以便探究模型在文生视频这一最终试验场中的表现。

基于所拥有的计算资源,他们将模型规模初步定在 1B 左右,并决定从预训练文生图工作进行初始化,以此获得更快的收敛速度,从而检验本次模型在文生视频中的表现。

通过一段时间的训练,该团队发现所设计的整体架构,能被成功用于文生视频任务。

与此同时,他们也在持续地训练模型,以探究更大规模的数据,是否能带来更好的结果。

王耀晖表示:“我们的研究其实开始得很早,最初版的原型验证大约在 2023 年初就已经有了。”

但是,因为计算资源有限,并行大规模试验也比较困难。因此,对于很多问题的探究,课题组都需要等待更长时间来获得结论。

最终,相关论文以《Latte:用于视频生成的潜在扩散变压器》(Latte:Latent Diffusion Transformer for Video Generation)为题发在 arXiv[1],马鑫是第一作者,王耀晖担任通讯作者。


图 | 相关论文(来源:arXiv)

下一步,王耀晖等人会着重致力于提高模型的效率。

同时,他们还计划进行生成模型方法的创新。目前,他们是通过实验解决问题,后续希望能探究出一些系统性理论依据来指导实验。

另据悉,王耀晖从读博起就一直很喜欢物理学家理查德·费曼(Richard Feynman)的一句话 “What I cannot create,I do not understand。”

因此,他希望可以通过视频生成这一技术,更好地重建和生成世界,进而理解世界运行的基本规律。


参考资料:

1.https://arxiv.org/pdf/2401.03048v1

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨丽萍裸体当观众面跳,身上每处可见,为艺术献身还是道德沦丧?

杨丽萍裸体当观众面跳,身上每处可见,为艺术献身还是道德沦丧?

小影的娱乐
2024-05-23 19:41:06
曝45岁伏明霞离婚,净身出户原因揭晓,71岁百亿丈夫只说6个字

曝45岁伏明霞离婚,净身出户原因揭晓,71岁百亿丈夫只说6个字

深度知局
2024-05-20 19:25:53
台湾股市盘中报21668.84点再创历史新高,台积电涨1.5%至877元新台币,再创历史新高

台湾股市盘中报21668.84点再创历史新高,台积电涨1.5%至877元新台币,再创历史新高

和讯网
2024-05-23 11:50:22
父亲带16岁自闭症儿子送外卖,解锁天赋:构建深圳地铁346座车站地图!杨学良:愿送一台吉利汽车过幸福生活

父亲带16岁自闭症儿子送外卖,解锁天赋:构建深圳地铁346座车站地图!杨学良:愿送一台吉利汽车过幸福生活

和讯网
2024-05-23 14:57:54
林高远又爆冷一轮游!1-3不敌直板名将,新发型引球迷热议!

林高远又爆冷一轮游!1-3不敌直板名将,新发型引球迷热议!

乒谈
2024-05-23 19:50:08
太火了!内地客激增12倍,香港一银行出大招:人民币存款18.1%

太火了!内地客激增12倍,香港一银行出大招:人民币存款18.1%

我不叫阿哏
2024-05-23 16:33:00
英伟达,爆了!黄仁勋直呼:下一场工业革命已开始

英伟达,爆了!黄仁勋直呼:下一场工业革命已开始

华尔街见闻官方
2024-05-23 09:29:02
一文揭秘张康阳8年国米沉浮:总投资超10亿欧!后续还能分3亿欧!

一文揭秘张康阳8年国米沉浮:总投资超10亿欧!后续还能分3亿欧!

风过乡
2024-05-23 19:55:09
打蛇七寸!中国制裁这位美国政客丨北京观察

打蛇七寸!中国制裁这位美国政客丨北京观察

直新闻
2024-05-23 20:15:06
胡锡进:今天很生气,一股未卖,血亏7千,A股在重要节点太不争气

胡锡进:今天很生气,一股未卖,血亏7千,A股在重要节点太不争气

股海风云大作手
2024-05-23 18:42:30
闹大了!大批特斯拉车主自曝“开电车伤身”,卖车后症状消失

闹大了!大批特斯拉车主自曝“开电车伤身”,卖车后症状消失

趣味萌宠的日常
2024-05-23 20:13:01
中国扩大对美制裁后,美国反应很快来了,美高官:表示强烈反对

中国扩大对美制裁后,美国反应很快来了,美高官:表示强烈反对

影孖看世界
2024-05-23 15:41:18
出镜忏悔的“老虎”敛财超4亿!曾说想“搞一点大动静”来“引起上级注意”

出镜忏悔的“老虎”敛财超4亿!曾说想“搞一点大动静”来“引起上级注意”

政知新媒体
2024-05-23 18:41:06
明明早被查出致癌,美国、加拿大已经下架,却仍在中国市场销售!

明明早被查出致癌,美国、加拿大已经下架,却仍在中国市场销售!

南风西洲
2024-05-22 22:01:20
章子怡抵达戛纳气场十足!彻底秒了森林北,网友:幸好汪峰放过她

章子怡抵达戛纳气场十足!彻底秒了森林北,网友:幸好汪峰放过她

小八娱乐家
2024-05-23 15:20:03
山东一男子因堂哥“性骚扰”妻子,多次辱骂恐吓对方获刑,二审发回重审后将再次开庭

山东一男子因堂哥“性骚扰”妻子,多次辱骂恐吓对方获刑,二审发回重审后将再次开庭

潇湘晨报
2024-05-23 16:04:11
这个瓜有点大?网友:重庆部分学校,竟明码标价,挂学籍读高中!

这个瓜有点大?网友:重庆部分学校,竟明码标价,挂学籍读高中!

火山诗话
2024-05-23 15:32:54
5月23日,王菲,大瓜!

5月23日,王菲,大瓜!

元气少女侃娱乐
2024-05-23 15:12:51
周韦彤多大年龄了

周韦彤多大年龄了

娱乐八卦木木子
2024-05-23 19:12:12
这是高中时候的照片,你能想象十年后的我有多膨胀吗?

这是高中时候的照片,你能想象十年后的我有多膨胀吗?

小影的娱乐
2024-05-23 19:45:33
2024-05-23 22:04:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13851文章数 511575关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

媒体:大陆对赖清德彻底失望 或先收回几个离岛控制权

头条要闻

媒体:大陆对赖清德彻底失望 或先收回几个离岛控制权

体育要闻

欧文,三十二而立

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

艺术
家居
教育
游戏
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

光阴流年 摇曳爱恋

教育要闻

交警进校快问快答,小学生机智避“坑”

一句话得罪80%粉丝!靠女玩家撑起来的Steam游戏,日增2500条差评

军事要闻

以军继续杰宁攻势 巴武装组织打击以目标

无障碍浏览 进入关怀版