网易首页 > 网易号 > 正文 申请入驻

科学家打造文生视频大模型,含四个高效变种可更好处理时空维度,将Transformers与扩散模型完美结合

0
分享至

“有点遗憾的是,从 Sora 所放出的技术报告来看,OpenAI 的整体设计和我们的成果遵循了相似的技术路线,如果我们能拥有同等级别的计算规模,会不会 Sora 就可以诞生在中国了(苦笑)。”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。


图 | 王耀晖(来源:王耀晖)

2023 年 11 月,王耀晖等人将代码加以开源,并于 2024 年 1 月将论文放在网上。

他说:“当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示:“其实这也是我一直所坚持的观点,好的研究要超出目前人们的认知去定义未来。”


图 | 王耀晖使用自己的模型生成的内容(来源:arXiv)

研究中,他和同事通过大规模的实验,论证了视频 DiT 模型的可行性,并给出了一系列的模型结构设计与训练优化方法,最终证明本次模型具有通用的能力。

目前,视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟,预计视频生成技术会成为影视制作的重要辅助工具,助力于减少制作成本。

同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时,GAN 是生成模型中最有效的方法,因此他在读博期间的所有工作都是基于 GAN 开展。

当时,他的一系列工作曾定义了关于视频生成的一些基础任务,也设计了一些网络结构和学习方法。

王耀晖表示:“我在当时的很多设计,也成了目前视频生成模型所使用的一些基本技术,但是因为太过古早,可能目前很多人并不了解。”

回国之后,扩散模型与通用人工智能逐渐兴起,他便将之前在 GAN 上的积累,慢慢地转移设计视频扩散模型。

一开始,他主要生成一些专有内容比如人脸的视频,后来开始尝试生成关于人体的视频,目前则致力于解决通用视频生成的现有问题。

据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代,在设计模型时往往需要展现出潜在的 Scalability 能力,这时 UNet 结构就无法再顺应时代发展。

所以,王耀晖和同事一直在思考,是否可以像大语言模型那样,设计出基于 Transformer 的通用扩散模型,从而实现大规模的视频生成?

当王耀晖等人正在构思上述课题的时候,Sora 的相关论文的作者之一比尔·皮布尔斯(Bill Peebles),发表了使用 DiT(Diffusion Transformer)进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

事实上,王耀晖想要解决的问题很简单:即希望将 Transformer 的结构用于视频扩散模型之中,从而让模型具备通用性,进而能在超大规模算力和数据加持下,实现持续的扩展性。

与此同时,他们希望在视频生成模型中也能观察到一些能力的涌现,并探寻出类似于大语言模型中的 Scaling Law。

然而,文生视频比文生图更加复杂。并且在时空层面上,文生视频需要使用结构化程度更高的的数据形式。

因此,如何设计模型结构和学习方法,让模型能够很好地学习时空分布,并能生成高质量内容一直一个难题。

2022 年,课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展,那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识,他和同事首先设计了基本的模型结构大框架,并在小规模数据上开展实验。

由于没有可以明确参考的前期工作,课题组并不知道所构想的模型是否有效。

为此,他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性,也提出了好几种模型变体。


(来源:arXiv)

通过前期实验他们验证了视频 DiT 结构的可行性,随后开始着手优化模型与训练中的细节。

他们发现:很多实现方式上的不同,会影响模型的最终性能。

于是,该团队进一步地探究模型训练方式、token 的提取设计、条件的注入方法等。

有些借鉴了 GAN 的思想,有些借鉴了图像 DiT 的设计,还有一些是他们在其他视频生成成果中借鉴的技巧。

开展大规模实验之后,他们基本明确了整个模型的训练方式和设计细节,并在学术数据集上取得了最优的量化评测。

在学术集上取得的实验成功,将他们带到了一个更大的十字路口:即通过继续放大模型规模,以便探究模型在文生视频这一最终试验场中的表现。

基于所拥有的计算资源,他们将模型规模初步定在 1B 左右,并决定从预训练文生图工作进行初始化,以此获得更快的收敛速度,从而检验本次模型在文生视频中的表现。

通过一段时间的训练,该团队发现所设计的整体架构,能被成功用于文生视频任务。

与此同时,他们也在持续地训练模型,以探究更大规模的数据,是否能带来更好的结果。

王耀晖表示:“我们的研究其实开始得很早,最初版的原型验证大约在 2023 年初就已经有了。”

但是,因为计算资源有限,并行大规模试验也比较困难。因此,对于很多问题的探究,课题组都需要等待更长时间来获得结论。

最终,相关论文以《Latte:用于视频生成的潜在扩散变压器》(Latte:Latent Diffusion Transformer for Video Generation)为题发在 arXiv[1],马鑫是第一作者,王耀晖担任通讯作者。


图 | 相关论文(来源:arXiv)

下一步,王耀晖等人会着重致力于提高模型的效率。

同时,他们还计划进行生成模型方法的创新。目前,他们是通过实验解决问题,后续希望能探究出一些系统性理论依据来指导实验。

另据悉,王耀晖从读博起就一直很喜欢物理学家理查德·费曼(Richard Feynman)的一句话 “What I cannot create,I do not understand。”

因此,他希望可以通过视频生成这一技术,更好地重建和生成世界,进而理解世界运行的基本规律。


参考资料:

1.https://arxiv.org/pdf/2401.03048v1

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
董宇辉“单飞” 销售额超东方甄选,东方甄选市值缩水超100亿港元

董宇辉“单飞” 销售额超东方甄选,东方甄选市值缩水超100亿港元

大眼瞄世界
2024-06-05 13:31:20
清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

华人星光
2024-06-03 17:29:51
被国网拉黑,损失或达33亿元!这家公司股价崩了,股民曾灵魂拷问:你们有26个博士741个硕士,搞芯片市值不如香飘飘?

被国网拉黑,损失或达33亿元!这家公司股价崩了,股民曾灵魂拷问:你们有26个博士741个硕士,搞芯片市值不如香飘飘?

每日经济新闻
2024-06-05 13:16:12
普京惊人举动!公开场合开始穿防弹背心

普京惊人举动!公开场合开始穿防弹背心

亡海中的彼岸花
2024-06-04 23:45:46
原湖南建工集团有限公司党委书记、董事长叶新平接受审查调查

原湖南建工集团有限公司党委书记、董事长叶新平接受审查调查

鲁中晨报
2024-06-05 17:15:08
只缺巴黎梅西晒照为巴萨迈阿密球衣签名!网友刷屏:巴黎呢?

只缺巴黎梅西晒照为巴萨迈阿密球衣签名!网友刷屏:巴黎呢?

直播吧
2024-06-05 13:26:15
剧组在ICU拍剧,让患者家属“哭小声点”?当事人:剧组和医院已道歉

剧组在ICU拍剧,让患者家属“哭小声点”?当事人:剧组和医院已道歉

王姐懒人家常菜
2024-06-05 15:43:24
出险一次,保费接近翻倍?车主吐槽新能源车险涨价太离谱,有人没出险也涨了!业内:车险定价背后暗藏这些“非车主”因素……

出险一次,保费接近翻倍?车主吐槽新能源车险涨价太离谱,有人没出险也涨了!业内:车险定价背后暗藏这些“非车主”因素……

每日经济新闻
2024-06-03 17:33:08
两性疑问:为什么男生更喜欢从后面来

两性疑问:为什么男生更喜欢从后面来

坟头长草
2024-05-30 16:33:38
北约拱火亚太?土耳其海军穿越台海,解放军052d全程跟监!

北约拱火亚太?土耳其海军穿越台海,解放军052d全程跟监!

王子看台海
2024-06-05 11:28:43
一觉醒来,特朗普又创造了历史

一觉醒来,特朗普又创造了历史

牛弹琴
2024-05-31 08:14:58
浙江驴友落水后续,当事人已找到,活动详情曝光,真怪不得女孩!

浙江驴友落水后续,当事人已找到,活动详情曝光,真怪不得女孩!

伊印
2024-06-04 18:54:41
铁头事件,中韩两国网友态度天差地别,韩国人点赞鼓掌要请他吃饭

铁头事件,中韩两国网友态度天差地别,韩国人点赞鼓掌要请他吃饭

辣条小剧场
2024-06-05 08:55:02
原来他早已离世!生前一天吃十几片止疼药,20天被死神带走

原来他早已离世!生前一天吃十几片止疼药,20天被死神带走

代军哥哥谈娱乐
2024-06-05 10:51:32
伊万点燃中泰之战第一把火!三国脚被他除名送走,原因让球迷无奈

伊万点燃中泰之战第一把火!三国脚被他除名送走,原因让球迷无奈

评球论事
2024-06-04 22:00:02
股市王炸一个接一个,比降印花税还要劲爆,A股周四或迎远古巨阳

股市王炸一个接一个,比降印花税还要劲爆,A股周四或迎远古巨阳

静守时光落日
2024-06-05 11:54:31
美媒:中国在摆脱美国芯片生产技术方面取得进展

美媒:中国在摆脱美国芯片生产技术方面取得进展

俄罗斯卫星通讯社
2024-06-05 15:20:49
再见曼城!不满哈兰德!轰19球12助攻,标价9000万欧,瓜帅留不住

再见曼城!不满哈兰德!轰19球12助攻,标价9000万欧,瓜帅留不住

阿泰希特
2024-06-05 10:20:03
三年暴亏80亿,400家店接连关闭,永辉50岁董事长一夜白头

三年暴亏80亿,400家店接连关闭,永辉50岁董事长一夜白头

拾叁生意经
2024-05-12 16:58:47
全网疯传的“台州水饺店发疯73秒”视频,炸出了多少可怕的巨婴?

全网疯传的“台州水饺店发疯73秒”视频,炸出了多少可怕的巨婴?

小椰子专栏
2024-06-04 13:04:40
2024-06-05 17:34:44
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13893文章数 511791关注度
往期回顾 全部

科技要闻

马斯克把特斯拉5亿美元AI芯片提前调拨给X

头条要闻

上市公司被国网拉黑损失或达33亿 股民曾发出灵魂拷问

头条要闻

上市公司被国网拉黑损失或达33亿 股民曾发出灵魂拷问

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

员工证实周大福关闭深圳工厂

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

教育
游戏
时尚
家居
数码

教育要闻

现在的语文课,都进化到这个程度了??

夏日游戏节索尼还有新作?多家媒体已预约体验

眼“屎”妆很上镜,咱悟了!

家居要闻

温室余闲 平仄之间雅趣浓

数码要闻

英特尔展示最早将于下周为Panther Lake平台推出的第一片18A晶圆

无障碍浏览 进入关怀版