网易首页 > 网易号 > 正文 申请入驻

基于Transformer的通用世界模型成功挑战视频生成

0
分享至

  • 允中 发自 凹非寺
    量子位 | 公众号 QbitAI

建立会做视频的世界模型,也能通过Transformer来实现了!

来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。

它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。



据团队介绍,通过预测Token的方式来建立通用场景世界模型,WorldDreamer是业界首个。

它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。

可视化实验已经证明,WorldDreamer已经深刻理解了通用世界的动态变化规律。

那么,它都能完成哪些视频任务,效果如何呢?

支持多种视频任务

图像生成视频(Image to Video)

WorldDreamer可以基于单一图像预测未来的帧。

只需首张图像输入,WorldDreamer将剩余的视频帧视为被掩码的视觉Token,并对这部分Token进行预测。

如下图所示,WorldDreamer具有生成高质量电影级别视频的能力。

其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。

而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。



文本生成视频(Text to Video)

WorldDreamer还可以基于文本进行视频生成。

仅仅给定语言文本输入,此时WorldDreamer认为所有的视频帧都是被掩码的视觉Token,并对这部分Token进行预测。

下图展示了WorldDreamer在各种风格范式下从文本生成视频的能力。

生成的视频与输入语言无缝契合,其中用户输入的语言可以塑造视频内容、风格和相机运动。



视频修改(Video Inpainting)

WorldDreamer进一步可以实现视频的inpainting任务。

具体来说,给定一段视频,用户可以指定mask区域,然后根据语言的输入可以更改被mask区域的视频内容。

如下图所示,WorldDreamer可以将水母更换为熊,也可以将蜥蜴更换为猴子,且更换后的视频高度符合用户的语言描述。



视频风格化(Video Stylization)

除此以外,WorldDreamer可以实现视频的风格化。

如下图所示,输入一个视频段,其中某些像素被随机掩码,WorldDreamer可以改变视频的风格,例如根据输入语言创建秋季主题效果。



基于动作合成视频(Action to Video)

WorldDreamer也可以实现在自动驾驶场景下的驾驶动作到视频的生成。

如下图所示,给定相同的初始帧以及不同的驾驶策略(如左转、右转),WorldDreamer可以生成高度符合首帧约束以及驾驶策略的视频。



那么,WorldDreamer又是怎样实现这些功能的呢?

用Transformer构建世界模型

研究人员认为,目前最先进的视频生成方法主要分为两类——基于Transformer的方法和基于扩散模型的方法。

利用Transformer进行Token预测可以高效学习到视频信号的动态信息,并可以复用大语言模型社区的经验,因此,基于Transformer的方案是学习通用世界模型的一种有效途径。

而基于扩散模型的方法难以在单一模型内整合多种模态,且难以拓展到更大参数,因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域,缺乏全面捕捉通用世界变化和运动规律的能力。

所以,研究团队提出了WorldDreamer来加强对通用世界的变化和运动规律的学习理解,从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验,WorldDreamer采用Transformer架构,将世界模型建模框架转换为一个无监督的视觉Token预测问题。

具体的模型结构如下图所示:



WorldDreamer首先使用视觉Tokenizer将视觉信号(图像和视频)编码为离散的Token。

这些Token在经过掩蔽处理后,输入给研究团队提出的Sptial Temporal Patchwuse Transformer(STPT)模块。

同时,文本和动作信号被分别编码为对应的特征向量,以作为多模态特征一并输入给STPT。

STPT在内部对视觉、语言、动作等特征进行充分的交互学习,并可以预测被掩码部分的视觉Token。

最终,这些预测出的视觉Token可以用来完成各种各样的视频生成和视频编辑任务。



值得注意的是,在训练WorldDreamer时,研究团队还构建了Visual-Text-Action(视觉-文本-动作)数据的三元组,训练时的损失函数仅涉及预测被掩蔽的视觉Token,没有额外的监督信号。

而在团队提出的这个数据三元组中,只有视觉信息是必须的,也就是说,即使在没有文本或动作数据的情况下,依然可以进行WorldDreamer的训练。

这种模式不仅降低了数据收集的难度,还使得WorldDreamer可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对WorldDreamer进行训练,其中包括20亿经过清洗的图像数据、1000万段通用场景的视频、50万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对10亿级别的可学习参数进行了百万次迭代训练,收敛后的WorldDreamer逐渐理解了物理世界的变化和运动规律,并拥有了各种的视频生成和视频编辑能力。

论文地址:
https://arxiv.org/abs/2401.09985
项目主页:
https://world-dreamer.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于和伟的老婆, 张嘉译的老婆, 靳东的老婆, 差距在哪里?

于和伟的老婆, 张嘉译的老婆, 靳东的老婆, 差距在哪里?

娱乐八卦木木子
2024-04-27 07:15:15
“赔钱卖”!每个月都有人撑不住离场

“赔钱卖”!每个月都有人撑不住离场

21世纪经济报道
2024-04-26 09:00:31
承认分手!出轨偷吃,脚踏两条船?

承认分手!出轨偷吃,脚踏两条船?

听风听你
2024-04-26 13:09:43
老友再聚:郭冬临亲述与江中14年的那些事儿

老友再聚:郭冬临亲述与江中14年的那些事儿

8字路口
2021-09-27 21:55:36
李泽楷被她迷得疯狂,林丹为她不顾孕妻,她究竟有什么魅力

李泽楷被她迷得疯狂,林丹为她不顾孕妻,她究竟有什么魅力

南风西洲
2024-04-25 22:09:27
八路军很排外的旅:两大元帅都怕“镇不住”,伟人遂派去了黄克诚

八路军很排外的旅:两大元帅都怕“镇不住”,伟人遂派去了黄克诚

伍伍六六
2024-04-26 09:05:37
首次披露!韩树旺、杨晓明,涉嫌严重违纪违法,被罢免这一职务

首次披露!韩树旺、杨晓明,涉嫌严重违纪违法,被罢免这一职务

政知新媒体
2024-04-26 21:37:04
岳云鹏看完董宇辉河南行后,气得喊话宇辉,原因引全场大笑

岳云鹏看完董宇辉河南行后,气得喊话宇辉,原因引全场大笑

娱最资讯
2024-04-27 19:17:45
从朝鲜归来,有些大实话不得不讲!

从朝鲜归来,有些大实话不得不讲!

李砍柴
2024-04-21 23:53:00
国务院任免国家工作人员(2024年4月26日)

国务院任免国家工作人员(2024年4月26日)

新京报
2024-04-26 10:35:37
选址日报:本田投797亿建超级工厂;丰田斥101亿建生产基地

选址日报:本田投797亿建超级工厂;丰田斥101亿建生产基地

选址中国
2024-04-26 17:12:40
布林肯离京前,收到接见通知,中方在会场的布置,出乎美方的意料

布林肯离京前,收到接见通知,中方在会场的布置,出乎美方的意料

说天说地说实事
2024-04-27 17:20:28
北京房价回到2016

北京房价回到2016

美丽大北京
2024-04-27 16:56:26
无锡楼市全军覆没,无锡梁溪区房价从20000降至16000

无锡楼市全军覆没,无锡梁溪区房价从20000降至16000

有事问彭叔
2024-04-26 15:01:07
去年以来北京警方破获侵犯知识产权犯罪案件550余起 刑拘820余名犯罪嫌疑人

去年以来北京警方破获侵犯知识产权犯罪案件550余起 刑拘820余名犯罪嫌疑人

北青网-北京青年报
2024-04-26 17:25:03
越往南方,越尊重个人;越往北方,越敬畏权力

越往南方,越尊重个人;越往北方,越敬畏权力

林樾读书
2024-04-26 09:27:07
太谨慎了!陌生女子给周鸿祎一瓶水,竟被问:是不是自己人?

太谨慎了!陌生女子给周鸿祎一瓶水,竟被问:是不是自己人?

开心体育站
2024-04-27 12:05:29
“内控重大缺陷”!会计师事务所出具否定意见,这家A股公司将戴帽!

“内控重大缺陷”!会计师事务所出具否定意见,这家A股公司将戴帽!

证券时报e公司
2024-04-27 08:26:17
亚洲象热成像 这回来了41头

亚洲象热成像 这回来了41头

北青网-北京青年报
2024-04-27 16:37:05
安徽最新反腐:吴长飞、李家玉被查!

安徽最新反腐:吴长飞、李家玉被查!

凤凰网安徽
2024-04-27 17:03:29
2024-04-27 21:30:44
量子位
量子位
追踪人工智能动态
9327文章数 175242关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

房产
教育
数码
健康
公开课

房产要闻

海南最新房价出炉,三亚跌价最猛!

教育要闻

70岁奶奶教娃念英文,开口发音标准似听力考试,一听身份没想到

数码要闻

苹果已停止升级 Mac 起步内存,库克更看重优化软硬件集成度

这2种水果可降低高血压死亡风险

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版