网易首页 > 网易号 > 正文 申请入驻

16句描述,生成11分钟动画!「女娲」系列新成员:超长视频生成模型NUWA-XL

0
分享至

新智元报道

来源:微软亚洲研究院

【新智元导读】近期,微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL,其以创新的 Diffusion over Diffusion 架构,首次实现了高质量超长视频的并行生成,为多模态大模型提供了新的解题思路。

输入16句简单描述就能生成一段长达11分钟的动画片?

没错!微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。

让我们先来看一看这段由 NUWA-XL 生成的动画片吧!

早在多年前,微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究,并于2021年推出了多模态生成模型 NUWA。NUWA 可以通过自然语言指令实现文本、图像、视频之间的生成、转换和编辑,为视觉内容创作提供灵感。

论文地址:https://arxiv.org/abs/2111.12417

随后推出的 NUWA 升级版——无限视觉生成模型 NUWA-Infinity,则可以支持更高分辨率的图像和短视频生成任务,让视觉艺术创作趋于「无限流」(还记得那个无限延展的 Windows 桌面吗?)。

论文地址:https://arxiv.org/abs/2207.09814

随着视频行业需求的增长和技术的发展,近两年人工智能在视频生成方面取得了一定的进展,然而,大多数模型还仅能够生成3到5秒左右的短视频。但在实际应用中,人们所需的视频通常要比5秒长得多,例如,一部电影通常持续在90分钟以上,一集动画片往往也超过20分钟,即使是常见的短视频时长也多在30秒以上。因此,超长视频的快速生成对于人工智能来说仍然是一个巨大的挑战。

当前,长视频生成的多数方法是采用「Autoregressive over X」架构,「X」表示任何能够生成短视频片段的生成模型,包括 Phenaki 、TATS 、NUWA-Infinity 使用的自回归模型 (Autoregressive Models),或者 MCVD、FDM、LVDM 使用的扩散模型(Diffusion Models)。这些方法的主要思想是在短视频片段上训练模型,再通过推理,像滑动窗口一样自回归的自左向右生成长视频。

由于在训练时只需要短视频数据,「Autoregressive over X」架构在一定程度上降低了对长视频数据的要求,但微软亚洲研究院的研究员们发现了这种方法存在的问题:

  • 首先,在短视频上进行训练再推理出长视频,会导致巨大的训练-推理差距(Train-Inference Gap)。也就是说,这种方法只知道所生成长视频的开始和结尾的故事信息,视频中间的情节则完全依赖前一段小视频的再推理,这种状态不断叠加之后就会导致不真实的、扭曲的镜头变化。缺乏长视频数据的训练,还会让模型生成的视频存在帧与帧之间不连贯以及故事情节无法逻辑自洽等问题。

  • 其次,由于滑动窗口的依赖性限制,模型只能顺序自左向右生成视频,无法并行推理,因此需要花费更长的时间。例如,TATS 需要7.5分钟才能生成1024帧,而 Phenaki 需要4.1分钟。

全新Diffusion over Diffusion架构,「从粗到细」的生成过程

为了解决这些问题,微软亚洲研究院提出了 NUWA-XL(eXtremely Long)。

论文地址:https://arxiv.org/abs/2303.12346

它采用 Diffusion over Diffusion 架构,通过「从粗到细」的生成过程,以相同的粒度并行生成视频,并应用全局扩散模型(Global Diffusion)来生成整个时间范围内的关键帧,然后通过局部扩散模型(Local Diffusion)递归地填充附近帧之间的内容,既提升了生成效率,也确保了视频的质量和连续性。

图1:NUWA-XL 长视频生成流程动态演示

具体而言,如图2所示,NUWA-XL 中的全局扩散模型首先会基于 L 个文本提示生成 L 个视频关键帧,形成视频的「粗略」故事情节。 然后将第一个局部扩散模型应用于 L 个提示和相邻的关键帧,将其视为第一帧和最后一帧,以完成中间的 L−2 帧,从而总共产生 L+(L−1)×(L−2)≈L^2 个「精细」帧。通过迭代应用局部扩散来生成中间帧,视频的长度将以指数级增加,进而生成非常长的视频。例如,具有 m 深度和 L 局部扩散长度的 NUWA-XL 能够生成具有 O(L^m) 大小的长视频。

图2:「粗略到精细」——NUWA-XL 超长视频生成概述

NUWA-XL「从粗到细」的生成方法具有三个优势:

  • 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。NUWA-XL 会先生成类似于连环画的关键帧,既加强了场景切换又保证全局内容的统一,再在关键帧之间生成更多帧画面。同时,模型从 L 到 L^m 的每一层关键帧还支持文字提示生成关键帧,极大地确保了视频情节的连续性。

  • 模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。

  • 由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。

长视频生成的时间、质量和连续性均获得最优性能

除了生成时间的大幅缩短外,NUWA-XL 在 Avg FID 和 Block FVD(B-FVD)两个指标上也优于其它模型。Avg FID 起始距离(FID)是一种评估图像生成的度量,用于计算生成帧的平均质量,数值越低越好。B-FVD 视频距离(FVD)则被广泛用于评估生成视频的质量。

如表1所示,对于「X over AR」架构,由于误差累积,生成帧的 Avg FID 随着视频长度的增加而下降,例如 Phenaki,生成16帧的数值是40.14,生成1024帧时是48.56。与之相比,NUWA-XL 不是按顺序生成帧,所以质量不会随着视频长度的增长而下降,Avg FID 始终保持在35左右。

同时,与仅在短视频上训练的「AR over X」相比,NUWA-XL 能够生成更高质量的长视频,而且随着视频长度的增长,NUWA-XL 的生成片段(B-FVD-16)质量下降得更慢,因为 NUWA-XL 已经学习了长视频的模式。此外,可并行执行这一特性使得 NUWA-XL 在生成256帧时,推理速度提高了85.09%;生成1024帧时,推理速度提高了94.26%。

表1:NUWA-XL 长视频生成与最先进模型的定量比较(其中 Avg FID 数值越小代表性能越好)

NUWA-XL为人工智能视频生成提供新思路

「在长视频生成的研究过程上,我们也咨询了专业的动画制作人员,了解了真正的动画制作流程,即先画出故事中的几个关键画面(即关键帧),再在关键帧之间不断添加更多的画面,来丰富故事情节确保连续性。正是受到真实动画创作流程的启发,我们在 NUWA-XL 工作中采取了 Diffusion over Diffusion 这样一种由粗到细的设计。相较传统从左至右的生成方法,NUWA-XL 由粗到细的生成方法从根本上改变了人工智能生成长视频的方式。」微软亚洲研究院主管研究员吴晨飞说。

NUWA-XL 以动画片为例验证了 Diffusion over Diffusion 架构的有效性,为超长视频的人工智能生成研究打开了新的思路。未来,通过在电影、电视等更多的视频数据上的训练,以及更强大的算力,NUWA-XL 或将进一步帮助动画、电影、电视、广告等视觉制作领域提高生产力。

对于人工智能多模态大模型的发展,微软亚洲研究院首席研究员段楠认为,「现在的大模型还停留在文字生成阶段,尽管 GPT-4 在理解端加入了视觉信息,但也仅限于图片,输出端还是文字或代码。因此,当前及未来的研究路线非常清晰,就是将语言与视觉的理解和生成融入到一个基础大模型中,在输出端加强图像、视频、音频的生成。我们希望未来可以用一套架构来融合支持语言、视觉的生成算法,让人工智能模型更加通用。」

参考资料:

https://msra-nuwa-dev.azurewebsites.net/#/

https://arxiv.org/abs/2303.12346

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《纽约时报》为美国登月挽尊,NASA局长承认:中国可能更快登月

《纽约时报》为美国登月挽尊,NASA局长承认:中国可能更快登月

共工之锚
2026-04-03 18:46:27
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
过于较真、操心太多,不是性格问题,是一种心理缺陷。别不信

过于较真、操心太多,不是性格问题,是一种心理缺陷。别不信

清风拂心
2026-04-02 08:15:03
吉林珲乌高速因暴雪致多车相撞,现场一片狼藉!

吉林珲乌高速因暴雪致多车相撞,现场一片狼藉!

吉林乌拉侯
2026-04-04 11:55:58
金昊,已被执行死刑

金昊,已被执行死刑

南方都市报
2026-04-04 12:09:08
650公里高速实测:电车油车差距太残酷,真实感受句句不骗人

650公里高速实测:电车油车差距太残酷,真实感受句句不骗人

复转这些年
2026-04-01 09:06:39
独生子女证真没用了?2026年最新政策:这几类家庭千万别丢!

独生子女证真没用了?2026年最新政策:这几类家庭千万别丢!

复转这些年
2026-04-04 07:50:35
李亚鹏谈张雪机车夺冠眼眶湿润:我也是资深车迷 骑了20多年车

李亚鹏谈张雪机车夺冠眼眶湿润:我也是资深车迷 骑了20多年车

快科技
2026-04-03 14:31:37
伊朗教科书级伏击!美军黑鹰中弹、A-10坠毁科威特,救援全线崩盘

伊朗教科书级伏击!美军黑鹰中弹、A-10坠毁科威特,救援全线崩盘

阿芒娱乐说
2026-04-04 12:35:51
世界杯最大黑马诞生!18岁埃及小将逆转名将,连救3个赛点创造奇迹。

世界杯最大黑马诞生!18岁埃及小将逆转名将,连救3个赛点创造奇迹。

最爱乒乓球
2026-04-04 07:41:56
李富真参加宴会!穿格纹西服与马克龙握手十分谦虚,全智贤也去了

李富真参加宴会!穿格纹西服与马克龙握手十分谦虚,全智贤也去了

八八尚语
2026-04-04 12:11:03
“太原一国企董事长上门殴打他人被行拘3天”最新进展:打人者停职2个多月后涉事国企迎新董事长

“太原一国企董事长上门殴打他人被行拘3天”最新进展:打人者停职2个多月后涉事国企迎新董事长

大风新闻
2026-04-04 11:30:04
看到有人说,悄悄复苏了?

看到有人说,悄悄复苏了?

中产先生
2026-04-03 12:08:02
1979年越南战败后,黎笋要求中国边线北移100公里,杨得志:打!

1979年越南战败后,黎笋要求中国边线北移100公里,杨得志:打!

兵卒史
2026-03-26 10:26:03
73岁大爷为43岁妻子做阴茎假体手术,网友破防了:这才是真爱

73岁大爷为43岁妻子做阴茎假体手术,网友破防了:这才是真爱

魔都姐姐杂谈
2026-04-02 18:52:46
被质疑蹭张水华流量!大众一姐暴怒:人民日报说她要去参赛了?

被质疑蹭张水华流量!大众一姐暴怒:人民日报说她要去参赛了?

风过乡
2026-04-04 09:09:30
假洋牌抽成80%!14万人取关董宇辉

假洋牌抽成80%!14万人取关董宇辉

智识漂流
2026-04-03 19:53:53
抽走装备还不够,如今要接管台军指挥权,美媒:你台独和我无关

抽走装备还不够,如今要接管台军指挥权,美媒:你台独和我无关

隐龙天下
2026-04-04 13:03:26
彻底决裂!NBA正式介入调查,矛盾彻底公开,字母哥真不装了

彻底决裂!NBA正式介入调查,矛盾彻底公开,字母哥真不装了

球童无忌
2026-04-04 13:52:19
胆子太大!俄体操选手背对乌克兰国旗,乌方:永久剥夺资格!

胆子太大!俄体操选手背对乌克兰国旗,乌方:永久剥夺资格!

秋枫凋零
2026-04-04 10:36:25
2026-04-04 14:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14889文章数 58247关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

教育
家居
时尚
旅游
军事航空

教育要闻

初中生自己点最便宜的7元面,却用仅剩的2元给老师加卤蛋

家居要闻

温馨多元 爱的具象化

衬衫+半裙,今年春夏最时髦CP!

旅游要闻

千城胜景|河北赞皇:赴杏花之约 赏棋盘山春光

军事要闻

俄国防部:一架苏-30战机在克里米亚坠毁

无障碍浏览 进入关怀版