网易首页 > 网易号 > 正文 申请入驻

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架来了

0
分享至

NFD团队 投稿
量子位 | 公众号 QbitAI

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量!

视频生成现在都快这个程度了?

最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)

通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。

或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。

比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成只需约0.48秒

玩家在黑暗的走廊中不断前进:

玩家在攻击小动物后转动视角:

玩家跳跃后放置木块:

玩家跳上草地:

玩家不停地放置石块:

值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型——MineWorld,也是这个微软研究院的团队做的。

它能够以每秒4-7帧的速度和模型进行交互。

如今,NFD让生成速度又快了几倍。

那么具体是如何做到的?

NFD长啥样?

当前多数的自回归视频生成模型如VideoPoet采用类似于Language Model的方式,将视频编码成离散视频Token,并逐个生成Token。

然而这种方式在生成的时候既没法利用GPU并行计算的能力,也破坏了帧内的相关性。

因此,研究人员采用了Next-Frame Diffusion(NFD)的方式来建模视频,其使用帧内双向注意力,帧间因果注意力机制的方式来建模视频,并采用扩散模型多步迭代生成连续Token。

这样做的好处是可以在生成的时候逐帧采样来流式生成视频,并在帧内并行生成以提高推理效率。

为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数:

  • 将一致性蒸馏扩展到视频领域,并专门针对视频模型优化,从而少量采样步骤,实现高效推理;
  • 提出了投机采样方法。由于相邻帧常常动作输入相同,模型使用当前动作输入生成多个后续帧,若输入动作发生变化,则丢弃投机生成的帧,以充分利用并行计算能力。

引入块状因果注意力机制的Transformer

具体来说,NFD的架构包含一个将原始视觉信号转换为Token的Tokenizer,以及生成这些Token的基于扩散的Transformer模型。在Transformer内,研究人员使用了块状因果注意力机制,结合帧内的双向注意力和帧间的因果依赖,高效建模时空依赖性。

相比计算密集的3D全注意力,该方法将整体成本减少50%,支持高效地并行预测下一帧所有Token。

基于Flow Matching的训练和推理过程

研究人员基于Flow Matching构建训练流程,追求简单和稳定性。对于视频帧xi,分配一个独立时间步t,并通过线性插值生成加噪版本:

训练通过最小化Flow Matching损失来进行:

在采样阶段,研究人员采用DPM-Solver++,通过以下公式对同一帧的所有Token去噪:

一致性蒸馏

虽然NFD在推理阶段支持并行Token采样,受限于扩散模型的多步采样,实现实时视频生成仍具挑战性。

因此,研究人员首先将一致性蒸馏扩展到视频领域,通过数学变换将流匹配模型转换TrigFlow模型,从而简化了连续时间一致性模型的训练,并针对视频数据的特性进行调整。

具体的训练目标为:

投机采样

与此同时,研究人员观察到,用户输入的游戏动作在很多时候是可预测的。

例如,用户执行前进命令的时候往往会持续多帧。

鉴于这个发现,研究人员进一步提出了一种投机采样技术,通过并行预测多个未来帧加速推理。

在投机生成后,将预测动作与实际后续动作输入进行比较。一旦检测到预测与真实动作不一致,丢弃之后的所有投机帧,并从最后验证的帧重新开始生成

效果如何?

下表从视频内容的生成效率和视觉质量两个角度对比了本工作的方法和当前最先进方法。

其中,NFD指使用Flow Matching目标训练并通过DPM-Solver++进行18次采样的模型;NFD+为加速版本,通过一致性蒸馏实现4步采样,并结合了投机采样技术。

NFD和NFD+方法与先前模型的生成效率、质量的对比:

结果表明,NFD在多项指标上优于先前的自回归模型。

具体而言,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,同时运行速度达6.15FPS,快超过2倍。

NFD+通过高效采样策略显著加速:130M和310M模型分别达到42.46FPS和31.14FPS,远超所有基线。

即使速度提升,NFD+仍保持竞争力的视觉质量,310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当。

最后总结来说,团队认为当下视频生成模型在各个领域百花齐放,有诞生像Sora、可灵、Veo3这样的产品,也有Genie、MineWorld这样的游戏世界模拟器,为未来世界模型的实现提供了巨大意义。随着视频模型广泛的应用,更灵活、更高效的生成范式变得越来越重要。

论文地址:https://arxiv.org/pdf/2506.01380
项目主页:https://nextframed.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

陈意小可爱
2026-03-26 14:09:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

懂球帝
2026-03-26 13:21:12
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

手工制作阿歼
2026-03-26 14:04:28
192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

菲儿爱蛋糕
2026-03-26 13:09:00
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:34:46
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

北青网-北京青年报
2026-03-26 13:55:05
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

璀璨幻行者
2026-01-31 18:59:25
原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

奇思妙想草叶君
2026-03-26 14:01:49
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

另子维爱读史
2026-03-25 21:27:45
2026-03-26 14:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
亲子
公开课
军事航空

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版