网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 | 无限外推!MAGI打造自回归视频生成新范式

0
分享至

香港科技大学与阶跃星辰团队提出了一种创新的自回归视频生成框架——MAGI(掩码自回归视频生成模型)。MAGI在单帧内采用双向注意力,在帧之间使用因果注意力,来实现帧粒度的视频自回归生成。其不仅充分保留了自回归语言模型的因果注意力(Causal Attention)、键值对缓存(KV Cache)、变长上下文(Variable Context)的优势,还将自回归视频生成性能提升了65%。实验显示,该框架在16帧的短序列训练情况下,可以外推超过100帧的连贯视频,展现了其强大的外推能力。此外,MAGI框架设计简洁高效,易于复现,同时兼容掩码模型、扩散模型等多种视频生成方法,为自回归视频生成提供了一种通用且实用的解决方案。这一研究为视频生成技术的发展开辟了新的方向,具有重要的应用潜力。

论文标题: Taming Teacher Forcing for Masked Autoregressive Video Generation 论文链接: https://arxiv.org/abs/2501.12389 项目链接: https://magivideogen.github.io/ 代码开源: 即将发布,敬请关注技术社区更新!

一、传统困境:自回归为何在视频生成中「缺席」?

研究团队(香港科技大学(广州)与阶跃星辰)认为,视频模态的自回归训练作为构建世界模型的重要途径,具有建模物理世界的潜力。但是,当前的视频生成领域,还是被基于双向注意力的扩散模型主导。

其虽能通过全局建模生成高质量单帧,但在长视频生成中存在明显瓶颈:

  • 效率限制:双向注意力机制需全序列计算,无法利用KV Cache、Causal Attention等自回归生成的优势,导致生成长视频时计算开销剧增。

  • 灵活性不足:模型依赖固定长度的上下文输入,难以像语言模型一样灵活处理可变长序列。

相比之下,自回归框架在语言任务中已通过因果建模实现高效生成,但其在视频领域的潜力尚未被充分挖掘。视频生成领域现有的自回归方法主要面临两类局限:

  1. 逐块生成(Patch-level):

  • 空间顺序依赖:现有方法通常强制按预定义顺序(如光栅扫描,即raster-scan,从左到右,从上到下)逐个生成图像块,但这种顺序未必符合图像内在的因果性,限制了生成的自然性和灵活性。

  • 误差累积效应:与逐帧生成相比,逐块生成的步骤随分辨率呈平方级增长,导致误差累积次数大幅增加,从而影响长视频生成的质量和效率。

逐帧生成(Frame-level):

  • 上下文建模缺陷:现有方法要么使用双向注意力(牺牲自回归的KV Cache优势),要么依赖固定长度上下文(缺乏灵活性),要么引入噪声或掩码污染输入(如帧间采用单向注意力的扩散或掩码模型),均未能复现语言模型中“纯因果建模+可变长上下文”的核心优势。

核心矛盾:自回归视频生成亟需一种既能继承语言模型的高效因果架构,又能克服现有方法上下文建模缺陷的新范式。

为了解决这些问题,我们提出一种新的自回归视频生成框架,叫做MAGIMaskedAutoregressive VideoGeneratIon)。

二、CTF机制:自回归视频生成的「对齐」革命

MAGI的核心创新在于提出完整教师引导(CTF),借鉴语言模型中的因果建模思路,彻底解决训练与推理的割裂问题,同时保持其原有的优点:

  • 传统MTF:训练时基于掩码帧预测未来帧,推理时依赖生成帧,输入不一致。

  • 新型CTF:训练时直接用完整真实帧作为历史信息,预测未来帧,实现训练与推理的输入对齐。

技术细节:

  • 通过特殊设计的时序注意力掩码,确保每帧仅关注自身及完整历史帧。

  • 在Transformer架构中引入可学习的位置嵌入,区分掩码帧与观测帧。

实验结果:在UCF-101数据集上,CTF相比MTF的FVD分数(衡量视频质量的指标)提升23%,尤其在运动连贯性上表现更优。

三、动态训练:让模型学会「抗干扰」

为缓解自回归模型的曝光偏差与误差累积,MAGI引入两项策略,模拟语言模型中的鲁棒性训练思路:

  1. 动态间隔训练:随机采样不同时间间隔的帧,迫使模型学习长程依赖,适应多样化运动速度。

  2. 动态噪声注入:在训练时向输入帧添加可控噪声,模拟推理时的预测误差,提升鲁棒性。

实验表明,两项策略互相促进:

  1. 如果不采取任何策略,误差累计很容易导致生成结果坍塌。

  2. 结合提出的任一训练策略,累计误差都能得到显著缓解。

  3. 两者结合,生成稳定性会进一步提升。

四、性能突破:自回归框架的逆袭

在Kinetics-600和UCF-101数据集上的评测显示:

  • 视频预测任务:FVD分数达11.5,比同类自回归模型Omni提升65%(表2)。

  • 无条件生成任务:结合高效分词器(Cosmos),FVD分数降至297.8,逼近非自回归模型性能(表3)。

  • 长视频生成:仅用16帧训练,即可生成超100帧的连贯视频(图6),尽管在非周期性运动(如跳水)中仍有局限,但已展现强大潜力。

五、局限与展望:从实验室到工业场景

目前,实验基于简化设置(如小规模数据集UCF-101)进行,但MAGI的核心设计——完整教师引导(CTF)与动态训练策略,为未来的技术扩展指明了方向:

  • 多模态可控生成:结合文本、音频等多模态输入,实现条件驱动的视频生成。

  • 视频世界模型:通过海量视频数据,探索生成式自监督学习的潜力。

  • 实时交互式视频生成:将MAGI应用于实时游戏生成等领域,实现动态交互体验。

研究团队表示,下一步将聚焦于更大规模数据和复杂场景下的泛化能力,推动技术从实验室走向实际应用,为视频生成领域带来更多可能性。

六、结语:自回归视频生成的新起点

MAGI通过完整教师引导(CTF)机制与动态训练策略,首次提出了一个完整包含语言自回归模型优点的视频自回归模型,为长视频生成提供了可扩展的解决方案。其“以小见大”的能力——仅用短训练帧即可生成长视频——展现了自回归模型的强大潜力。这一突破性成果为视频自监督学习交互式视频生成等方向打开了新的大门,也为视频生成技术的未来发展注入了新的活力。

阶跃星辰多模智能组,面向多模态的强化学习、合成数据、世界模型、Agent等方向的热招实习研究员,欢迎投递简历至邮箱 charlesge@stepfun.com

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本四大光刻胶企同时断供,冲击巨大!中方反击力度远远不够!

日本四大光刻胶企同时断供,冲击巨大!中方反击力度远远不够!

坠入二次元的海洋
2026-06-24 17:53:31
重磅加盟!你好,NBA!东部诞生顶级三巨头

重磅加盟!你好,NBA!东部诞生顶级三巨头

篮球实战宝典
2026-06-24 18:51:34
某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

黯泉
2026-06-23 17:44:53
随着哥伦比亚 1-0,世界杯最新夺冠赔率更新:法国从第一跌至第二

随着哥伦比亚 1-0,世界杯最新夺冠赔率更新:法国从第一跌至第二

侧身凌空斩
2026-06-24 12:28:02
早上9点 世界杯2场决斗!韩国生死战:打平=第2 输球可能出局

早上9点 世界杯2场决斗!韩国生死战:打平=第2 输球可能出局

叶青足球世界
2026-06-24 20:17:42
丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

潋滟晴方DAY
2026-06-24 13:19:04
敲定了!重磅三方大交易,篮网正式送走里夫斯

敲定了!重磅三方大交易,篮网正式送走里夫斯

阿讯说天下
2026-06-24 15:42:20
炒冷饭的《抓特务》,还是大院子弟伤痕那一套

炒冷饭的《抓特务》,还是大院子弟伤痕那一套

新潮沉思录
2026-06-24 00:52:49
刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

行者聊官
2026-06-23 18:42:05
北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

千秋文化
2026-06-21 19:49:55
721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻
2026-06-23 21:32:14
基金“女神”翻车,拒不认错!

基金“女神”翻车,拒不认错!

鸣金网
2026-06-24 12:44:53
英3名囚犯联手杀死虐童重刑犯?狱警疑睁一只眼闭一只眼…

英3名囚犯联手杀死虐童重刑犯?狱警疑睁一只眼闭一只眼…

英国报姐
2026-06-24 01:10:40
离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

天天热点见闻
2026-06-24 04:39:22
北京人又不是韭菜,凭什么给你走面儿?

北京人又不是韭菜,凭什么给你走面儿?

常识群
2026-06-24 12:56:17
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

古史青云啊
2026-06-23 16:51:22
河南高考分数线公布

河南高考分数线公布

界面新闻
2026-06-24 20:07:02
“说出去杀你全家”,13岁男孩强奸14岁女孩,当庭释放杀女孩母亲

“说出去杀你全家”,13岁男孩强奸14岁女孩,当庭释放杀女孩母亲

易玄
2026-06-23 13:16:21
“10亿”还干不翻一个贾浅浅?

“10亿”还干不翻一个贾浅浅?

现实的声音
2026-06-24 13:50:39
2026-06-24 21:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2413文章数 596关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

时尚
亲子
手机
教育
房产

适合7月的三种风格,照着穿

亲子要闻

儿童驱蚊产品调查:化妆品超范围宣称功效、宝宝专研实为营销噱头

手机要闻

小米卢伟冰:REDMI K90至尊版把Max全套游戏基因搬了过来

教育要闻

3分钟学会一个雅思7分句/段(第349期)

房产要闻

白鹅潭新增优质宅地!沙涌地块对望太古里,容积率仅 2.14

无障碍浏览 进入关怀版