网易首页 > 网易号 > 正文 申请入驻

Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限

0
分享至



本工作由加州大学洛杉矶分校与字节 Seed 等团队联合完成。

在扩散模型持续引领视觉生成浪潮的今天,图像生成早已臻于极致,但视频生成仍被一个关键瓶颈困住——时长限制。目前多数模型还停留在数秒短视频的生成,Self-Forcing++让视频生成首次跨入4 分钟高质量长视频时代,且无需任何长视频数据再训练。先展示一段 100 秒的生成视频:



  • 论文标题:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
  • 论文地址:https://arxiv.org/abs/2510.02283
  • 项目主页:
  • https://self-forcing-plus-plus.github.io
  • 代码:https://github.com/justincui03/Self-Forcing-Plus-Plus

研究背景:

为什么长视频生成如此困难?

在扩散模型驱动的视觉生成领域,从 Sora、Wan、Hunyuan-Video 到 Veo,视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制:只能生成数秒的短片段。

这背后的原因在于架构层面的「先天缺陷」:

  • Transformer 的非因果性—— 传统扩散 Transformer (DiT) 需要同时看到所有帧,无法自然地逐帧扩展;

  • 训练-推理不匹配—— 模型在训练时只见过 5 秒短片,却在推理时要生成几十秒甚至几分钟;

  • 误差累积—— 教师模型在每一帧提供强监督,但学生模型在长序列中没有应对逐步误差的能力;

  • 过曝与冻结—— 长时间生成后常出现画面静止、亮度漂移、运动中断等「灾难性崩塌」。

这些问题共同导致:即使最先进的自回归视频扩散模型,也难以在 10 秒以上保持画面一致与运动连贯。

核心思想:

教师模型即世界模型

Self-Forcing++ 的关键洞察是:

  • 教师模型虽然只会生成 5 秒视频,但它依然掌握纠错长视频失真的能力。

研究者利用这一点,让学生模型先自己生成长视频(即使这些视频已经开始「崩坏」),再用教师模型来纠正它的错误。

经过这种「生成→失真→再纠错→再学习」循环,模型逐步学会了在长时间尺度下自我修复和稳态生成。这一机制让 Self-Forcing++ 无需任何长视频标注,就能把生成时长从 5 秒扩展到 100 秒,甚至 4 分钟 15 秒(达到位置编码极限的 99.9%)。

技术解析:

关键的三步让模型稳定生成超长视频



1️⃣反向噪声初始化(Backward Noise Initialization)

在传统短视频蒸馏中,模型每次都从随机噪声生成。

Self-Forcing++ 改为在长视频 roll-out 后,把噪声重新注入到已生成的序列中,使后续帧与前文保持时间连续性。

这一步相当于让模型「重启但不失忆」,避免时间割裂。

2️⃣扩展分布匹配蒸馏(Extended DMD)

作者将原本只在 5 秒窗口内进行的教师-学生分布对齐,扩展为滑动窗口蒸馏:

学生先生成 100 秒长视频 → 随机抽取其中任意 5 秒片段 → 用教师分布校正该片段。

这样,教师不必生成长视频,也能「局部监督」学生的长序列表现,从而实现长期一致性学习。

3️⃣滚动 KV 缓存(Rolling KV Cache)

以往自回归模型(如 CausVid)在推理时使用滚动缓存,但训练时却仍用固定窗口,造成严重偏差。

Self-Forcing++在训练阶段也同步采用滚动缓存,实现真正的训练-推理对齐,彻底消除了「曝光漂移」和「帧重复」的问题。

进一步优化:

强化学习加持的时间平滑

在部分极长视频中,模型仍可能出现突然跳帧或场景突变。

研究者借鉴强化学习中的Group Relative Policy Optimization (GRPO)框架,引入光流平滑奖励(Optical-Flow Reward),让模型通过惩罚光流突变来学习更自然的运动过渡。结果显示:光流方差显著下降,视频流畅度显著提升。整体的算法可以归纳为下面的流程。

实验结果:

在 50、75 和 100 秒的视频生成评测上全面超越基线

测试设置

  • 模型规模:1.3B 参数(与 Wan2.1-T2V 相同)
  • 对比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等
  • 评估指标:VBench + 新提出的 Visual Stability(视觉稳定性)

主要成果

以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的测试结果。





如下图所示,在 0-100 秒的生成结果上,Self-Forcing++ 都能保持很好的稳定性,基线模型大多数都会经历严重的质量下降,比如过曝光和错误累积。



可视化展示:

更多的超长视频展示

在这些长视频中,Self-Forcing++ 始终保持稳定亮度与自然运动,视觉效果几乎无明显劣化。

Scaling 现象:

训练算力 ×25 → 255 秒视频

作者进一步探究「算力与时长」关系,在可视化生成过程中有以下发现:



这说明可能无需长视频数据,只要扩展训练预算,即可延展生成时长。

局限与展望

虽然自回归视频生成已经能达到分钟级别,但是目前依旧有以下问题有待提高:

  • 长时记忆缺失:极长场景下,仍可能丢失被遮挡物体的状态;
  • 训练效率较慢:自回归训练成本高,比 teacher-forcing 训练速度慢。

更多演示视频和我们的方法请参考我们的主页。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

书纪文谭
2026-02-01 18:43:11
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

罗掌柜体育
2026-02-01 10:52:47
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
谷歌Chrome觉醒!Gemini 3全面接管,38亿用户一夜进入Agent时代

谷歌Chrome觉醒!Gemini 3全面接管,38亿用户一夜进入Agent时代

新智元
2026-02-01 09:03:04
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

我爱英超
2026-02-02 00:05:34
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

极目新闻
2026-02-01 09:11:11
金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻
2026-02-01 17:17:29
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

我的护球最独特
2026-02-02 02:31:40
1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

纵相新闻
2026-02-01 15:09:04
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
“多杀多”引发惨剧 华尔街基金经理讲述黄金白银史诗级大跌日经历

“多杀多”引发惨剧 华尔街基金经理讲述黄金白银史诗级大跌日经历

经济观察报
2026-02-01 15:22:06
2026-02-02 04:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
游戏
房产
手机
公开课

耳石症分类型,症状大不同

末期癌症玩家圆梦《毁灭战士》!id公开致敬

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版