网易首页 > 网易号 > 正文 申请入驻

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!

先来看一个前方潜水员拍摄的“真实”海底世界Vlog:


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI

这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。

话不多说,再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线,be like:


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下,此前的长视频生成SOTASkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁)


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标All kill,视觉稳定性大幅领先CausVid等方法。

或许,AI电影时代离我们已不再遥远……下面来康康更多详细内容。

从5秒到4分15秒

先一起来思考下这个问题:为啥现在的AI视频质量这么高,但还是很容易被人捉虫AI生成?

其实bug就出自视频长度

无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,视频内容再真假难辨,长度却都只有5到10秒

即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。

原因无他,传统扩散视频生成模型依赖Transformer结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。

于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。



首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程:

  • 反向噪声初始化:让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。
  • 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。
  • 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD计算。

简单来说,就是让LLM在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。



另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。

通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。



研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的坏视频也会被误判为好。

为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。

这一点在后续的实验结果中也得以验证。

兼顾时长和质量

研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量长时长生成上的效果。

其中短时长场景(5s)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。



结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。

说明Self-Forcing++虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。



在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。



而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。



长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法

参考链接:
[1]https://self-forcing-plus-plus.github.io/
[2]https://arxiv.org/abs/2510.02283

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普彻底懵了,海湾国家突然变脸,反对停战,美媒:美国被骗了

特朗普彻底懵了,海湾国家突然变脸,反对停战,美媒:美国被骗了

Ck的蜜糖
2026-03-27 00:20:33
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

薇说体育
2026-03-26 10:48:02
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

李喜林篮球绝杀
2026-03-26 11:34:01
巴萨真会看人:从“天才摇篮”到“板凳深渊”,五名球员迷失报告

巴萨真会看人:从“天才摇篮”到“板凳深渊”,五名球员迷失报告

C罗带你侃球
2026-03-25 20:29:45
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
44岁柳岩一袭蓝裙封神,这若隐若现的腰臀比,谁看了不迷糊?

44岁柳岩一袭蓝裙封神,这若隐若现的腰臀比,谁看了不迷糊?

娱乐领航家
2026-03-26 22:00:03
中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

长风文史
2026-03-25 17:58:23
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
刚刚!诞生了!CBA第一支季后赛球队...

刚刚!诞生了!CBA第一支季后赛球队...

技巧君侃球
2026-03-26 23:58:26
央媒发话,房子是最大资产,2026房地产要下猛药了?

央媒发话,房子是最大资产,2026房地产要下猛药了?

毒sir财经
2026-03-24 23:51:50
马英九专访中途喊停,原因曝光

马英九专访中途喊停,原因曝光

郭茂辰海峡传真
2026-03-26 21:32:49
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
2026-03-27 01:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
家居
手机
教育
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版