网易首页 > 网易号 > 正文 申请入驻

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!

先来看一个前方潜水员拍摄的“真实”海底世界Vlog:


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI

这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。

话不多说,再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线,be like:


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下,此前的长视频生成SOTASkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁)


视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标All kill,视觉稳定性大幅领先CausVid等方法。

或许,AI电影时代离我们已不再遥远……下面来康康更多详细内容。

从5秒到4分15秒

先一起来思考下这个问题:为啥现在的AI视频质量这么高,但还是很容易被人捉虫AI生成?

其实bug就出自视频长度

无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,视频内容再真假难辨,长度却都只有5到10秒

即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。

原因无他,传统扩散视频生成模型依赖Transformer结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。

于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。



首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程:

  • 反向噪声初始化:让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。
  • 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。
  • 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD计算。

简单来说,就是让LLM在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。



另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。

通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。



研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的坏视频也会被误判为好。

为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。

这一点在后续的实验结果中也得以验证。

兼顾时长和质量

研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量长时长生成上的效果。

其中短时长场景(5s)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。



结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。

说明Self-Forcing++虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。



在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。



而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。



长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法

参考链接:
[1]https://self-forcing-plus-plus.github.io/
[2]https://arxiv.org/abs/2510.02283

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇家马德里100%想要他:曝老佛爷心目中的理想人选只有一个

皇家马德里100%想要他:曝老佛爷心目中的理想人选只有一个

油泼辣不辣
2026-01-17 15:15:14
王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

卿子书
2026-01-17 11:22:03
全球首例!中国用 AI 抓贪官,准确率极高!

全球首例!中国用 AI 抓贪官,准确率极高!

狐狸先森讲升学规划
2026-01-16 12:09:56
勇士引援急转弯!放弃交易小波特,紧盯墨菲三世愿出多个首轮签

勇士引援急转弯!放弃交易小波特,紧盯墨菲三世愿出多个首轮签

夜白侃球
2026-01-17 21:36:38
医生直言:肠癌早期不是腹泻,而是身上有这4大异常,千万别忽视

医生直言:肠癌早期不是腹泻,而是身上有这4大异常,千万别忽视

蜉蝣说
2026-01-16 14:38:55
山西一洗护店充值活动捆绑“嫣然天使儿童医院”,充500元就给医院捐25元,院方称未与任何商家合作,律师:此举涉嫌违法

山西一洗护店充值活动捆绑“嫣然天使儿童医院”,充500元就给医院捐25元,院方称未与任何商家合作,律师:此举涉嫌违法

极目新闻
2026-01-17 16:25:26
U23亚洲杯韩国队或不敌澳大利亚 中国裁判傅明执法

U23亚洲杯韩国队或不敌澳大利亚 中国裁判傅明执法

环球体坛啄木鸟
2026-01-17 13:04:21
越南足球已成为东南亚之光!因为他们已经进入U23亚洲杯四强!

越南足球已成为东南亚之光!因为他们已经进入U23亚洲杯四强!

田先生篮球
2026-01-17 15:50:10
1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

寄史言志
2026-01-07 20:37:09
一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

源溯历史
2026-01-02 18:50:36
37年“涨薪传统”不破!重庆一公司今年涨20元月薪,向员工发致歉信

37年“涨薪传统”不破!重庆一公司今年涨20元月薪,向员工发致歉信

封面新闻
2026-01-17 21:08:15
帮手全到齐,5国派兵登岛;中方与普京态度一致,美国捅了马蜂窝

帮手全到齐,5国派兵登岛;中方与普京态度一致,美国捅了马蜂窝

元宝课堂
2026-01-16 20:40:48
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

流史岁月
2026-01-17 10:42:51
戴旭:中美一旦发生战争,美国有实力将中国沿海城市打得稀巴烂?

戴旭:中美一旦发生战争,美国有实力将中国沿海城市打得稀巴烂?

二大爷观世界
2026-01-16 03:04:40
52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

后仰大风车
2026-01-16 22:00:20
利物浦哭晕!心仪中卫加盟曼城 总成本1.1亿 周薪30万仅输哈兰德

利物浦哭晕!心仪中卫加盟曼城 总成本1.1亿 周薪30万仅输哈兰德

我爱英超
2026-01-16 23:06:25
广东98-99北控!球员评分:1人满分,2人良好,3人不合格

广东98-99北控!球员评分:1人满分,2人良好,3人不合格

多特体育说
2026-01-17 21:59:09
卡里克首战曼联3人缺阵!拉爵格雷泽督战,4231阵型仅1位置有悬念

卡里克首战曼联3人缺阵!拉爵格雷泽督战,4231阵型仅1位置有悬念

罗米的曼联博客
2026-01-17 08:55:40
3场8黄,中国U23并列U23亚洲杯小组赛球队黄牌榜第二

3场8黄,中国U23并列U23亚洲杯小组赛球队黄牌榜第二

懂球帝
2026-01-17 16:34:08
若今晚战胜乌兹别克,U23国足将在亚洲杯半决赛中对阵越南

若今晚战胜乌兹别克,U23国足将在亚洲杯半决赛中对阵越南

懂球帝
2026-01-17 10:54:32
2026-01-17 23:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

旅游
家居
亲子
公开课
军事航空

旅游要闻

激情冰雪乐游达州 四川达州2026冰雪消费季火热启幕

家居要闻

岁月柔情 现代品质轻奢

亲子要闻

儿子一句话显格局

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版