网易首页 > 网易号 > 正文 申请入驻

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

0
分享至



当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来像」,而是真正理解并遵循物理世界的规律?这正是「视频世界模型」(Video World Model)要解决的核心挑战。当生成时长从几秒扩展到几分钟,模型不仅要画面逼真,更要在长时间尺度上保持结构、行为与物理规律的一致性。然而,误差累积与语义漂移往往导致长视频出现画面退化与逻辑崩坏 —— 这已成为衡量世界模型能力的关键瓶颈。

围绕这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了LongVie 2—— 一个能够生成长达5 分钟高保真、可控视频的世界模型框架



LongVie 2 可自回归生成 3-5 分钟的超长可控视频

  • 论文:https://arxiv.org/pdf/2512.13604
  • 项目主页:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 视频演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的视频世界模型?

一个理想的视频世界模型,不应只是「生成得更久」,而应同时具备以下三项核心能力:

  • 全面可控性(Comprehensive Controllability):能够在长时间生成过程中稳定响应多种控制信号,保持场景结构与运动意图不漂移;
  • 长期视觉保真(Long-term Fidelity):随着时间推进,画面质量不发生明显退化,不出现纹理崩塌或细节丢失;
  • 长程上下文一致性(Long-context Consistency):跨片段、跨时间保持语义、身份与物理规律的一致,避免「换世界式」断裂。

现有世界模型的瓶颈在哪里?

本文系统调研了当前主流的视频世界模型,发现一个共同问题:随着生成时长的增加,模型的可控性、视觉保真度与时间一致性会同步下降。



现有模型在长时间生成时的退化问题

LongVie 2:三阶段递进式训练

为系统性解决上述挑战,LongVie 2 设计了一套逐层递进的三阶段训练策略,从控制、稳定性到时间一致性层层强化:



LongVie 2 三阶段训练流程

阶段一:Dense & Sparse 多模态控制

通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束。这使生成过程不再完全依赖隐式记忆,从源头提升长程可控性。

阶段二:退化感知训练(Degradation-aware Training)

长视频生成中,质量衰减几乎不可避免。LongVie 2 的核心创新在于:在训练阶段主动「制造困难」——



退化感知训练示意图

  • 利用 VAE 的多次 encode-decode 模拟重建误差;
  • 通过 加噪 + Diffusion 去噪 构造退化图像。

以此作为训练信号,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度。

阶段三:历史上下文建模

在生成过程中显式引入历史片段信息,并通过针对性 loss 约束相邻片段的衔接,使跨片段过渡更加自然顺畅,有效缓解长视频中的语义断裂与逻辑跳变问题。



三阶段训练效果对比

一图看懂 LongVie 2 框架

通过多模态控制、退化感知训练与历史上下文建模的协同设计,LongVie 2 将长视频生成从「片段拼接」提升为持续演化的世界建模过程:



LongVie 2 整体框架

从左至右,LongVie 2 首先将跨片段的稠密(深度)与稀疏(关键点)控制视频做全局归一化,并为所有片段采用统一的噪声初始化。随后在每一片段生成时,将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型,逐步生成完整的长视频。

LongVie 2 能力展示

该研究将LongVie 2与 Go-With-The-Flow 和 Diffusion As Shader 进行了对比。结果显示,LongVie 2 在可控性方面表现显著优于现有方法:



与现有方法的可控性对比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融实验也充分验证了三阶段训练的有效性:



消融实验结果

LongVGenBench

首个可控超长视频评测基准

当前缺乏面向可控长视频生成的标准化评测。为此,本文提出LongVGenBench—— 首个专为超长视频生成设计的基准数据集,包含100 个时长超过 1 分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景,旨在推动该方向的系统研究与公平评测。

定量评估与用户主观测评结果显示,LongVie 2 在多项指标上达到SOTA 水平,并获得最高用户偏好度:





定量评测结果与用户研究

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

米果说识
2026-01-26 22:16:39
退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

李健政观察
2026-01-26 09:33:07
丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

红星新闻
2026-01-26 17:52:54
为什么大众目前不需要担心尼帕病毒?

为什么大众目前不需要担心尼帕病毒?

阿司匹林42195米
2026-01-27 07:19:28
赵薇、黄有龙和李湘被爆与电诈头目有关?刚刚,赵薇本人和李湘前夫对此都进行了回应。

赵薇、黄有龙和李湘被爆与电诈头目有关?刚刚,赵薇本人和李湘前夫对此都进行了回应。

贴小君
2026-01-27 10:17:05
世界第一高歌猛进!萨巴伦卡横扫黑马新星,连续4年跻身澳网四强

世界第一高歌猛进!萨巴伦卡横扫黑马新星,连续4年跻身澳网四强

全景体育V
2026-01-27 10:14:21
这下,哈梅内伊真慌了!!!

这下,哈梅内伊真慌了!!!

山河路口
2026-01-26 19:59:27
25-6!湖人吊打东部豪门,詹姆斯梦回巅峰,打服主场球迷

25-6!湖人吊打东部豪门,詹姆斯梦回巅峰,打服主场球迷

邹维体育
2026-01-27 09:50:38
哈梅内伊为什么慌了

哈梅内伊为什么慌了

臧启玉律师
2026-01-26 11:13:42
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
中央考核巡查组专家,现场拆穿负责人狡辩

中央考核巡查组专家,现场拆穿负责人狡辩

新京报政事儿
2026-01-27 10:56:56
班凯罗37分完胜探花郎,米切尔45+4+4,骑士双杀魔术豪取四连胜

班凯罗37分完胜探花郎,米切尔45+4+4,骑士双杀魔术豪取四连胜

钉钉陌上花开
2026-01-27 10:34:38
丁威迪:我想为火箭效力,我的好友DFS在那,火箭能争夺冠军

丁威迪:我想为火箭效力,我的好友DFS在那,火箭能争夺冠军

懂球帝
2026-01-27 10:09:06
杨瀚森入选全明星新秀赛!为发展联盟代表队出战 教练是小里弗斯

杨瀚森入选全明星新秀赛!为发展联盟代表队出战 教练是小里弗斯

罗说NBA
2026-01-27 08:01:37
加内特提名哈登入选全明星 快船作为东道主能入选两人吗?

加内特提名哈登入选全明星 快船作为东道主能入选两人吗?

仰卧撑FTUer
2026-01-27 09:45:13
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

沧海旅行家
2026-01-26 23:14:12
“牛鬼蛇神”扎堆,春晚第二次联排让人大失所望,网友们坐不住了

“牛鬼蛇神”扎堆,春晚第二次联排让人大失所望,网友们坐不住了

深析古今
2026-01-26 18:22:14
支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

时时有聊
2026-01-27 07:05:46
前10名大学中有8所来自中国!最新世界大学排名引发震惊,浙大超哈佛位列全球第一

前10名大学中有8所来自中国!最新世界大学排名引发震惊,浙大超哈佛位列全球第一

观威海
2026-01-26 19:22:32
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
2026-01-27 11:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142551关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

斯塔默访华前:英国不必在美国和中国之间做选择

头条要闻

斯塔默访华前:英国不必在美国和中国之间做选择

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

艺术
健康
房产
旅游
公开课

艺术要闻

日本东京国立博物馆中的100幅宋画

耳石脱落为何让人天旋地转+恶心?

房产要闻

重磅!总投资9600亿元,海南2026年重大项目清单曝光!

旅游要闻

凉山攀枝花联动百家旅企 打造跨区域黄金旅游线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版