网易首页 > 网易号 > 正文 申请入驻

LiveWorld:视频世界模型新范式,让镜头之外的世界继续演化

0
分享至







视频链接:https://mp.weixin.qq.com/s/IBAIk3TPzS_UExnHCtNUwg

  • 论文标题:LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models
  • 项目主页:https://zichengduan.github.io/pages/LiveWorld/index.html
  • 文章链接:https://arxiv.org/abs/2603.07145
  • 代码链接:https://github.com/ZichengDuan/LiveWorld

世界模型正在成为通向通用智能的重要方向。借助视频生成模型强大的视觉先验,这类系统可以根据当前观察、文本提示和相机轨迹,模拟一个能够被持续探索的虚拟环境,并服务于智能体训练、交互式仿真、自动驾驶决策和大规模合成数据生成。

然而,当越来越多的研究开始追求更高的画质和更精确的相机控制时,一个更基础的问题仍未得到充分回答:这些模型究竟是在模拟持续运行的世界,还是只是在生成相机当前看到的视频?

来自阿德莱德大学、澳大利亚国立大学、蒙纳士大学、浙江大学与奥克兰大学的研究者重新审视了现有视频世界模型的建模方式。他们发现,这类方法普遍把「世界自身如何演化」与「相机在某个视角下看到了什么」交给同一个视频生成器处理。

这种耦合会带来一个直接后果:一旦某个物体离开相机视野,模型通常就不再更新它的状态,而是将其停留在最后一次被看到的时刻。例如,一只狗正在吃东西,观察者转头看向别处,过一会儿再回来。现实中,狗可能已经吃完并走开;现有模型却往往再次生成「狗仍在吃东西」的画面,仿佛相机移开的同时,局部世界也被按下了暂停键。

研究者将这一缺失的时间进程定义为「视野外动态」(Out-of-Sight Dynamics),并指出现有视频世界模型实际上隐含着一种「静态世界假设」:只有进入相机视野的内容才会继续变化。为打破这一假设,他们提出了LiveWorld,将世界演化与观察渲染显式解耦,使事件在离开视野后仍能持续推进。

LiveWorld:解耦世界演化与观察渲染

LiveWorld 的出发点很简单:世界如何变化,不应该由相机正在看哪里决定。因此,它不再让视频生成器同时猜测「世界发生了什么」和「相机看到了什么」,而是把两件事明确拆开:先让世界状态随时间演化,再根据相机轨迹渲染当前观察。





这一分解也带来了清晰的系统分工:虚拟监视器(Monitor)负责在固定位置持续模拟局部事件,观察渲染器(Renderer)负责从移动相机的视角呈现更新后的世界。二者虽然职责不同,本质上都属于「给定状态与条件生成视频」,因此 LiveWorld 使用同一个基于 Wan2.1-14B-T2V 的状态条件视频扩散骨干实现两种功能。

方法设计

沿着上述思路,LiveWorld 的运行过程可以理解为一条持续循环的流水线:发现需要跟踪的动态实体,让它们在视野外继续演化,同时积累静态场景;当相机再次经过时,再把二者组合成最新画面。具体包含以下四个环节:

  • 为动态事件设置虚拟监视器。每轮生成前,系统使用 Qwen3-VL 和 SAM3 检查上一段视频,识别其中可能继续活动的人、动物或车辆等实体。如果某个新实体所在区域尚未被覆盖,系统就在该位置注册一个固定的虚拟监视器(Monitor),并记录当时的相机位姿与画面作为锚点。为控制计算开销,活跃 Monitor 的数量设有上限;超出后,优先移除距离当前观察者最远的一个。



  • 在固定视角下推进局部事件。当观察者转向别处后,Monitor 仍会继续工作。它以锚定画面的静态背景、裁剪出的实体外观,以及描述后续动作的文本为条件,生成该区域接下来发生的视频。例如,狗可以继续吃完食物并走开,而不是停在最后一次被看到的姿态。生成的前景视频结合深度信息被还原到三维空间,形成随时间变化的 4D Monitor 点云。若实体在一轮视频的中途才出现,系统还会先补齐从出现时刻到当前时刻的状态,使其与全局时间线同步。
  • 持续积累静态空间记忆。与动态实体并行,系统会从历史观察中分离背景区域,并通过前馈式 SLAM 框架 Stream3R 增量融合为全局 3D 点云。这部分记录场景中相对稳定的结构,为长期重访、视角变换和相机控制提供空间基础。这样,LiveWorld 不需要反复生成整片世界,只需重点更新真正发生变化的局部区域。
  • 从最新世界状态渲染观察。当相机移动或重访旧区域时,系统先把静态 3D 点云与已经演化到当前时刻的动态 4D 点云,共同投影到目标相机轨迹上,得到像素级几何条件。随后,状态适配器(State Adapter)将投影结果注入视频扩散模型,约束物体的位置、结构与运动;外观 LoRA(Appearance LoRA)则利用检索到的历史参考帧补充纹理和身份细节。最终生成的视频既遵循目标相机运动,也能呈现实体在离开视野期间发生的变化。



由此,LiveWorld 形成了一个闭环:观察新区域、注册动态事件、在后台推进状态,再从最新状态生成下一段观察。它并没有试图一次性构建完整的 4D 世界,而是用「静态场景长期记忆 + 动态实体按需演化」的方式,把视野外动态转化为一个可计算、可扩展的问题。

实验验证



要评估视野外动态,仅比较单段视频的画质并不够。关键在于:相机离开后再回来,事件是否已经推进,物体身份是否保持,场景几何是否仍然一致。为此,研究者构建了首个面向该问题的专门基准LiveBench,包含 100 个场景和 400 条评估序列,并为每个场景配置多轮相机轨迹与文本事件脚本。

LiveBench 包含两类重访轨迹:Same-Pose(A→B→A→B→A)要求相机多次回到同一位置,考察长时序状态变化;Different-Pose(A→B→C)则让相机从新视角重访旧区域,同时考察事件演化与三维一致性。研究者将 LiveWorld 与 Matrix-Game-2.0、Hunyuan-GameCraft-1.0 和 Spatia 等开源相机可控世界模型进行了比较。

  • 事件并没有停在旧画面里。衡量事件是否按照脚本推进的 VQA-Acc 最能体现这一点。在 Same-Pose 的第二次长时序重访中,LiveWorld 达到,显著超过 Spatia(14.655)、GameCraft-1(10.273)和 Matrix-Game-2.0(5.012);在更困难的 Different-Pose 第二次重访中,LiveWorld 仍达到,而其他方法普遍降至个位数。这表明模型呈现的并非缓存中的旧画面,而是推进后的事件状态。
  • 事件变化的同时,物体和空间也能保持一致。第二次重访时,LiveWorld 的前景 DINO 相似度达到,而 Spatia 为 0.416;动态点云的 Chamfer Distance 降至,优于所有对比方法。背景一致性则与采用显式 3D 记忆的 Spatia 持平或更优。这说明 LiveWorld 不只会生成符合文本的动作,也能把变化后的实体放回正确的空间位置。



  • 多事件场景进一步检验了系统闭环。当多个事件需要在视野外并行推进时,去掉事件演化模块的版本在最严格的 Full Succ. 指标上为0%,完整 LiveWorld 则达到26%。消融实验还显示,去掉空间记忆会导致相机控制失效,并在重访时产生漂移和重影;去掉参考帧后,前景身份和背景外观都会在长序列中逐渐失稳。性能提升因此并非单纯来自更大的生成模型,而是来自动态演化、空间记忆和状态渲染之间的协同。



  • 消融实验验证了各个模块的作用。移除事件演化后,系统退化为普通的相机可控视频模型,无法在重访时呈现已经推进的事件;移除空间记忆后,相机控制和背景几何明显恶化,容易出现漂移与重影;移除历史参考帧后,长序列中的前景身份和背景外观逐渐失稳。三项结果分别对应时间演化、空间一致性和外观保持,表明 LiveWorld 的提升来自完整系统设计,而非单纯扩大生成模型。

更多可视化结果 —— 多事件重访与不同位姿重访



结论与展望

LiveWorld 提出的核心问题是:如果一个世界模型只能更新相机正在观察的内容,它所建模的仍然只是连续的视频,而不是持续运行的世界。通过形式化「视野外动态」、显式拆分世界演化与观察渲染,并结合静态 3D 空间记忆和动态 4D 实体状态,LiveWorld 将视频世界模型从「记住看过的画面」推进到「维护看不见时仍在变化的状态」。

这项工作并非最终答案,而是为持续世界建模提供了一个可实现、可评测的起点:未来仍需探索带隐式动态记忆的端到端模型、更完整高效的 4D 世界表示、更合理的状态注入与渲染机制,以及跨区域事件交互和推理成本控制。只有当模型能够长期维护对象、事件、空间与时间之间的关系,生成式世界模型才可能真正成为可持续运行和交互的世界模拟器。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐昕将出国打球,曝广东男篮欲提前回购,广州男篮获得资金补偿

徐昕将出国打球,曝广东男篮欲提前回购,广州男篮获得资金补偿

中国篮坛快讯
2026-06-30 16:34:26
为何狂犬病毒致死率是99.99%,不是100%,谁幸运活下来了?

为何狂犬病毒致死率是99.99%,不是100%,谁幸运活下来了?

荆医生科普
2026-06-29 21:45:04
紫牛头条|巴黎高温下的华人制冷团队:紧急订单一批接一批,中国空调得到认可

紫牛头条|巴黎高温下的华人制冷团队:紧急订单一批接一批,中国空调得到认可

扬子晚报
2026-06-30 07:35:03
世界杯淘汰赛预测:法国3-1瑞典,挪威2-1科特迪瓦,墨西哥1-1

世界杯淘汰赛预测:法国3-1瑞典,挪威2-1科特迪瓦,墨西哥1-1

慢歌轻步谣
2026-06-30 12:45:55
耿同学又整活!指北京中医药大学前校长论文造假,对方回应显无力

耿同学又整活!指北京中医药大学前校长论文造假,对方回应显无力

火山詩话
2026-06-30 12:15:15
玻璃基板爆发多股涨停,3000亿巨头股价创18年新高

玻璃基板爆发多股涨停,3000亿巨头股价创18年新高

21世纪经济报道
2026-06-30 14:43:37
三年1.764亿!猛龙诚意满满以促成小卡回归:美记称交易筹码增加

三年1.764亿!猛龙诚意满满以促成小卡回归:美记称交易筹码增加

颜小白的篮球梦
2026-06-30 14:24:28
丘吉尔曾言:如果不是被原子弹炸过,日本这个国家可能就不存在了

丘吉尔曾言:如果不是被原子弹炸过,日本这个国家可能就不存在了

掠影后有感
2026-06-30 09:40:38
为什么历史学家会普遍认为,公元536年是世界上最可怕的一年?

为什么历史学家会普遍认为,公元536年是世界上最可怕的一年?

老达子
2026-06-28 06:55:03
清纯小女神:只是喜欢简单

清纯小女神:只是喜欢简单

疾跑的小蜗牛
2026-06-29 20:31:06
刚提15天的蔚来ES9被高压水枪洗破车漆?蔚来官方回应:已与车主进行充分沟通,非质量缺陷

刚提15天的蔚来ES9被高压水枪洗破车漆?蔚来官方回应:已与车主进行充分沟通,非质量缺陷

每日经济新闻
2026-06-29 16:50:07
国家正式出手!住院护工大洗牌,以后老人看病不用子女熬夜

国家正式出手!住院护工大洗牌,以后老人看病不用子女熬夜

吃货的分享
2026-06-28 22:06:00
续航多100公里却不好开?比亚迪可变磁通电机争议真相

续航多100公里却不好开?比亚迪可变磁通电机争议真相

三农老历
2026-06-30 11:59:41
美国没想到,俄罗斯也没想到,如今的中国,已经成为世界的骄傲

美国没想到,俄罗斯也没想到,如今的中国,已经成为世界的骄傲

林子说事
2026-06-30 13:19:20
HBO神剧两季封神!NBA历史这样演才过瘾

HBO神剧两季封神!NBA历史这样演才过瘾

自愈小日子
2026-06-29 01:26:47
中国高铁为何放着平地不走,而选择建造天价的高架桥?

中国高铁为何放着平地不走,而选择建造天价的高架桥?

抽象派大师
2026-06-30 01:19:47
马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

阿废冷眼观察所
2026-06-30 18:19:35
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
穿白无垢打网球?大坂直美温网作妖记:成绩烂了只能靠衣服蹭热度

穿白无垢打网球?大坂直美温网作妖记:成绩烂了只能靠衣服蹭热度

白露文娱志
2026-06-30 16:27:39
前德国国脚:纳格尔斯曼下课不可避免,99%德国人都想克洛普执教

前德国国脚:纳格尔斯曼下课不可避免,99%德国人都想克洛普执教

云隐南山
2026-06-30 18:56:05
2026-06-30 19:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13401文章数 142684关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

健康
手机
游戏
本地
军事航空

狂吃“糯叽叽”小心肠梗阻!

手机要闻

实锤泄密代价!首发iPhone18 Pro跌落测试视频账号遭全面冻结

《斯普拉遁:涂击队》直面会今晚举行 时长15分钟

本地新闻

贵州小城的新目标:举办“村超”世界杯!

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版