网易首页 > 网易号 > 正文 申请入驻

港大与可灵联合推出新视频世界模型,记忆力媲美Genie3

0
分享至

要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。

这一问题严重制约了视频生成技术在游戏、自动驾驶、具身智能等下游应用的落地。8 月初,Google DeepMind 发布的Genie 3引爆 AI 圈,以其在长视频生成中依旧保持极强场景一致性的能力,被视为世界模型领域的质变之作。不过遗憾的是,Genie 3 并未公开任何技术细节。

来自港大和快手可灵的研究团队近期发表的Context as Memory论文,可能是目前学术界效果上最接近 Genie 3 的工作,且投稿时间早于 Genie 3 的发布。早在此前研究中,团队就发现:视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这与 Genie 3 的理念不谋而合。如下是一个结果展示:

技术上,团队创新性地提出将历史生成的上下文作为「记忆」(即 Context-as-Memory),利用 context learning 技术学习上下文条件,从而在整段长视频生成中实现前后场景一致性。

进一步地,为了高效利用理论上可无限延长的历史帧序列,论文提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval),从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件,大幅提升视频生成的计算效率并降低训练成本。

在数据构建上,团队基于Unreal Engine 5收集了多样化场景、带有精确相机轨迹标注的长视频,用于充分训练和测试上述技术。用户只需提供一张初始图像,即可沿设定的相机轨迹自由探索生成的虚拟世界。

  • 论文标题:Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
  • 项目主页:https://context-as-memory.github.io/
  • 论文地址:https://arxiv.org/pdf/2506.03141

Context as Memory 能力展示

从上述视频可以观察到,Context as Memory 可以在几十秒的时间尺度下保持原视频中的静态场景记忆力,并在不同场景有较好的泛化性。

更多示例请访问项目主页:https://context-as-memory.github.io/

Context as Memory 创新点

研究者表示,Context as Memory 的主要创新点为:

  • 我们提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式 3D 建模即可实现场景一致的长视频生成。

  • 为了高效利用历史上下文,我们设计了 Memory Retrieval 方法,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索,显著减少了需要学习的上下文数量,从而提高了模型训练与推理效率。

  • 实验结果表明,Context as Memory 在长视频生成中的场景记忆力表现优越,显著超越了现有的SOTA方法,并且能够在未见过的开放域场景中保持记忆。

Context as Memory 算法解读

如上图(a)所示,Context-as-Memory 的长视频生成是通过基于 Context learning 的视频自回归生成来实现的,其中,所有历史生成的视频帧作为 context,它们被视为记忆力的载体。

进一步地,如上图(b)所示,为了避免将所有历史帧纳入计算所带来的过高计算开销,提出了 Memory Retrieval 模块。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系,从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量,大幅提高了模型训练和推理的效率。

Context as Memory 实验结果

在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。

总结

在本文中,研究者提出了 Context-as-Memory,一种能够实现静态场景记忆的交互式长视频生成模型。Context-as-Memory 的核心创新在于,提出了一种无需显式 3D 建模,仅通过对历史上下文学习,即可使视频生成模型具备 3D 一致性的理解与生成能力。此外,Memory Retrieval 模块的提出进一步减少了需要学习的上下文数量,大大提高了模型在训练和测试阶段的效率。

团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文,系统性地总结了该领域的发展现状,还提出了世界模型的五大基础能力模块:Generation,Control,Memory,Dynamics 以及 Intelligence。这一框架为后续基础世界模型的研究指明了方向,具有很高的学习与参考价值。在该框架指导下,团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作,还在 ICCV 2025 上发表了GameFactory论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力,能够生成无限可交互的新游戏,并被选为 Highlight 论文。

相关论文信息:

[1] A Survey of Interactive Generative Video. https://arxiv.org/pdf/2504.21853

[2] Position: Interactive Generative Video as Next-Generation Game Engine. https://arxiv.org/pdf/2503.17359

[3] GameFactory: Creating New Games with Generative Interactive Videos. ICCV 2025 Highlight. https://arxiv.org/pdf/2501.08325

[4] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval. https://arxiv.org/pdf/2506.03141

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月22日俄乌:对匈牙利的公开指控

3月22日俄乌:对匈牙利的公开指控

山河路口
2026-03-22 18:22:08
后续来了!壶口瀑布景区已致歉,但网友却为何不买账?

后续来了!壶口瀑布景区已致歉,但网友却为何不买账?

哄动一时啊
2026-03-21 11:48:24
24岁数据全面下滑,如今超越FMVP!文班放话,他才是马刺的灵魂

24岁数据全面下滑,如今超越FMVP!文班放话,他才是马刺的灵魂

阿浪的篮球故事
2026-03-22 16:25:08
A股:是一步到位,还是加速下跌,下午会怎么走

A股:是一步到位,还是加速下跌,下午会怎么走

要奔走的股市
2026-03-23 11:57:53
超远任意球破门,梅西当选迈阿密国际队内全场最佳球员

超远任意球破门,梅西当选迈阿密国际队内全场最佳球员

懂球帝
2026-03-23 04:46:02
就是他,让外蒙古独立出去,从中国“蒙古省”成为蒙古国

就是他,让外蒙古独立出去,从中国“蒙古省”成为蒙古国

兵鉴史
2026-03-22 02:23:35
通行费200万美元,已有船舶支付!伊朗开通安全航道,征收通行费

通行费200万美元,已有船舶支付!伊朗开通安全航道,征收通行费

贸易夜航
2026-03-23 11:30:39
斯诺克世界公开赛:塔猜亚打出147,10-7逆转奥沙利文夺冠

斯诺克世界公开赛:塔猜亚打出147,10-7逆转奥沙利文夺冠

懂球帝
2026-03-22 21:40:37
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

木子爱娱乐大号
2026-01-07 21:47:13
我国害人不浅的9所大学!被人民日报点名批评!毕业证就是废纸!

我国害人不浅的9所大学!被人民日报点名批评!毕业证就是废纸!

高三倒计时
2026-03-22 16:49:58
他是恶贯满盈的特务,41岁逃到台湾,84岁在大街上说共产党的好话

他是恶贯满盈的特务,41岁逃到台湾,84岁在大街上说共产党的好话

元哥说历史
2026-03-20 18:35:03
《逐玉》谢征为何敢抗旨拒婚,威胁皇帝退位?不只因为樊长玉

《逐玉》谢征为何敢抗旨拒婚,威胁皇帝退位?不只因为樊长玉

小七追剧站
2026-03-22 18:23:15
全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

夕阳渡史人
2026-01-30 09:47:08
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
现货黄金、现货白银大幅下挫

现货黄金、现货白银大幅下挫

澎湃新闻
2026-03-23 09:12:06
“喝掉1680万罐可兑换战斗机!”百事没想到,这个广告竟被实现了

“喝掉1680万罐可兑换战斗机!”百事没想到,这个广告竟被实现了

有书
2026-02-01 16:35:06
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
台积电创办人张忠谋:如果想扼杀中国大陆,中国大陆真的无能为力

台积电创办人张忠谋:如果想扼杀中国大陆,中国大陆真的无能为力

混沌录
2026-02-27 21:29:05
2026-03-23 12:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12563文章数 142591关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

紫金矿业将取得赤峰黄金控制权 交易对价合计超182亿

头条要闻

紫金矿业将取得赤峰黄金控制权 交易对价合计超182亿

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

岚图汽车香江鸣锣 一场关于"国家队"的突围实验

态度原创

健康
亲子
游戏
数码
公开课

转头就晕的耳石症,能开车上班吗?

亲子要闻

南通又一幼儿园停止招生

国外学校现场用PS5玩《刺客信条:枭雄》上历史课

数码要闻

英特尔锐炫Arc Pro B70专业显卡现身超微IoT服务器支持列表

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版