网易首页 > 网易号 > 正文 申请入驻

港大与可灵联合推出新视频世界模型,记忆力媲美Genie3

0
分享至

要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。

这一问题严重制约了视频生成技术在游戏、自动驾驶、具身智能等下游应用的落地。8 月初,Google DeepMind 发布的Genie 3引爆 AI 圈,以其在长视频生成中依旧保持极强场景一致性的能力,被视为世界模型领域的质变之作。不过遗憾的是,Genie 3 并未公开任何技术细节。

来自港大和快手可灵的研究团队近期发表的Context as Memory论文,可能是目前学术界效果上最接近 Genie 3 的工作,且投稿时间早于 Genie 3 的发布。早在此前研究中,团队就发现:视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这与 Genie 3 的理念不谋而合。如下是一个结果展示:

技术上,团队创新性地提出将历史生成的上下文作为「记忆」(即 Context-as-Memory),利用 context learning 技术学习上下文条件,从而在整段长视频生成中实现前后场景一致性。

进一步地,为了高效利用理论上可无限延长的历史帧序列,论文提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval),从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件,大幅提升视频生成的计算效率并降低训练成本。

在数据构建上,团队基于Unreal Engine 5收集了多样化场景、带有精确相机轨迹标注的长视频,用于充分训练和测试上述技术。用户只需提供一张初始图像,即可沿设定的相机轨迹自由探索生成的虚拟世界。

  • 论文标题:Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
  • 项目主页:https://context-as-memory.github.io/
  • 论文地址:https://arxiv.org/pdf/2506.03141

Context as Memory 能力展示

从上述视频可以观察到,Context as Memory 可以在几十秒的时间尺度下保持原视频中的静态场景记忆力,并在不同场景有较好的泛化性。

更多示例请访问项目主页:https://context-as-memory.github.io/

Context as Memory 创新点

研究者表示,Context as Memory 的主要创新点为:

  • 我们提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式 3D 建模即可实现场景一致的长视频生成。

  • 为了高效利用历史上下文,我们设计了 Memory Retrieval 方法,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索,显著减少了需要学习的上下文数量,从而提高了模型训练与推理效率。

  • 实验结果表明,Context as Memory 在长视频生成中的场景记忆力表现优越,显著超越了现有的SOTA方法,并且能够在未见过的开放域场景中保持记忆。

Context as Memory 算法解读

如上图(a)所示,Context-as-Memory 的长视频生成是通过基于 Context learning 的视频自回归生成来实现的,其中,所有历史生成的视频帧作为 context,它们被视为记忆力的载体。

进一步地,如上图(b)所示,为了避免将所有历史帧纳入计算所带来的过高计算开销,提出了 Memory Retrieval 模块。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系,从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量,大幅提高了模型训练和推理的效率。

Context as Memory 实验结果

在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。

总结

在本文中,研究者提出了 Context-as-Memory,一种能够实现静态场景记忆的交互式长视频生成模型。Context-as-Memory 的核心创新在于,提出了一种无需显式 3D 建模,仅通过对历史上下文学习,即可使视频生成模型具备 3D 一致性的理解与生成能力。此外,Memory Retrieval 模块的提出进一步减少了需要学习的上下文数量,大大提高了模型在训练和测试阶段的效率。

团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文,系统性地总结了该领域的发展现状,还提出了世界模型的五大基础能力模块:Generation,Control,Memory,Dynamics 以及 Intelligence。这一框架为后续基础世界模型的研究指明了方向,具有很高的学习与参考价值。在该框架指导下,团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作,还在 ICCV 2025 上发表了GameFactory论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力,能够生成无限可交互的新游戏,并被选为 Highlight 论文。

相关论文信息:

[1] A Survey of Interactive Generative Video. https://arxiv.org/pdf/2504.21853

[2] Position: Interactive Generative Video as Next-Generation Game Engine. https://arxiv.org/pdf/2503.17359

[3] GameFactory: Creating New Games with Generative Interactive Videos. ICCV 2025 Highlight. https://arxiv.org/pdf/2501.08325

[4] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval. https://arxiv.org/pdf/2506.03141

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
黄仁勋:芯片公司的时代已经结束了

黄仁勋:芯片公司的时代已经结束了

芯榜
2026-03-26 01:34:50
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

十点街球体育
2026-03-25 20:08:11
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

体坛小李
2026-03-26 08:53:49
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
雷霆遭绿军逆转结束12连胜:亚历山大33+8创纪录 布朗31+8+8

雷霆遭绿军逆转结束12连胜:亚历山大33+8创纪录 布朗31+8+8

醉卧浮生
2026-03-26 10:06:01
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
2026-03-26 14:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
教育
房产
手机
军事航空

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版