网易首页 > 网易号 > 正文 申请入驻

CVPR 2026|AI开始会拍电影了:一分钟十镜头,全程不崩剧情

0
分享至



安照崇现为哥本哈根大学博士生,隶属于 Pioneer Centre for Artificial Intelligence 和 ELLIS 项目,导师为 Serge Belongie 教授。他于 2023 年获得苏黎世联邦理工学院(ETH Zurich)计算机科学硕士学位,导师为 Luc Van Gool 教授。他的研究方向主要包括三维理解、视频生成以及多模态模型。

多镜头视频生成是自然世界叙事的重要表达形式,也是视频生成领域中一个挑战性的研究方向。

与单镜头视频不同,多镜头视频并不是简单地把几个片段拼接起来,而是要求模型同时处理两类信息:一类需要在不同镜头之间保持稳定,例如人物身份、环境主体和故事主线;另一类则需要随着叙事自然变化,例如视角切换、动作推进和场景转场。

这一任务通常可以定义为:给定每个 shot 的 prompt,以及一个可选的初始图像作为首帧条件,模型需要生成多个 shot,并同时维持跨 shot 的内容一致性和对每个 shot prompt 的准确遵循。

这意味着,模型必须能够持续维护长程的跨镜头上下文。然而,现有方法大致存在两类局限:一类方法依赖固定窗口,在窗口内同时生成多个 shot,但随着窗口滑动,较早镜头的信息会被丢弃;另一类方法先生成各 shot 关键帧,再以关键帧为条件生成各 shot,但这样限制了 shot 间交互,难以有效传递 shot 内更复杂的叙事细节。

最近,来自 Meta 与 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收录于 CVPR 2026)。



论文地址:https://arxiv.org/pdf/2512.07802

这项工作聚焦于一个核心问题:如何在生成多镜头视频时,有效保留长程跨镜头上下文,从而实现更强的叙事一致性。其核心思路,是为多镜头视频生成建立一种全局但紧凑的跨镜头记忆机制。



图 1 OneStory 可生成分钟级、十镜头的长视频故事,在复杂叙事推进过程中保持人物与场景的一致性;同时统一支持 image-to-multi-shot 与 text-to-multi-shot 两种生成设置,并在 out-of-domain 场景中展现出良好的泛化能力。

OneStory 做了什么?



图 2 OneStory 的训练与推理流程示意图。训练阶段,模型以前两个 shot 为条件生成第三个 shot;推理阶段,模型根据输入 caption 按 shot-by-shot 的方式逐步生成多镜头视频。

OneStory 首先将多镜头视频生成重新表述为一个更自然的问题:next-shot generation。也就是说,模型不再一次性生成整段长视频,而是像讲故事一样,基于前面已经生成的镜头,生成下一个镜头(每个镜头同时生成)。这样的设定实现了shot-by-shot的自回归式多镜头生成。

与此同时,OneStory 以预训练的 image-to-video 基础模型作为初始化,因此可以自然继承基础模型本身强大的视觉条件生成能力。通过这样的任务重构,OneStory 的第一个 shot 可以由用户通过使用任一 text-to-video 或 image-to-video 模型得到,而后续 shot 则由 onestory 根据输入的shot prompt 逐步生成。

也正因如此,OneStory 能够在同一个模型中统一支持text-to-multi-shot video和image-to-multi-shot video两种生成方式。



图 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的结构示意图。两者共同实现了自适应记忆建模,从而支持全局但紧凑的跨镜头上下文表示,用于连贯的叙事生成。

在此基础上,OneStory 设计了两个关键模块。

1. Frame Selection:找到真正相关的历史 memory

并不是所有前序镜头对当前镜头的生成都同等重要。

例如,第 1 个镜头中出现主角,第 2 个镜头切换到配角,第 3 个镜头又回到主角。那么在生成第 3 个镜头时,第 1 个镜头往往比第 2 个镜头更关键。基于这种跨镜头相关性不均等的现象,OneStory 引入了Frame Selection模块,从所有历史镜头中自动挑选出与当前镜头 prompt 在语义上最相关的一些帧,作为当前 shot 生成时的 memory。

这一设计不仅避免了固定窗口滑动带来的遗忘问题,也使模型能够真正构建起全局的跨镜头上下文。



图 4 与以往方法按时间顺序机械分配 patchifier 不同,Adaptive Conditioner 根据内容相关性动态分配不同粒度的 patchifier,从而更高效地利用跨镜头记忆。

2. Adaptive Conditioner:把 memory 压缩成高效条件信息

仅仅 「记住」还不够,如何高效地将这些历史信息输入生成器同样关键。

OneStory 的Adaptive Conditioner会根据 Frame Selection 模块预测的重要性,对选中的历史帧进行自适应patchification:更重要的信息保留更细粒度的表示,不那么关键的信息则被更强地压缩。这样一来,模型就在计算成本可控的前提下,将历史上下文转化为紧凑而有效的条件信号,并直接注入生成过程。



图 5 多 shot 视频数据收集流程

此外,论文没有沿用「整段故事需要一个总脚本,再辅以分镜头定义」的数据构建方式,而是仅保留分镜头 prompt,并将每个镜头写成带有前文指代关系的描述。这样的数据形式更贴近真实的故事讲述逻辑,也让用户的提示控制更加简化。

实验结果



图 6 定性比较结果。OneStory 能够更忠实地遵循 shot-level captions,生成在内容和叙事上更加连贯的多镜头视频。

各实验表明,OneStory 能够在复杂提示不断变化的情况下持续推进叙事,同时保持人物和环境的一致性。论文中也提供了对 OneStory 在复杂叙事场景中的表现分析,包括:

  • 外观变化下的人物一致性保持
  • 从大全景到局部特写时的空间定位能力
  • 人与物体交互发展过程中的叙事延续能力

这些现象说明,OneStory 学到的并不只是表层的视觉连续性,而更接近于一种跨镜头叙事理解能力。

OneStory 的意义是什么?

如果说单镜头视频生成解决的是「把一段画面做出来」,那么多镜头视频生成真正要解决的,就是「把一个故事讲下去」。

OneStory 给出的答案是:不是一味拉长上下文窗口,也不是依赖单张关键帧,而是通过自适应记忆建模,在全局信息建模能力和计算效率之间找到平衡。它让模型在跨镜头生成时,既能够记住过去,又不会被冗余信息淹没。

对于长视频生成和可控世界模型而言,这是一条非常值得关注的方向,因为 OneStory 为视频模型提供了一种有效的自适应 memory 管理机制,也为更长时程、更高一致性的视频生成打开了新的可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
非洲集体掀桌,中国对53国零关税!

非洲集体掀桌,中国对53国零关税!

犀利强哥
2026-05-16 20:25:49
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

精彩分享快乐
2025-12-01 16:01:12
赖清德以“三不提”回应特朗普三句话警告,“台独”露怯认怂,求美国保护

赖清德以“三不提”回应特朗普三句话警告,“台独”露怯认怂,求美国保护

吃货的分享
2026-05-16 19:56:25
“体坛神仙姐姐”,穿三角服参赛被批“暴露”,到底碍了谁的眼?

“体坛神仙姐姐”,穿三角服参赛被批“暴露”,到底碍了谁的眼?

健身迷
2026-05-15 11:26:20
票房破4亿!韩寒、贾玲等为深圳原创出品电影《给阿嬷的情书》打Call

票房破4亿!韩寒、贾玲等为深圳原创出品电影《给阿嬷的情书》打Call

喜欢历史的阿繁
2026-05-17 03:09:23
通大附院分东西两个院区,这两个院区究竟有什么不同你是否知道?

通大附院分东西两个院区,这两个院区究竟有什么不同你是否知道?

白宸侃片
2026-05-16 16:25:32
勇士四方交易方案:换来两届FMVP+比尔

勇士四方交易方案:换来两届FMVP+比尔

体育硬核说
2026-05-16 01:03:59
建国后,林彪身体很不好,老部下苏静回忆称:和没仗打有很大关系

建国后,林彪身体很不好,老部下苏静回忆称:和没仗打有很大关系

大运河时空
2026-05-15 10:55:03
江苏无锡一校花太漂亮了,五官精致,身高169,美得让人移不开眼

江苏无锡一校花太漂亮了,五官精致,身高169,美得让人移不开眼

黑哥讲现代史
2026-05-15 11:16:50
海底捞男童烫伤协商破裂转诉讼,同类案已有先判:餐厅30%家长70%

海底捞男童烫伤协商破裂转诉讼,同类案已有先判:餐厅30%家长70%

千言娱乐记
2026-05-16 13:37:16
拉爵:卡里克激发曼联最佳状态;让人闭嘴的风气是中俄伊做法

拉爵:卡里克激发曼联最佳状态;让人闭嘴的风气是中俄伊做法

懂球帝
2026-05-16 22:24:40
中方划出红线,特朗普访华结束,鲁比奥临别前表态,卢秀燕急了

中方划出红线,特朗普访华结束,鲁比奥临别前表态,卢秀燕急了

璀璨幻行者
2026-05-17 03:05:14
张艺谋相伴27年的陈婷,亲手摘掉妻子认证

张艺谋相伴27年的陈婷,亲手摘掉妻子认证

李虰手工制作
2026-05-17 02:21:00
师姐更油腻了!AI《剑星2》实机:饱满巨臀太夸张!

师姐更油腻了!AI《剑星2》实机:饱满巨臀太夸张!

游民星空
2026-05-16 14:21:14
日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

领悟看世界
2026-05-17 00:17:40
接触的人多了,你就会发现:吃饭慢,走路稳,脾气好的人特别可靠

接触的人多了,你就会发现:吃饭慢,走路稳,脾气好的人特别可靠

木言观
2026-05-13 12:23:39
再看1936年江青的结婚照,发现什么?

再看1936年江青的结婚照,发现什么?

深度报
2026-04-13 22:45:14
越是不做饭、不操心、爱当“甩手掌柜”的人,反而越有家庭松弛感

越是不做饭、不操心、爱当“甩手掌柜”的人,反而越有家庭松弛感

富书
2026-05-16 13:55:51
《歌手2026》首发阵容正式集结

《歌手2026》首发阵容正式集结

扬子晚报
2026-05-16 22:14:24
2026-05-17 04:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13007文章数 142650关注度
往期回顾 全部

艺术要闻

惊!艾米·亚当斯竟是坠入凡间的仙女?

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

科技要闻

涨的是车价,要的是老命

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

旅游
亲子
本地
房产
公开课

旅游要闻

重磅!珠海推出260余项活动,释放史上最强文旅红利

亲子要闻

孕晚期如何做到只长胎不长肉?

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版