网易首页 > 网易号 > 正文 申请入驻

CVPR 2026|AI开始会拍电影了:一分钟十镜头,全程不崩剧情

0
分享至



安照崇现为哥本哈根大学博士生,隶属于 Pioneer Centre for Artificial Intelligence 和 ELLIS 项目,导师为 Serge Belongie 教授。他于 2023 年获得苏黎世联邦理工学院(ETH Zurich)计算机科学硕士学位,导师为 Luc Van Gool 教授。他的研究方向主要包括三维理解、视频生成以及多模态模型。

多镜头视频生成是自然世界叙事的重要表达形式,也是视频生成领域中一个挑战性的研究方向。

与单镜头视频不同,多镜头视频并不是简单地把几个片段拼接起来,而是要求模型同时处理两类信息:一类需要在不同镜头之间保持稳定,例如人物身份、环境主体和故事主线;另一类则需要随着叙事自然变化,例如视角切换、动作推进和场景转场。

这一任务通常可以定义为:给定每个 shot 的 prompt,以及一个可选的初始图像作为首帧条件,模型需要生成多个 shot,并同时维持跨 shot 的内容一致性和对每个 shot prompt 的准确遵循。

这意味着,模型必须能够持续维护长程的跨镜头上下文。然而,现有方法大致存在两类局限:一类方法依赖固定窗口,在窗口内同时生成多个 shot,但随着窗口滑动,较早镜头的信息会被丢弃;另一类方法先生成各 shot 关键帧,再以关键帧为条件生成各 shot,但这样限制了 shot 间交互,难以有效传递 shot 内更复杂的叙事细节。

最近,来自 Meta 与 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收录于 CVPR 2026)。



论文地址:https://arxiv.org/pdf/2512.07802

这项工作聚焦于一个核心问题:如何在生成多镜头视频时,有效保留长程跨镜头上下文,从而实现更强的叙事一致性。其核心思路,是为多镜头视频生成建立一种全局但紧凑的跨镜头记忆机制。



图 1 OneStory 可生成分钟级、十镜头的长视频故事,在复杂叙事推进过程中保持人物与场景的一致性;同时统一支持 image-to-multi-shot 与 text-to-multi-shot 两种生成设置,并在 out-of-domain 场景中展现出良好的泛化能力。

OneStory 做了什么?



图 2 OneStory 的训练与推理流程示意图。训练阶段,模型以前两个 shot 为条件生成第三个 shot;推理阶段,模型根据输入 caption 按 shot-by-shot 的方式逐步生成多镜头视频。

OneStory 首先将多镜头视频生成重新表述为一个更自然的问题:next-shot generation。也就是说,模型不再一次性生成整段长视频,而是像讲故事一样,基于前面已经生成的镜头,生成下一个镜头(每个镜头同时生成)。这样的设定实现了shot-by-shot的自回归式多镜头生成。

与此同时,OneStory 以预训练的 image-to-video 基础模型作为初始化,因此可以自然继承基础模型本身强大的视觉条件生成能力。通过这样的任务重构,OneStory 的第一个 shot 可以由用户通过使用任一 text-to-video 或 image-to-video 模型得到,而后续 shot 则由 onestory 根据输入的shot prompt 逐步生成。

也正因如此,OneStory 能够在同一个模型中统一支持text-to-multi-shot video和image-to-multi-shot video两种生成方式。



图 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的结构示意图。两者共同实现了自适应记忆建模,从而支持全局但紧凑的跨镜头上下文表示,用于连贯的叙事生成。

在此基础上,OneStory 设计了两个关键模块。

1. Frame Selection:找到真正相关的历史 memory

并不是所有前序镜头对当前镜头的生成都同等重要。

例如,第 1 个镜头中出现主角,第 2 个镜头切换到配角,第 3 个镜头又回到主角。那么在生成第 3 个镜头时,第 1 个镜头往往比第 2 个镜头更关键。基于这种跨镜头相关性不均等的现象,OneStory 引入了Frame Selection模块,从所有历史镜头中自动挑选出与当前镜头 prompt 在语义上最相关的一些帧,作为当前 shot 生成时的 memory。

这一设计不仅避免了固定窗口滑动带来的遗忘问题,也使模型能够真正构建起全局的跨镜头上下文。



图 4 与以往方法按时间顺序机械分配 patchifier 不同,Adaptive Conditioner 根据内容相关性动态分配不同粒度的 patchifier,从而更高效地利用跨镜头记忆。

2. Adaptive Conditioner:把 memory 压缩成高效条件信息

仅仅 「记住」还不够,如何高效地将这些历史信息输入生成器同样关键。

OneStory 的Adaptive Conditioner会根据 Frame Selection 模块预测的重要性,对选中的历史帧进行自适应patchification:更重要的信息保留更细粒度的表示,不那么关键的信息则被更强地压缩。这样一来,模型就在计算成本可控的前提下,将历史上下文转化为紧凑而有效的条件信号,并直接注入生成过程。



图 5 多 shot 视频数据收集流程

此外,论文没有沿用「整段故事需要一个总脚本,再辅以分镜头定义」的数据构建方式,而是仅保留分镜头 prompt,并将每个镜头写成带有前文指代关系的描述。这样的数据形式更贴近真实的故事讲述逻辑,也让用户的提示控制更加简化。

实验结果



图 6 定性比较结果。OneStory 能够更忠实地遵循 shot-level captions,生成在内容和叙事上更加连贯的多镜头视频。

各实验表明,OneStory 能够在复杂提示不断变化的情况下持续推进叙事,同时保持人物和环境的一致性。论文中也提供了对 OneStory 在复杂叙事场景中的表现分析,包括:

  • 外观变化下的人物一致性保持
  • 从大全景到局部特写时的空间定位能力
  • 人与物体交互发展过程中的叙事延续能力

这些现象说明,OneStory 学到的并不只是表层的视觉连续性,而更接近于一种跨镜头叙事理解能力。

OneStory 的意义是什么?

如果说单镜头视频生成解决的是「把一段画面做出来」,那么多镜头视频生成真正要解决的,就是「把一个故事讲下去」。

OneStory 给出的答案是:不是一味拉长上下文窗口,也不是依赖单张关键帧,而是通过自适应记忆建模,在全局信息建模能力和计算效率之间找到平衡。它让模型在跨镜头生成时,既能够记住过去,又不会被冗余信息淹没。

对于长视频生成和可控世界模型而言,这是一条非常值得关注的方向,因为 OneStory 为视频模型提供了一种有效的自适应 memory 管理机制,也为更长时程、更高一致性的视频生成打开了新的可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新能源汽车维修遭垄断,4400万车主选择权被锁

新能源汽车维修遭垄断,4400万车主选择权被锁

第一财经资讯
2026-05-11 16:52:11
女子疯狂殴打网约车司机把自己累趴,司机全程没还手,淡定数巴掌:每一下都有代价

女子疯狂殴打网约车司机把自己累趴,司机全程没还手,淡定数巴掌:每一下都有代价

网约车观察室
2026-05-12 09:52:13
瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

史政先锋
2026-05-11 20:21:08
92岁老中医仍出诊!他的“5不”养生经,简单到人人都能做到

92岁老中医仍出诊!他的“5不”养生经,简单到人人都能做到

神奇故事
2026-05-11 22:38:56
还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

麓谷隐士
2026-05-12 10:52:08
360在内部发出全员信,宣布向全体员工每人发放1亿Token

360在内部发出全员信,宣布向全体员工每人发放1亿Token

大厂青年
2026-05-11 16:48:05
曝詹姆斯下赛季继续征战NBA!不确定留在湖人 争冠实力成第一考量

曝詹姆斯下赛季继续征战NBA!不确定留在湖人 争冠实力成第一考量

罗说NBA
2026-05-12 05:50:21
李连杰公开回应病情,自曝因患甲亢改变面容

李连杰公开回应病情,自曝因患甲亢改变面容

大风新闻
2026-05-12 10:08:55
深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

快科技
2026-05-12 11:18:38
贵阳女子1880元办不限次数的瑜伽季卡,连上20多天课后被教练踢出群聊:天天来,你不累吗?

贵阳女子1880元办不限次数的瑜伽季卡,连上20多天课后被教练踢出群聊:天天来,你不累吗?

观威海
2026-05-11 20:46:40
完整监控曝光!故意挑衅逆行撞死一人的小伙已无生命危险

完整监控曝光!故意挑衅逆行撞死一人的小伙已无生命危险

映射生活的身影
2026-05-11 20:29:40
记者:姆巴佩得知打巴萨自己将替补,5分钟后就离开了训练场

记者:姆巴佩得知打巴萨自己将替补,5分钟后就离开了训练场

懂球帝
2026-05-11 16:45:03
陈行甲,何苦硬汉变软蛋?

陈行甲,何苦硬汉变软蛋?

稿得轻松
2026-05-11 21:04:40
留学生的爸妈能有多荒谬?网友:我用五万韩元跟我爸换了五万美金

留学生的爸妈能有多荒谬?网友:我用五万韩元跟我爸换了五万美金

带你感受人间冷暖
2026-05-01 18:06:57
国际足联彻底翻脸!

国际足联彻底翻脸!

阿振观点
2026-05-12 05:45:05
OPPO再致歉:从严处罚高级副总裁段要辉

OPPO再致歉:从严处罚高级副总裁段要辉

21世纪经济报道
2026-05-11 14:48:08
追觅科技CEO发文回应影石CEO刘靖康,此前刘靖康发朋友圈:“明明不是美女CEO为什么要天天刷屏” ,疑暗指追觅创始人俞浩过度营销刷屏

追觅科技CEO发文回应影石CEO刘靖康,此前刘靖康发朋友圈:“明明不是美女CEO为什么要天天刷屏” ,疑暗指追觅创始人俞浩过度营销刷屏

扬子晚报
2026-05-12 12:11:58
世乒赛结束第2天,林诗栋处罚悬念揭晓 国际乒联发文,日球迷破防

世乒赛结束第2天,林诗栋处罚悬念揭晓 国际乒联发文,日球迷破防

大秦壁虎白话体育
2026-05-12 09:27:57
大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大风新闻
2026-05-12 10:08:22
某民航研究所员工晒出26年收入,真的让人羡慕啊

某民航研究所员工晒出26年收入,真的让人羡慕啊

微微热评
2026-05-12 11:50:00
2026-05-12 14:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12976文章数 142648关注度
往期回顾 全部

艺术要闻

这位画家的油画美人让人惊叹不已!

头条要闻

特朗普访华企业团名单披露:马斯克在列 没有黄仁勋

头条要闻

特朗普访华企业团名单披露:马斯克在列 没有黄仁勋

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

特朗普要来了,我们且淡定

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
房产
时尚
旅游
公开课

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

50亿资本布局!宁德时代,突然重仓三亚!

推广|| 你们都想要的绝美白衬衫,链接来了!

旅游要闻

【文旅中国快报05.12】首届中国新文创市集来了;自由自在响沙湾的风吹到了莫干山

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版