网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 从「单帧」到「分镜」:STAGE重新定义AI电影叙事

0
分享至



从 Sora,可灵到 seedance 2.0,AI 视频生成的浪潮正席卷而来,其惊人的视觉质量让人叹为观止。然而,当我们尝试用它创作一个真正的 “故事” 时,一个普遍的瓶颈浮出水面:连贯性。

为了攻克这一难题,我们提出了 STAGE,一个以 “电影分镜” 为核心的全新叙事生成框架。它不再预测孤立的关键帧,而是直接生成每个镜头的 “起始 - 结束帧对”,为多镜头视频的创作提供了前所未有的结构化控制力。



目前,该论文已录用至CVPR 2026,相关数据集和模型训练训练和推理代码将逐步开源:

  • 论文标题:STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
  • 作者单位:北京邮电大学、北京大学、北京智源人工智能研究院
  • 代码链接:https://github.com/escapistmost/Storyboard-Anchored-Generation

一、前言:AI 视频生成,从 “做动图” 到 “拍电影” 还差多远?

究其原因,一个好故事并非一堆漂亮镜头的简单拼接,而是一个有结构、有逻辑的叙事整体。

目前,主流的多镜头视频生成方法大致分为两派:

  1. 端到端 “一镜到底”:计算成本极高,且过程像 “开盲盒”,难以控制,稍有不慎就满盘皆输。
  2. 关键帧 “分步走”:先生成几个关键画面作为 “路标”,再让视频模型去 “脑补” 中间过程。这种方法更灵活,但问题也随之而来。

这些方法生成的视频,常常在镜头切换时出现 “灾难性” 的断裂:前一秒主角还穿着红衣,后一秒就换了颜色;或者一个流畅的开箱动作,在特写镜头里却变成了 “瞬移”(如下图中的戒指盒)。这些 “穿帮镜头” 的根源在于,模型只知道每个镜头 “大概长啥样”,却不懂得镜头与镜头之间该如何 “衔接”。



现有方法(上)在镜头切换时常出现动作不连贯、物体不一致的问题。STAGE(下)通过预测结构化的 “分镜”,实现了电影级的平滑过渡。

问题的本质是:我们一直在让 AI “画单帧”,而不是 “拍分镜”。一个真正的导演,脑海里不仅有高潮画面,更有每个镜头的起与承、转与合。

二、核心洞察:用 “起始 - 结束帧对” 重构叙事骨架

多镜头叙事的关键,不应是几个孤立的、稀疏的关键帧,而应是一个结构化的电影分镜 (Storyboard)。基于此,我们提出了一个创新性的想法:

将关键帧生成任务,重新定义为 “起始 - 结束帧对 (Start-End Frame Pairs)” 的预测任务。

也就是说,对于每一个镜头,我们不再只预测一个代表性的画面,而是直接预测出它的 “第一帧” 和 “最后一帧”。这个看似简单的改变,却带来了三大优势:

  1. 长程叙事有 “骨架”:所有镜头的起始 / 结束帧串联起来,形成了一个稳固的视觉骨架,确保了角色、场景在整个故事中的长期一致性。
  2. 镜头内部有 “航向”:一个镜头的起始帧和结束帧,明确定义了该镜头内部的动态变化,无论是人物走位还是镜头推拉,都有了清晰的起点和终点。
  3. 镜头衔接有 “电影感”:上一个镜头的 “结束帧” 和下一个镜头的 “起始帧” 之间的关系,直接对 “转场” 这一电影语言进行建模,让 “剪辑点” 变得平滑而有逻辑。

正是基于这一观察,设计了全新的多镜头叙事生成工作流 ——STAGE(SToryboard-AnchoredGEneration)。

三、技术核心:STEP2,一个懂得 “拍分镜” 的 AI 导演

STAGE 工作流的核心,是我们提出的起始 - 结束帧对预测模型 ——STEP2 (STart-End frame-Pair Prediction model)。它就像一位 AI 导演,能将文字剧本精准地翻译成一系列可执行的视觉分镜。



为了让这位 “AI 导演” 足够专业,我们为它配备了三大法宝:

1. 多镜头记忆包 (Multi-shot Memory Pack):过目不忘,确保角色不 “穿越”

为了在生成第 N 个镜头时还记得第一个镜头里主角长什么样,我们设计了一个高效的记忆压缩机制。它能将所有历史镜头的视觉信息压缩成一个紧凑的 “记忆包”,在保证长期一致性的同时,避免了巨大的计算开销。

2. 双重编码策略 (Dual-Encoding Strategy):运镜连贯,确保动作不 “瞬移”

为了保证单个镜头内部的逻辑自洽(例如,一个平滑的推镜头),我们将一个镜头的起始帧和结束帧 “捆绑” 在一起进行联合编码。这让模型在生成之初就对整个镜头的动态了然于胸。

3. 两阶段训练方案 (Two-stage Training Scheme):从 “会拍” 到 “拍得好”

光会拍还不够,还要有 “品味”。我们借鉴了电影学院的教学模式:第一阶段(SFT 监督微调):先让模型在海量的电影片段上学习基础的镜头语言,做到 “会拍”。第二阶段(DPO 偏好对齐):再用人类精选的 “好 / 坏” 镜头转场案例进行 “阅片” 训练,让模型学会什么是 “高级的、电影感的” 转场,最终实现 “拍得好”。

四、数据基石:让模型学会 “分镜” 的起点

要让 AI 学会电影语言,一本好的 “教科书” 必不可少。然而,现有数据集都只关注单帧,无法满足我们对 “分镜” 和 “转场” 的训练需求。为此,我们构建了大规模的 ConStoryBoard 数据集。我们从公开电影中筛选了 10 万个高质量多镜头片段,并为每个镜头都进行了精细化标注,包括:起始 - 结束帧对,故事进展描述,镜头尺度、机位、运镜等电影学属性。更进一步,我们还从中人工挑选出最优的转场案例,构建了包含人类偏好的子集 ConStoryBoard-HP,专门用于第二阶段的 “品味” 训练。

五、实验结果:不仅更连贯,还更懂 “电影感”

我们将 STAGE 与多种 SOTA 多镜头生成方法进行了全面对比。

视觉对比



在 “火车上的女人” 这一主题下,其他方法出现了场景不一致(CineTrans)、风格失真(StoryDiffusion)、动作断裂(VideoGen-of-Thought)等问题。STAGE 则完美保持了人物和环境的一致性,并实现了流畅的叙事。

定量指标



动态展示









六、意义与展望:让 AI 学会用镜头讲故事

这项工作传递了一个清晰的信号:多镜头视频生成的未来,在于结构化的叙事控制,而不仅仅是像素的堆砌。通过引入 “分镜” 这一电影工业的核心概念,STAGE 为 AI 视频生成开辟了一条从 “技术炫技” 迈向 “艺术创作” 的新路径。它让模型不再是一个只会画画的 “美工”,而更像一个懂得如何用镜头组织故事的 “导演”。

我们相信,当 AI 真正开始学会 “拍电影”,而不仅仅是 “做动图” 时,一个由 AI 辅助创作的、真正属于每个人的电影时代,才算真正到来。

更多细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确定!正式官宣加盟,空降达拉斯啊,弗拉格终于有救了?

确定!正式官宣加盟,空降达拉斯啊,弗拉格终于有救了?

球童无忌
2026-05-05 13:40:30
西蒙尼:如果我们被淘汰,那说明对手配得上晋级

西蒙尼:如果我们被淘汰,那说明对手配得上晋级

懂球帝
2026-05-06 06:37:12
我国又一款摩托车夺冠!春风动力在世界摩托车大奖赛上大幅度领先

我国又一款摩托车夺冠!春风动力在世界摩托车大奖赛上大幅度领先

科普大世界
2026-05-05 21:57:22
亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

靠谱电影君
2026-05-05 10:40:44
惊呼绳子“没拴紧没拴紧”,女子景区“探险”时高空坠落;女子是否抢救过来,四川华蓥相关部门称会发通报

惊呼绳子“没拴紧没拴紧”,女子景区“探险”时高空坠落;女子是否抢救过来,四川华蓥相关部门称会发通报

大风新闻
2026-05-05 17:39:06
上海偶遇Angelababy!素颜带小海绵抓娃娃,现场无人打扰太暖心

上海偶遇Angelababy!素颜带小海绵抓娃娃,现场无人打扰太暖心

观鱼听雨
2026-05-05 23:43:22
河北一户人家,因“月季花小院”走红,太养眼,犹如人间仙境

河北一户人家,因“月季花小院”走红,太养眼,犹如人间仙境

三农老历
2026-05-05 00:08:43
摩根:我的历史最佳11人无梅西很正常,他甚至不是阿根廷的历史最佳

摩根:我的历史最佳11人无梅西很正常,他甚至不是阿根廷的历史最佳

懂球帝
2026-05-05 21:57:05
吴宜泽世锦赛夺冠,同为00后的颜丙涛社媒送祝贺,解禁时间已确定

吴宜泽世锦赛夺冠,同为00后的颜丙涛社媒送祝贺,解禁时间已确定

小火箭爱体育
2026-05-05 19:46:07
米切尔和詹姆斯·哈登为何相信骑士队,已准备好爆冷击败活塞队

米切尔和詹姆斯·哈登为何相信骑士队,已准备好爆冷击败活塞队

好火子
2026-05-06 05:32:12
豆包突然要收费,其实是给所有普通人提了个醒!

豆包突然要收费,其实是给所有普通人提了个醒!

秋叶PPT
2026-05-05 08:22:06
套现约455亿,李嘉诚又卖了

套现约455亿,李嘉诚又卖了

第一财经资讯
2026-05-05 23:54:56
最便宜的丰田小车来了!配1.0L发动机油耗2.8L,不足4万太香了

最便宜的丰田小车来了!配1.0L发动机油耗2.8L,不足4万太香了

娱乐圈的笔娱君
2026-05-05 21:17:39
我家楼下有个少妇,离婚有一年了,长得非常漂亮,我想把她追到手

我家楼下有个少妇,离婚有一年了,长得非常漂亮,我想把她追到手

那年秋天
2026-05-05 18:00:07
大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

社会日日鲜
2026-05-05 20:11:56
特斯拉 Model Y L 续航、能耗太强了,表显跑出了 1:1

特斯拉 Model Y L 续航、能耗太强了,表显跑出了 1:1

新浪财经
2026-05-05 17:57:05
兰州饭馆挂钱学森袁隆平照片,被投诉,老板反手报警:崇拜,不摘

兰州饭馆挂钱学森袁隆平照片,被投诉,老板反手报警:崇拜,不摘

观察鉴娱
2026-05-05 10:24:44
妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁:这一刻他就是妈妈的“守护天使”

妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁:这一刻他就是妈妈的“守护天使”

大象新闻
2026-05-05 20:46:37
阿森纳通往欧冠决赛之路:11胜3平仅丢6球,胜拜仁国米马竞

阿森纳通往欧冠决赛之路:11胜3平仅丢6球,胜拜仁国米马竞

懂球帝
2026-05-06 05:24:44
特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

每日经济新闻
2026-05-03 09:07:16
2026-05-06 06:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12919文章数 142642关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
教育
亲子
艺术
时尚

家居要闻

灵动实用 生活艺术场

教育要闻

富人才不会把女儿养这么胖!家长晒女儿喝60元矿泉水,被网友群嘲

亲子要闻

这个五一,带宝宝来北海看海啦~银滩细沙海浪,是小朋友最爱的天

艺术要闻

这些劳动图画最美!

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

无障碍浏览 进入关怀版