网易首页 > 网易号 > 正文 申请入驻

1B模型当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

0
分享至



该论文由大连理工大学、快手可灵团队、香港中文大学联合完成,第一作者王清和是大连理工大学在读三年级博士,研究方向为视频生成,师从卢湖川、贾旭教授,目前在快手可灵团队实习。个人主页:https://qinghew.github.io/

近期,可灵 3.0、Seedance 2.0 等产品的多镜头叙事能力相继爆火,可支持一次生成多个导演级镜头,标志着视频生成领域已经从传统的单镜头生成迈入了多镜头视频生成的时代。然而,对于预算有限的开发者,10B 参数量以上的大模型开发成本较高,100B 以上的大模型更令人望而却步

近期,大连理工与快手可灵团队推出了MultiShotMaster——一个高度可控的多镜头视频生成框架,该论文向研究社区展示了即使在 1B 左右的小参数量级模型上,也可以实现导演级的镜头调度和连贯叙事,且支持多图参考、主体运动控制。



目前,该论文已录用至CVPR 2026,基于 Wan 1.3B 和 14B 的多镜头模型的训练和推理代码已开源:

  • 项目主页:https://qinghew.github.io/MultiShotMaster/
  • 代码链接:https://github.com/KlingAIResearch/MultiShotMaster
  • 论文链接:https://arxiv.org/abs/2512.03041

开源版 MultiShotMaster 能力展示

MultiShotMaster-14B 720p 效果



MultiShotMaster-1.3B 480p 效果

值得一提的是,开源版 MultiShotMaster 斩获了AAAI CVM Workshop 竞赛冠军。该竞赛由北大等高校举办、华为赞助,重点考核世界知识一致性、相机移动一致性、跨镜头 ID 一致性三个层面,充分印证了该模型在多镜头生成与连贯叙事方面的卓越性能。



MultiShotMaster 框架

“单镜头” 到 “多镜头” 的进化

MultiShotMaster 首先调整了传统的单镜头文生视频模型架构,使之能够生成多镜头视频。

具体而言,考虑到镜头间的内容突变,每个镜头需单独通过 3DVAE 编码,然后在时序上级联起来,并在 Temporal Attention 处融合。由于镜头之间不仅存在内容突变,还需保证叙事的先后顺序,作者提出多镜头叙事 RoPE,即基于原始的 3D RoPE 在镜头切换处施加相位偏移:



这显式地标记了镜头边界且维持了原镜头间的叙事顺序,让模型能够精准识别镜头边界,从而支持用户自由设定镜头的数量和时长。此外,构建了总分式提示词结构,全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜。在镜头级 Cross Attention 中,每个镜头的视频只与全局提示词、对应镜头的提示词交互,从而防止跨镜头信息泄露。



时空位置感知的参考注入

用户通常期望视频生成模型具有更多的可控性,例如使用参考图、控制主体运动布局等能力。为此,作者用 VAE 编码参考图像,使之与视频 tokens 落入同一特征空间。

考虑到 3D-RoPE 会使时空距离更近的 tokens 在 Attention 中增强交互,作者设计了时空位置感知的 RoPE,将指定时空区域的 RoPE 重采样为更细粒度的 RoPE 分配给参考 tokens。



在时序注意力中,干净的参考 tokens 会将视觉信息传递给噪声视频 tokens 以实现参考图像(主体/背景)指定时空位置的注入。当用户期望控制同一主体的运动轨迹时,可以通过复制多次同一角色的 Token 并分配不同的时空 RoPE。

此外,为了管理上下文信息流,防止不必要的 token 交互,作者设计了多镜头-多主体 Attention Mask,允许跨镜头的视频 tokens 交互,限制每个镜头的视频 tokens 仅能与视频内的参考 tokens 交互。

值得注意的是,MultiShotMaster 没有引入外部参数,而是利用、改进视频生成模型原有的 3D-RoPE,从而实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化、背景可定制的场景一致性。这一多功能框架为多样化多镜头视频内容创作提供了新的可能性,使用户能够打造高度定制化的视频叙事。

MultiShotMaster - 实验版 1B 模型(384×672)效果

MultiShotMaster 训练数据构建流程



数据构建流程:

  1. 采用镜头切换检测模型 TransNet V2 将长视频裁切成短片段,使用场景分割模型 SceneSeg 将同一场景内的片段聚合到一起,然后从中采样多镜头视频。
  2. 引入总分式提示词结构,使用 Gemini-2.5-Flash 生成全局描述和每个镜头的描述。
  3. 整合 YOLOv11、ByteTrack 和 SAM 来检测、追踪和分割主体图像,然后利用 Gemini-2.5-Flash 根据主体外观合并跨镜头的跟踪结果。
  4. 使用 OmniEraser 获得干净的背景参考图。

实验结果

除了对比现有的 SOTA 多镜头视频生成模型之外,由于目前没有支持参考图输入的多镜头视频生成模型,作者对比了支持参考图输入的单镜头模型 Phantom、VACE,拼接他们逐个生成的镜头用于比较。

可以看出,在定量和定性的比较中,MultiShotMaster 在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能

定性实验结果:



定量实验结果:



总结

MultiShotMaster 通过对 RoPE 的创新性改进,实现了高度可控的多镜头视频生成。其引入的多镜头叙事 RoPE 与时空位置感知 RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控。在仅约 1B 参数的模型规模下即可展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力。

同时,自动化的多镜头数据标注流程及开源模型也将为社区的研究提供强力支持,有望推动 AI 视频创作进入一个叙事更连贯、表达更自由的新阶段。

更多细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
故事:25岁台湾小伙偷偷瞒家里跑出,首次来大陆,刚下飞机看到一幕哭了

故事:25岁台湾小伙偷偷瞒家里跑出,首次来大陆,刚下飞机看到一幕哭了

奶茶麦子
2026-03-07 01:04:43
年轻人累死累活挣三四千,老人拿七八千退休金,该如何破局?

年轻人累死累活挣三四千,老人拿七八千退休金,该如何破局?

猫叔东山再起
2026-02-24 10:55:03
威刚董事长陈立白:三大DRAM内存原厂库存水位已“接近警戒线”

威刚董事长陈立白:三大DRAM内存原厂库存水位已“接近警戒线”

IT之家
2026-03-06 17:58:39
建议:多接触异性,你真的会改变

建议:多接触异性,你真的会改变

黎兜兜
2026-03-05 21:18:09
从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

墨印斋
2025-12-10 18:28:12
小姑子把一碗汤泼我头上,全家都在笑,一周后她的饭店全关门停业

小姑子把一碗汤泼我头上,全家都在笑,一周后她的饭店全关门停业

千秋文化
2026-03-02 20:56:45
伊朗祭出绝杀令!台湾只剩5天活路?特朗普摊手:大家咬牙忍忍

伊朗祭出绝杀令!台湾只剩5天活路?特朗普摊手:大家咬牙忍忍

南宗历史
2026-03-06 18:25:26
伊朗威胁攻打以色列核反应堆,500美军被消灭,以:地面进攻开始

伊朗威胁攻打以色列核反应堆,500美军被消灭,以:地面进攻开始

梁讯
2026-03-06 20:36:03
中国出使中东,日本有人想派武装,折射出美国弱点!

中国出使中东,日本有人想派武装,折射出美国弱点!

新民周刊
2026-03-06 09:11:14
全国人大代表,成都市委副书记、市长陈书平:推动“成渝CP”再创发展新高度|两会开放日

全国人大代表,成都市委副书记、市长陈书平:推动“成渝CP”再创发展新高度|两会开放日

封面新闻
2026-03-06 19:25:02
麦当劳CEO试吃大拱门翻车,网友:汉堡只受了点皮外伤。

麦当劳CEO试吃大拱门翻车,网友:汉堡只受了点皮外伤。

LOGO研究所
2026-03-06 11:24:57
药检阳性、不配用奢侈品?现身两会的张雨霏,不知打脸了多少人!

药检阳性、不配用奢侈品?现身两会的张雨霏,不知打脸了多少人!

林轻吟
2026-03-06 17:03:58
10098元起!海信发布四筒洗衣机:首创集成洗鞋机

10098元起!海信发布四筒洗衣机:首创集成洗鞋机

快科技
2026-03-06 08:00:08
血债血偿,中国出兵巴基斯坦,用重装合成营教俾路支解放军做人

血债血偿,中国出兵巴基斯坦,用重装合成营教俾路支解放军做人

干史人
2024-12-13 18:00:03
全英赛国羽男单全军覆没,梁王亦出局

全英赛国羽男单全军覆没,梁王亦出局

佑铭羽球
2026-03-07 03:29:06
伊朗下达禁令,不许三方过海峡,否则将直接开火,中国获得优待

伊朗下达禁令,不许三方过海峡,否则将直接开火,中国获得优待

主宰未来
2026-03-06 20:27:26
第22波打击!特朗普A计划失败,伊朗最大内奸被捕,布林肯已出山

第22波打击!特朗普A计划失败,伊朗最大内奸被捕,布林肯已出山

动漫里的童话
2026-03-07 02:48:29
92年,钱学森向国家建议:汽车工业跳过汽油柴油,直接进入新能源

92年,钱学森向国家建议:汽车工业跳过汽油柴油,直接进入新能源

文史达观
2024-07-25 17:55:10
补脾是最好的抗衰老,一个中成药,每天吃点,脾胃好了、人年轻了

补脾是最好的抗衰老,一个中成药,每天吃点,脾胃好了、人年轻了

神希园
2026-02-02 12:05:03
美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

荆楚寰宇文枢
2025-09-28 21:58:22
2026-03-07 05:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12430文章数 142578关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
数码
教育
手机
公开课

艺术要闻

陈独秀写给青年毛泽东的对联,一语双关,陈氏书法“天花板”!

数码要闻

AYANEO Pocket AIR Mini x B.Duck小黄鸭联名限定款掌机亮相

教育要闻

“县城的最爱学这种课”,一段女儿当街走秀视频,把人看尴尬了

手机要闻

荣耀600系列曝光:9000mAh+2亿像素+超声波指纹,这波堆料太狠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版