网易首页 > 网易号 > 正文 申请入驻

CineTrans: 首个转场可控多镜头视频生成模型,打破闭源技术壁垒

0
分享至



本文一作吴晓雪目前是复旦-上海人工智能实验室的联培博士生,目前的研究方向是可控多镜头生成、长视频生成。

随着视频生成模型的快速发展,其在画面质量、条件控制、美学表现上都已表现出影视级效果。然而,影视级长视频往往并非为单个镜头的无限延续,而是具有转场的多镜头序列(Multi-shot Sequence)。闭源模型 Sora2、Veo3 中多镜头视频已经能够表现出惊艳的效果。

如何使生成的视频带有自然的转场,如何指定转场的位置,如何令多个镜头形成丰富的语义流信号,是视频生成模型在未来所面临的新挑战。

针对这些问题,来自上海人工智能实验室的研究团队提出了一种基于掩码机制的全新方法 CineTrans。

基于对注意力特性的观察,CineTrans 提出块对角掩码的通用机制,使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性,作者设计了详细的多镜头视频生产管线,并收集了一个高质量、多镜头数据集 Cine250K,大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型,CineTrans 为这一领域的众多后续方法提供了关键技术。

本文将深入介绍这篇被 ICLR 2026 接收的工作。



  • 论文标题:CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
  • 论文链接:https://arxiv.org/pdf/2508.11484
  • 项目链接:https://uknowsth.github.io/CineTrans/
  • 代码链接:https://github.com/Vchitect/CineTrans
  • 数据集链接:https://huggingface.co/datasets/NumlockUknowSth/Cine250K

来看看 CineTrans 的效果:







Multi-Shot Case 观测:

扩散模型是如何理解多镜头的

首先思考:在镜头转场情境中,相比于单镜头视频,模型在处理多镜头序列时有何不同。对于这点,作者假设,对于两个相邻帧之间的相关性,过渡点与非过渡点之间存在显著差异,前者需要在像素级(pixel-level)差异的前提下保证语义级(semantic-level)的一致性,后者则需要实现视觉连贯性。

而在 Attention Layer 中,所有 visual token 的交互是平等的,但 Q 对于不同 K、V 的关注度则会有所不同,这表明了使用 Attention Map 作为重要观测工具的可能性。

作者对大规模预训练模型中概率出现的 Multi-Shot Case 进行观测,如预期地发现,某些 Layer 表现出较强的镜头内关联(Intra-shot)和较弱的镜头间关联(Inter-shot)。更具体地说,Attention Map 矩阵呈现块对角结构。经过量化(intra-shot vs. inter-shot probability 26.88, r=0.71),这一点被进一步证实。



此外,作者还在某些 Layer 发现了所有 visual token 对第一帧信息的高度关注。这启发了利用 Attention 内部隐式理解达成外部条件显式转场控制的方法设计。



CineTrans:

基于掩码的控制方法

基于前文的观察,作者提出了块对角掩码架构(Block-Diagonal Mask Mechanism),并将第一帧作为锚点(Anchor),符合 Diffusion Model 本身的特性,意图在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制。

将该掩码应用在部分 Attention Layer 中,作者发现,即使在未经训练(training-free)的情况下,模型也能在保持视觉质量的同时实现较强的时间级控制效果。





包括逐镜头生成(Shot-by-Shot)与端到端生成(End-to-End)的以往工作都可视作从两个维度解决多镜头问题:

  • 转场的发生:确保视频中的两帧发生明显的像素级跳变,镜头边界不出现局部崩坏、粘连的情况。
  • 转场前后的一致性维持:确保发生转场前后的画面内容在语义上呈现强关联,令画面的切换不会打断观看者的体验。

逐镜头的生成通过分别合成每个镜头自然保证的转场的发生,但将一致性的依赖至于模型外部(external),例如条件注入(conditioning)、关键帧生成(keyframe);端到端的生成通过 visual token 在前向过程中完全交互来维持整体一致性,但并不显式区分镜头间与镜头内,从而需要大规模训练才能让模型学会 multi-shot 的概念,且缺乏明确的时间级控制手段。

相比之下,CineTrans 通过选择性的掩码策略在这两个维度实现了一种平衡方案:

  • 全局信息交互:通过第一帧的 anchor 与未经掩码的 full attention,visual token 进行全局交互,实现来自模型内部(internal)的一致性保证。
  • 镜头内局部交互:在块对角掩码的作用下,镜头间的交互被限制,相邻镜头之间的像素信息自然形成跳变,在保持全局一致性的前提下形成稳定的转场。

进一步地,在通过多镜头视频数据集微调以后,CineTrans 也具备了电影级剪辑的先验知识,将转场前后的镜头关联理解内化在模型参数中,实现更具备电影美学的转场效果。此外,为了更丰富的内容表现,CineTrans 也在 video-text cross attention 结构中使用了 shot-level 的掩码机制,实现内容上的细粒度控制。



Cine250K:

丰富的多镜头数据集

文章还提出了 Cine250K,这也是 CineTrans 微调所采用的多镜头数据。Cine250K 经过了精细的设计,捕捉人类剪辑序列中的先验知识,提供优秀美学表现、精确镜头标签、层级细节标注的视频数据。其构建过程主要由三个阶段构成:

  • 分割缝合阶段(Split & Stitch):经过镜头切换识别后,基于镜头间相邻帧之间的语义相似性将视频缝合起来,并删除软过渡的帧,明确镜头界限,奠定模型间镜头一致性的基调,提供时间级镜头标注。
  • 筛选阶段(Selection):基于镜头数量、视频基本信息、美学表现等进行筛选。
  • 多层级标注(Caption):为了细粒度语义控制,对逐个镜头进行内容、风格、氛围多个维度的标注,同时得到总体信息,为多粒度控制提供可能。

经过处理,最后得到了约 25 万个经过精细处理的多镜头视频-文本对,它提供了丰富的剪辑艺术先验信息,对多镜头生成任务来说,具有重要意义。

实验结果评估与分析

文中将 CineTrans 的转场效果与多种 Multi-shot 生成方法进行对比,包括逐镜头生成方法(StoryDiffusion + CogVideoXI2V)、大规模预训练方法(HunyuanVideo)和定制化方法(Cinematron LoRA)。结果表现出了大幅度超过基线的转场控制得分(Transition Control Score),以及在 Unet 和 DiT 架构上的泛化性。



此外,为了更好地比较镜头间一致性,作者还提出了基于 JS 散度的新指标,以衡量真实剪辑的数据与生成数据的分布差异。经过可视化,CineTrans 生成的视频在一致性分布也最接近人类剪辑的视频数据,表现出了贴近人类剪辑习惯的多镜头生成能力。



总结与展望

利用扩散模型本身对多镜头序列的理解构建掩码,CineTrans 实现了符合模型先验的时间级转场控制,同时保持了镜头间一致性与视频质量。作为从逐镜头生成转向端到端生成的重要工作,它在转场与一致性之间的权衡问题上给出了一个行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实的基础。

目前,CineTrans 的代码、模型权重、数据集已在 GitHub 开源,欢迎社区进一步研究与使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36斤活羊烤完剩6.9斤后续!花了1188元,商家曝原因,顾客已举报

36斤活羊烤完剩6.9斤后续!花了1188元,商家曝原因,顾客已举报

南方健哥
2026-02-24 05:22:18
今日激战!2月24日晚19:30!中央5套CCTV5、CCTV5+直播节目表

今日激战!2月24日晚19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-24 15:22:22
赛前必「摸福」?阿里云这个 AI 装置成了运动员的「冬奥许愿池」

赛前必「摸福」?阿里云这个 AI 装置成了运动员的「冬奥许愿池」

爱范儿
2026-02-12 17:06:16
6.9斤烤全羊商家好评如潮,多给了6斤活羊套餐还赠送大量菜

6.9斤烤全羊商家好评如潮,多给了6斤活羊套餐还赠送大量菜

映射生活的身影
2026-02-24 12:34:56
夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

大风新闻
2026-02-24 15:44:14
美称中国一人工智能企业违反美出口管制,外交部:中方已多次表明原则立场

美称中国一人工智能企业违反美出口管制,外交部:中方已多次表明原则立场

澎湃新闻
2026-02-24 15:34:26
突发!两日本车企被我国列入“出口管制”关注名单!

突发!两日本车企被我国列入“出口管制”关注名单!

电动知家
2026-02-24 13:44:19
字节跳动在春节点亮自己的 ChatGPT 时刻

字节跳动在春节点亮自己的 ChatGPT 时刻

晚点LatePost
2026-02-17 12:17:46
返程路上女子被丈夫丢在服务区,当场崩溃!丈夫:没发现,很懊悔

返程路上女子被丈夫丢在服务区,当场崩溃!丈夫:没发现,很懊悔

半岛晨报
2026-02-24 15:51:26
42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

削桐作琴
2026-02-23 22:00:18
冰上传奇刘美贤:一个华裔家庭用自由写下的史诗

冰上传奇刘美贤:一个华裔家庭用自由写下的史诗

涛哥锐评
2026-02-24 13:20:47
巴拿马颁令,正式撤销长和两港口经营权,授权海事局接管设施

巴拿马颁令,正式撤销长和两港口经营权,授权海事局接管设施

星岛记事
2026-02-24 11:05:33
高速免费最后60秒收费站上演飞驰人生,有人卡点失败缴费400多元!有人“压哨”通过,两台车省下1000多元

高速免费最后60秒收费站上演飞驰人生,有人卡点失败缴费400多元!有人“压哨”通过,两台车省下1000多元

极目新闻
2026-02-24 00:56:49
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
雷霆躺升联盟第一!马刺力克活塞豪取9连胜 文班21+17+6帽

雷霆躺升联盟第一!马刺力克活塞豪取9连胜 文班21+17+6帽

醉卧浮生
2026-02-24 10:52:51
38岁中国商人在土耳其被绑架杀害,其遭同行女子引诱掳上车,10名嫌疑人已落网

38岁中国商人在土耳其被绑架杀害,其遭同行女子引诱掳上车,10名嫌疑人已落网

扬子晚报
2026-02-24 14:21:20
美国只有3亿人,为何消费力能远超中国14亿人?现在全“露馅”了

美国只有3亿人,为何消费力能远超中国14亿人?现在全“露馅”了

青橘罐头
2026-02-24 07:05:49
A股:尾盘两个信息落地,明天,周三或将这样走!

A股:尾盘两个信息落地,明天,周三或将这样走!

明心
2026-02-24 16:19:16
不可思议!一殡仪馆38岁逝者骨灰去处标注,居然是“不要了”…

不可思议!一殡仪馆38岁逝者骨灰去处标注,居然是“不要了”…

火山詩话
2026-02-23 10:25:40
2026春晚节目收视率排行榜出炉,结果叫人意外,赵本山的话应验了

2026春晚节目收视率排行榜出炉,结果叫人意外,赵本山的话应验了

查尔菲的笔记
2026-02-23 21:03:40
2026-02-24 17:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12339文章数 142569关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

巴拿马当局已接管长江和记两座港口 外交部回应

头条要闻

巴拿马当局已接管长江和记两座港口 外交部回应

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
教育
游戏
本地
公开课

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

教育要闻

如何评价高二英语难度?中考英语130,高二文章完全看不懂

正中XP?性感女巨人新截图:终末地美少女黑丝踩踏

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版