网易首页 > 网易号 > 正文 申请入驻

科学家用AI预测下一镜头,为影视剧提供视觉和叙事一致的应用工具

0
分享至

多镜头电影级叙事的视频生成来了!

近期,新加坡南洋理工大学与香港中文大学、上海人工智能实验室团队合作,开发了一种名为 Cut2Next 的新框架,提出了“下一个镜头的预测”(NSG,Next Shot Generation)。在层次化多提示策略下进行上下文调优,实现了符合电影级水平、叙事连贯的高质量镜头生成。

Cut2Next 向电影镜头生成领域迈出了重要的一步,通过同时关注视觉一致性和叙事流畅性,确保了引人入胜的故事表达。审稿人对该研究评价称:“该研究创新性地使用 DiT(Diffusion Transformer)和层次化提示策略,使得生成的镜头不仅符合专业剪辑模式,还保持了连续性。用户研究也验证了它在生成高质量、富有叙事表现力并且符合电影标准的镜头上的卓越表现。”

该研究提出了一种基于关键帧和多镜头生成视频的新范式,为多模态的通用人工智能(AGI)提供了视觉信息建模的新思路。Cut2Next 为影视剧、AIGC 短剧和社交媒体领域提供了一种应用级工具,以高效快速地迭代长视频的拍摄方案。此外,其还可用于互动游戏及具身智能领域的仿真内容和仿真数据。



现有视频模型:缺乏视觉和叙事的一致性

随着技术的发展,目前 AI 模型已经能够生成高质量的单镜头视频,不久前发布的 Sora 2 最长可生成 10 秒的视频。然而,从时代和视频应用的实际需求来看,现有视频模型仍缺乏叙事连续性。尽管此前学术界已有长视频生成的相关研究,但仍面临如何平衡主题和叙事一致性以及高质量细节的挑战。

·视觉和叙事的一致性:视觉的一致性,包括角色以及光照、打光、色调等整体风格的一致;叙事的一致性是指,需要捕捉到特定的拍摄镜头、机位、运镜角度等。

·高质量细节:其难题是在保证一致性的前提下,如何尽可能多地生成高质量的细节,这往往与文艺作品或视频美学价值密切相关。


(来源:arXiv)

在文本模型领域,当用语言模型生成长文本时,经常会出现幻觉问题。而在视频模型或文生视频模型领域也面临同样的问题:随着生成故事的篇幅越来越长,模型会慢慢出现漂移,出现一些不存在的、不符合现实世界运作的幻想。

从 AGI 的角度来看,过去五年整个 AI 领域的发展是由大模型驱动的。OpenAI 联合创始人伊尔亚·苏茨克维(Ilya Sutskever)曾提出大模型背后的本质是“压缩即智能”(compressor is intelligence),这种压缩机制也推动了从 GPT-3 到 GPT-5 的发展。

在语言模型中,核心训练任务是“下一个词的预测”(NSP,Next Word Prediction);与该范式类似地,在该研究中,研究人员提出了“下一个镜头的预测”(NSG,Next Shot Generation)。

该论文共同通讯作者、南洋理工大学刘子纬副教授对 DeepTech 解释说道:“如果将视觉看成一种语言,影视剧作品就是一种镜头语言,它是人类智慧的一种高度抽象,比如做某一种叙事、传达某一种情感、前后如何连接到一起,甚至还包括制造戏剧冲突,让 AI 能够达到 AGI 的视觉的涌现程度。”



可实现电影叙事中的编辑模式

对于任何一种多镜头视频,无论是电影还是电视剧,都存在不同层次的关系和连接,并经过从分镜到拍摄再到后期剪辑的制作过程。在真实的片场里,摄影师主要聚焦于整体镜头的布局、分镜头、如何打光以及捕捉角色的动作等。而更高层次的是镜头与镜头之间的连接,这部分取决于导演和剧本。

在该研究中,研究人员提出了一种层次化多提示策略,其中包含关系提示(Relational Prompts)和个体提示(Individual Prompts)。可以将它理解为 AI 同时承担了导演和摄影师的角色,能够捕捉不同层次的信息。

该技术的创新性主要体现在上下文感知条件注入(CACI,Context-Aware Condition Injection)和层次化注意力掩码(HAM,Hierarchical Attention Mask),有助于提升镜头的质量以及连贯性。


图丨 Cut2Next 展示其多功能的下一个镜头生成能力(来源:arXiv)

首先,上下文感知条件注入的目的是让模型在某个电影场景下,更好地感知哪些元素是最重要的,包括从低层次的光照、角色一致性,到更高层次的镜头一致性,甚至需要想象在三维世界中的情绪流动等。

刘子纬指出,可以将上下文感知条件输入看作把视频生成、多镜头生成推向更高阶的能力。基于此,Cut2Next 可实现电影叙事中重要的编辑模式,包括正反打镜头、切出镜头和切出镜头。

其次,层次化的注意力掩码。现在无论是语言模型还是视频模型,都依赖于 Transformer 的注意力机制。但注意力机制相对昂贵:由于计算复杂度呈指数级,因此信息量越大,复杂度越高。

尤其对于视频来说,随着帧数增长,长视频难以有效捕捉。在该研究中通过层次化注意力掩码的形式,降低了计算的复杂度,从而可在不引入新参数的条件下,模拟更多、更长和更丰富的信息。



为影视剧、AIGC 短剧和社交媒体提供应用级工具

为更好地支撑 Cut2Next 框架的训练,研究团队构建了两个全新的数据集:RawCuts 是针对预训练阶段,旨在提升阅片量的多样性和丰富度的大规模数据集,其涵盖镜头数量超过 20 万对;而 CuratedCuts 则是针对模型的精调或后训练阶段,以提升品位和培养审美的精标注数据集。


图丨RawCuts 和 CuratedCuts 的数据构建管道(来源:arXiv)

研究人员对现有主流文生图模型进行测试,发现它们在视觉一致性上表现并不理想,特别是影视集的生成。实验结果表明,Cut2Next 在视觉一致性、文本保真度和电影连续性等方面均表现出优于现有模型的性能。

“我们的研究相当于填补了领域内的空白。此前这个问题即便依靠工业界的大量数据也没有解决,而它可通过生成 NSG 来解决,甚至有可能用于探索一些新应用和下游拓展。”刘子纬说。


图丨相关性能对比(来源:arXiv)

日前,相关论文以《Cut2Next:通过上下文调整生成下一个镜头》(Cut2Next: Generating Next Shot via In-Context Tuning)为题发表在预印本网站 arXiv[1]。南洋理工大学博士生何静雯是第一作者,南洋理工大学刘子纬副教授和香港中文大学欧阳万里教授担任共同通讯作者。


图丨相关论文(来源:arXiv)

该技术一方面有望用于影视行业的故事板生成;另一方面,还可能为互动游戏或具身智能领域提供仿真数据。

故事板生成是影视剧,特别是大成本制作电影实拍前的重要步骤之一,甚至需要包括 3D 信息。“目前火爆的 AIGC 短剧每集大概在几分钟,包含约十几个关键帧,也非常适合用这套工具来做纯 2D 的解决方案,而且能快速高效地生成不同风格的内容。”刘子纬表示。

此外,该技术还可充分发挥创意,应用于个人创作者制作出个性化的、用于电商直播或虚拟偶像直播的视频。

另一方面,该技术可应用于生成开放式互动游戏领域的仿真内容和具身智能领域的仿真数据。刘子纬进一步说道:“现阶段大部分机器人的数据相对比较单调,多数采集于实验室或工厂。从更长远的角度来看,Cut2Next 为未来机器人更理解人类的生活甚至情感,提供具身智能的仿真数据。”


图丨刘子纬(来源:刘子纬)

刘子纬在香港中文大学获得博士学位,导师是汤晓鸥教授和王晓刚教授,之后他在美国加州大学伯克利分校从事博士后研究工作,合作导师为 Stella Yu 教授。并且,其还基于一系列优异成果成为 2023 年《麻省理工科技评论》“35 岁以下科技创新 35 人”亚太区入选者之一。

目前,刘子纬团队的主要研究方向是多模态生成式 AI,不仅关注视频与文字的结合,也致力于从不同模态的信息入手,将视频与 3D/4D 信息融合用于增强现实(AR,Augmented Reality)、虚拟现实(VR,Virtual Reality)等场景,实现理解甚至超越世界。

《哥德尔、埃舍尔、巴赫》一书中曾提到,人工智能的发展与人类的各种艺术创作在深层次可能是相通的。刘子纬在从事研究初期颇受该书籍的启发,据他介绍,该研究中还有一个有趣的观察——数据与研究者是密不可分的。起初,他们认为数据集的构建相对客观,但后来他们发现所有的数据集实际上与研究者的价值观或者研究品味紧密相连。例如,在数据构建中,研究人员会挑选多镜头的案例,但其中会涉及到如何去判断哪些多镜头是连续的,哪些多镜头是表达个统一的语义等等。

后来他们发现,当不同领域的研究者看待同一问题时,可能会得出不太一样的结论。因此,如何将结论和标准统一是一个很有趣的问题,这与目前用 AI 解决数学题、写代码等确定性问题有本质的不同。他们在后续的研究中,也将继续深入研究和讨论该问题。

由于该研究涉及 AI、创意、影视制作、人机交互等多个交叉领域,目前研究团队正在邀请一些跨领域的相关学者,共同探索基于 Cut2Next 如何进行创作或更好地辅助相关研究。他们计划进一步开源模型、数据以及前期的发现。

此外,研究人员还打算将该技术向产业界推动,并正在与影视公司、短剧公司接洽,通过了解市场的实际应用需求,进一步精准优化模型的速度和效率等,并通过与业界联合不断迭代下一版。

本次研究中的 Cut2Next 工作相当于连接了语言、视频,甚至是不同层级的多镜头视频。未来,研究团队可能将这项工作继续推进到对世界的终极理解——3D、4D 的层面。

参考资料:

1.https://arxiv.org/abs/2508.08244v2

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
时隔两年,泽连斯基揭秘:深入俄罗斯摧毁“榛树”高超音速导弹

时隔两年,泽连斯基揭秘:深入俄罗斯摧毁“榛树”高超音速导弹

鹰眼Defence
2025-11-02 15:55:16
25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

一只番茄鱼
2025-10-30 21:25:33
惊天反转!荷兰大选结果万万没想到,维尔德斯输给了他!

惊天反转!荷兰大选结果万万没想到,维尔德斯输给了他!

阿钊是个小小评论员
2025-11-02 17:37:51
中俄1.7万亿大单被取消,俄罗斯拒绝接受中国技术,婉拒合作,中国做了什么?

中俄1.7万亿大单被取消,俄罗斯拒绝接受中国技术,婉拒合作,中国做了什么?

广电新视网
2025-11-02 12:00:18
特朗普刚走,中印日韩走进同一间会议室,达成一个没有美国的共识

特朗普刚走,中印日韩走进同一间会议室,达成一个没有美国的共识

历史求知所
2025-11-01 18:45:03
西媒:罚丢点球,维尼修斯这次被换下后没有抗议

西媒:罚丢点球,维尼修斯这次被换下后没有抗议

雷速体育
2025-11-02 08:44:31
美俄英法赞成都没用,中国在联合国投下反对票,向全球表明立场!

美俄英法赞成都没用,中国在联合国投下反对票,向全球表明立场!

阿龙聊军事
2025-11-02 18:48:03
锻炼可能会让你加速衰老!这4种运动方式很伤身,我劝你放弃

锻炼可能会让你加速衰老!这4种运动方式很伤身,我劝你放弃

柏拉图的诉说1
2025-10-31 21:42:03
苏超落幕,谁是真正大赢家?

苏超落幕,谁是真正大赢家?

吴晓波频道
2025-11-02 08:30:38
51岁刘强东“认输”,对妻子章泽天隔空撒娇,细节曝夫妻真实现状

51岁刘强东“认输”,对妻子章泽天隔空撒娇,细节曝夫妻真实现状

来条娱吃
2025-11-02 18:58:29
70岁离异老太惨死,法医检测体内男性DNA,竟与老太自己高度吻合

70岁离异老太惨死,法医检测体内男性DNA,竟与老太自己高度吻合

苏大强专栏
2024-03-27 22:12:23
中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

介知
2025-10-15 16:23:53
这条“无耻”新闻,让人看到老百姓的艰难!

这条“无耻”新闻,让人看到老百姓的艰难!

胖胖说他不胖
2025-11-02 13:16:14
安世中国凌晨发布公告:不存在违约行为,荷兰安世欠付ATGD货款高达10亿元人民币

安世中国凌晨发布公告:不存在违约行为,荷兰安世欠付ATGD货款高达10亿元人民币

极目新闻
2025-11-02 09:27:59
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
鸡排哥全国巡炸,第三站就翻车了,全程只会不愿意碰油锅

鸡排哥全国巡炸,第三站就翻车了,全程只会不愿意碰油锅

新游戏大妹子
2025-11-02 12:16:45
对越自卫反击战我军为何伤亡大?越军俘虏:打仗像演戏,不懂伪装

对越自卫反击战我军为何伤亡大?越军俘虏:打仗像演戏,不懂伪装

史韵流转
2025-10-30 09:20:10
吴石牺牲后,伟人很后悔:最大错误就是没集中两个野战军攻打台湾

吴石牺牲后,伟人很后悔:最大错误就是没集中两个野战军攻打台湾

知鉴明史
2025-10-22 18:58:14
马筱梅肚子好明显!自曝嗜睡网友猜是女儿,汪小菲还想接孩子回京

马筱梅肚子好明显!自曝嗜睡网友猜是女儿,汪小菲还想接孩子回京

郑丁嘉话
2025-10-31 09:32:28
抗日神剧有多离谱,八路军顿顿鲍鱼、烤全羊,网友:比我吃的都好

抗日神剧有多离谱,八路军顿顿鲍鱼、烤全羊,网友:比我吃的都好

阿伧说事
2025-10-24 17:20:41
2025-11-02 19:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15807文章数 514254关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
房产
旅游
公开课
军事航空

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

旅游要闻

可爱的乡村——房前村后尽青山

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版