约翰·霍普金斯大学携手字节Seed团队提出了Captain Cinema,一个用于自动生成短片的创新系统。它以详细的电影剧情文字为输入,先规划出关键帧,勾勒出整个故事的视觉结构(包括场景和角色),确保叙事在视觉和内容上都连贯。然后,系统再利用这些关键帧,通过先进的视频生成模型,把画面之间的动态过程补全,最终合成一段完整、有故事性的短片。(链接在文章底部)
为了实现长片段、多场景、连续性强的视频生成,设计了一种特殊的训练方法,叫做“交错式训练策略”,并结合多模态扩散Transformer(MM-DiT)模型进行训练。同时,还构建了一个专业的电影级数据集,让模型能够更好地理解和生成有深度、有节奏的叙事视频。实验结果显示,Captain Cinema 不仅生成质量高,而且效率也很出色。
01 技术原理
Captain Cinema 通过融合自顶向下与自底向上交错式生成机制,实现了一阶段的多场景电影生成。该方法引入了一种混合注意力掩码策略,并结合GoldenMem 上下文压缩机制,从而高效地学习并生成长片幅电影。其中,GoldenMem 令牌的数量(对应编码图像潜在表示中的短边)采用了逆斐波那契下采样策略,作为上下文压缩的一个示例。
Captain Cinema 将静态画面生成与运动合成任务解耦,使视频生成模型能够专注于运动的合成,从而实现更一致、更稳健、更流畅的电影生成效果。(左侧是纯文本,右侧是交错条件长上下文)
Captain Cinema 搭载强大的图像编辑模型,将每一帧关键画面变成可完全编辑的画布—你可以精准地调整服装风格、优化角色形象,或添加品牌元素,而这些编辑内容将无缝地传播到整个镜头中。
你可以成为导演,使用你自己的故事、场景和角色,重新演绎任何一部电影。下面这部电影短片讲述了布鲁斯·韦恩、小丑与阿尔弗雷德·潘尼沃斯的史诗级星际之旅。更改了文章开头视频的走向和结局。
不过,Captain Cinema 目前也有一些限制:它还无法直接从文本一键生成完整视频,仍需先生成关键帧再合成视频;模型也不能自主想象剧情,需要人类或大模型提供文本剧本;此外,它对高质量电影数据的依赖较大,未来还需在数据扩展、算法优化和真实性验证方面持续改进。尽管如此,这一研究已经为“故事驱动的自动化电影生成”迈出了关键一步。
https://arxiv.org/pdf/2507.18634欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.