网易首页 > 网易号 > 正文 申请入驻

ByteDance团队让AI学会制作无缝连接的长镜头视频

0
分享至


在今年12月刚刚发布的一项研究中,ByteDance公司的智能创作团队带来了一个令人兴奋的技术突破。由刘嘉伟、李俊桥、邓江凡等研究者组成的团队开发出了一套名为DreaMontage的AI视频生成系统,这项研究发表在2025年12月25日的arXiv预印本平台上。有兴趣深入了解的读者可以通过编号arXiv:2512.21252v1查询完整论文。

这个系统最神奇的地方在于,它能够把用户提供的零散图片和视频片段,像魔法师一样组合成一个完整流畅的"一镜到底"长视频。在电影制作中,"一镜到底"是指用一个连续的镜头拍摄整个场景,不进行剪切,这种技术能创造出令人惊叹的沉浸感,但在现实拍摄中成本高昂且技术要求极高。

研究团队面临的挑战就像是要把一堆散落的拼图碎片组合成一幅完整的动态画作。传统的视频生成方法就像是简单地把不同的视频片段强行粘贴在一起,结果往往会出现明显的跳跃和不连贯,就好比看电影时突然画面一闪,前一秒还是白天,后一秒就变成了夜晚,让观众感到突兀和不适。

DreaMontage系统的工作原理可以比作一个经验丰富的电影导演兼剪辑师。当你给它提供几张关键图片或几段视频片段,并告诉它这些内容应该出现在时间轴的什么位置时,它就能智能地填补空白,创造出自然流畅的过渡效果。比如说,你可以给它一张餐桌照片作为开始,一段滑雪视频放在中间,再用一张海滩照片作为结尾,系统就能生成一个连贯的故事:也许是从室内用餐开始,然后场景自然过渡到雪山滑雪,最后以在海滩休息结束。

为了实现这个看似不可能的任务,研究团队开发了三个关键的技术突破。第一个突破就像是给AI装上了一套"时空定位导航系统"。传统的视频生成模型就像一个只能看到开头和结尾的盲人,无法准确知道中间某个特定时间点应该发生什么。研究团队通过一种叫做"中间条件适应"的技术,让AI能够准确理解用户指定的任何时间点的内容要求。

这个过程有点像教会AI理解一个复杂的时间表。研究团队发现,原有的视频编码方式会导致时间对应关系的混乱,就好比你想在下午3点准确到达某个地点,但导航系统却把你在3点附近的所有位置信息都混在一起,无法给出准确指示。为了解决这个问题,他们重新设计了训练方式,让AI能够精确对应每个时间点的内容要求。

第二个技术突破专注于提升视频的表现力和视觉质量。研究团队精心收集了大量高质量的"一镜到底"视频素材,就像为AI准备了一本涵盖各种拍摄技巧的电影教科书。这些素材被细致地分类为镜头运动、视觉效果、体育动作、空间感知和高级转场等不同类型,每种类型都有详细的动作描述和技术要点。

通过这种有针对性的训练,AI逐渐学会了各种电影拍摄技巧。它不再是简单地生成静态或重复的画面,而是能够创造出动态的镜头移动、流畅的场景转换,甚至是复杂的视觉特效。这就好比一个摄影新手通过大量观摩经典电影,逐渐掌握了专业的拍摄手法和剪辑技巧。

第三个突破则是为了解决AI生成视频中常见的"穿帮"问题。在传统的AI视频生成中,经常会出现一些违反物理规律或逻辑常识的画面,比如人物突然凭空消失、汽车在空中飞行、或者场景之间出现生硬的跳跃切换。这些问题就像是电影中的穿帮镜头一样,严重影响观看体验。

研究团队采用了一种叫做"定制化直接偏好优化"的技术来解决这些问题。他们首先训练了一个专门的AI"质量检查员",这个检查员能够识别视频中的各种问题,比如不自然的场景切换或违反物理规律的动作。然后,系统会生成大量不同版本的视频,让这个质量检查员从中挑选出最好和最差的版本。通过不断地对比和学习这些正面和负面的例子,AI逐渐学会了避免常见的错误,生成更加合理和流畅的视频内容。

为了处理长视频生成的挑战,研究团队还开发了一种"分段式自回归生成"策略。生成长视频就像写一本长篇小说,如果一次性完成整本书,不仅工作量巨大,还容易出现前后不一致的问题。这种新策略就像是把长篇小说分成若干章节来写,每写完一章就以此为基础开始下一章,这样既保证了章节之间的连贯性,又大大降低了创作难度。

具体来说,系统会根据用户提供的关键帧位置,智能地将整个视频分割成若干个可管理的段落。每个段落的生成都会参考前一个段落的结尾内容,确保连接处的自然过渡。这种方法不仅解决了计算资源的限制问题,还保证了长视频的整体连贯性和质量稳定性。

在实际测试中,DreaMontage展现出了令人印象深刻的能力。在一个演示案例中,系统成功地将一张火车车厢内部的照片、一段窗户破碎的动画和一张未来城市的图片组合成了一个完整的故事:画面从平静的火车内部开始,窗户突然破碎,镜头穿过破窗飞向外面,最终展现出一个科幻感十足的未来都市景象。整个过渡过程自然流畅,没有任何突兀的跳跃感。

另一个更加复杂的案例展示了系统处理大幅度场景变化的能力。从一个人眼部的极特写开始,镜头逐渐推进到眼瞳深处,然后神奇地转换到一个繁忙的街道场景,最后以一片宁静的草原结束。这种戏剧性的视角转换和场景变化,在传统视频制作中需要复杂的特效制作和精心的策划,而DreaMontage能够自动完成这种创意转换。

研究团队还测试了系统处理混合媒体内容的能力。在一个案例中,他们提供了一张静态的摩托车手照片和两段动态视频片段,要求系统生成一个连贯的故事。最终生成的视频显示摩托车手摘下头盔、驾驶摩托车飞向天空、最终变身为宇航员的完整过程。这种将静态图片和动态视频无缝结合的能力,为创作者提供了前所未有的灵活性。

在与现有技术的对比测试中,DreaMontage显示出了明显的优势。研究团队采用了专业的人类评估标准,邀请专家从视觉质量、动作效果、提示词遵循度和整体偏好四个维度进行评估。结果显示,在多关键帧控制的测试中,DreaMontage相比于Vidu Q2模型在整体偏好上领先了15.79%,相比Pixverse V5模型领先了28.95%。特别是在提示词遵循度方面,DreaMontage表现尤为出色,相比两个竞争对手都有超过23%的显著优势。

这种在提示词遵循度上的优势表明,DreaMontage不仅能够生成视觉效果出色的视频,更重要的是能够准确理解并执行用户的复杂指令。这就像是一个既有艺术天赋又严格执行导演要求的专业演员,既能发挥创意又不偏离剧本要求。

即使在更加标准化的首末帧控制测试中,DreaMontage与业界知名的Kling 2.5模型相比也表现出色。虽然在视觉质量上两者不分上下,但DreaMontage在动作效果和提示词遵循度上都有约4.6%的优势,最终在整体用户偏好上胜出约4%。

为了验证各项技术改进的有效性,研究团队进行了详细的消融实验。结果显示,视觉表现力强化训练对动作效果的提升最为显著,改进幅度达到24.58%,整体偏好度提升了20.34%。这表明专门的高质量数据训练确实能够显著提升AI的创作能力。

定制化的偏好优化训练也展现了明显效果。在解决突兀跳跃问题上,优化后的模型相比基础版本提升了12.59%;在处理不自然的主体动作问题上,提升幅度达到13.44%。这些改进虽然看起来数值不大,但在实际观看体验中却能带来质的飞跃。

最令人惊喜的是超分辨率模块的改进效果。通过引入共享位置编码技术,新方法相比传统方法在视觉质量上提升了53.55%。这个巨大的改进主要解决了高分辨率视频生成中的闪烁和颜色偏移问题,让最终输出的视频更加稳定和专业。

DreaMontage的应用前景非常广阔。在影视制作领域,它可以帮助制片人快速制作预告片和概念验证视频。传统的影视前期制作需要大量的人力物力来制作故事板和预览版本,而DreaMontage可以让创作者只需要提供几张概念图和关键片段,就能快速生成一个完整的预告片,大大缩短了从创意到成片的周期。

在游戏和广告行业,DreaMontage同样具有巨大潜力。许多公司都拥有大量的静态宣传图片和产品展示视频,但缺乏将它们有机结合的能力。通过DreaMontage,一张静态的产品海报可以自然地转换成展示产品使用场景的动态视频,既节省了制作成本,又提升了内容的吸引力。

对于内容创作者来说,DreaMontage提供了一种全新的创作可能性。以前制作"一镜到底"式的长视频需要精心的策划、复杂的设备和专业的技术团队,现在个人创作者只需要准备一些关键素材,就能制作出专业级的连续镜头视频。这种技术的普及化将大大降低高质量视频创作的门槛。

在教育和科普领域,DreaMontage也展现出了独特价值。教师可以将抽象的概念通过具体的视觉场景串联起来,创造出引人入胜的教学视频。比如讲解地球的四季变化时,可以从一片绿油油的春季田野开始,自然过渡到炎热的夏季海滩,再转换到金黄的秋季森林,最后以雪花纷飞的冬季山峦结束,整个过程一气呵成,让学生在视觉享受中深入理解知识点。

当然,这项技术也面临一些挑战和限制。目前的系统在处理极端复杂的物理交互和精细的人物表情方面还有提升空间。同时,由于依赖大量的训练数据,系统在处理完全原创的、前所未见的场景组合时,可能还无法达到人类导演的创意水平。

从技术发展的角度来看,DreaMontage代表了AI视频生成技术的一个重要里程碑。它不仅解决了技术层面的多项难题,更重要的是为整个行业展示了一种新的可能性:AI不再只是简单的工具,而是成为了真正的创作伙伴。随着技术的不断完善和普及,我们有理由期待在不久的将来,每个人都能像专业导演一样,轻松制作出令人惊叹的电影级视频作品。

这项研究的意义远超技术本身。它让我们看到了AI技术如何能够真正赋能普通人,让原本只有专业团队才能完成的复杂创作变得触手可及。在这个视频内容爆炸的时代,DreaMontage或许会成为下一个改变内容创作格局的重要技术,让更多精彩的创意得以实现,让更多动人的故事得以讲述。

Q&A

Q1:DreaMontage跟普通的视频编辑软件有什么区别?

A:普通视频编辑软件只能剪切和拼接现有视频,而DreaMontage能够智能生成连接内容,创造出完全新的过渡画面。比如你有一张海滩照片和一段滑雪视频,普通软件只能硬性拼接,而DreaMontage会自动生成从海滩到雪山的自然过渡过程,让整个视频看起来像一镜到底的专业拍摄。

Q2:使用DreaMontage制作视频需要什么样的技术门槛?

A:相比传统的专业视频制作,DreaMontage大大降低了技术门槛。用户只需要准备一些关键的图片或视频片段,然后告诉系统这些内容应该在什么时间点出现,系统就会自动生成连贯的视频。不需要复杂的后期制作技能或昂贵的拍摄设备,就像使用智能手机应用一样简单。

Q3:DreaMontage生成的视频质量能达到什么水平?

A:根据研究团队的测试结果,DreaMontage在多个维度上都超过了现有的主流视频生成模型。在专业评估中,它比竞争对手在整体用户偏好上领先15-28%,特别是在理解用户指令和生成流畅过渡方面表现突出。虽然还无法完全替代专业电影制作,但已经能够生成令人印象深刻的高质量视频内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我没有退休金,搭伙老伴每月给我存8000元,13年后老伴儿子找到我

我没有退休金,搭伙老伴每月给我存8000元,13年后老伴儿子找到我

第四思维
2025-07-08 13:22:18
特朗普女婿被查,61亿资产99%来自外国,特朗普:中国会感谢我

特朗普女婿被查,61亿资产99%来自外国,特朗普:中国会感谢我

趣文说娱
2026-04-20 19:30:36
不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

小先生笔记
2026-04-20 17:28:25
深大一口气停招26个专业,这些“坑”你还在踩吗?

深大一口气停招26个专业,这些“坑”你还在踩吗?

牛锅巴小钒
2026-04-17 13:18:03
100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

深析古今
2026-03-31 10:10:57
大风突袭,山东一饭店老板霸气喊话“不用结账,直接回家”!老板娘:损失两三千,不心疼钱,只想让顾客安全到家

大风突袭,山东一饭店老板霸气喊话“不用结账,直接回家”!老板娘:损失两三千,不心疼钱,只想让顾客安全到家

大象新闻
2026-04-20 17:43:06
外媒:特多一墓地惊现数十具被丢弃遗骸

外媒:特多一墓地惊现数十具被丢弃遗骸

参考消息
2026-04-20 21:04:06
54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

今古深日报
2026-04-20 10:16:38
纽约期金突破4840美元/盎司

纽约期金突破4840美元/盎司

每日经济新闻
2026-04-20 20:32:11
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
首发26分钟7中1,得分没有犯规多,顶薪先生被杜锋用成拖油瓶?

首发26分钟7中1,得分没有犯规多,顶薪先生被杜锋用成拖油瓶?

弄月公子
2026-04-20 22:45:46
王毅通告全世界,53国获零关税特权,唯独一国没得到,中方选边站

王毅通告全世界,53国获零关税特权,唯独一国没得到,中方选边站

触摸史迹
2026-04-20 03:39:03
国际奥委会:沪蓉广均不申办2036奥运令人失望

国际奥委会:沪蓉广均不申办2036奥运令人失望

观察者小海风
2026-04-20 16:34:35
离婚1年,黄圣依最新近况曝光:在瑞士留学,和此前状态差距太大

离婚1年,黄圣依最新近况曝光:在瑞士留学,和此前状态差距太大

喜欢历史的阿繁
2026-04-21 00:07:25
新疆油气资源潜力巨大:或超越中东,新疆油气新篇章即将开启

新疆油气资源潜力巨大:或超越中东,新疆油气新篇章即将开启

叮当当科技
2026-04-20 18:13:19
蓝眼北京人控诉陈丽华20余年,比女首富更该铭记

蓝眼北京人控诉陈丽华20余年,比女首富更该铭记

老蝣说体育
2026-04-19 17:40:22
特朗普开始妥协不打伊朗,转身甩锅中国,10国发布声明打脸美国

特朗普开始妥协不打伊朗,转身甩锅中国,10国发布声明打脸美国

世界有奇事
2026-04-20 22:26:00
巴西手握2100万吨稀土,对中国立新规:想要矿,得拿核心技术来换

巴西手握2100万吨稀土,对中国立新规:想要矿,得拿核心技术来换

霁寒飘雪
2026-04-20 14:44:41
052D穿过日本横当水道!这步棋有多狠?

052D穿过日本横当水道!这步棋有多狠?

牲产队
2026-04-20 22:21:15
首轮G1打完,这5队最有冠军相!火箭队最被高估,这3队基本出局

首轮G1打完,这5队最有冠军相!火箭队最被高估,这3队基本出局

篮球扫地僧
2026-04-20 21:22:45
2026-04-21 01:07:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8068文章数 562关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

房产
教育
亲子
旅游
军事航空

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

教育要闻

学不会也算违纪?云南一高中生遭劝退,另一位家长的选择太清醒!

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版