网易首页 > 网易号 > 正文 申请入驻

斯坦福与NVIDIA联手:视频生成实现短时技巧与长剧情双模态学习

0
分享至


这项由斯坦福大学联合NVIDIA研究团队完成的研究发表于2026年2月的预印本论文中,论文编号为arXiv:2602.24289v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

想象你正在教一个学生制作电影。如果只给他看5秒钟的短片段,他能学会拍摄技巧和画面质量,但永远学不会如何构建一个完整的故事情节。相反,如果只给他看完整的长电影,虽然能理解剧情发展,但由于长电影数量稀少,他很难掌握精细的拍摄手法。这正是当前AI视频生成面临的核心困境。

目前的AI视频生成技术遇到了一个看似矛盾的问题。互联网上充斥着大量几秒钟的短视频片段,这些素材丰富多样、画质清晰,是训练AI掌握精细动作和高质量画面的绝佳材料。然而,当我们需要AI生成分钟级的长视频时,问题就出现了。高质量的长视频在网络上极其稀少,而且制作和筛选成本极高。这就像是让厨师用大量精美的配菜样品来学做整桌宴席一样困难。

传统的解决方案是将不同长度的视频混合在一起训练AI,期望它能够在不同时间尺度间自然插值。但研究团队发现,这种做法存在根本性缺陷。他们用一个精妙的比喻解释了这个问题:将低分辨率图片放大到高分辨率,本质上是在相同内容基础上的细节插值。但将5秒视频扩展到1分钟,却是完全不同的创作过程,需要添加新的事件、因果关系和叙事结构,这更像是从短篇小说扩展为长篇小说的创作过程。

研究团队提出了一个创新的训练策略,他们称之为"模式寻求遇见均值寻求"。这个看似抽象的名称背后,隐藏着一个巧妙的教学理念。他们让AI系统同时拥有两个"大脑":一个专门负责学习长视频的整体叙事结构,另一个专门负责保持局部画面的精致质量。

具体来说,研究团队设计了一个解耦扩散变换器架构。这个系统就像一个有经验的电影导演,拥有一个统一的"视觉理解中心",但配备了两个专门的"决策头脑"。第一个头脑叫做流匹配头,它专门从稀有的长视频中学习如何构建连贯的故事线和场景转换。第二个头脑叫做分布匹配头,它的任务是确保生成视频的每个短片段都能达到专业短视频老师的质量标准。

这种设计的精妙之处在于解决了两种学习目标之间的冲突。流匹配头采用的是"均值寻求"策略,这意味着它会尝试找到最符合平均水平的叙事发展模式,确保故事的连贯性。而分布匹配头采用"模式寻求"策略,它会努力匹配最优秀的短视频样本的质量峰值,而不是追求平均水平。

为了实现这个目标,研究团队采用了一种滑动窗口的训练方法。他们将生成的长视频分解成多个重叠的短片段,然后让每个片段都与一个冻结的短视频专家模型进行比较学习。这就像是让学生写长篇小说时,每个段落都要接受专业写作老师的指导,确保文笔质量不会因为篇幅增长而下降。

在训练过程中,系统会同时优化两个目标。一方面,它使用真实的长视频数据来训练流匹配头,学习如何在分钟级别维持故事的连贯性和视觉一致性。另一方面,它会将生成的长视频切分成短片段,然后使用反向KL散度让这些片段与短视频老师的输出分布保持一致。

这种训练策略的一个重要优势是,它不需要额外的短视频训练数据。系统完全依靠自己生成的内容来进行短片段质量的对比学习,这大大减少了数据需求。同时,由于分布匹配头采用了类似于分布匹配蒸馏的技术,它可以在推理时实现快速的少步骤采样,显著提升生成效率。

研究团队在实际应用中发现,这种方法能够有效解决传统长视频生成中的两大痛点。首先是"模糊化问题",即随着视频长度增加,画面质量逐渐下降,细节变得模糊不清。其次是"连贯性问题",即长视频中容易出现场景跳跃、人物身份混乱等逻辑错误。

实验结果显示,在生成30秒长度的视频时,这种新方法在多项评估指标上都取得了最佳表现。在主体一致性方面得分0.9682,背景一致性0.9548,运动平滑度0.9863,动态程度0.9453,美学质量0.5735,图像质量0.6982,多模态一致性75.42。相比之下,传统的长上下文监督微调方法虽然在某些一致性指标上表现不错,但在图像质量和美学质量方面明显不足。

特别值得注意的是,这种方法只需要4个推理步骤就能生成高质量的长视频,而传统方法通常需要50个步骤。这种效率提升使得实时或准实时的长视频生成成为可能,为实际应用开辟了新的可能性。

研究团队还进行了详细的消融实验,验证了每个组件的重要性。他们发现,如果移除解耦的双头设计,将两种学习目标强加给同一个预测器,会导致性能显著下降。这证实了他们关于梯度干扰问题的理论分析。同时,如果完全移除滑动窗口分布匹配,系统就会退化为纯粹的监督微调方法,虽然能保持长程连贯性,但画面质量会明显下降。

在实际生成的视频样本中,研究团队展示了各种场景的生成效果。从自然风光的延时摄影,到城市街道的漫步视角,再到人物活动的连续记录,新方法都能在保持高质量画面细节的同时,确保整个视频的叙事连贯性。相比之下,传统方法要么产生模糊的长视频,要么在自回归生成过程中累积错误,导致画面质量随时间严重衰减。

这项研究的意义不仅在于技术上的突破,更在于为AI视频生成领域提供了一种新的思维范式。它证明了在数据稀缺的情况下,通过巧妙的架构设计和训练策略,仍然可以实现高质量的长视频生成。这种方法对于需要生成长形式内容的应用场景,如虚拟世界建模、长篇故事视频制作、可控视频编辑等,都具有重要的实用价值。

研究团队还指出,这种方法与现有的因果自回归视频生成方法是互补的,可以作为基础模型进一步发展。未来的研究方向包括将这种双向长上下文模型蒸馏为因果采样器,或者结合更长上下文的位置编码方案来实现更长时间尺度的视频生成。

简而言之,这项研究通过让AI同时学习"技法"和"叙事",成功解决了长视频生成中质量与连贯性难以兼得的根本矛盾。它为未来的视频AI开辟了一条既实用又高效的发展道路,让我们距离真正智能的视频创作工具又近了一步。

Q&A

Q1:解耦扩散变换器是如何工作的?

A:解耦扩散变换器就像一个有两个专门大脑的视频制作专家。它有一个统一的视觉理解中心,配备两个专门的决策头脑:流匹配头负责从长视频中学习故事结构,分布匹配头确保每个短片段都达到高质量标准。这种设计避免了不同学习目标之间的冲突。

Q2:为什么传统的混合长度训练方法效果不好?

A:传统方法就像期望厨师用配菜样品学会做整桌宴席。研究发现,将5秒视频扩展到1分钟不是简单的细节插值,而是需要添加新事件和故事结构的创作过程。混合训练会让模型在追求长程连贯和局部质量之间产生梯度干扰,最终两者都做不好。

Q3:这种新方法生成视频需要多长时间?

A:新方法只需要4个推理步骤就能生成高质量长视频,而传统方法通常需要50个步骤。这意味着生成速度提升了10倍以上,使得实时或准实时的长视频生成成为可能,大大提高了实际应用的可行性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅婷有过三段婚姻,第一任丈夫是叶挺的孙子叶大鹰,是电影导演

梅婷有过三段婚姻,第一任丈夫是叶挺的孙子叶大鹰,是电影导演

百态人间
2026-03-02 15:16:23
上海富人家保姆狂偷户主奢侈品,监控流出评论区吓傻了

上海富人家保姆狂偷户主奢侈品,监控流出评论区吓傻了

不二表姐
2026-02-24 22:17:15
美军新型弹道导弹首次投入实战

美军新型弹道导弹首次投入实战

观察者网
2026-03-02 16:42:09
国家正式公布:2026年3月30日起全国统一执行,老坟有新规定

国家正式公布:2026年3月30日起全国统一执行,老坟有新规定

哄动一时啊
2026-03-02 17:21:01
豆瓣就误设“满200减200”优惠券致歉,称无法承受损失将自动退款处理异常订单,律师:自行认定无效,需请法院或仲裁机构撤销

豆瓣就误设“满200减200”优惠券致歉,称无法承受损失将自动退款处理异常订单,律师:自行认定无效,需请法院或仲裁机构撤销

极目新闻
2026-03-02 16:17:52
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
雷霆100-87击败独行侠!亚历打破尘封63年NBA纪录,登顶历史第一

雷霆100-87击败独行侠!亚历打破尘封63年NBA纪录,登顶历史第一

篮球大视野
2026-03-02 19:47:56
伊朗导弹击中美第五舰队总部瞬间画面曝光,美海军第五舰队总部遇袭前后卫星图公开

伊朗导弹击中美第五舰队总部瞬间画面曝光,美海军第五舰队总部遇袭前后卫星图公开

扬子晚报
2026-03-02 17:09:15
刘孜回老家遵义为父母购百平豪宅,亲自盯装修,父母反应令她失望

刘孜回老家遵义为父母购百平豪宅,亲自盯装修,父母反应令她失望

小椰的奶奶
2026-03-02 16:21:53
字节出手了!Doubao、GLM、Kimi、DeepSeek随便用,直接算力自由

字节出手了!Doubao、GLM、Kimi、DeepSeek随便用,直接算力自由

沃垠AI
2026-03-02 14:56:29
赖亚文:33岁嫁空军军官,无奈与丈夫分居多年,回家时儿子不认她

赖亚文:33岁嫁空军军官,无奈与丈夫分居多年,回家时儿子不认她

白面书誏
2026-03-01 14:32:33
表面谦谦君子,实则“一肚子坏水”,这4位老艺人太让人意外了

表面谦谦君子,实则“一肚子坏水”,这4位老艺人太让人意外了

无人倾听无人倾听
2026-02-18 18:19:25
78:72爆冷!世预赛B组大乱,中国男篮自挖苦坑,日本队坐收渔利

78:72爆冷!世预赛B组大乱,中国男篮自挖苦坑,日本队坐收渔利

行舟问茶
2026-03-02 12:06:53
上海著名主持人直播中泪目!中东战火下,有人平安返航、有人新婚分离、有人只想回家

上海著名主持人直播中泪目!中东战火下,有人平安返航、有人新婚分离、有人只想回家

新民晚报
2026-03-02 14:52:26
今晚烟花秀取消!

今晚烟花秀取消!

无锡高新区在线
2026-03-02 10:46:14
500多名医师已证实:瑞舒伐他汀的真相,最好花点时间看看

500多名医师已证实:瑞舒伐他汀的真相,最好花点时间看看

荆医生科普
2026-03-02 16:55:15
开始投放!2026版1000元发行,哪些新版纸币别乱花?

开始投放!2026版1000元发行,哪些新版纸币别乱花?

天天纪念币
2026-03-02 10:23:23
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

另子维爱读史
2026-03-01 21:23:21
官方:CCTV5将转播中国女足亚洲杯首战vs孟加拉国女足

官方:CCTV5将转播中国女足亚洲杯首战vs孟加拉国女足

懂球帝
2026-03-02 14:43:31
年销7900辆,巨亏223亿欧:意大利的汽车工业已然输掉了全部未来

年销7900辆,巨亏223亿欧:意大利的汽车工业已然输掉了全部未来

电科技网
2026-02-28 19:48:45
2026-03-02 21:16:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7408文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

旅游
本地
房产
亲子
公开课

旅游要闻

火龙巡夜,花灯入梦:在韶关湾头古村,看见四百年的中式浪漫

本地新闻

津南好·四时总相宜

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

亲子要闻

混血3姐弟,今天在家拆沙发盖城堡!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版