中科大团队揭秘一分钟高清视频的生成秘诀|算法|序列

分享至

这项由中国科学技术大学的贾维南、黄孟琦团队与字节跳动FanqieAI、香港科技大学、武汉大学等机构联合完成的研究，于2025年10月22日发表在arXiv预印本平台，论文编号为arXiv:2510.18692v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次实现了端到端生成一分钟长度、多镜头、480p分辨率的视频，帧率达到24fps，处理的上下文长度约为58万个token。

当我们在视频网站上观看一部精彩的短片时，很少有人会想到，让计算机生成这样的视频有多么困难。就像一个导演需要同时关注故事情节、角色一致性、场景连贯性和视觉效果一样，AI生成长视频面临着巨大的计算挑战。传统的注意力机制就像一个过度操心的导演，需要同时关注视频中的每一帧、每一个像素，这种"全方位监控"的方式随着视频长度的增加会变得越来越吃力，计算量呈指数级增长。

研究团队发现了一个重要现象：在视频生成过程中，大部分注意力其实都是冗余的，就像在一场聚会中，虽然房间里有很多人在说话，但你只需要专注听身边几个朋友的对话就能理解整个交流的核心内容。基于这个观察，他们提出了"混合群组注意力"（MoGA）机制，这种方法就像给视频中的内容分组讨论，让相关的内容聚集在一起进行"深入交流"，而不是让所有内容都彼此"寒暄"。

一、长视频生成的核心难题：计算资源的指数级增长

要理解这项研究的价值，我们首先需要明白长视频生成到底难在哪里。设想你正在策划一场大型音乐会，需要协调上千名演员、几十个乐器组合以及复杂的舞台效果。传统的视频生成模型就像一个需要同时与每个人直接沟通的总指挥，随着参与人员数量的增加，这种"一对一"的沟通方式很快就会变得不堪重负。

在技术层面，这个问题表现为注意力机制的二次复杂度增长。当视频长度从30秒增加到60秒时，计算量不是简单地翻倍，而是以平方关系增长。研究团队举了一个具体的例子：生成一分钟的480p视频，包含约961帧，每帧约1600个token，总计约38.4万个token。如果使用传统的全注意力机制，这种规模的计算几乎是不可行的。

以往的解决方案主要分为几种类型。一种是多阶段方法，就像拍电影时先拍关键镜头，再补充中间的过渡镜头，但这种方法容易产生不一致性，就像用不同风格的镜头拼接电影片段，观众很容易察觉到违和感。另一种是上下文压缩方法，通过丢弃一些历史信息来减少计算负担，但这就像压缩照片会损失画质一样，不可避免地会丢失重要信息。

二、混合群组注意力：智能分组的艺术

研究团队提出的混合群组注意力机制，本质上是一种"智能分组讨论"的策略。这种方法不再让视频中的所有内容彼此"交流"，而是通过一个轻量级的"路由器"将相似或相关的内容分配到同一个组中，然后只在组内进行注意力计算。

这个过程可以用一个生动的比喻来理解：在一个大型国际会议中，与其让每个人都尝试与在场的所有人交流，不如根据专业领域、兴趣爱好或语言背景将参会者分成若干小组。这样，每个人只需要在自己的小组内进行深入交流，既提高了交流效率，又确保了交流质量。

MoGA的技术实现相对简单但非常有效。它使用一个单层线性网络作为"路由器"，这个路由器可以学习如何将视频中的token分配到不同的组中。路由器的权重可以被视为隐式的聚类中心，每个token会被分配到与其最相似的组中。这种设计的巧妙之处在于，它不需要复杂的全局相似度估计，而是通过端到端的训练让模型自己学会如何进行最优分组。

研究团队通过可视化展示了这种分组的效果。在一个包含多个镜头的视频中，MoGA学会了将同一个人的头部、手部和服装的部分区域分配到同一个组中，即使这些部分出现在不同的镜头中。这说明模型确实学会了识别和保持跨镜头的语义一致性。

三、空间-时间群组注意力：兼顾全局与局部的平衡

仅仅依靠动态分组还不够，研究团队意识到还需要保持视频的局部连续性。他们引入了空间-时间群组注意力（STGA）作为补充，这种方法专门处理视频中的短程依赖关系。

这种双重机制的设计就像城市规划中的交通系统：MoGA负责处理不同区域之间的长距离连接，就像高速公路系统连接城市的各个区域；而STGA则负责处理局部区域内的精细连接，就像社区内的街道网络确保邻里之间的便利通行。

STGA的工作原理是将视频分割成固定的空间窗口，然后沿时间轴对帧进行分组。来自不同镜头的帧会被分配到不同的时间组中。研究团队还发现了一个有趣的现象：如果完全阻断不同镜头之间的交互，会在镜头切换的第一帧产生闪烁问题。为了解决这个问题，他们在计算群组注意力时，会从相邻镜头中增加两个潜在帧的键值（但不增加查询），这样既保持了镜头边界的连续性，又几乎不增加额外的计算成本。

四、多镜头长视频的数据处理管道

要训练能够生成连贯长视频的模型，仅仅有好的算法还不够，还需要高质量的训练数据。研究团队构建了一个复杂的数据处理管道，将原始长视频转换为带有密集标注的一分钟多镜头片段。

这个数据处理过程分为两个主要阶段。在视频级别的处理中，团队首先使用视觉质量评估模型对原始视频进行分析，评估美学质量、清晰度、曝光度等指标，同时使用简单的操作符检测黑边等问题。然后使用特定的阈值过滤低质量内容。考虑到长视频样本需要时间连贯性，他们在保持严格的源视频级别过滤的同时，适当放宽了片段级别的过滤标准。接下来，使用AutoShot和PySceneDetect工具将每个视频分割成单镜头片段，这两个工具的结合使用能够更好地识别淡入淡出和渐变过渡。

在镜头级别的处理中，团队对单镜头片段进行质量评估和光学字符识别，丢弃低质量片段。基于OCR结果，计算能够排除水印和字幕的最大面积裁剪，同时保持原始宽高比。对于保留面积不足的片段会被丢弃。然后使用多模态大语言模型为裁剪后的片段生成描述。最后，将时间上相邻的单镜头片段合并成多镜头训练样本（最长65秒），并修剪受过渡重叠影响的片段以确保镜头边界清晰。

五、实验结果：从理论到实践的全面验证

研究团队进行了大量实验来验证MoGA的有效性。他们在现有的基于DiT的短视频生成模型上微调MoGA，使用修正流目标函数。为了确保与基线方法的公平比较，他们在开源的Wan2.1模型（1.3B和14B参数）上训练MoGA。

在计算效率方面，实验结果令人印象深刻。即使使用相对较小的组数（M=5）生成30秒视频，MoGA也能显著节省计算资源，从6.94 PFLOPs降低到2.26 PFLOPs，同时在训练和推理过程中都能实现1.7倍的加速。与一些基于块的稀疏注意力方法不同，MoGA不会产生额外的内存开销，保持了内存使用的高效性。

在视频质量方面，研究团队使用VBench等标准评估指标进行了全面比较。令人惊喜的是，尽管MoGA具有71.25%的稀疏度，但在多个指标上都能达到甚至超越原始全注意力模型的性能。这个结果表明，保留显著token之间的交互不仅减少了计算量，还抑制了无关内容产生的噪声，从而提高了角色身份一致性和时间场景连贯性。

在多镜头视频生成的比较中，MoGA与其他方法如IC-LoRA+Wan和EchoShot进行了对比。尽管依赖稀疏注意力，MoGA在大多数指标上都优于全注意力基线EchoShot。这个结果特别有意义，因为它证明了端到端建模相比多阶段管道的优势。

六、长视频生成的突破性成果

研究团队展示了使用MMDiT架构的MoGA模型生成的一分钟超长视频，包含1441帧。这个成果在技术上是一个重要突破，因为很少有开源方法能够生成30秒以上的多镜头视频。实验显示，即使在如此激进的稀疏度下，基于MMDiT的MoGA仍能保持高视觉保真度，这为更长上下文长度的扩展提供了可行路径。

在视觉效果方面，MoGA生成的长视频展现出了令人印象深刻的跨镜头一致性。即使没有在不同镜头间重复或明确指定，女性角色的帽子等细节特征都能得到一致保持。第1和第22个镜头之间仍然保持高度连贯性，发夹和耳环等精细细节都能在不同镜头间得到保留。更重要的是，即使在多个面孔出现在不同镜头中的情况下，模型也能避免身份混淆。

研究团队还观察到了一个有趣的现象：背景一致性的涌现。在对长时间多镜头视频进行训练后，MoGA表现出了对环境和角色一致性的隐式控制能力。即使没有明确指定细节（如柜子形状和输液瓶位置），不同镜头也能自动保持连贯、时间一致的描述。

七、消融研究：深入理解每个组件的作用

为了更好地理解MoGA各个组件的贡献，研究团队进行了详细的消融研究。在组平衡损失的研究中，他们发现这个额外的损失函数对于防止路由器退化至关重要。没有组平衡损失时，路由器倾向于将大部分token路由到少数几个组中以获得扩散MSE损失的短期优势，但这会导致MoGA退化为全注意力。而有了组平衡损失，路由平衡度量迅速收敛到1左右，反映了全局平衡的分配。

在路由组数量的研究中，团队发现跨镜头DINO和CLIP分数随着组数增加呈现先升后降的趋势。这表明适度的分组稀疏度在全局一致性和效率之间取得了平衡，在保持计算效率的同时获得了接近最优的一致性。

MoGA和STGA有效性的研究显示，这两个组件在实现上下文一致的长视频生成中发挥互补作用。仅使用MoGA缺乏局部信息交换，无法产生有意义的视觉内容。相反，仅使用STGA限制了长程镜头交互，导致跨镜头一致性差和叙事连贯性减弱。当两者结合时，模型实现了强跨镜头一致性，这些结果表明MoGA确实以相对较低的计算成本有效地路由和保持了跨镜头的身份和上下文。

八、技术创新的深层意义

MoGA的技术创新不仅仅体现在计算效率的提升上，更重要的是它代表了一种新的思维方式。传统的注意力机制试图捕获所有可能的依赖关系，而MoGA则认识到并非所有关系都同等重要，通过学习性的分组策略，模型能够专注于最重要的关系。

这种方法的另一个优势是其通用性。作为一种无核函数的方法，MoGA可以无缝集成到现代注意力栈中，包括FlashAttention和序列并行性。这意味着现有的优化技术仍然可以应用，而不需要重新设计整个计算架构。

在多样式视频生成方面，MoGA不仅在现实场景中表现出色，在动画等风格化领域也展现了强大能力。它能够产生高质量的长形式2D视频，同时保持时间连贯性、身份一致性和跨不同风格的场景连续性。

九、面向未来的影响与展望

这项研究的意义远超技术本身的突破。在实际应用层面，一分钟长度的高质量视频生成能力为内容创作行业带来了新的可能性。从社交媒体内容到教育视频，从广告制作到娱乐产业，这种技术都有着广泛的应用前景。

更重要的是，MoGA展示了通过更智能的注意力机制实现计算效率和质量双重提升的可能性。这种"用更少资源做更多事情"的理念，对于推动AI技术的普及和降低使用门槛具有重要意义。

从技术发展的角度来看，这项研究为长序列建模开辟了新的研究方向。MoGA的成功证明了学习性稀疏注意力的潜力，这种思路可能在其他需要处理长序列的任务中得到应用，如长文档理解、长对话生成等。

研究团队也诚实地指出了当前方法的局限性。虽然MoGA在多个指标上表现出色，但在某些特定场景下，如需要精确控制特定时间点事件的长视频生成中，仍有改进空间。此外，如何进一步扩展到更长时间（如电影级别）的视频生成，仍然是一个开放的研究问题。

说到底，这项由中科大团队主导的研究为我们展示了AI视频生成技术的巨大潜力。通过巧妙的算法设计和工程实现，他们不仅解决了长视频生成的技术瓶颈，更为整个领域的发展指明了新的方向。对于普通人而言，这意味着我们距离拥有强大的视频创作助手又近了一步。无论是想要制作个人vlog、教学视频，还是进行专业的内容创作，这种技术都可能在不久的将来成为我们日常工具箱中的重要组成部分。

当然，技术的进步也带来了新的思考。随着AI生成内容越来越逼真，我们需要思考如何在享受技术便利的同时，保持对真实性和创造性的判断。这项研究的成功，既是技术进步的里程碑，也是我们思考人工智能与人类创造力关系的新起点。

Q&A

Q1：MoGA混合群组注意力机制是如何工作的？

A：MoGA通过一个轻量级路由器将视频中相关的内容分配到同一个组中，然后只在组内进行注意力计算。就像在大型会议中按专业领域分组讨论一样，这种方法既提高了效率又保证了质量。路由器会学习将语义相关的内容聚集在一起，比如将同一个人的头部、手部和服装分到同一组。

Q2：这种技术能生成多长的视频？

A：研究团队成功实现了一分钟长度、1441帧、480p分辨率、24fps的视频生成，处理的上下文长度约为58万个token。相比传统方法只能生成几秒钟的视频，这是一个重大突破。而且生成的视频能保持跨镜头的角色一致性和场景连贯性。

Q3：MoGA在计算效率方面有什么优势？

A：MoGA在保持高质量的同时大幅降低了计算成本。即使使用较小的组数生成30秒视频，也能将计算量从6.94 PFLOPs降低到2.26 PFLOPs，实现1.7倍的加速。更重要的是，尽管具有71.25%的稀疏度，MoGA在多个质量指标上仍能达到甚至超越全注意力模型的性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.