南洋理工大学打造视频生成新引擎：让AI像人脑一样聪明地"偷懒"|序列|实验|稀疏性|新论文

分享至

这项由新加坡南洋理工大学、香港科技大学、北京航空航天大学、商汤科技等多所知名院校和机构联合开展的研究发表于2026年2月的arXiv预印本平台（论文编号：arXiv:2602.04789v1），有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队针对自回归视频生成模型的计算瓶颈问题，提出了一种名为"Light Forcing"的创新解决方案。

在当今短视频盛行的时代，人们对AI生成视频的需求越来越高。从游戏场景制作到机器人学习，AI视频生成技术正在改变我们的数字世界。然而，就像一个熟练的画家在创作长篇画卷时需要合理分配精力一样，现有的AI视频生成模型在处理长视频时面临着巨大的计算挑战。研究团队发现，传统的视频生成模型就像一个过分认真的学生，对每个细节都投入同样的注意力，这导致计算量随着视频长度呈指数级增长。

这种现象在自回归视频生成模型中尤为明显。自回归模型的工作方式类似于连环画的创作过程，需要一帧一帧地生成视频内容，每一帧都要参考之前的所有帧。当视频长度增加时，模型需要记住和处理的信息量急剧增长，就像一个人试图同时记住一本厚厚小说中的所有细节一样困难。研究数据显示，在生成480p分辨率的视频时，注意力计算占用了模型总运行时间的75%，成为了真正的性能瓶颈。

更令人困扰的是，现有的稀疏注意力方法虽然在双向视频生成模型中表现良好，但直接应用到自回归模型时会导致显著的质量下降。这种现象的根源在于两个关键问题：一是现有方法孤立地考虑每个视频片段的生成，忽略了片段间的依赖关系；二是无法充分利用过往重要的上下文信息。

研究团队经过深入分析发现了一个重要的规律：在视频生成过程中，早期片段的质量对后续片段有着决定性影响。这就像建筑施工一样，地基打得好，后面的楼层就能建得又快又稳。基于这一洞察，他们提出了Light Forcing方法，这是首个专门为自回归视频生成模型量身定制的稀疏注意力解决方案。

Light Forcing的核心创新体现在两个互补的机制上。首先是"片段感知增长"机制，它能够定量评估每个视频片段对整体质量的贡献，就像一个经验丰富的导演知道在电影的哪些关键场景需要投入更多精力一样。该机制为早期片段分配更多的计算资源，而随着视频的推进逐渐降低计算密度，因为后期片段可以继承前期建立的视觉结构和运动模式。

其次是"层次化稀疏注意力"机制，它采用从粗到细的两级选择策略。这种方法就像一个高效的图书管理员，先在整个图书馆中定位相关的书架，然后在特定书架上精确找到需要的书籍。在视频生成中，这意味着模型首先在帧级别选择重要的历史信息，然后在块级别进行精细化的注意力计算。

一、传统方法的困境：为什么现有技术力不从心

要理解Light Forcing的创新价值，我们需要先了解传统稀疏注意力方法在自回归视频生成中遭遇的困境。研究团队通过一系列精心设计的对比实验揭示了问题的根源。

在实验中，研究者设计了四种不同的场景来测试稀疏注意力对视频质量的影响。第一种场景使用完全密集的注意力作为基准，生成的视频质量最佳。第二种场景在第一个视频片段应用80%的稀疏率，而后续片段保持密集注意力。令人惊讶的是，这种设置导致了不可逆转的质量损失，后期片段出现了严重的过度饱和和曝光偏差问题，即使后续片段恢复到密集注意力也无法修复这些问题。

第三种场景正好相反，保持第一个片段的密集注意力，而对第2到第7个片段应用80%的稀疏率。这种配置的结果出人意料地好，生成质量几乎与完全密集注意力无差别。这一发现揭示了一个重要规律：一旦在早期片段中建立了令人满意的视觉先验，后续片段就能够轻松继承和传播这些先验知识。

第四种场景将稀疏率提高到90%，结果显示随着时间推移，后续片段逐渐变得清晰，表明模型正在进行额外的去噪步骤。这些实验结果共同指向一个核心洞察：早期片段应该采用较低的稀疏率，而后期片段可以容忍较高的稀疏率。

基于这些观察，研究团队进一步分析了稀疏性对最终生成质量的影响机制。他们发现，稀疏性引起的误差可以通过最终生成片段中的噪声水平来衡量。具体而言，这种误差包含两个组成部分：有限步采样误差和分数估计误差。有限步采样误差与去噪步数成反比，而分数估计误差反映了模型学习不完善导致的近似误差。

通过数学分析，研究团队确立了误差与变分距离之间的理论关系。他们证明了稀疏性引起的误差上界受到两个关键因素的控制：一个与去噪步数的平方根成反比的项，另一个与分数估计误差和维度的平方根成正比的项。这一理论框架为后续的稀疏性分配策略提供了坚实的数学基础。

二、片段感知增长：智能分配计算资源的艺术

基于前述理论分析，研究团队开发了片段感知增长机制，这是Light Forcing的第一个核心组件。这个机制的设计哲学可以用烹饪的比喻来理解：一位经验丰富的厨师在准备一道复杂菜肴时，会在基础调料和主要食材上投入更多精力，而在装饰性配菜上适当简化。

片段感知增长机制采用了一个简洁而有效的公式来确定每个片段的稀疏率。对于第i个片段，其稀疏率被定义为基础稀疏率减去一个与片段位置相关的调节项。这个调节项与该片段达到的噪声水平成反比，遵循平方根规律。这意味着早期片段（噪声水平较低）会获得更低的稀疏率，即更多的计算资源，而后期片段则可以使用更高的稀疏率。

为了确保整体计算预算的平衡，机制中引入了一个调节参数β，通过求解等式来确定。这个等式确保了在预定的计算预算约束下，所有片段的加权稀疏率之和等于目标稀疏率。这种设计就像一个精明的项目经理，在有限的预算下为不同阶段的工作分配合适的资源。

实验验证表明，这种分配策略显著优于均匀分配稀疏率的传统方法。在相同的计算预算下，片段感知增长机制能够在美学质量和图像质量方面取得显著提升，同时避免了传统方法中常见的动态度下降问题。这种改进源于该机制对视频生成过程中误差累积特性的深刻理解。

更重要的是，片段感知增长机制具有良好的通用性。它不依赖于特定的模型架构或训练数据，可以轻松集成到任何自回归视频生成模型中。研究团队在多个不同的模型上验证了这一点，包括Self Forcing和LongLive等主流模型，都取得了一致的性能提升。

三、层次化稀疏注意力：从全局到局部的智能筛选

Light Forcing的第二个核心组件是层次化稀疏注意力机制，它解决了另一个关键挑战：如何在有限的计算预算下最大化历史信息的利用效率。这个机制的设计灵感来源于人类视觉系统的工作原理，人眼在观察复杂场景时会先进行粗略扫描，然后聚焦于感兴趣的区域进行精细观察。

层次化稀疏注意力采用了三阶段的处理流程。首先是令牌压缩阶段，这个过程就像制作电影预告片一样，从大量素材中提取关键信息。模型在块级别对当前查询进行压缩，同时在块级别和帧级别对历史键值对进行压缩。这种多层次的压缩确保了在保持关键信息的同时大幅减少了计算量。

接下来是掩码选择阶段，这是整个机制的核心。对于每个查询块，系统首先使用帧级压缩后的键来检索一小组相关的历史帧。这个过程类似于一个高效的搜索引擎，能够从海量的历史信息中快速定位最相关的内容。选择策略基于查询块与历史帧之间的相似度得分，使用内积计算来衡量相关性。

在确定了相关帧集合后，系统进一步在每个选定帧内进行精细化的块选择。这个二级选择过程确保了模型能够在相关帧中找到最具信息价值的局部区域。整个选择过程保持了固定的计算复杂度，与历史帧的总数无关，这是实现高效长视频生成的关键。

最后是块级稀疏注意力计算阶段。基于前两个阶段生成的掩码，系统构建块级注意力掩码，并使用稀疏注意力核心来计算最终的注意力输出。这种设计确保了只有最相关的历史信息参与到当前片段的生成中，既提高了效率又保持了生成质量。

研究团队通过注意力可视化实验验证了这种层次化选择的有效性。可视化结果显示，不同层、不同头、不同时间步的注意力模式存在显著差异，包括对角线模式、注意力汇聚结构等复杂模式。这些发现证实了简单的滑动窗口方法无法覆盖所有重要的上下文信息，而层次化选择能够灵活适应这些多样化的注意力需求。

四、实验验证：从理论到实践的完美转化

为了全面验证Light Forcing的有效性，研究团队设计了一系列详尽的实验，涵盖了从定性比较到定量分析的多个维度。这些实验就像一场全方位的体检，确保新方法在各个方面都能够达到或超越现有技术的水平。

在主要比较实验中，研究团队选择了多个具有代表性的基准方法进行对比。这些方法包括静态稀疏注意力方案如STA和径向注意力，以及动态稀疏注意力方案如VMoBA和SLA。为了确保比较的公平性，所有方法都使用了相同的块大小和相似的稀疏率设置。

VBench基准测试的结果令人印象深刻。在Self Forcing 1.3B模型上，Light Forcing达到了84.5的总分，不仅超越了所有对比方法，甚至优于密集注意力的基线（84.1分）。这一结果表明该方法不仅提高了计算效率，还在一定程度上提升了生成质量。在具体指标上，Light Forcing在图像质量、主体一致性、背景一致性等关键维度都取得了最佳或接近最佳的表现。

在延迟性能方面，Light Forcing同样表现出色。在RTX 5090 GPU上，该方法实现了1.3倍的端到端加速和3.3倍的注意力计算加速。更令人兴奋的是，当结合FP8量化和LightVAE等优化技术时，Light Forcing达到了19.7 FPS的实时生成速度，这是消费级GPU上首次实现如此性能的自回归视频生成。

定性比较结果进一步证实了Light Forcing的优势。在生成的视频样本中，其他方法经常出现各种视觉缺陷，包括多目标场景中的物体重复现象、异常物体生成以及严重的色彩偏移和伪影。相比之下，Light Forcing能够保持高保真度和一致性，生成的视频在视觉质量和时间连贯性方面都明显优于竞争方法。

消融实验揭示了两个核心组件的相对贡献。当仅使用一维稀疏注意力而不进行微调时，模型性能出现严重下降，总分从84.1降至73.0。加入微调后性能有所恢复，但仍然落后于密集注意力基线。引入片段感知增长机制后，美学质量和图像质量得到显著提升，但动态度有所下降。这种现象表明在激进的稀疏性设置下，模型更多依赖于早期片段的先验知识，可能会牺牲一些运动表现。

然而，当同时使用片段感知增长和层次化稀疏注意力时，动态度得到了大幅改善，最终总分达到84.5，超越了密集注意力基线。这一结果证明了两个组件的协同效应：片段感知增长确保了整体质量的稳定性，而层次化稀疏注意力保证了动态信息的有效传递。

超参数敏感性分析显示，Light Forcing具有良好的鲁棒性。在层次化稀疏注意力中，检索帧数量（topk参数）的变化对最终性能的影响很小，这表明该方法对参数设置不敏感，具有良好的实用性。

五、高效部署：从实验室到实际应用的最后一公里

为了验证Light Forcing在实际部署场景中的表现，研究团队进行了全面的系统级优化和性能测试。这个阶段的工作就像将一辆经过实验室精心调试的赛车放到真实赛道上进行测试，需要考虑各种实际环境的约束和挑战。

部署优化的第一步是集成到主流推理框架中。研究团队选择了LightX2V作为部署平台，这是一个专门为视频生成优化的推理框架。为了最大化性能提升，他们采用了多层次的优化策略。在模型层面，将默认的Wan VAE替换为更高效的LightVAE，在保持输出质量的同时显著降低了编解码开销。在计算精度方面，采用了FP8低精度量化技术，对权重使用按通道量化，对激活使用按令牌量化，这种量化策略被广泛认为是无损的加速技术。

性能测试结果验证了多层优化策略的有效性。在注意力计算方面，Light Forcing实现了3.29倍的加速，这直接来源于稀疏注意力机制的贡献。在端到端性能方面，实现了2.33倍的整体加速，考虑到除注意力之外的其他计算开销，这一结果表明了优化的高效性。最终，1.3B参数的Light Forcing模型达到了19.7 FPS的生成速度，首次在消费级GPU上实现了实时自回归视频生成。

内存使用效率也是部署考虑的重要因素。传统的密集注意力方法随着视频长度的增加，内存需求呈平方级增长，这严重限制了长视频生成的可能性。Light Forcing通过稀疏注意力机制将内存需求降低到与活跃块数量成正比，而不是与总序列长度的平方成正比。这种改进使得在相同硬件条件下生成更长视频成为可能。

为了确保部署的稳定性，研究团队还进行了长时间的压力测试。测试结果显示，Light Forcing在连续运行数小时后仍能保持稳定的性能表现，没有出现内存泄漏或性能退化等问题。这种稳定性对于实际应用场景至关重要，特别是在需要连续生成大量视频内容的商业环境中。

跨平台兼容性测试验证了Light Forcing在不同硬件配置上的表现。除了RTX 5090，研究团队还在RTX 4090、RTX 3090等不同级别的GPU上进行了测试，结果显示该方法在各种硬件上都能取得一致的性能提升，体现了良好的通用性和适用性。

说到底，Light Forcing的成功不仅在于其技术创新，更在于其解决了自回归视频生成领域的一个根本性挑战。传统方法将注意力资源平均分配给所有视频片段，就像一个没有经验的项目经理对所有任务投入相同精力一样低效。Light Forcing则像一位经验丰富的专家，知道在关键环节投入更多资源，在次要环节适当简化，从而在保证质量的前提下显著提高效率。

这项研究的影响远不止于技术层面的改进。在游戏开发领域，实时视频生成能力为程序化内容创建开辟了新的可能性，开发者可以根据玩家行为动态生成个性化的游戏场景。在机器人学习中，高效的视频生成有助于创建更丰富的训练数据，加速机器人在复杂环境中的学习过程。在内容创作方面，实时视频生成技术有望降低视频制作的门槛，让更多创作者能够以较低的成本制作高质量的视频内容。

展望未来，Light Forcing为自回归视频生成的发展指明了新的方向。研究团队已经验证了该方法在1.3B参数模型上的有效性，下一步的挑战是将其扩展到更大规模的模型。随着模型规模的增长，稀疏注意力的优势将更加明显，因为计算复杂度的降低会带来更显著的性能提升。

此外，Light Forcing的设计原理也可以启发其他序列生成任务的优化。其核心思想——在序列的不同位置采用不同的计算密度——具有广泛的适用性，可能在自然语言处理、音频生成等领域找到新的应用场景。

归根结底，Light Forcing代表了AI研究从追求绝对性能向追求效率与质量平衡的转变。这种转变反映了AI技术走向实用化的必然趋势，只有既高效又高质量的解决方案才能真正推动技术的大规模应用和普及。

Q&A

Q1：Light Forcing是什么？

A：Light Forcing是由南洋理工大学等机构联合开发的稀疏注意力解决方案，专门针对自回归视频生成模型设计。它通过智能分配计算资源，让AI在生成视频时像人脑一样聪明地"偷懒"，在保证质量的同时大幅提升效率，首次在消费级GPU上实现了实时视频生成。

Q2：Light Forcing如何提升视频生成效率？

A：Light Forcing采用两个核心机制：片段感知增长为早期视频片段分配更多计算资源，后期片段则适当减少；层次化稀疏注意力从全局到局部智能筛选历史信息。这种组合实现了3.3倍注意力加速和1.3倍端到端加速，最终达到19.7帧每秒的实时生成速度。

Q3：Light Forcing与传统稀疏注意力方法有什么区别？

A：传统方法像没有经验的项目经理，对所有视频片段投入相同精力，直接应用到自回归模型时会导致质量下降。Light Forcing专门为自回归模型设计，理解视频生成的时序特性，在VBench评测中不仅超越了其他稀疏方法，甚至优于密集注意力基线。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.