![]()
当你用手机看长视频时,有没有注意到开头流畅无比,但越往后看越卡顿?这个问题在AI生成视频的世界里也存在,而且更加严重。近期,来自OriginAI、巴伊兰大学、耶路撒冷希伯来大学和英伟达的研究团队发表在arXiv上的最新论文(编号2602.01801v1)中,他们发现并解决了这个困扰视频生成的核心瓶颈,让视频生成速度提升了5到10倍,同时保持视频质量不变。
一、视频生成为什么会变得越来越慢
想象你在一个不断增长的餐厅里做菜。开始时,你的工作空间宽敞,取材料很快。但随着顾客越来越多,你的工作台堆满了之前用过的材料和工具——虽然偶尔还是需要用到它们,但大部分时候它们只是占用空间。最终,你花在翻找东西上的时间比真正做菜的时间还多。
AI生成视频时,特别是那种能流畅输出长视频的"自动回归"系统,也面临完全相同的问题。这类系统工作时像在讲故事一样,一帧一帧地生成视频画面。系统会记住所有已经生成的历史信息——专业术语叫"KV缓存",就像上面比喻中堆在工作台上的材料。一开始生成几十帧时没问题,但当你要生成几百甚至几千帧时(对应一个完整的几分钟长视频),这个缓存就像一个不断膨胀的气球,最终压垮了整个系统。
这带来两个痛点。第一是速度问题:系统每生成一帧新的图像时,都需要查看所有之前生成过的帧信息,随着缓存增长,这个查找过程越来越耗时。如果你要生成一个两分钟的视频,前面还行,到了最后一秒时,生成速度可能已经慢了好几倍。第二是内存问题:这些缓存信息全得存在显卡内存里,结果显卡很快就满了,你就没法保留更多历史信息来生成更长、更连贯的视频。
二、研究团队发现的三个关键"浪费"现象
聪明的研究人员没有被这个问题吓倒。他们决定像侦探一样深入调查,看看系统的工作过程中是否有可以优化的地方。
首先他们做了一个有趣的实验:生成100个视频,然后仔细观察系统在处理图像时的注意力模式。就像你在看一份密集的报表时,眼睛会重点关注那些重要的数据,但也会扫过大量你根本不需要的信息。他们发现,系统的注意力其实也非常稀疏——只需要处理30%的计算,就能保留85%的重要信息。这意味着系统在浪费大量的计算能力做"无效功功"。
进一步的侦查工作中,他们用一个叫"主成分分析"的技术把系统内部的数据可视化出来。想象把复杂的高维数据投影到二维平面上,用颜色深浅来表现距离远近。结果很有意思:同一个语义内容(比如画面中的一只猫)在不同帧中的特征表现形式非常相似,就像同一个演员穿着不同衣服演戏,我们还是能认出是同一个人。这意味着有大量的重复信息在白白浪费存储空间。
最后一个有趣发现是关于文字提示的。生成视频时,系统通常会给一个很长的文字描述,比如"一只橙色虎纹猫沿着花园小路走向镜头,阳光洒满整个场景"。但当系统在生成猫咪走路的画面时,它其实不需要同时关注"阳光"或"花园"这些描述——当前的注意力应该集中在猫咪相关的词汇上。不同的视频帧需要关注的词汇重点完全不同。
三、TempCache:时间对应的缓存压缩魔法
基于这些发现,研究团队设计了一套聪明的解决方案,第一部分叫"TempCache"。
这个方案的核心思想像是图书馆的去重。在图书馆里,如果收到了同一本书的十个副本,聪明的管理员不会把它们全部放在架子上,而是只留一本,记录"这本书有十个副本"。同样的道理,系统生成的每一帧其实都和前一帧高度相似——背景没变、主角位置只是稍微移动了一点。那些高度相似的信息只需要保留一份代表即可。
但这里有个技巧问题:怎么知道哪些信息是相同的?系统设计得非常聪明,它使用一个叫"最近邻搜索"的技术,像在人群中快速找到长得最像的人。对于当前帧生成的新信息,系统会问:"之前的帧中有没有特别相似的内容?"一旦找到了这些高度相似的对应,系统就把它们合并在一起,就像把同一个演员的不同镜头编辑到一起一样。
更妙的是,研究人员还证明了一个数学定理:当两个信息完全相同时,用压缩后的信息计算注意力和用原始信息计算的结果完全一样,没有任何误差。即使信息只是近似相同,通过一些巧妙的数学调整,也能最小化误差。这意味着压缩不会破坏生成质量。
实际测试中,这个方法能把缓存压缩到原来的16%左右,也就是说,用原来的1/6的信息量就能做同样的工作。同时,保留下来的注意力质量高达90%以上,系统仍然能"看到"该看的信息。
四、AnnSA和AnnCA:让系统只关注相关的部分
前面讲到,系统在处理图像时的注意力其实很稀疏。研究团队设计的第二和第三部分解决方案叫"AnnSA"和"AnnCA",分别处理两种不同的情况。
AnnCA对付的是长文字提示带来的浪费。回到我们之前的例子,当系统在生成"猫咪走路"的那一帧时,它其实不需要把所有的词汇都拿出来逐一检查。更聪明的做法是直接找出"猫咪"和"走"这类当前相关的词汇,忽略那些跟当前画面内容无关的修饰词。这就像在大量邮件中只打开标记为"紧急"的邮件,其他的先不看。系统使用快速的最近邻搜索算法——技术上叫"局部敏感哈希"或"量化搜索"——来快速筛选出相关词汇,大幅减少了不必要的计算。
AnnSA则处理的是在视频序列中,不同空间位置和时间位置的像素点应该互相参考哪些信息的问题。就像在看电视剧时,某个演员的特写镜头应该更多地参考其他演员和背景的特写镜头,而不是那些全景镜头。系统会把各个像素分组到不同的"语义簇"中——简单说就是把含义相似的部分聚在一起——然后让每个像素主要只跟自己簇内的其他像素交互,大幅减少了交互计算量。这种做法既减少了计算,又因为是在语义相似的部分之间交互,反而提高了生成质量。
五、实际效果:数字会说话
研究团队在两套不同的系统上测试了他们的方案。一套是"RollingForcing"系统,擅长快速连续生成视频;另一套是"LongVie2"系统,专门设计用来生成很长的视频。
在RollingForcing系统上,完整的优化方案达到了10.7倍到10.8倍的加速——换句话说,原来需要2分钟才能生成的2分钟视频,现在12秒就生成好了。同时,视频质量指标完全没有下降。更重要的是,当生成一个2分钟的长视频时,系统的性能保持稳定——不会因为生成得越来越长而越来越慢。相比之下,之前的方案到了后半段速度会明显下降,就像汽车油快用完了。显卡的内存占用也保持在一个常数水平,不会随着视频长度增加而爆炸。
在处理世界模型任务(一种生成相关镜头序列的更复杂任务)时,同样的优化方案达到了6.3倍到6.9倍的加速,同时保持了生成质量。这表明这套方案不仅对特定类型的视频有效,而是一个通用的加速框架。
对比现有的其他加速方案很能说明问题。有些方案试图只压缩缓存(像TeaCache),结果只能加速1.1倍左右,效果微乎其微。有些方案试图让系统只使用稀疏的注意力(像SVG和SVG2),结果不仅效果不好,反而往往会让视频质量严重下降。还有RadialAttention方案能加速2.8倍,但对于长视频仍然无法保持稳定的性能。而这个研究的综合方案既保持速度,又保持质量,完全超越了所有现有方案。
六、质量没有缩水吗
这是很多人会问的关键问题。在追求速度时,质量往往会打折扣,但这个研究是怎么做到两者兼得的?
答案在于他们精心分析了系统的"浪费"之处。TempCache压缩的是完全重复或高度相似的信息,这些本来就不是生成高质量图像的关键因素。AnnSA和AnnCA优化的是注意力的计算过程,但因为是基于语义相似性来筛选的,所以筛掉的往往是那些"噪音"注意力,保留下的是真正起作用的部分。
从数据上看,用他们的方法生成的视频和原始方法生成的视频在几个标准的质量评估指标上几乎没有区别——PSNR(峰值信噪比)、SSIM(结构相似度)和LPIPS(感知相似度)等指标都非常接近。人类评审员看这些视频时,也很难区分哪个是优化后的版本。这意味着优化过程中基本没有丢失有用信息。
七、这对普通用户意味着什么
如果你是一个内容创作者或者游戏开发者,这个突破意味着什么?首先,你现在可以用平凡的硬件生成之前需要昂贵服务器才能生成的超长视频。以前可能需要一小时才能生成一段三分钟的视频,现在只需要几分钟。这大大降低了使用AI视频生成的门槛。
其次,这打开了实时交互应用的大门。想象一个AI驱动的游戏世界,根据你的操作实时生成下一个场景。之前这完全不可能,因为延迟太高。现在,有了这样的优化,实时生成的梦想开始变得现实。
对于那些需要生成长的、连贯的视频内容的应用——比如虚拟教学、电影制作辅助、建筑可视化等——这个技术带来的性能提升意味着工作流程可以大幅简化。创作者可以看到更快的预览,迭代更快,最终创作效率大幅提高。
八、研究团队是如何做到训练免费的
这里还有一个技术亮点值得一提。很多AI优化方案需要重新训练或微调模型,这意味着需要准备大量数据、花费大量计算资源。但这个研究的所有优化都是"训练免费"的,也就是说,你可以直接把这套优化方案用在任何现有的模型上,不需要改动模型本身。
他们是怎么做到的?关键在于他们的优化都是在"推理时"(也就是模型实际生成内容的时候)进行的,而不是在"训练时"改变模型的权重。这就像在一个运动员已经充分训练之后,通过改进比赛策略来提高表现,而不是让他们从头再训练一遍。这样的做法不仅更实用,对已经部署在生产环境中的模型也特别有用——升级优化不需要停止服务重新部署。
九、还有没有进一步优化的空间
研究团队做了详细的消融研究来理解每个组件的作用。比如,TempCache中有个关键参数叫"相似度阈值"——阈值太低会导致把不应该合并的信息合并在一起,阈值太高则无法充分压缩。他们发现0.7到0.8之间是最优平衡点。同样的,用来做快速搜索的量化精度(用多少比特来表示信息)也有最优值——8比特达到了速度和准确性的完美平衡。
这种细致的分析表明,这套方案虽然已经非常高效,但针对不同应用场景,还是可以通过调节这些参数来进一步优化的。
十、为什么这个发现很重要
长期以来,AI视频生成一直被一个根本性的瓶颈束缚——随着生成时间推进,系统变得越来越慢。这不仅限制了实际应用,也阻碍了这类技术进入主流。这个研究抓住了问题的根本——缓存增长和计算冗余——并用一套优雅的、无需重新训练的方案彻底解决了它。
更重要的是,这不仅仅是一个数字上的改进。从10倍的加速中,我们可以看到AI系统设计中蕴含的巨大优化潜力。许多看起来"不可避免"的瓶颈,其实只是因为我们还没有找到正确的观察角度。这个研究正是这样——通过仔细分析系统的内部结构,发现了那些被忽视的浪费,然后针对性地优化。
最后,这项研究也展示了AI工程的一个重要方向:如何在不改变模型本身的情况下,通过推理优化来显著提升性能。这对整个业界推进AI应用的效率和可用性都有深远的启示。
Q&A
Q1:为什么视频生成时间越来越长画面会越来越卡顿?
A:当系统一帧一帧生成视频时,它需要记住所有已生成帧的信息。随着视频长度增加,这个"记忆库"不断膨胀,系统每生成一帧新画面都需要查阅更多历史信息,导致速度急剧下降。同时,这些信息占满了显卡内存,进一步限制了性能。
Q2:TempCache压缩缓存后会不会影响视频质量?
A:不会。因为系统压缩的都是相似度极高的冗余信息,这些信息本身对生成高质量内容的贡献就很小。研究数据显示,即使压缩到16%的原始大小,保留的有效信息仍然超过90%,生成视频的质量指标没有下降。
Q3:这套优化方案需要重新训练AI模型吗?
A:完全不需要。这套方案在"推理时"进行优化,也就是模型已经训练完成、正在生成内容的阶段。你可以直接把优化应用到任何现有模型上,就像给一个已经训练好的运动员改进比赛策略一样,无需从头开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.