厦大与字节跳动推出自回归视频生成缓存方法|内存|定理|冗余性|相似性|阶跃星辰|知名企业

厦大与字节跳动推出自回归视频生成缓存方法

分享至

智猩猩AI整理

编辑：六六

基于 Transformer 架构构建的自回归模型是一种强大的范式，可通过逐段合成内容生成超长篇视频。然而，这种串行生成过程的速度问题一直饱受诟病。尽管缓存策略已被证实能有效加速传统视频扩散模型，但现有方法均假设所有帧的去噪过程是均匀的 —— 这一假设在自回归模型中不再成立，因为在相同时间步下，不同视频块会呈现出差异化的相似性模式。

针对上述问题，厦门大学&字节跳动联合提出 FlowCache ——首个专为自回归视频生成设计的缓存方法。

该方法在 MAGI-1 模型上实现了 2.38 倍的速度提升，在 SkyReels-V2 模型上达到 6.7 倍的加速效果，且生成质量下降幅度可忽略不计。FlowCache 成功释放了自回归模型在实时超长篇视频生成场景下的潜力，为大规模高效视频合成树立了新的基准。

论文标题：Flow caching for autoregressive video generation
论文链接：https://arxiv.org/pdf/2602.10825
代码链接：https://github.com/mikeallen39/FlowCache

自回归视频模型瓶颈

在自回归视频模型的背景下，计算第个视频片段在相邻时间步长上的相对距离：

相对距离具有固有数学特性，可刻画自回归视频模型去噪过程的时序动态。在流匹配与扩散模型框架下，去噪轨迹上的速度场呈现出规律的变化模式。通过分析速度预测与状态演化的数学关系，能够得到相对距离在不同时间步的基本性质。

以下定理在标准扩散模型假设下，建立了从最优速度场中涌现出的关键单调性性质：

定理 1 表明，随视频片段趋近真实视频，相邻时间步的相对距离单调递增，即片段相似性递减。

图 1 自回归视频扩散模型在去噪轨迹上相邻时间步的相对L1距离比较。

如图 1 所示通过绘制不同自回归视频模型各片段相邻步长的相对距离验证该性质（横轴：去噪进程，纵轴：相对距离，颜色区分片段），并揭示三个规律：

（1）去噪后期相对距离显著增大（定理1的直接体现）；

（2）同一时刻不同片段的相似性差异显著，反映其去噪进度的异质性；

（3）模型输入与采样器输出在全过程中始终保持高度相似。

由定理1可得推论1：

由于不同视频块在去噪过程中的状态范数存在差异且模型更新幅度近似不变，导致它们的相对距离不相等。传统缓存方法对所有片段采用统一策略，忽视了同一时刻各片段去噪进度的异质性，导致灵活性受限、加速不足且质量下降。上述结论表明各片段需独立缓存策略，为此提出FlowCache。

FlowCache原理

图 2 自回归视频生成中缓存策略的比较。上图展示了传统复用策略，本文提出的FlowCache（左下）采用逐块自适应的缓存策略。右下角详细展示了FlowCache的键值缓存管理机制。

如图 2 所示，FlowCache 则为每个片段独立评估相似性：对于第个片段，

其中为阈值，为禁止缓存的初始步数（MAGI-1：，SkyReels-V2：）。执行前向计算，否则复用缓存。实验表明，排除早期时间步对保证生成质量至关重要。

由定理1知，接近去噪完成的片段相似性低，应减少缓存复用；而接近噪声的片段相似性高，可连续复用。FlowCache 通过自适应每片段策略，最大化缓存效率，显著提升推理速度。

键值（KV）缓存压缩

研究团队提出了联合优化重要性与冗余性的压缩策略，通过筛选既与当前去噪相关、又互不相似的历史条目，在有限缓存预算下最大化信息多样性，从而在保证长视频生成质量的同时降低显存与计算开销。

具体而言，分配一个固定大小的键值缓存缓冲区，并将其划分为两个区域：

（1）压缩的干净块区域，大小为，用于存储所有干净块的压缩键值状态；

（2）当前去噪区域，大小为，用于存放当前正在去噪的视频块组的键值状态。

当写满时，将干净块和新完成去噪的块合并，通过重要性-冗余性筛选压缩，然后释放当前区域为后续待处理块腾出空间。

与 R-KV 类似，所提筛选准则平衡了重要性与冗余性。计算注意力分数，在键维度上应用 softmax，并在查询序列维度上取平均，得到每个注意力头上历史令牌的重要性分布：

对于冗余性，计算每个注意力头上干净块的键（）的余弦相似度矩阵。

此操作得到每个注意力头的冗余性分布，其中值越高表示该令牌在相同注意力头中平均而言与其他令牌越相似。

最后，将池化后的重要性与冗余性组合为统一的每注意力头选择分数：

通过联合优化相关性与多样性，所提方法在显著降低 DiT 注意力内存占用与计算开销的同时，保持了长程时间一致性——从而支持高效、高保真的长视频生成。

评估

为评估所提方法的有效性，选取了两种基于自回归范式的代表性扩散模型：MAGI-1-4.5B-distill和 SkyReels-V2-1.3B-540P。

表 1 自回归视频生成模型中推理效率与视觉质量的量化评估

表1的量化结果表明，FlowCache相较于TeaCache具有显著优越性。在慢速与快速两种配置下的评估显示，FlowCache在不同模型及加速比设置中均能实现更高的视频质量与更低的延迟。

在MAGI-1上，当加速比从1.12倍提升至1.44倍时，TeaCache-fast出现明显的质量下降（VBench分数从77.50降至70.11）；而FlowCache-fast在实现2.38倍加速的同时，仍保持了较高的视觉质量（VBench分数77.93），甚至略超基线模型。

FlowCache-slow在所有变体中取得了最佳质量，加速比达到1.86倍。该优势在SkyReels-V2上更为突出：FlowCache-slow在实现5.88倍加速的同时，质量损失极小（VBench分数83.12），显著优于TeaCache-slow（加速比1.89倍，VBench分数82.67）；FlowCache-fast在6.7倍加速比下仍保持优异质量（VBench分数83.05），而TeaCache-fast在2.2倍加速时质量已下降至80.06。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.