网易首页 > 网易号 > 正文 申请入驻

厦大与字节跳动推出自回归视频生成缓存方法

0
分享至

智猩猩AI整理

编辑:六六

基于 Transformer 架构构建的自回归模型是一种强大的范式,可通过逐段合成内容生成超长篇视频。然而,这种串行生成过程的速度问题一直饱受诟病。尽管缓存策略已被证实能有效加速传统视频扩散模型,但现有方法均假设所有帧的去噪过程是均匀的 —— 这一假设在自回归模型中不再成立,因为在相同时间步下,不同视频块会呈现出差异化的相似性模式。

针对上述问题,厦门大学&字节跳动联合提出 FlowCache ——首个专为自回归视频生成设计的缓存方法。

该方法在 MAGI-1 模型上实现了 2.38 倍的速度提升,在 SkyReels-V2 模型上达到 6.7 倍的加速效果,且生成质量下降幅度可忽略不计。FlowCache 成功释放了自回归模型在实时超长篇视频生成场景下的潜力,为大规模高效视频合成树立了新的基准。


  • 论文标题:Flow caching for autoregressive video generation

  • 论文链接:https://arxiv.org/pdf/2602.10825

  • 代码链接:https://github.com/mikeallen39/FlowCache

01

自回归视频模型瓶颈

在自回归视频模型的背景下,计算第 个视频片段在相邻时间步长上的相对 距离:


相对 距离具有固有数学特性,可刻画自回归视频模型去噪过程的时序动态。在流匹配与扩散模型框架下,去噪轨迹上的速度场呈现出规律的变化模式。通过分析速度预测与状态演化的数学关系,能够得到相对 距离在不同时间步的基本性质。

以下定理在标准扩散模型假设下,建立了从最优速度场中涌现出的关键单调性性质:


定理 1 表明,随视频片段趋近真实视频,相邻时间步的相对 距离单调递增,即片段相似性递减。


图 1 自回归视频扩散模型在去噪轨迹上相邻时间步的相对L1距离比较。

如图 1 所示通过绘制不同自回归视频模型各片段相邻步长的相对 距离验证该性质(横轴:去噪进程,纵轴:相对 距离,颜色区分片段),并揭示三个规律:

(1)去噪后期相对 距离显著增大(定理1的直接体现);

(2)同一时刻不同片段的相似性差异显著,反映其去噪进度的异质性;

(3)模型输入与采样器输出在全过程中始终保持高度相似。

由定理1可得推论1:


由于不同视频块在去噪过程中的状态范数存在差异且模型更新幅度近似不变,导致它们的相对 距离不相等。传统缓存方法对所有片段采用统一策略,忽视了同一时刻各片段去噪进度的异质性,导致灵活性受限、加速不足且质量下降。上述结论表明各片段需独立缓存策略,为此提出FlowCache。

02

FlowCache原理


图 2 自回归视频生成中缓存策略的比较。上图展示了传统复用策略,本文提出的FlowCache(左下)采用逐块自适应的缓存策略。右下角详细展示了FlowCache的键值缓存管理机制。

如图 2 所示,FlowCache 则为每个片段独立评估相似性:对于第 个片段,


其中 为阈值, 为禁止缓存的初始步数(MAGI-1: ,SkyReels-V2: )。 执行前向计算,否则复用缓存。实验表明,排除早期时间步对保证生成质量至关重要。

由定理1知,接近去噪完成的片段相似性低,应减少缓存复用;而接近噪声的片段相似性高,可连续复用。FlowCache 通过自适应每片段策略,最大化缓存效率,显著提升推理速度。

键值(KV)缓存压缩

研究团队提出了联合优化重要性与冗余性的压缩策略,通过筛选既与当前去噪相关、又互不相似的历史条目,在有限缓存预算下最大化信息多样性,从而在保证长视频生成质量的同时降低显存与计算开销。

具体而言,分配一个固定大小的键值缓存缓冲区 ,并将其划分为两个区域:

(1)压缩的干净块区域,大小为 ,用于存储所有干净块的压缩键值状态;

(2)当前去噪区域,大小为 ,用于存放当前正在去噪的视频块组的键值状态。

当 写满时,将干净块和新完成去噪的块合并,通过重要性-冗余性筛选压缩,然后释放当前区域为后续待处理块腾出空间。

与 R-KV 类似,所提筛选准则平衡了重要性与冗余性。计算注意力分数,在键维度上应用 softmax,并在查询序列维度上取平均,得到每个注意力头上历史令牌的重要性分布:


对于冗余性,计算每个注意力头上干净块的键( )的余弦相似度矩阵。


此操作得到每个注意力头的冗余性分布,其中值越高表示该令牌在相同注意力头中平均而言与其他令牌越相似。

最后,将池化后的重要性与冗余性组合为统一的每注意力头选择分数:


通过联合优化相关性与多样性,所提方法在显著降低 DiT 注意力内存占用与计算开销的同时,保持了长程时间一致性——从而支持高效、高保真的长视频生成。

03

评估

为评估所提方法的有效性,选取了两种基于自回归范式的代表性扩散模型:MAGI-1-4.5B-distill和 SkyReels-V2-1.3B-540P。

表 1 自回归视频生成模型中推理效率与视觉质量的量化评估


表1的量化结果表明,FlowCache相较于TeaCache具有显著优越性。在慢速与快速两种配置下的评估显示,FlowCache在不同模型及加速比设置中均能实现更高的视频质量与更低的延迟。

在MAGI-1上,当加速比从1.12倍提升至1.44倍时,TeaCache-fast出现明显的质量下降(VBench分数从77.50降至70.11);而FlowCache-fast在实现2.38倍加速的同时,仍保持了较高的视觉质量(VBench分数77.93),甚至略超基线模型。

FlowCache-slow在所有变体中取得了最佳质量,加速比达到1.86倍。该优势在SkyReels-V2上更为突出:FlowCache-slow在实现5.88倍加速的同时,质量损失极小(VBench分数83.12),显著优于TeaCache-slow(加速比1.89倍,VBench分数82.67);FlowCache-fast在6.7倍加速比下仍保持优异质量(VBench分数83.05),而TeaCache-fast在2.2倍加速时质量已下降至80.06。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

小熊侃史
2026-02-27 21:25:51
夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

红星新闻
2026-02-27 17:33:09
与董洁牵手同框仅1个月,50岁陈坤现状曝光,网友:一点都不意外

与董洁牵手同框仅1个月,50岁陈坤现状曝光,网友:一点都不意外

白面书誏
2026-02-27 17:22:09
鸡蛋被关注!医生发现:高血脂患者每天吃鸡蛋,或出现7种变化

鸡蛋被关注!医生发现:高血脂患者每天吃鸡蛋,或出现7种变化

阿兵科普
2026-02-28 09:33:17
大众CC价格“大跳水”!最高优惠8.3万,网友:真香

大众CC价格“大跳水”!最高优惠8.3万,网友:真香

汽车网评
2026-02-25 21:25:45
三家A股公司被证监会立案

三家A股公司被证监会立案

第一财经资讯
2026-02-28 00:03:46
被我国惯坏了!美国游客回国吐槽:连出门都变得不适应

被我国惯坏了!美国游客回国吐槽:连出门都变得不适应

据说说娱乐
2026-02-28 08:20:34
国内金饰克价突破1600元,老铺黄金启动提价

国内金饰克价突破1600元,老铺黄金启动提价

中新经纬
2026-02-28 10:50:23
巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

通鉴史智
2026-02-27 17:09:27
炸了!山东 6 条高铁同时在建,全国第一,这下真要起飞了!

炸了!山东 6 条高铁同时在建,全国第一,这下真要起飞了!

王二哥老搞笑
2026-02-28 11:36:19
三分11中6轰31+9!巅峰汤普森诞生,恭喜火箭,低价续约赚麻了

三分11中6轰31+9!巅峰汤普森诞生,恭喜火箭,低价续约赚麻了

巴叔GO聊体育
2026-02-28 10:01:44
中国开盘,世界崩溃!

中国开盘,世界崩溃!

米宅海外
2026-02-28 08:04:00
男篮更衣室不断庆祝!唯独一人没参与,坐在角落大口喘气

男篮更衣室不断庆祝!唯独一人没参与,坐在角落大口喘气

体育哲人
2026-02-27 17:07:27
轰12分+关键三分破冰!中国男篮29岁新王牌崛起:他救了郭士强?

轰12分+关键三分破冰!中国男篮29岁新王牌崛起:他救了郭士强?

李喜林篮球绝杀
2026-02-27 11:15:24
前所未有!中国又没求他,特朗普却对华做出一承诺,盟友们要懵了

前所未有!中国又没求他,特朗普却对华做出一承诺,盟友们要懵了

娱乐的宅急便
2026-02-28 10:57:32
中国男篮VS中国台北队,张镇麟还会上场吗?胡金秋才是最佳4号位

中国男篮VS中国台北队,张镇麟还会上场吗?胡金秋才是最佳4号位

体育大学僧
2026-02-28 11:09:30
日本鹿儿岛居酒屋禁中国客进入 门口简体字通告引热议

日本鹿儿岛居酒屋禁中国客进入 门口简体字通告引热议

环球趣闻分享
2026-02-27 13:20:30
31岁才登陆英超的性价比引援,脾气大本事大,世界波是招牌菜

31岁才登陆英超的性价比引援,脾气大本事大,世界波是招牌菜

95帕尔马
2026-02-28 11:19:42
男子160万江景房被父母堆成“废品站”:角落全是废旧纸箱、多年不用的家电、瓶瓶罐罐,几乎没有下脚地,引发网友共鸣:同款爸妈,很难改

男子160万江景房被父母堆成“废品站”:角落全是废旧纸箱、多年不用的家电、瓶瓶罐罐,几乎没有下脚地,引发网友共鸣:同款爸妈,很难改

极目新闻
2026-02-27 13:11:18
米兰时装周,39岁杨幂撞上22岁谷爱凌,明星与冠军的差距一目了然

米兰时装周,39岁杨幂撞上22岁谷爱凌,明星与冠军的差距一目了然

八卦南风
2026-02-27 17:09:14
2026-02-28 12:11:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
540文章数 7755关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

手机
游戏
健康
旅游
公开课

手机要闻

谷歌Pixel 11跑分遭曝 Tensor G6性能又拉了

《生化9》满分媒体赞誉图!现代惊悚恐怖杰作

转头就晕的耳石症,能开车上班吗?

旅游要闻

逛吃遛娃、看展淘货,青岛四方机厂1900“瑞马食集”启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版