网易首页 > 网易号 > 正文 申请入驻

StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」

0
分享至



扩散生成模型的发展改变了实时视频直播的内容创作,一些基于图片扩散模型的 AI 直播系统如 StreamDiffusion 和 StreamV2V 以其方便可控和快速响应的特点被广泛应用。但是这些基于图片扩散模型的方法时间一致性较差,而视频扩散模型生成过程中的前后帧依赖关系提供了极佳的时间一致性。

最近的一些自回归视频生成研究能够促使视频生成的吞吐量接近「实时」 的目标,这使得在流式直播中应用这些模型成为可能。

然而,一个被忽视的问题尚未得到解答:吞吐量达到「实时」表现但忽略延迟的系统,能直接用于实时交互生成吗?

近日,一项已经被计算机系统顶级会议 MLSys 2026 接收的工作 StreamDiffusionV2,对这一问题进行了详细讨论并给出了解决方案。来自德克萨斯大学奥斯汀分校等机构的研究者组成的团队提出了一种无需训练、面向交互式直播的流式视频生成系统。该系统可在多种类型 GPU 上稳定运行,同时实现低延迟与高质量生成。

StreamDiffusionV2 已全面开源,对个人用户部署友好,在未应用 TensorRT 或量化的情况下,能够在仅配备双卡 RTX 4090 的设备上稳定 16 FPS 实时推理。其在 H100 上首帧延迟低于 0.5 秒,并在 4 卡设备上稳定实现 14B 模型 58.28 FPS、1.3B 模型 64.52 FPS 的吞吐量。



  • 论文链接:https://arxiv.org/abs/2511.07399
  • 项目主页:https://streamdiffusionv2.github.io/
  • 代码链接:https://github.com/chenfengxu714/StreamDiffusionV2



图 1 有限长度的批量视频生成 vs. 该研究提出的流式低延迟的无限长度视频生成

挑战:实时交互式生成的系统性瓶颈

最近,以 CausVid 和 Self-Forcing 等为代表的自回归视频生成模型(Auto-regressive Video Generation),在一定程度上维持了生成质量的同时极大地加快了推理速度。

尽管这些方法亦能在离线模式下进行视频到视频(Video-to-video)生成,但其推理范式仍然难以直接适配实时直播场景。通过分析,研究团队指出当前方法面临以下挑战:



图 2 Baseline 视频生成模型在 V2V 任务中的缺陷

  1. 实时 SLO 无法满足:现有视频扩散模型主要面向离线生成优化,虽然提升了整体吞吐量,却显著拉高了首帧延迟,且难以满足直播场景对每一帧严格时限和低抖动的服务级目标(SLO)。
  2. 长时间生成中的时序漂移:主流视频扩散系统在持续运行的直播场景中,内容分布与用户输入会不断变化,加剧了自回归视频生成模型的误差累积,导致生成过程中出现风格漂移和时间一致性退化。
  3. 高速动作下的画面撕裂:现有模型多基于慢动作或平稳运动数据训练,在面对快速镜头切换或剧烈运动时表现受限,生成中发生模糊、重影和动作撕裂等问题。
  4. 难以实现多 GPU 扩展:现有的序列并行带来大量通信开销抵消了计算的加速。在以单帧延迟为主导的实时负载下,无法扩展到多 GPU 并行推理。

综上所述,这些挑战表明,实时视频扩散无法仅依赖离线生成范式的延伸,而亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构。

深入分析:内存带宽约束导致的性能受限

为了对现有系统进行加速优化,文章深入分析了当前推理系统所处的性能瓶颈模式(Performance Regime):





图 3 上图:Roofline 模型分析不同批次大小和并行模式下的系统性能瓶颈;下图:不同并行方式下的通信开销。

先前双向注意力 DiT 主要受计算能力限制,而在自回归视频生成中,尤其是低延迟的单帧 latent 参数下,因为需要加载长序列的 KV Cache,却只对当前输入进行计算,使得内存访问开销超过计算开销,系统性能由内存带宽而非算力主导。

通过 Nsight Systems 等性能分析工具对实际推理过程中的内存带宽利用率、计算资源使用情况气泡时间进行分析,并结合理论计算量与内存访问量估计,团队验证了当前系统确实处于内存带宽受限(Memory-bound)的性能瓶颈状态。

进一步地,序列并行(Sequence Parallelism)方法(如 Deepspeed-Ulysses 和 Ring-Attention)在推理中需要在每个 DiT Block 执行一次跨设备通信,从而引入了显著的通信开销。通信过程本质上也属于数据搬运操作,与内存访问共同加剧了系统数据传输开销。

上述发现促使作者从优化内存 - 计算平衡并降低并行推理通信开销入手,构建全新的流式视频生成系统。

方法:算法与系统层面的联合优化

综合前面对现有挑战和性能瓶颈的分析,研究团队从算法和系统两方面给出了解决方案。



图 4 系统的整体流程图

算法层面:为了缓解长视频生成下自回归模型的误差累计和风格漂移的问题,文章引入 Sink-tokens 和动作感知的加噪机制,具体的方法如下:

  1. Sink-token 和滚动 KV Cache:早期生成的帧受误差累计的影响小,故将其 KV 保持在 KV Cache 中作为 Sink-token 指导后续的生成。同时后续的 KV Cache 滚动更新,以实现无限长流式生成;
  2. 动作感知的动态加噪机制:根据相邻帧之间的 L2 距离估计视频的运动强度,并自适应调整加噪比例。在运动剧烈时降低噪音以保留运动一致性,在运动较弱时提高噪音以提升生成质量。



图 5 动作程度估计和动态噪音策略示例

系统层面:在内存带宽受限情境下提升吞吐量,StreamDiffusionV2 采用了流水线化批量去噪策略,再将其扩展至模型网络层的流水线并行,并加入了其他辅助的高效推理设计,具体内容如下:

  1. SLO 感知的流水线化的批量去噪(Batch Denoising):采用流水线化批量去噪,将不同噪音程度的帧组成流水线并行处理,使得每次 DiT 推理都得到去噪完全的帧;同时使用 SLO 感知的 profiling 动态确定批处理规模和调度参数;
  2. 模型网络层的流水线并行(Pipeline Parallelism):将 DiT 的多 GPU 流水线并行推理结合分片批量去噪,实现稳定的逐帧生成;利用异步通信使计算和通信重合,并引入 DiT 层调度器平衡不同设备开销,以缓解流水线气泡,提升系统整体吞吐量。



图 6 批量去噪和流水线并行示意图


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 1 并行推理示例动画

通过这样的协同设计,StreamDiffusionV2 系统实现了高效、稳定的流式生成,并通过 Cache 机制来保证时间一致性和生成质量。

实验结果

StreamDiffusionV2 论文实现了低延迟和高吞吐的平衡,具体效果如何,一图胜千言!



图 7 不同设置下吞吐量结果,1.3B 模型,H100 和 4090 显卡



图 8 不同设置下吞吐量结果,14B 模型,H100 显卡





图 9 上图:第一帧时间对比,体现了 StreamDiffusionV2 的低延迟优势;下图:系统端到端延迟统计分布图,StreamDiffusionV2 有着紧密分布,低抖动,并达到亚秒级实时应用要求。

与此同时,该系统同时也在实现了稳定的高质量生成,拥有良好的时间一致性,并对复杂 prompt 有着更好的适应。


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 2 Video-to-video 生成结果对比。从左至右,从上到下,分别为原视频、StreamDiffusion、CausVid,以及 StreamDiffusionV2。


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 3 实际场景交互式生成应用实例

总结与展望

StreamDiffusionV2 弥合了离线视频扩散与实时直播之间长期存在的系统鸿沟。使高质量生成式直播首次具备工程可行性。





图 10 上图:计算设备的计算能力和内存带宽变化趋势,内存带宽的增长速度更慢;下图:自回归视频生成模型,计算和内存操作开销比例随输入帧序列长度的变化趋势。

进一步地,这一工作顺应了硬件与算法发展的长期趋势。由于 GPU 计算能力增长速度明显超过显存带宽,自回归推理正处于内存访问约束区域;与此同时,视频生成算法不断采用更高压缩率与更结构化的表示方式,也进一步加剧了推理阶段的内存访问压力。

在这样的演进背景下,围绕内存访问与实时约束进行系统级调度设计,将成为生成式服务的关键能力。

StreamDiffusionV2 提供的不仅是一套可运行的系统方案,更是一种面向未来实时生成场景的设计思路。

随着生成模型持续扩展规模与应用场景,这种以 SLO 为核心、以系统协同为驱动的流式推理架构,有望成为下一阶段生成式直播基础设施的重要方向。

作者介绍

本文作者来自德克萨斯大学奥斯汀分校、加州大学伯克利分校、Nunchaku AI、斯坦福大学、独立研究者、First Intelligent、麻省理工学院以及 Shizuku AI。

该工作的主要研究由德克萨斯大学奥斯汀分校团队完成,第一作者为博士生冯天瑞,通讯作者为助理教授徐晨丰。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
厂妹的生活

厂妹的生活

微微热评
2026-04-19 09:02:11
1961年,毛主席得知陈赓猝然病逝后,说道:你们都不晓得他!

1961年,毛主席得知陈赓猝然病逝后,说道:你们都不晓得他!

眼底星碎
2026-04-20 12:02:53
陪玩陪睡已过时!继关晓彤事件、注射不明物后,娱乐圈再曝潜规则

陪玩陪睡已过时!继关晓彤事件、注射不明物后,娱乐圈再曝潜规则

叨唠
2026-04-17 21:04:39
李雨桐泄露薛之谦身份证号手机号,被警方行拘!此前实名举报,指控其“致自己堕胎,长期遭受网暴”

李雨桐泄露薛之谦身份证号手机号,被警方行拘!此前实名举报,指控其“致自己堕胎,长期遭受网暴”

现代快报
2026-04-20 09:54:34
兵王张英才:前无古人的九次特等功获得者,四百万解放军只他一人

兵王张英才:前无古人的九次特等功获得者,四百万解放军只他一人

兴趣知识
2026-04-19 17:34:27
让人揪心的事终究来了?央行定调,5月后房产、存款或将迎来调整

让人揪心的事终究来了?央行定调,5月后房产、存款或将迎来调整

复转这些年
2026-04-19 23:17:41
景甜为顶级富豪代Y生子!?

景甜为顶级富豪代Y生子!?

八卦疯叔
2026-04-18 09:48:56
吴邦国的狂草技艺,让书坛惊叹不已!

吴邦国的狂草技艺,让书坛惊叹不已!

书画相约
2026-04-07 07:08:05
萧旭岑遇到的事,才是圈子里最让人胆寒的真相

萧旭岑遇到的事,才是圈子里最让人胆寒的真相

小椰的奶奶
2026-04-20 11:43:27
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
性需求是人的活力来源,性需求是成年人最强大的生命力

性需求是人的活力来源,性需求是成年人最强大的生命力

加油丁小文
2026-04-03 11:30:07
意外!郑州40岁女子患肝癌,临终前恳求前夫接走女儿,前夫回复!

意外!郑州40岁女子患肝癌,临终前恳求前夫接走女儿,前夫回复!

青梅侃史啊
2026-04-17 19:48:25
青岛王波个人简介,他是哪里人?

青岛王波个人简介,他是哪里人?

牛锅巴小钒
2026-04-20 14:54:10
毛主席见韩先楚位列中将难落笔,木船胜军舰一战改写地理格局

毛主席见韩先楚位列中将难落笔,木船胜军舰一战改写地理格局

磊子讲史
2026-03-18 10:25:31
第二名法国士兵被打死,这就是为啥川普嘲讽欧洲称赞以色列

第二名法国士兵被打死,这就是为啥川普嘲讽欧洲称赞以色列

移光幻影
2026-04-19 17:35:39
火箭失利仍有亮点!内线4猛将,摘17前场篮板,提升命中率可扳平

火箭失利仍有亮点!内线4猛将,摘17前场篮板,提升命中率可扳平

熊哥爱篮球
2026-04-20 19:45:47
长白山惊现“藏宝洞”,专家估值达万亿,日本得知后要求中国归还

长白山惊现“藏宝洞”,专家估值达万亿,日本得知后要求中国归还

抽象派大师
2026-04-20 01:30:41
随着41岁C罗破门+利雅得胜利4-0,亚冠二级4强已诞生3席

随着41岁C罗破门+利雅得胜利4-0,亚冠二级4强已诞生3席

侧身凌空斩
2026-04-20 00:01:29
68岁张兰泣血复盘:我儿签下17年卖身契,我用命扛下1.8亿血债

68岁张兰泣血复盘:我儿签下17年卖身契,我用命扛下1.8亿血债

手工制作阿歼
2026-04-20 19:05:17
Opta超级计算机统计英超最新夺冠概率:阿森纳73%,曼城27%

Opta超级计算机统计英超最新夺冠概率:阿森纳73%,曼城27%

懂球帝
2026-04-20 02:30:55
2026-04-20 20:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12811文章数 142632关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

房产
旅游
家居
公开课
军事航空

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

旅游要闻

枣庄薛城锦阳河畔春光正好 成市民休闲打卡好去处

家居要闻

自然慢调 慢享时光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版