网易首页 > 网易号 > 正文 申请入驻

训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】27FPS实时视频生成,35秒生成1分钟视频,英伟达联合MIT港大等团队提出的SANA-Video架构,得益于核心架构创新,视频模型具备了惊人的生成速度。

27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。

全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。

SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。

以下是SANA-Video生成的一些示例:





它的核心优势在于:

· 高效率:采用线性DiT和显存恒定的KV缓存,实现了比传统模型更快的速度和更高的内存效率。

· 低成本:训练成本极低(仅为MovieGen的1%),推理速度比SOTA模型快16倍。

· 可部署性:可在RTX5090上部署,仅需29秒即可生成一个5秒的720p视频。

· 长视频实时生成:4步蒸馏版本的长视频生成变种(LongSANA),仅需35秒即可生成1分钟的480p视频。在速度和质量之间,SANA-Video树立了新标杆。

本文将深入探讨SANA-Video的创新技术及其卓越性能。


论文名称SANA-Video: Efficient Video Generation withBlockLinear Diffusion Transformer

论文地址:https://arxiv.org/pdf/2509.24695

项目主页:https://nvlabs.github.io/Sana/Video/

研究背景

在文本到图像和视频生成领域,扩散模型(Diffusion Transformer)取得了显著的成功。

尽管扩散模型可以对多token并行化处理,但在高分辨率图像和视频生成时,海量的token数目导致推理速度较慢。

这个问题在文本到视频领域更为显著,同时生成5s 81帧的视频相比图像生成速度增长50倍。

为了提高计算效率,在视频任务这种token数量巨大的任务上,线性注意力计算复杂度节省效果显著。

目前,一些融合Linear Attention和Softmax Attention的方法取得良好效果,但是从头训练的全局Linear Attention模型的能力,仍存在不确定性。

SANA-Video在Linear DiT模型上继续训练,继承其全局线性注意力的模型设计,实现了从头开始的图像和视频模型的高效训练和推理全流程,在8倍压缩的Wan-VAE和这次提出的32倍压缩的DC-AE-V两种VAE上都验证的可行性。

最终效果抗打,在Vbench上与Wan-2.1等开源扩散视频模型持平。


核心创新

SANA-Video的核心在于其创新和鲁邦的全局线性注意力Diffusion Transformer训练框架,及其特有的全局显存恒定的KV缓存机制

主要贡献包括:

  1. 线性注意力DiT(Linear DiT)针对视频生成中海量令牌(token)处理的计算瓶颈,模型以线性注意力(Linear Attention)为核心操作。相比于传统的自注意力机制,线性注意力在处理长序列时更为高效,这为模型在合成高清长视频时保持卓越的速度和效率奠定了基础。

  2. 恒定显存的KV缓存机制(Constant-Memory KVCache)为了经济高效地生成分钟级长视频,研究者创新出一种分块自回归方法。该方法利用线性注意力的累积特性,创建了一个占用显存恒定的状态(KV缓存),从而为模型提供全局上下文信息,且不会随着视频长度的增加而消耗更多显存。这一设计彻底解决了传统KV缓存的内存瓶颈问题。并且通过步数蒸馏,LongSANA可以以自回归的方式实时生成分钟级的长视频。

  3. 深度压缩自编码器(DC-AE-V)传统自编码器只能将视频空间压缩8倍,全新AE可将视频空间压缩32倍,有效减少了潜在token的数量,解锁高分辨率视频生成新速度。

  4. 卓越的性能与部署效率:SANA-Video在实现了与业界先进小扩散模型(如Wan 2.1-1.3B)相媲美的视频质量的同时,展现了极高的效率优势。


训练成本低:训练开销仅为MovieGen的1%。

推理速度快:实测延迟比同类模型快16倍。

消费级部署:可成功部署于RTX5090GPU,并利用NVFP4精度将一段5秒720p视频的生成时间从71秒缩短至29秒,真正实现了低成本、高质量的视频生成。

设计细节

模型架构的细节,如下表所示。


· 高效线性DiT(Diffusion Transformer)

原始DiT的自注意力计算复杂度为O(N²),在处理高分辨率图像时呈二次增长,线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。

模型从,继承大部分模型权重,持续使用全局的线性DiT架构,最终形成一套完整的从头开始训练的文生图像视频模型。

与此同时,研究人员还提出了Spatial-Temporal Mix-FFN,可以在多层感知器(MLP)中交替使用1×3×3的空间卷积和3×1×1的时序卷积,增强了token的局部信息。

实验结果显示,线性注意力达到了与传统注意力相当的结果,在5s视频生成方面将延迟缩短了2-4倍


·恒定显存的KV缓存机制(Constant-Memory KVCache

在线性DiT的基础上,通过块间自回归的训练方式实现块线性扩散模型,其具有全局的注意力,但是显存开销固定的特性。


具体的,块间自回归训练方式通过将一段视频分为N块(Block/Chunk),根据帧所在块的前后顺序加递增的噪音大小进行扩散模型训练,通过因果注意力的方式进行建模,后面的块能过通过线性注意力融合前面块的特征,但前面块的特征计算不能引入后续块的特征。

首先对于线性注意力,其在计算机制上可以实现沿Token顺序进行拆分(数学上等价),并通过KV乘积后累加的方式得到所有Token的注意矩阵计算结果。


因此,当块因果线性扩散模型(Causal LinearAttention训练完成后,我们可以通过线性KV缓存机制进行长视频推理任务。

在块1的KV1计算后进行缓存,当块2的KV2矩阵计算完成后与KV1矩阵相加即可得到KV1-2,以此类推,当最后一个块n的KVn计算完成后,只需要


得到全局的KV矩阵。基于此,每个块的计算量只包含累加矩阵KVsum与当前块的KV计算后的加和。


·深度压缩自编码器(DC-AE-V)

按照SANA模型的一贯策略,研究人员引入的全新视频自编码器(DC-AE-V),大幅将缩放因子提高至空间32倍,时序4倍。


与F8T4C16+DiT编码层压缩2倍相比,F32T4C32输出的潜在token数量减少了4倍,这对于高效训练和生成高分辨率视频(如720p分辨率)至关重要。

· 高效训练和推理策略

为降低训练成本,研究人员从数据和训练策略两方面进行了优化。

首先,在数据层面,他们设计了高效的过滤标准,并利用强大的视觉语言模型(VLM)为视频生成包含丰富细节(如主体、动作、环境、镜头角度等)的高质量文本描述。

其次,在训练层面,模型基于一个强大的图生文(T2I)模型进行连续预训练,并采用从低分辨率到高分辨率的多阶段策略。

最后利用人类偏好的数据进行监督微调(SFT),从而高效地学习视频的动态和美学特征。


整体性能

如下表中,将SANA-Video与当前最先进的文本生成视频扩散模型进行了比较。

在480p分辨率的文生视频(Text-to-Video)任务中,SANA-Video在模型参数量仅为2B的情况下,实现了最高的语义对齐分数(Semantic Score 81.35),其推理延迟仅为60秒,快于其他模型,实现了8倍的速度提升。

在480p分辨率的图生视频(Image-to-Video)任务中,SANA-Video同样速度最快,并且其视频生成质量分数(I2V Score 96.40)超越了所有同类模型。

在更高分辨率(720p)的性能对比中,SANA-Video-2B的综合评分(Total Score 84.05)表现最佳。其推理延迟仅为36秒,相比SkyReelV2(568秒)和Wan2.1(403秒)等模型,实现了高达16倍的速度优势


如下是,SANA-Video与其他模型可视化性能比较。很显然,SANA-Video模型生成速度更快的同时质量也同样能打。


LongSANA:长视频实时生成

SANA-Video的恒定显存的KV缓存机制,支持使用全局注意力进行训练和推理。

因此,研究人员改进Self-Forcing的5s视频自回归训练方式,使用全局注意力进行1分钟的流式训练,从而实现更高质量的长视频,此变种命名为LongSANA。并且通过蒸馏去噪步数,实现在H100上仅需35秒即可生成1分钟视频。生成效果如下:


终端设备部署

为了增强边缘部署,研究人员使用SVDQuant算法进行NVFP4对模型进行量化。在480p和720p视频的速度上都实现2.4x的加速。并且可以在RTX 5090显卡上进行推理。


展望未来,SANA-Video将致力于探索实时交互式生成等前沿领域。

研究者坚信开放的力量,因此决定将完整的训练代码和模型权重向社区开源,期待与全球的开发者和研究者一同探索视频生成的无限可能。

参考资料:

1https://arxiv.org/pdf/2509.24695

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
51年一特务被捕后语出惊人:杨靖宇不是自杀,害他的人在北京当官

51年一特务被捕后语出惊人:杨靖宇不是自杀,害他的人在北京当官

春秋砚
2025-10-27 21:06:10
荷兰政府花200亿挽留无效!光刻机巨头ASML为何要从老家搬走?

荷兰政府花200亿挽留无效!光刻机巨头ASML为何要从老家搬走?

南宫一二
2025-11-06 13:38:57
退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

罪案洞察者
2025-09-23 14:37:35
“房贷倒挂”引关注,识别“高评高贷”下的恶意断供

“房贷倒挂”引关注,识别“高评高贷”下的恶意断供

第一财经资讯
2025-11-05 20:25:08
没人抢的大闸蟹!降价也卖不动,这届消费者清醒了?

没人抢的大闸蟹!降价也卖不动,这届消费者清醒了?

鬼谷子思维
2025-11-05 19:40:03
“大鱼”游走了,泽连斯基在巴甫洛夫格勒的地堡里,见证了红军城的陷落!

“大鱼”游走了,泽连斯基在巴甫洛夫格勒的地堡里,见证了红军城的陷落!

胜研集
2025-11-06 10:42:31
苟如虎跨省履新上海市杨浦区副区长

苟如虎跨省履新上海市杨浦区副区长

鲁中晨报
2025-11-06 07:11:04
荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

凡知
2025-11-06 11:38:13
演员祝新运:凭借潘冬子火遍全国,却娶了离异还大3岁的妻子

演员祝新运:凭借潘冬子火遍全国,却娶了离异还大3岁的妻子

揽星河的笔记
2025-11-05 13:55:47
中美正式发文通知,一分不差地按时履行承诺,两国率先成为大输家

中美正式发文通知,一分不差地按时履行承诺,两国率先成为大输家

时时有聊
2025-11-06 08:54:37
赖清德叫嚣“反统一”,大陆说重话,或考虑全球通缉“台独”分子

赖清德叫嚣“反统一”,大陆说重话,或考虑全球通缉“台独”分子

历史有些冷
2025-11-05 20:15:03
重庆市调整部分行政区划

重庆市调整部分行政区划

政知新媒体
2025-11-06 12:43:58
上海进博会上巨型装置来袭:长草微笑奶奶!网友:她会不会突然睁开眼

上海进博会上巨型装置来袭:长草微笑奶奶!网友:她会不会突然睁开眼

上观新闻
2025-11-06 13:59:08
世界首富马斯克,一位写烂代码的高手

世界首富马斯克,一位写烂代码的高手

码农翻身
2025-11-06 08:58:58
泽连斯基视察波城!俄军渗透成功率30%,乌军特种部队玉器碰瓷器

泽连斯基视察波城!俄军渗透成功率30%,乌军特种部队玉器碰瓷器

鹰眼Defence
2025-11-05 18:08:50
菲律宾等四国防长发表涉东海和南海联合声明 外交部回应

菲律宾等四国防长发表涉东海和南海联合声明 外交部回应

新京报
2025-11-06 16:03:04
东契奇35+13无缘今日最佳!米切尔46+8也落选,只因威少刷爆纪录

东契奇35+13无缘今日最佳!米切尔46+8也落选,只因威少刷爆纪录

你的篮球频道
2025-11-06 14:48:23
撤销江北区渝北区,设立全新两江新区!哪个板块将成为大赢家?

撤销江北区渝北区,设立全新两江新区!哪个板块将成为大赢家?

小树聊房
2025-11-06 15:03:13
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
《棕眼之谜》好评如潮,追3集后,我想说:国产悬疑剧尺度真敢拍

《棕眼之谜》好评如潮,追3集后,我想说:国产悬疑剧尺度真敢拍

娱乐圈笔娱君
2025-11-06 15:21:45
2025-11-06 21:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13801文章数 66237关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

男子到堰塘钓鱼时触碰高压线身亡 供电公司被判赔37万

头条要闻

男子到堰塘钓鱼时触碰高压线身亡 供电公司被判赔37万

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

艺术
房产
本地
游戏
教育

艺术要闻

预定年度十佳!49岁的舒淇,杀疯了

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

本地新闻

这届干饭人,已经把博物馆吃成了食堂

PS5串流掌机重磅更新!除云游戏外还有超多体验优化

教育要闻

最后机会!多地允许考研补报名!

无障碍浏览 进入关怀版