网易首页 > 网易号 > 正文 申请入驻

训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】27FPS实时视频生成,35秒生成1分钟视频,英伟达联合MIT港大等团队提出的SANA-Video架构,得益于核心架构创新,视频模型具备了惊人的生成速度。

27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。

全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。

SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。

以下是SANA-Video生成的一些示例:





它的核心优势在于:

· 高效率:采用线性DiT和显存恒定的KV缓存,实现了比传统模型更快的速度和更高的内存效率。

· 低成本:训练成本极低(仅为MovieGen的1%),推理速度比SOTA模型快16倍。

· 可部署性:可在RTX5090上部署,仅需29秒即可生成一个5秒的720p视频。

· 长视频实时生成:4步蒸馏版本的长视频生成变种(LongSANA),仅需35秒即可生成1分钟的480p视频。在速度和质量之间,SANA-Video树立了新标杆。

本文将深入探讨SANA-Video的创新技术及其卓越性能。


论文名称SANA-Video: Efficient Video Generation withBlockLinear Diffusion Transformer

论文地址:https://arxiv.org/pdf/2509.24695

项目主页:https://nvlabs.github.io/Sana/Video/

研究背景

在文本到图像和视频生成领域,扩散模型(Diffusion Transformer)取得了显著的成功。

尽管扩散模型可以对多token并行化处理,但在高分辨率图像和视频生成时,海量的token数目导致推理速度较慢。

这个问题在文本到视频领域更为显著,同时生成5s 81帧的视频相比图像生成速度增长50倍。

为了提高计算效率,在视频任务这种token数量巨大的任务上,线性注意力计算复杂度节省效果显著。

目前,一些融合Linear Attention和Softmax Attention的方法取得良好效果,但是从头训练的全局Linear Attention模型的能力,仍存在不确定性。

SANA-Video在Linear DiT模型上继续训练,继承其全局线性注意力的模型设计,实现了从头开始的图像和视频模型的高效训练和推理全流程,在8倍压缩的Wan-VAE和这次提出的32倍压缩的DC-AE-V两种VAE上都验证的可行性。

最终效果抗打,在Vbench上与Wan-2.1等开源扩散视频模型持平。


核心创新

SANA-Video的核心在于其创新和鲁邦的全局线性注意力Diffusion Transformer训练框架,及其特有的全局显存恒定的KV缓存机制

主要贡献包括:

  1. 线性注意力DiT(Linear DiT)针对视频生成中海量令牌(token)处理的计算瓶颈,模型以线性注意力(Linear Attention)为核心操作。相比于传统的自注意力机制,线性注意力在处理长序列时更为高效,这为模型在合成高清长视频时保持卓越的速度和效率奠定了基础。

  2. 恒定显存的KV缓存机制(Constant-Memory KVCache)为了经济高效地生成分钟级长视频,研究者创新出一种分块自回归方法。该方法利用线性注意力的累积特性,创建了一个占用显存恒定的状态(KV缓存),从而为模型提供全局上下文信息,且不会随着视频长度的增加而消耗更多显存。这一设计彻底解决了传统KV缓存的内存瓶颈问题。并且通过步数蒸馏,LongSANA可以以自回归的方式实时生成分钟级的长视频。

  3. 深度压缩自编码器(DC-AE-V)传统自编码器只能将视频空间压缩8倍,全新AE可将视频空间压缩32倍,有效减少了潜在token的数量,解锁高分辨率视频生成新速度。

  4. 卓越的性能与部署效率:SANA-Video在实现了与业界先进小扩散模型(如Wan 2.1-1.3B)相媲美的视频质量的同时,展现了极高的效率优势。


训练成本低:训练开销仅为MovieGen的1%。

推理速度快:实测延迟比同类模型快16倍。

消费级部署:可成功部署于RTX5090GPU,并利用NVFP4精度将一段5秒720p视频的生成时间从71秒缩短至29秒,真正实现了低成本、高质量的视频生成。

设计细节

模型架构的细节,如下表所示。


· 高效线性DiT(Diffusion Transformer)

原始DiT的自注意力计算复杂度为O(N²),在处理高分辨率图像时呈二次增长,线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。

模型从,继承大部分模型权重,持续使用全局的线性DiT架构,最终形成一套完整的从头开始训练的文生图像视频模型。

与此同时,研究人员还提出了Spatial-Temporal Mix-FFN,可以在多层感知器(MLP)中交替使用1×3×3的空间卷积和3×1×1的时序卷积,增强了token的局部信息。

实验结果显示,线性注意力达到了与传统注意力相当的结果,在5s视频生成方面将延迟缩短了2-4倍


·恒定显存的KV缓存机制(Constant-Memory KVCache

在线性DiT的基础上,通过块间自回归的训练方式实现块线性扩散模型,其具有全局的注意力,但是显存开销固定的特性。


具体的,块间自回归训练方式通过将一段视频分为N块(Block/Chunk),根据帧所在块的前后顺序加递增的噪音大小进行扩散模型训练,通过因果注意力的方式进行建模,后面的块能过通过线性注意力融合前面块的特征,但前面块的特征计算不能引入后续块的特征。

首先对于线性注意力,其在计算机制上可以实现沿Token顺序进行拆分(数学上等价),并通过KV乘积后累加的方式得到所有Token的注意矩阵计算结果。


因此,当块因果线性扩散模型(Causal LinearAttention训练完成后,我们可以通过线性KV缓存机制进行长视频推理任务。

在块1的KV1计算后进行缓存,当块2的KV2矩阵计算完成后与KV1矩阵相加即可得到KV1-2,以此类推,当最后一个块n的KVn计算完成后,只需要


得到全局的KV矩阵。基于此,每个块的计算量只包含累加矩阵KVsum与当前块的KV计算后的加和。


·深度压缩自编码器(DC-AE-V)

按照SANA模型的一贯策略,研究人员引入的全新视频自编码器(DC-AE-V),大幅将缩放因子提高至空间32倍,时序4倍。


与F8T4C16+DiT编码层压缩2倍相比,F32T4C32输出的潜在token数量减少了4倍,这对于高效训练和生成高分辨率视频(如720p分辨率)至关重要。

· 高效训练和推理策略

为降低训练成本,研究人员从数据和训练策略两方面进行了优化。

首先,在数据层面,他们设计了高效的过滤标准,并利用强大的视觉语言模型(VLM)为视频生成包含丰富细节(如主体、动作、环境、镜头角度等)的高质量文本描述。

其次,在训练层面,模型基于一个强大的图生文(T2I)模型进行连续预训练,并采用从低分辨率到高分辨率的多阶段策略。

最后利用人类偏好的数据进行监督微调(SFT),从而高效地学习视频的动态和美学特征。


整体性能

如下表中,将SANA-Video与当前最先进的文本生成视频扩散模型进行了比较。

在480p分辨率的文生视频(Text-to-Video)任务中,SANA-Video在模型参数量仅为2B的情况下,实现了最高的语义对齐分数(Semantic Score 81.35),其推理延迟仅为60秒,快于其他模型,实现了8倍的速度提升。

在480p分辨率的图生视频(Image-to-Video)任务中,SANA-Video同样速度最快,并且其视频生成质量分数(I2V Score 96.40)超越了所有同类模型。

在更高分辨率(720p)的性能对比中,SANA-Video-2B的综合评分(Total Score 84.05)表现最佳。其推理延迟仅为36秒,相比SkyReelV2(568秒)和Wan2.1(403秒)等模型,实现了高达16倍的速度优势


如下是,SANA-Video与其他模型可视化性能比较。很显然,SANA-Video模型生成速度更快的同时质量也同样能打。


LongSANA:长视频实时生成

SANA-Video的恒定显存的KV缓存机制,支持使用全局注意力进行训练和推理。

因此,研究人员改进Self-Forcing的5s视频自回归训练方式,使用全局注意力进行1分钟的流式训练,从而实现更高质量的长视频,此变种命名为LongSANA。并且通过蒸馏去噪步数,实现在H100上仅需35秒即可生成1分钟视频。生成效果如下:


终端设备部署

为了增强边缘部署,研究人员使用SVDQuant算法进行NVFP4对模型进行量化。在480p和720p视频的速度上都实现2.4x的加速。并且可以在RTX 5090显卡上进行推理。


展望未来,SANA-Video将致力于探索实时交互式生成等前沿领域。

研究者坚信开放的力量,因此决定将完整的训练代码和模型权重向社区开源,期待与全球的开发者和研究者一同探索视频生成的无限可能。

参考资料:

1https://arxiv.org/pdf/2509.24695

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京和泽连斯基宣布:俄乌停火32小时!泽连斯基:愿意与普京会面,但不是在莫斯科

普京和泽连斯基宣布:俄乌停火32小时!泽连斯基:愿意与普京会面,但不是在莫斯科

每日经济新闻
2026-04-10 17:29:03
伊朗议长带四名遇难儿童照片赴美伊谈判,配文“我的飞行同伴们”;代表团又名“米纳卜168”;此前伊朗米纳卜市一小学遭袭,168名女童遇难

伊朗议长带四名遇难儿童照片赴美伊谈判,配文“我的飞行同伴们”;代表团又名“米纳卜168”;此前伊朗米纳卜市一小学遭袭,168名女童遇难

扬子晚报
2026-04-11 10:45:57
德国“大神”来华手术,被「中国病历」吓到:“我的天...”。中国医生却要天天扛着

德国“大神”来华手术,被「中国病历」吓到:“我的天...”。中国医生却要天天扛着

医护健康科普
2026-04-11 09:08:37
命中了!以色列彻底失控了!

命中了!以色列彻底失控了!

财经要参
2026-04-11 05:50:03
关于两岸和平统一,郑丽文正式表态,国民党三人罕见支持,不简单

关于两岸和平统一,郑丽文正式表态,国民党三人罕见支持,不简单

DS北风
2026-04-10 17:16:33
看了一天!终于理清特朗普老婆和爱泼斯坦的瓜!

看了一天!终于理清特朗普老婆和爱泼斯坦的瓜!

啃金融
2026-04-10 22:47:23
8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

映射生活的身影
2026-04-10 19:15:23
以色列,终成人类公敌!

以色列,终成人类公敌!

燕梳楼频道
2026-04-10 15:02:39
中东迎来关键24小时:伊朗额外提了两个条件,特朗普边谈边增兵

中东迎来关键24小时:伊朗额外提了两个条件,特朗普边谈边增兵

阿芒娱乐说
2026-04-11 09:23:47
两段婚姻都娶普通人,三婚娶名导前妻,知名前国脚,如今活成这样

两段婚姻都娶普通人,三婚娶名导前妻,知名前国脚,如今活成这样

削桐作琴
2026-04-10 18:36:31
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

流史岁月
2026-04-09 16:30:07
时隔35年!广东东莞樟木头上网络平台热搜,真相令人震惊

时隔35年!广东东莞樟木头上网络平台热搜,真相令人震惊

南方健哥
2026-04-10 23:13:49
Woc,才18岁啊,中国版“切特”横空出世,已预定登录NBA

Woc,才18岁啊,中国版“切特”横空出世,已预定登录NBA

体育新角度
2026-04-11 11:19:36
1-1!姆巴佩遭点球争议,巴尔韦德难救主,皇马连续3场不胜

1-1!姆巴佩遭点球争议,巴尔韦德难救主,皇马连续3场不胜

我的护球最独特
2026-04-11 05:04:38
标120W的充电器实际功率仅22.5W,商家:120W是产品型号

标120W的充电器实际功率仅22.5W,商家:120W是产品型号

极目新闻
2026-04-11 00:53:31
难以置信啊!一餐吃掉562339.80元,上海一张消费清单刷爆网络

难以置信啊!一餐吃掉562339.80元,上海一张消费清单刷爆网络

火山詩话
2026-04-10 06:49:46
快讯!特普朗宣布最新消息了!

快讯!特普朗宣布最新消息了!

达文西看世界
2026-04-11 09:58:36
湖人季后赛前搞事情!裁掉场均25分天才后卫 要签狠角色?

湖人季后赛前搞事情!裁掉场均25分天才后卫 要签狠角色?

仰卧撑FTUer
2026-04-11 11:02:33
刺激!深圳有人年初买房已经赚了100万!

刺激!深圳有人年初买房已经赚了100万!

楼市灭霸
2026-04-10 13:27:25
赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

细品名人
2026-04-11 07:29:02
2026-04-11 11:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14943文章数 66765关注度
往期回顾 全部

科技要闻

阿尔忒弥斯2号成功溅落,隔热罩惊险过关

头条要闻

"迟重瑞与陈丽华年轻时合影"热传 当事女子:张冠李戴

头条要闻

"迟重瑞与陈丽华年轻时合影"热传 当事女子:张冠李戴

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
房产
游戏
艺术
公开课

教育要闻

电气专业直接就业还是考研?

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

《eFootball》下载量突破10亿次 经典大师联赛回归

艺术要闻

17位当代青年画家油画欣赏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版