网易首页 > 网易号 > 正文 申请入驻

单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈

0
分享至

LinGn团队 投稿
量子位 | 公众号 QbitAI

视频生成模型太贵太慢怎么办?

普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。

实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。此外,自动指标和人工评估均显示,LinGen-4B在视频质量上与最先进模型相当(分别以50.5%、52.1%、49.1%的胜率优于Gen-3、Luma Labs和Kling)。

方法:线性复杂度的MATE模块

LinGen维持Diffusion Transformer(DiT)中的其他结构不变,而将其计算瓶颈——平方复杂度的自注意力模块替换为线性复杂度的MATE模块,它由MA分支和TE分支组成。

其中,MA分支包含一个双向的Mamba2模块。

Mamba2作为State Space Model(SSM)的变体,善于处理超长的token序列,同时又对硬件非常友好,可以使用attention的各种硬件加速核,如xformers,FlashAttention等。但是Mamba系列模型在语言任务上的优秀表现难以直接迁移到大型视觉任务上,生成的高分辨率视频往往一致性很差、质量不高。

一些特殊的scan方法尝试解决这一问题,如Zigzag scan,Hilbert scan,但它们都要求对序列做复杂的顺序变换,而这个操作对硬件极其不友好。在处理高分辨率、长视频时,会带来显著的额外延迟。

针对于此,LinGen提出Rotary Major Scan(RMS),相邻层中四种scan方式交替切换。

以上图的方式为例,W,H和T分别在展开时有第一、第二和第三优先级,通过交换展开的优先级,就可以实现不同的scan方式。

相比于已有方法,该方法最大的好处是对硬件非常友好、可以通过简单的tensor reshaping实现,因此也几乎没有额外开销,同时还把scan后原相邻token的平均距离降到了和已有特殊scan方式相同的水平。

然而,所有这些特殊的scan方式仍然不足以完全解决Mamba的临近信息丢失问题,因为在模型的任意一层中,只会有一种scan方式被应用,如果不考虑跨层交流,大量临近信息在单层中依旧有损失。

针对于此,LinGen在TE分支中应用了TEmporal Swin Attention(TESA):它是一种特殊的3D window attention,窗口范围在不同层中会滑动,每一个窗口都很小,并且窗口大小不随视频分辨率和长度(即3D tensor的大小)的变化而变化。

这是因为TESA仅用来处理最临近的信息,这一固定的窗口大小也使得TESA实现了相对3D tensor中token数的线性复杂度

作为额外的补充,LinGen还在MA分支中引入了review tokens。它被用以增强视频中极长程的一致性,例如在60秒视频的结尾复现视频前几秒消失的人。它把待处理video tensor的概览提前写入Mamba的hidden state memory中,为后续的视频处理提供帮助。

评估:远超基线,对标SOTA

从人类评测和模型自动评测两个角度将LinGen与已有的先进视频生成模型、以及DiT baseline进行比较。

无论是人类评测的结果,还是在VBench上的自动评测的结果,都显示LinGen与先进的商业模型Kling、Runway Gen-3生成的视频质量接近,并且远胜于OpenSora v1.2。

可以看到,在FLOPs方面,当生成17秒、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了5×、8×和15×的加速;

在延迟方面,当在单个H100上生成512p和768p的17秒视频时,LinGen-4B相对于DiT-4B分别实现了2.0×和3.6×的加速;

当生成17秒、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了2.0×、3.9×和11.5×的延迟加速。

这说明LinGen具有线性复杂度,可以在单卡上实现分钟级视频生成,速度远快于DiT。与相同大小的DiT相比,LinGen可实现推理速度11倍以上的提升。

另外,LinGen和相同大小、在相同数据集上以相同training recipe训练的DiT baseline相比,在视频质量和文字-视频一致性上取得全面领先。相比起DiT,LinGen可以更快地适应更长的token序列。

通常认为自注意力模块的线性替代是对完整自注意力的近似,虽然在速度上有显著优势,但在模型性能上往往略逊一筹,而LinGen打破了这个惯有的看法。

在整个预训练过程中,模型从低分辨率图像生成开始,学习低分辨率视频生成,再不断增加所生成视频的分辨率和长度,所处理的token数增长了上千倍。

而在从少token数的任务迁移到多token数的任务时,LinGen的适应性远强于DiT(a图中是从256x256分辨率视频生成迁移到512x512分辨率视频生成任务时的loss curve),这可能是受益于Mamba对于长序列的高适应性,这一特征已经在语言任务上被观察到。

为了进一步验证这里推理,选取这一预训练阶段的早期checkpoint进行比较,发现LinGen比DiT的win rate优势变得更加显著。这暗示了虽然LinGen在任务迁移的早期能大幅领先DiT,但是这种优势随着预训练的进行,在不断减小。

尽管如此,在训练资源有限的情况下,LinGen在预训练的极长一段时间内仍旧能对DiT保持优势。

项目主页:https://lineargen.github.io/
论文链接:https://arxiv.org/abs/2412.09856
项目代码:https://github.com/jha-lab/LinGen

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
戴维森绝杀+比分1-0,45岁郑智率队迎首胜,41岁陈涛率队遭遇第2败

戴维森绝杀+比分1-0,45岁郑智率队迎首胜,41岁陈涛率队遭遇第2败

侧身凌空斩
2026-03-21 21:31:20
广东一奔驰车身满是“渣男”字样,车牌号疑为粤P,当地公安:车身内容只要不违反相关规定,公安机关也不好干预,会移交交警部门核实调查

广东一奔驰车身满是“渣男”字样,车牌号疑为粤P,当地公安:车身内容只要不违反相关规定,公安机关也不好干预,会移交交警部门核实调查

潇湘晨报
2026-03-21 14:17:10
一块馒头胜过十瓶保健品,中国人吃了几千年的秘密

一块馒头胜过十瓶保健品,中国人吃了几千年的秘密

富贵说
2026-03-18 13:57:01
0-4!裁判吹死泰山:二分之一球都吹给泰山,换巴萨也赢不了玉昆

0-4!裁判吹死泰山:二分之一球都吹给泰山,换巴萨也赢不了玉昆

建哥说体育
2026-03-21 22:35:37
曝双顶流的孩子已经三周岁

曝双顶流的孩子已经三周岁

聚焦最新动态
2026-03-21 08:06:03
曼联向英超投诉裁判!联盟强留争五悬念?盲侠两次阻击已抢劫4分

曼联向英超投诉裁判!联盟强留争五悬念?盲侠两次阻击已抢劫4分

罗米的曼联博客
2026-03-22 09:32:13
克拉拉F1赛车现场太耀眼了!新中式红裙外搭撞色毛绒外套,美炸了

克拉拉F1赛车现场太耀眼了!新中式红裙外搭撞色毛绒外套,美炸了

明星私服穿搭daily
2026-03-21 11:50:06
美军三航母参战,俄媒坦言:在中东,只有中国有可能击沉一艘航母

美军三航母参战,俄媒坦言:在中东,只有中国有可能击沉一艘航母

走进事件的中心
2026-03-20 20:52:49
9月发布12月发货 iPhone Fold复刻iPhone X

9月发布12月发货 iPhone Fold复刻iPhone X

PChome电脑之家
2026-03-20 16:16:55
伊朗亮底牌,战争要拖长了

伊朗亮底牌,战争要拖长了

陆弃
2026-03-21 08:30:03
美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

安安说
2026-03-21 10:56:42
美军罕见承认:中国新下水核潜艇数量已远超美国,美国恐追不上了

美军罕见承认:中国新下水核潜艇数量已远超美国,美国恐追不上了

兴史兴谈
2026-03-21 07:24:24
全集团降薪40%

全集团降薪40%

新浪财经
2026-03-19 11:43:53
访美已结束,高市再也笑不出来了,说出此行最大遗憾,中方不理她

访美已结束,高市再也笑不出来了,说出此行最大遗憾,中方不理她

近史博览
2026-03-22 07:36:32
“你死了吗?没死就滚来医院伺候我妈”嫂子:滚,我与你哥离婚了

“你死了吗?没死就滚来医院伺候我妈”嫂子:滚,我与你哥离婚了

广西秦胖胖
2026-03-20 16:33:38
刘诗诗和唐嫣冲上热搜!曝离婚分割财产完毕,为争抚养权做出妥协

刘诗诗和唐嫣冲上热搜!曝离婚分割财产完毕,为争抚养权做出妥协

离离言几许
2026-03-20 15:24:58
迪卡侬正式入驻拼多多

迪卡侬正式入驻拼多多

界面新闻
2026-03-20 11:07:11
执迷不悟!利物浦球迷怒喷斯洛特,死保这位全场最差罪人

执迷不悟!利物浦球迷怒喷斯洛特,死保这位全场最差罪人

澜归序
2026-03-22 02:44:56
晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

人民日报健康客户端
2026-03-19 20:23:09
2026-03-22 09:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12320文章数 176418关注度
往期回顾 全部

科技要闻

库克在华这四天,一场既定的市场秀

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

亲子
游戏
艺术
公开课
军事航空

亲子要闻

“锌”是聪明根!春天孩子多吃高锌菜,脑子灵、记性好、个头猛长

拒绝做大做强!《幻兽帕鲁》开发商不想打造媒体帝国

艺术要闻

张春桥的字藏多少心机?看似简单却暗藏玄机!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版