网易首页 > 网易号 > 正文 申请入驻

清华稀疏Attention,无需训练加速一切模型!

0
分享至


在当今各类大语言模型以及视频模型中,长序列场景越来越普遍,而 Attention 的计算复杂度随着序列长度呈平方增长,成为长序列任务下的主要计算瓶颈。此前,清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention,且在各类大模型上均保持了端到端的精度,已被业界和社区广泛使用。为了进一步加速 Attention,清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention(SpargeAttn)可用来加速任意模型。实现了4-7倍相比于 FlashAttention 的推理加速,且在语言,视频、图像生成等大模型上均保持了端到端的精度表现。

论文标题:SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

  • 论文链接:https://arxiv.org/abs/2502.18137
  • 开源代码:https://github.com/thu-ml/SpargeAttn

下图展示了 SpargeAttn 的速度,可以发现在 RTX4090 上,SpargeAttn 在 60% 稀疏度的情况下可以达到900TOPS的速度,甚至是使用 A100 显卡速度的4.5 倍(A100 上 FlashAttention 只有 200TOPS)。

在 SpargeAttn 的 Github 仓库中可以发现,SpargeAttn 的使用方法比较简洁,只需要进行一次简单的超参数搜索过程,就可以永久地对任意的模型输入进行推理加速。

接下来,将从前言,挑战,方法,以及实验效果四个方面介绍 SpargeAttn。

前言

随着大模型需要处理的序列长度越来越长,Attention 的速度优化变得越来越重要。这是因为相比于网络中其它操作的 O (N) 的时间复杂度,Attention 的时间复杂度是 O (N^2)。尽管 Attention 的计算复杂度为 O (N^2),但幸运的是Attention 具备很好的稀疏性质,即 P 矩阵的很多值都接近 0。如何利用这种稀疏性来节省计算就成为了 attention 加速的一个重要方向。大多数现有的工作都集中在利用 P 矩阵在语言模型中表现出来的固定的稀疏形状(如滑动窗口)来节省计算,或是需要重新训练模型,比如 DeepSeek 的 NSA 以及 Kimi 的 MoBA。此外,现有稀疏 Attention 通常需要较大的上下文窗口(如 64K~1M)才能有明显加速。SpargeAttn 的目标是开发一个无需训练、对各种模型(语言 / 视频 / 图像)通用、精度无损、对中等长度的上下文(如 4-32K)也有加速效果的注意力机制。

图 1: 不同的模型表现出不同的稀疏形状

实现通用的,无需训练的稀疏 Attenion 有哪些挑战?

挑战 1

通用性:Attention 虽然具备稀疏性质,但是其稀疏形状在不同的模型甚至同一模型的不同层中都是不同的,体现出很强的动态性。如图 1 所示,前两种模型分别为视频模型和图像生成模型,这两个模型中的 Attention 的稀疏形状相比语言模型更加没有规律。设计一种各种模型通用的稀疏 Attention 是困难的。

挑战 2

可用性:对于各种 Attention 的输入,很难同时实现准确且高效的稀疏 Attention。这是因为准确性要求了完全精确地预测 P 中的稀疏区域,高效性则要求了此预测的时间开销极短。在一个极短的时间内完全精准地预测 P 的稀疏形状是困难的。

方法

为了解决上述的两个挑战,研究团队提出了对应的解决办法。

  • 研究团队提出了一种各模型通用的快速的对 P 矩阵稀疏部分进行预测的算法。该方法选择性地对 Q, K 矩阵进行压缩并预测 P 矩阵,接着使用TopCdf操作省略 P 中稀疏部分对应的 QK^T 与 PV 的矩阵乘法。
  • 研究团队提出了在 GPU Warp 级别上的稀疏 Online Softmax算法,该算法通过利用 Online Softmax 中全局最大值与局部最大值之间的差异,进一步省略了一些 PV 的矩阵乘法计算。
  • 可选的,针对视频和图像模型,研究团队充分利用图像以及视频中的 Token 局部相似性质,使用希尔伯特重排的方法对 Attention 前的 Token 进行重新排列,进一步提高稀疏度。
  • 最后,研究团队将这种稀疏方法与基于量化的 SageAttention 融合到一起,进一步加速 Attention。

图 2: SpargeAttn 的算法流程图

SpargeAttn 的算法流程如下所示:

实验效果

总的来说,SpargeAttn 在视频、图像、文本生成等大模型均可以实现无需训练的加速效果,同时保证了各任务上的端到端的精度。

下表展示了 SpargeAttn 在各模型上的稀疏度,Attention 速度,以及各任务上的端到端精度,可以发现 SpargeAttn 在保证了加速的同时没有影响模型精度:(注:此论文中的所有实验都是基于 SageAttention 实现,目前 Github 仓库中已有基于 SageAttention2 的实现,进一步提供了 30% 的加速。

值得一提的是,此前的稀疏 Attention 工作很多无法实际使用的原因之一是稀疏预测部分的 Overhead 较大,而 SpargeAttn 团队还将稀疏预测部分的代码进行了极致优化,将 Overhead 压缩到了几乎在各种长度的序列下都可以忽略的地步:

下表展示了对于各模型的端到端的加速效果,以视频生成模型 Mochi 为例,SpargeAttn 提供了近两倍的端到端加速效果:(注:此论文中的所有实验都是基于 SageAttention 实现,目前 Github 仓库中已有基于 SageAttention2 的实现,进一步提供了 30% 的加速)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

潇湘晨报
2026-03-26 11:49:57
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
局地大到暴雨 南方将迎今年首场大范围强对流天气

局地大到暴雨 南方将迎今年首场大范围强对流天气

财联社
2026-03-26 18:35:03
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报政事儿
2026-03-26 17:13:05
伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

讲者普拉斯
2026-03-26 21:19:51
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

野渡舟山人
2026-03-25 20:17:34
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
伊朗工业、矿业和贸易部长:全国生产活动不会中断

伊朗工业、矿业和贸易部长:全国生产活动不会中断

财联社
2026-03-26 14:46:09
亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

阿晪美食
2026-03-26 15:02:52
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
广州中考体育考试将于4月8日开考,市招考办发布温馨提示

广州中考体育考试将于4月8日开考,市招考办发布温馨提示

南方都市报
2026-03-26 20:06:42
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

爱史纪
2026-03-26 19:30:35
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
2026-03-26 22:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
艺术
亲子
旅游

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

上新|| 她们说,找到了自己的人生裙子!

艺术要闻

哪一座桥不是风景?

亲子要闻

你好,我是馒头,快开门!

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

无障碍浏览 进入关怀版