网易首页 > 网易号 > 正文 申请入驻

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

0
分享至

随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。

近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子(SageAttention3)。实现了5倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了1040 TOPS的速度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!SageAttention3 在多种视频和图像生成等大模型上(包括 HunyuanVideo,CogVideoX,Mochi和各类图像生成模型)均保持了端到端的精度表现。同时还首次提出可训练的 8 比特注意力(SageBwd)用于大模型的训练加速(注:FlashAttention3 的 FP8 版本也只支持前向传播),在各项微调任务中均保持了与全精度注意力相同的结果。

  • 论文标题:SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of8-bitTraining
  • 论文链接:https://arxiv.org/abs/2505.11594
  • 开源代码:https://github.com/thu-ml/SageAttention

效果预览

SageAttention3 实现了高效的 Attention 算子,可以实现即插即用的 5 倍于 FlashAttention 的推理加速。即输入任意 Q, K, V 矩阵,可以快速返回 Attention Output (O),真正做到了两行代码加速任意模型推理。(注:按照官方仓库中的开源计划,SageAttention2++ 的代码将于6月20日左右开源,SageAttention3 的代码将于7月15日左右开源。)

效果上,以 HunyuanVideo 为例,在 RTX5090 上 SageAttention3 可以 3 倍加速端到端的生成,且视频质量几乎无损:

视频 1(使用 FlashAttention2,490s)

视频 2(使用 SageAttention3,164s)

(注:FlashAttention2 已经是在 RTX5090 上最优的 FlashAttention 实现。)

接下来,将从前言,挑战,方法,以及实验效果四个方面介绍 SageAttention3。

SageAttention3 总体流程图

前言

随着大模型需要处理的序列长度越来越长,Attention 的速度优化变得越来越重要。下图展示了一个标准的 Transformer 模型中各运算的时间占比随序列长度的变化:

为了方便指代注意力运算中的矩阵,我们先回顾一下注意力的计算公式:

研究动机:(1)Blackwell 架构有着速度极快的 FP4 Tensor Core,以 RTX5090 为例,其速度是 FP16 Tensor Core 的 8 倍。(2)训练阶段的注意力运算开销也同样重要,在此之前并没有工作尝试过低比特注意力加速模型训练,包括 FlashAttention3 的 FP8 版本也只有 Forward 过程。我们还希望同时量化注意力的前向 + 反向过程来加速训练。

FP4 注意力量化有什么问题?

(1)FP4 数值类型仅有 15 个有效数值,这使得以 Tensor(Per-tensor)或以 Token(Per-token)粒度的量化都难以有效保证量化的准确度。

(2)P 矩阵的值分布在 [0, 1] 之间,直接的 FP4 量化会使量化缩放因子被限制在一个狭窄的范围内。然而,硬件要求这些量化因子必须采用 FP8 数据类型表示。此时,将缩放因子转为 FP8 时会导致显著的精度损失。

8-Bit 注意力用于训练有什么问题?

(1)P 矩阵的梯度对量化误差过于敏感,并且在反向过程中还会沿着序列长度对 Q 和 K 的梯度造成误差累积。

技术方案

为了解决上述的挑战,研究团队提出了对应的解决办法。

(1)为了提高 FP4 的量化精度。研究团队采用了 Microscaling FP4 量化,这是 BlackWell 硬件层面支持的一种量化方式。即可以采用 或 的量化粒度进行矩阵量化,NIVIDA 在硬件层面自动支持了反量化过程。此外,Microscaling FP4 有两种数据表示的形式,一种是MXFP4, 另外一种是 NVFP4。两种格式都采用了 E2M1 的 FP4 数据类型。不同的是,NVFP4 的量化的块大小为,缩放因子的数据类型为 E4M3。MXFP4 的量化的块大小为,缩放因子的数据格式为 E8M0。研究团队采用了 NVFP4 数据格式,因为其量化准确率远高于 MXFP4:

(2)针对 P 的缩放因子范围狭窄的问题,研究团队提出了两阶段量化(Two-level Quantization)的办法。FlashAttention 中的 P 矩阵的值在 [0, 1] 的范围内,导致 P 的缩放因子的范围也只在 0~0.167 之间。把缩放因子直接转换为 FP8 格式会带来极大的精度损失。

于是研究团队决定先把 P 通过 Per-token 量化到 [0, ] 的范围内,再进行 FP4 的量化:

下表展示了 Two-Level Scaling 对精度的提升:

下图展示了 SageAttention3 的算法流程:

(3)在 8-Bit 训练 Attention 当中,研究团队对 Q,K,V 采用了 Per-block INT8 量化,对 P 巧妙地采用了无量化 Overhead 的 Per-token 量化。前向过程的算法如下:

在反向传播的过程中总共涉及到 5 个矩阵乘法:

研究团队发现是否量化 dOVT 对精度有着较大的影响:

于是研究团队将 dOVT 保留为 FP16 精度,而对其它四个矩阵乘法进行了量化。以下是反向传播的算法:

实验效果

SageAttention3 实现了 GPU 底层的 CUDA Kernel,在算子速度以及各个模型端到端准确度上都有十分不错的表现。

具体来说,算子速度相比于 FlashAttention2(5090 上最快的 FlashAttention) 和 xformers 有大约 5 倍以及 10 倍的加速:

各模型在真实场景的端到端精度表现中,在视频、图像生成等大模型上均保持了端到端的精度表现:

下图是在 HunyuanVideo 当中的可视化实例:

下图是在 Flux 上的可视化实例:

下图是在 Cogvideo 中的可视化实例:

下表展示了各个视频、图像生成模型中 SageAttention3 的端到端精度表现:

端到端的速度表现上,SageAttention3 的实现均可以有效地对长序列的模型进行加速,比如可以端到端 3 倍加速 HunyuanVideo:

8-Bit 训练 Attention 在 Base Model 微调到 Instruct Model 的任务上展现出与 BF16 的注意力完全一致的精度表现,下表是在多个不同的任务以及模型上微调的结果:

并且在训练速度上也能起到较好的加速效果:

研究团队还发现,目前的 8 比特用于训练的 Attention 虽然在微调任务上完全无损,但是在预训练任务上与全精度的 Attention 在 Loss 上还有一定差距,需要未来进一步的研究:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两岸统一为什么迫在眉睫?

两岸统一为什么迫在眉睫?

心中的麦田
2026-03-04 20:12:08
41岁美女网红“芈朵”去世,女儿悲痛发文,曾是创业精英无比顽强

41岁美女网红“芈朵”去世,女儿悲痛发文,曾是创业精英无比顽强

离离言几许
2026-03-30 17:53:22
一再提醒:痣长在这3个位置,与癌症密不可分,赶紧自查

一再提醒:痣长在这3个位置,与癌症密不可分,赶紧自查

今日养生之道
2026-03-30 16:47:33
美国前驻北约大使:伊朗战争影响将远超伊拉克战争

美国前驻北约大使:伊朗战争影响将远超伊拉克战争

参考消息
2026-03-29 16:18:54
伊朗藏了一个月,终于打出这张牌:不是核弹,但比核弹更猛烈!

伊朗藏了一个月,终于打出这张牌:不是核弹,但比核弹更猛烈!

新财迷
2026-03-30 09:44:43
太不公平了!唐山女子哭诉母亲把家产给弟弟,却在她家养老引热议

太不公平了!唐山女子哭诉母亲把家产给弟弟,却在她家养老引热议

火山詩话
2026-03-28 05:44:30
表面德艺双馨,背后一肚子“男盗女娼”!这5位老戏骨太让人意外

表面德艺双馨,背后一肚子“男盗女娼”!这5位老戏骨太让人意外

翰飞观事
2026-03-30 17:12:18
房山区启动河湖岸线露天烧烤专项整治

房山区启动河湖岸线露天烧烤专项整治

新京报
2026-03-30 10:00:13
终身追杀令生效,什叶派出终极杀招,特朗普与内塔尼亚胡无处可逃

终身追杀令生效,什叶派出终极杀招,特朗普与内塔尼亚胡无处可逃

小舟谈历史
2026-03-08 08:00:04
85花女星将官宣离婚,海外财产已分割完毕

85花女星将官宣离婚,海外财产已分割完毕

天马幸福的人生
2026-03-30 17:38:53
李昌钰离世让人破防:真正的传奇,是他活了106岁的博士母亲

李昌钰离世让人破防:真正的传奇,是他活了106岁的博士母亲

阅微札记
2026-03-29 10:14:27
郭麒麟白嫖网红外卖媛!

郭麒麟白嫖网红外卖媛!

八卦疯叔
2026-03-28 09:58:03
痴心不改!名记:勇士今夏仍将追求詹姆斯,他们还惦记过伦纳德!

痴心不改!名记:勇士今夏仍将追求詹姆斯,他们还惦记过伦纳德!

爱体育
2026-03-30 18:45:17
飞驰人生4!张雪机车夺WSBK世界冠军,碾压卡迪、川崎等豪强

飞驰人生4!张雪机车夺WSBK世界冠军,碾压卡迪、川崎等豪强

垛垛糖
2026-03-29 20:27:09
笨蛋那里不能吸啊!怎么还给你吸上瘾了!

笨蛋那里不能吸啊!怎么还给你吸上瘾了!

3DM游戏
2026-03-30 09:49:16
民企衰退,会给老百姓带来什么影响

民企衰退,会给老百姓带来什么影响

生命可以承受之轻
2026-03-29 08:55:03
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
1992年陈云原警卫员赵天元去看望老首长,陈云:你好久没来看我了

1992年陈云原警卫员赵天元去看望老首长,陈云:你好久没来看我了

凉州辞
2026-03-30 08:50:03
你好星期六让观众不满的,不是抢风头的刘宇宁,而是疑似揩油的他

你好星期六让观众不满的,不是抢风头的刘宇宁,而是疑似揩油的他

一娱三分地
2026-03-30 15:10:59
军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

往史过眼云烟
2026-03-28 14:32:07
2026-03-30 19:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

张雪机车夺冠公司估值超10亿 创始人20年前纪录片刷屏

头条要闻

张雪机车夺冠公司估值超10亿 创始人20年前纪录片刷屏

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

教育
亲子
艺术
本地
数码

教育要闻

一模二模三模,哪次最接近高考?90%的家长都搞错了。#教育##高三##新学期超给力#

亲子要闻

孩子睡眠的3大误区,家长别再踩了!

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

本地新闻

用Color Walk的方式解锁城市春日

数码要闻

荣耀MagicBook 14/16笔记本开启预约:Pro性能释放高达80W

无障碍浏览 进入关怀版