网易首页 > 网易号 > 正文 申请入驻

FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度

0
分享至

来源:市场资讯

(来源:机器之心Pro)


机器之心编辑部

经过一年的努力,FlashAttention-4 终于正式上线了。

近日,深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。

FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶颈截然不同,注意力机制的执行速度现在也几乎与矩阵乘法一样快了!


当前,Tensor Core 的速度现在非常快,以至于注意力前向传播的瓶颈呈指数级增长,而注意力后向传播的瓶颈是共享内存带宽。

重新设计的算法中包含一些旨在克服这些瓶颈的机制,包括使用多项式进行指数模拟,新的在线 softmax 可以避免 90% 的 softmax 重新缩放,2CTA MMA 指令允许两个线程块共享操作数以减少 smem 流量等。


接下来,就来详细了解一下。

硬件趋势:不对称的硬件扩展

长期以来,Attention 作为无处不在的 Transformer 架构中的核心层,一直是大语言模型和长上下文应用的性能瓶颈。

此前 FlashAttention-3 通过异步执行和 warp 专门化对 Attention 进行了优化,但其主要针对的是 Hopper GPU(H100)架构。

然而,AI 行业已经迅速转向部署 Blackwell 架构系统,例如 B200 和 GB200。而像 Blackwell GPU 这样的现代加速器延续了一种趋势:硬件的非对称扩展(asymmetric hardware scaling)。

在这种趋势下,张量核心(Tensor Core)的吞吐量增长速度远快于其他硬件资源,像是共享内存带宽、用于指数运算等超越函数运算的特殊函数单元(SFU),以及通用整数与浮点 ALU……

举个例子,从 Hopper H100 到 Blackwell B200,BF16 张量核心吞吐量增加了 2.25 倍(从 1 到 2.25PFLOPs),但 SFU 数量和共享内存带宽基本保持不变。

这种扩展不对称性对像 Attention 这样的复杂 kernel 优化产生了深远影响。

具体来看,Attention 的核心包含两个通用矩阵乘法(GEMM):



中间夹着 softmax,但在真实实践中,Attention 还涉及大量辅助工作,比如数据搬运、同步、数据布局转换、元素级运算、调度、mask 处理等。

传统的观点认为,Attention 的性能完全由 GEMM 的速度决定。然而,对 B200 进行「速度与馈送」分析显示:主要的瓶颈不在于张量核心,而是:

为此,团队推出FlashAttention-4,一种算法 + kernel 的协同设计,核心目标在于,通过最大化矩阵乘法与其他瓶颈资源之间的重叠,在 B200(BF16)上,最高可达 1605TFLOPs/s(71% 的利用率),比 cuDNN 9.13 快 1.3 倍,比 Triton 快 2.7 倍。

协同设计的核心思路如下:

Blackwell 的新硬件特性

张量内存(TMEM):在 B200 上,148 个 SM(流式多处理器)中的每一个都配备了 256 KB 的 TMEM,与 Tensor Core 直接连接,用于 warp 同步的中间结果存储。

完全异步的第五代张量核心:指令 tcgen05.mma 支持异步执行,并将累加结果存储在 TMEM 中。对于 BF16 和 FP16,单个 CTA 可使用的最大 UMMA tile 为 128×256×16,约为 Hopper 架构中最大 WGMMA 原子块的 2 倍。UMMA 由单个线程发起,从而减轻寄存器压力,使得在不出现 Hopper warpgroup MMA 那种寄存器溢出问题的情况下,可以更容易地使用更大的 tile 和更深的流水线。

此外,这也使 warp 专门化更具可行性:部分 warp 负责搬运 tile,另一些 warp 负责发起 MMA,从而实现矩阵乘加运算与 softmax 计算以及内存访问的重叠执行。tcgen05.mma 还可以直接从 TMEM 中读取操作数 A。

2-CTA MMA:Blackwell 支持在同一 cluster 中由一对 CTA 共同执行一个 UMMA 运算,并跨越两个 CTA 的 TMEM。由 leader CTA 中的一个线程发起 MMA,但在执行期间两个 CTA 都必须保持活跃。通过在这对 CTA 之间拆分 M 和 N 维度,可以将 MMA 的 tile 尺寸扩展到 256×256×16,从而减少冗余数据传输并降低每个 CTA 的资源占用。在一个 kernel 中,CTA 组大小(1 或 2)在 TMEM 操作和 Tensor Core 运算之间必须保持一致。


编程语言与框架:CuTe-DSL

FlashAttention-4(FA4)完全使用 CuTe-DSL 实现,这是 CUTLASS 提供的 Python kernel DSL。

Kernel 代码使用 Python 编写,随后 DSL 会将其降级(lower 为 PTX,再由 CUDA 工具链编译为 GPU 机器代码。

该编程模型在抽象层面与 CuTe / CUTLASS 保持一致,同时提供 PTX 级别的 escape hatch(底层控制接口)。与使用 C++ 模板相比,这种方式可以将编译时间缩短约 20–30 倍。

对此,Tri Dao 更是在 X 上发帖称感到「莫名兴奋」,这意味着,安装 /「编译」现在只需几秒钟,而不是几分钟 / 几小时。


Attention 性能基准测试

团队展示了 FlashAttention-4 在 B200(BF16)上的性能结果,并将其与 FlashAttention-2 以及 Triton、Gluon 和 cuDNN 的实现进行了对比。

结果显示:





而 FlashAttention-4 一经发布,也引起了大家的热议。

Pytorch 官方宣布 FlexAttention 现已支持 FlashAttention-4 后端。


Pytorch 表示,很长一段时间以来,FlexAttention 让研究人员能够快速原型化各种自定义 Attention 变体,目前已有 1000 多个代码仓库采用,并有数十篇论文对其进行了引用。

然而,用户常常会遇到性能瓶颈,直到 FlashAttention-4 的出现。

如今,他们已在 Hopper 和 Blackwell GPU 上为 FlexAttention 增加了 FlashAttention-4 后端。PyTorch 现在可以自动生成 CuTeDSL 的 score/mask 修改代码,并通过 JIT 编译为自定义 Attention 变体实例化 FlashAttention-4。

结果显示,在算力受限的工作负载下,相比 Triton,仍可实现 1.2 倍到 3.2 倍的性能提升。研究人员再也不必在「灵活性」和「高性能」之间做单选题。

一位网友则认为,「FlashAttention-4 是一个里程碑。」在 Blackwell 架构上,Attention 已经能够达到接近矩阵乘法(matmul)速度,这意味着计算瓶颈将完全转移到内存与通信上。约 1600TFLOPs 的 Attention 性能堪称惊人 —— 相比 FlashAttention-3 提升了 2–3 倍。「这将直接惠及所有前沿大模型。」因为,更快的 Attention 意味着更长的有效上下文窗口、更低的推理成本、更强的规模化推理能力……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
身价暴涨3倍封神!2570万血亏,曼联悔到骨子里

身价暴涨3倍封神!2570万血亏,曼联悔到骨子里

卿子书
2026-03-06 10:31:22
近况曝光!经历两段失败婚姻,如今与漂亮女儿相依为命

近况曝光!经历两段失败婚姻,如今与漂亮女儿相依为命

章眽八卦
2026-03-04 14:18:13
这跟不穿有啥区别?内裤外露、刘雯半个腚都光着,新时尚真看不懂

这跟不穿有啥区别?内裤外露、刘雯半个腚都光着,新时尚真看不懂

嫹笔牂牂
2026-03-03 07:06:44
车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

老特有话说
2026-03-06 16:12:20
纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

谈史论天地
2026-03-01 09:49:38
美以联军这波操作太狠了

美以联军这波操作太狠了

难得君
2026-03-05 00:05:25
现在人伦之乱,令人揪心!多少家庭,毁在没有边界感

现在人伦之乱,令人揪心!多少家庭,毁在没有边界感

风起见你
2026-03-06 16:10:30
最后0.1秒,格林花式羞辱杜兰特,发球直接送给他,KD心态爆炸了

最后0.1秒,格林花式羞辱杜兰特,发球直接送给他,KD心态爆炸了

嘴炮体坛
2026-03-06 11:50:29
曝伊朗已悄悄联系美国,希望进行谈判以结束战争,特朗普:太晚了

曝伊朗已悄悄联系美国,希望进行谈判以结束战争,特朗普:太晚了

爆角追踪
2026-03-04 21:23:12
价格上调5000元 今年国内车市首个官宣涨价的车企来了

价格上调5000元 今年国内车市首个官宣涨价的车企来了

快科技
2026-03-05 17:53:07
中国大使在联合国直接向日本下达了开战警告!

中国大使在联合国直接向日本下达了开战警告!

南权先生
2026-03-05 15:19:26
订单大涨118%!光通信四大龙头比拼,谁才是真增长王?

订单大涨118%!光通信四大龙头比拼,谁才是真增长王?

小陆搞笑日常
2026-03-06 13:11:37
你有过顿悟的经历吗?网友:人的命运生来就是被安排好的

你有过顿悟的经历吗?网友:人的命运生来就是被安排好的

带你感受人间冷暖
2026-02-14 06:40:08
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
陪睡陪玩是冰山一角?制片人公开内涵关晓彤,暗指其角色来路不明

陪睡陪玩是冰山一角?制片人公开内涵关晓彤,暗指其角色来路不明

小徐讲八卦
2026-03-05 13:44:43
56岁工地大爷坦言:跳了三个月交谊舞,才明白那些女人的真正意图

56岁工地大爷坦言:跳了三个月交谊舞,才明白那些女人的真正意图

施工员小天哥
2026-03-05 09:34:34
回顾70岁老汉惨死家中,胸口纸条写着:你该死让你下辈子再玩女人

回顾70岁老汉惨死家中,胸口纸条写着:你该死让你下辈子再玩女人

谈史论天地
2026-03-06 15:17:43
史上最强“小孩姐”:国博要给九岁的她办一个展

史上最强“小孩姐”:国博要给九岁的她办一个展

红星新闻
2026-03-06 12:08:09
题目:走亲戚才发现:真正混得好的人,从不在饭桌上说这3句话

题目:走亲戚才发现:真正混得好的人,从不在饭桌上说这3句话

大熊欢乐坊
2026-03-05 17:56:47
特朗普迎来援手?立陶宛妄言出兵伊朗,话音刚落,中方派特使劝和

特朗普迎来援手?立陶宛妄言出兵伊朗,话音刚落,中方派特使劝和

倔强旳牵强
2026-03-07 03:35:57
2026-03-07 06:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2389103文章数 5714关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

游戏
数码
亲子
公开课
军事航空

曝下代Xbox靠纯算力制霸!性能“爆杀”PS6

数码要闻

AYANEO Pocket AIR Mini x B.Duck小黄鸭联名限定款掌机亮相

亲子要闻

儿童鼻出血的常见问题,儿科医生解答

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版