网易首页 > 网易号 > 正文 申请入驻

FlashAttention-4来袭,支持Blackwell GPU,英伟达的护城河更深了

0
分享至

机器之心报道

编辑:Panda

在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了FlashAttention-4

据介绍,在 Backwell 上,FlashAttention-4 的速度比英伟达 cuDNN 库中的注意力核实现快可达 22%!

在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。

一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。

二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。

此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP 的难度要高出 10 倍,而 CUDA C++ 移植到 ROCm HIP 则更容易。

有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核(kernel)比英伟达最新的 cuBLAS 13.0 库快不少。而在标准矩阵算法 A@B 时,两者速度总体是相当的。

据介绍,他的核通过使用两个累积缓冲区来重叠 epilogue,从而击败了 cuBLAS。

Semi Analysis 表示,像 Tri Dao 这样的开发者是 CUDA 护城河的核心优势之一,因为 Tri Dao 只使用英伟达 GPU,并将其大部分核开源给其他英伟达开发者群体。Tri Dao 等研究者均不使用 ROCm AMD GPU 或 Trainium 芯片。

这对于 AMD 等来说可不是好消息,假如 AMD 希望 Tri Dao 和他的团队在 ROCm 上实现算法突破。那么,它就应该为 TogetherAI GPU 云服务上的 AMD GPU 提供优惠支持。Semi Analysis 分析说:「谷歌为 Noam Shazeer 支付了 27 亿美元,Zucc 为 OpenAI 工程师支付了 1 亿美元,AMD 拥有足够的现金,可以为 TogetherAI/Tri Dao 支付 5000 万美元来启动 ROCm 生态系统。」

FlashAttention最早由 Tri Dao 等人在 2022 年提出,论文标题为《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》。

论文地址:https://arxiv.org/pdf/2205.14135

其背景是传统的注意力机制因需生成 N×N 的注意力矩阵,在序列长度 N 增长时引发二次的(quadratic)时间和内存开销。

而 FlashAttention 强调「IO-awareness」,不再将注意力矩阵完整载入,而是通过「tiling+softmax rescaling」策略,将数据块临时存入高速缓存(SRAM),在内部积累,再写回高带宽内存(HBM),避免了大量读写开销,内存复杂度得到显著降低 —— 从 O (N²) 降至 O (N)。

如图所示,在左图中,FlashAttention 使用了 tiling 技术来防止在(相对较慢的)GPU HBM 上执行很大的 × 注意力矩阵(虚线框)。在外层循环(红色箭头)中,FlashAttention 循环遍历 K 和 V 矩阵的块,并将其加载到快速片上 SRAM 中。在每个块中,FlashAttention 循环遍历 Q 矩阵的块(蓝色箭头),将其加载到 SRAM 中,并将注意力计算的输出写回 HBM。

在右图中,可以看到相比 GPT-2 上 PyTorch 注意力实现,FlashAttention 速度更快 ——FlashAttention 无需将大型 × 注意力矩阵读写到 HBM,从而将注意力计算速度提升了 7.6 倍。

整体上,初代 FlashAttention 带来的增益也很显著:在 BERT-large(序列长度 512)中相比 MLPerf 基线提升训练速度约 15%;GPT-2(序列长度 1K)提升约 3 倍;在 Long-Range Arena(序列长度 1K–4K)提升约 2.4 倍。

一年后,FlashAttention-2问世,这一次,作者仅 Tri Dao 一人。顺带一提,他还在这一年的晚些时候与 Albert Gu 共同提出了 Mamba。

论文地址:https://arxiv.org/pdf/2307.08691

其改进的焦点是:FlashAttention 已显著提升性能,但在 GPU 上仍存在低吞吐率的问题,仅能达到理论峰值很低的比例(约 25–40%)。

为此,Tri Dao 提出的解决策略包括:

  • 工作划分优化:重新设计分块策略与线程分配,提升并行效率,增加硬件利用率;
  • 减少非矩阵运算,加快整体执行;
  • 支持更大 head size(至 256) 及多查询注意力(MQA) 和分组查询注意力(GQA),适配更多模型架构需求。

结果,相比初代 FlashAttention,FlashAttention-2 速度提高约 2–4×;在 A100 GPU 上 FP16/BF16 可达到高至 230 TFLOPs/s,达 PyTorch 标准实现 9 倍速度提升。参阅机器之心报道《比标准 Attention 提速 5-9 倍,大模型都在用的 FlashAttention v2 来了》。

又一年,FlashAttention-3诞生,这一次改进的重点是适配 Hopper 架构,异步与低精度。可以看到,Tri Dao 这一次的名字挂在最后。此时他虽然还继续在普林斯顿大学任教,但也同时已经是 Together AI 的首席科学家。

论文地址:https://arxiv.org/pdf/2407.08608

为了能加速在 Hopper GPU 上的注意力,FlashAttention-3 主要采用了三种技术:

  • 通过 warp-specialization 重叠整体计算和数据移动;
  • 交错分块 matmul 和 softmax 运算;
  • 利用硬件支持 FP8 低精度的不连贯处理。

FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍,高达 740 TFLOPS,即 H100 理论最大 FLOPS 利用率为 75%。使用 FP8,FlashAttention-3 的速度更是接近 1.2 PFLOPS。参阅机器之心报道《英伟达又赚到了!FlashAttention3 来了:H100 利用率飙升至 75%》。

现在,到了 2025 年,FlashAttention-4准时到来,增加了对 Blackwell GPU 的原生支持——之前,想要在 Blackwell 上跑 FlashAttention,如果直接用开源仓库,常常会遇到编译错误、kernel 缺失或性能未优化的情况,可用的 Blackwell 加速主要是借助英伟达 Triton/cuDNN 的间接支持。

图源:https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/

此时,FlashAttention 的 GitHub 软件库已经积累了超过1.91 万星。

项目地址:https://github.com/Dao-AILab/flash-attention

目前,Tri Dao 团队尚未发布 FlashAttention-4 的技术报告,更多细节还有待进一步揭晓。

https://x.com/tri_dao/status/1960217005446791448

https://x.com/SemiAnalysis_/status/1960070677379133949

https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国“鸟叔”已被移交检察机关

韩国“鸟叔”已被移交检察机关

都市快报橙柿互动
2026-06-02 12:04:32
*ST闻泰演绎“天地板”走势

*ST闻泰演绎“天地板”走势

证券时报
2026-06-03 10:26:40
奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

书写传奇
2026-06-03 15:58:21
潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

火山詩话
2026-06-03 07:06:57
乌称遭俄大规模空袭至少10人死亡、约100人受伤!普京:这是他们自己的选择;泽连斯基曾多次警告称可能遭大规模袭击

乌称遭俄大规模空袭至少10人死亡、约100人受伤!普京:这是他们自己的选择;泽连斯基曾多次警告称可能遭大规模袭击

每日经济新闻
2026-06-03 09:49:32
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

垚垚分享健康
2026-05-31 10:20:13
罕见议会瘫痪事件!11比11票数僵局,杜特尔特弹劾案恐生变数

罕见议会瘫痪事件!11比11票数僵局,杜特尔特弹劾案恐生变数

阅微札记
2026-06-03 11:44:53
如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

史之铭
2026-04-29 00:48:26
林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

史海孤雁
2026-05-07 18:01:13
727亿运河贯通,西南内陆变沿海,南海格局改写

727亿运河贯通,西南内陆变沿海,南海格局改写

时光流转追梦人
2026-06-03 14:31:44
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
紧急叫停!吃艾司唑仑的中老年,务必留心,三大好处,三大禁忌

紧急叫停!吃艾司唑仑的中老年,务必留心,三大好处,三大禁忌

健康科普365
2026-05-13 22:20:05
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

药师方健
2026-06-02 22:46:28
午后突发跳水!明天,做好这个应对

午后突发跳水!明天,做好这个应对

钱眼
2026-06-03 20:39:13
人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

空谷幽幽蓝
2026-05-28 20:33:01
我飞机上拒绝换座被一路骂,下飞机递出名片,他看后当场腿软

我飞机上拒绝换座被一路骂,下飞机递出名片,他看后当场腿软

晓艾故事汇
2026-06-02 09:41:12
中国工程院院士发布声明:均为不实信息

中国工程院院士发布声明:均为不实信息

TOP大学来了
2026-06-03 11:35:16
赫瓦林斯卡爆冷晋级四强,萨巴伦卡瑟瑟发抖

赫瓦林斯卡爆冷晋级四强,萨巴伦卡瑟瑟发抖

格斗社
2026-06-03 20:01:41
独家|多地银行正按要求适当加大信贷投放

独家|多地银行正按要求适当加大信贷投放

财联社
2026-06-03 17:30:16
2026-06-03 21:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

一个月内两位院士候选人接连被查 均是科研专家

头条要闻

一个月内两位院士候选人接连被查 均是科研专家

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

手机
房产
教育
艺术
军事航空

手机要闻

全能影像旗舰怎么选?vivo S60领衔四款中端机型横评

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

教育要闻

中高考在即,送给考生的建议

艺术要闻

二十年前割麦的场景

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版