网易首页 > 网易号 > 正文 申请入驻

为什么BF16的FlashAttention会把训练「炸掉」?清华给出机制解释

0
分享至



一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。



因果链总览(论文 Figure 1)



  • 标题:Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
  • 作者:邱海权,姚权铭
  • 机构:清华大学 电子工程系
  • 投稿:ICLR 2026 Oral
  • 关键词:低精度训练,BF16,FlashAttention,数值稳定性,舍入误差(rounding error),低秩表示(low-rank)
  • 论文链接:https://arxiv.org/abs/2510.04212
  • 代码链接:https://github.com/ucker/why-low-precision-training-fails

背景:低精度训练越来越 “刚需”,但注意力比你想的更敏感

大模型训练的现实是:显存和吞吐决定一切。工业界普遍在混合精度里使用 BF16/FP16,甚至把 FFN 推到 FP8,以换取更高的训练效率。但工程实践同样残酷:越接近 “极限精度”,训练越容易出现难以解释的不稳定。

Flash Attention 是长上下文训练的关键加速组件,几乎成了标配。问题在于,社区长期存在一个可复现却难以解释的失败案例:

  • 用 FlashAttention + BF16 训练 GPT-2,一开始正常收敛,但在几千 step 之后突然 loss 爆炸。
  • 你可以通过回退到标准注意力、或把关键计算提高到 FP32 来 “救火”,但代价是吞吐和显存优势没了。

这类问题被报告了多年(相关 issue 在多个开源项目里反复出现),却一直缺少一条能 “从数值误差一路解释到 loss 爆炸” 的机制链。



作者的做法很工程,且足够 “可复现”:





机制解释 1:相似低秩结构,让误差变成 “持续推力” 而不是噪声







结果就是:权重更新被 “带偏”,谱范数和激活异常增长,最终把训练推到 loss 爆炸。





低秩结构相似性与偏置累积(论文 Figure 4/5)

机制解释 2:偏置从哪来?safe softmax + BF16 舍入误差里藏着一个 “离散触发器”



作者把问题追到了 FlashAttention 前向里的未归一化输出:



















  • 检测一行 S 中最大值是否出现多次
  • 一旦出现 “重复最大值”,就动态调整safe softmax 的行移位常数 m,让最大位置的指数也变成严格小于 1

论文给出的实现(概念上)如下:





实验结果:稳定训练不再 “突然炸”

论文在 BF16 设置下验证了上述分析与修复:

  • GPT-2S:使用修改后的 FlashAttention,在 AdamW 与 Muon 两种优化器下,都能稳定训练到 600K steps
  • GPT-2M:同样能在 AdamW 下稳定训练(论文展示到 100K steps)
  • 论文还提到该现象与结论在多种硬件上保持一致(包括 A100、RTX 4090、Ascend 910B)



验证集 loss 曲线对比(论文 Figure 7)

更重要的启示:别把低精度误差当成 “零均值噪声”

这篇论文的价值不只在 “修了一个 bug”,更在于给出了一个可迁移的诊断范式:

  • 数值误差未必是随机噪声。在特定分布与离散事件(如重复最大值、概率精确为 1)下,舍入误差可能形成系统性偏置。
  • 模型结构会放大偏置。注意力里涌现的相似低秩更新方向,让偏置误差更容易 “同向叠加”。
  • 经验修复为什么有效也能被解释:论文讨论了 attention sinks 与多最大值的关系,并给出了一个数值层面的连接;同时也指出一些稳定化技巧(如 QK normalization、Gated Attention)可能通过 “打散结构相似性” 来阻止误差同向累积。

作者介绍

邱海权是清华大学在读博士研究生,研究方向涵盖机器学习理论、表示学习与大模型机制分析。他的研究围绕模型表达能力、结构归纳偏置以及参数空间几何与优化动力学之间的内在联系展开,关注模型在不同结构约束与训练条件下的泛化行为与可组合性问题。整体上,他强调以可分析的理论框架刻画模型的能力边界与机制来源,从结构与原理层面理解深度模型为何有效、何时失效。

姚权铭,清华大学电子工程系副教授。长期致力于数据高效学习与智能体系统研究,在少样本学习、图学习、知识图谱与生物医药智能等方向取得系统性成果。发表 Nature 子刊、TPAMI、JMLR、ICML、NeurIPS、ICLR 等论文 130 余篇,被引 1.4 万余次。代表性工作包括抗噪学习算法 Co-teaching、小样本学习综述、自动化图学习方法及新药物相互作用预测模型。现任 TPAMI、TMLR 编委及 Neural Networks 资深编委,多次担任 ICML、NeurIPS、ICLR 领域主席,入选 IEEE Computing Top 30、IET Fellow 等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
冲向文班的群狼:挨帽就当是勋章

冲向文班的群狼:挨帽就当是勋章

张佳玮写字的地方
2026-05-05 13:05:49
郑丽文将访美,希望拜会特朗普,完全支持军购,大陆已划出红线

郑丽文将访美,希望拜会特朗普,完全支持军购,大陆已划出红线

爱下厨的阿酾
2026-05-05 00:22:25
同事把她离异的姐姐介绍给我,我不想去,同事说:保证你不后悔

同事把她离异的姐姐介绍给我,我不想去,同事说:保证你不后悔

千秋文化
2026-04-30 18:49:22
晴热收官!明起连雨三天,武汉气温冲高后骤降

晴热收官!明起连雨三天,武汉气温冲高后骤降

极目新闻
2026-05-05 11:36:15
回不来了?赖清德专机被拦,转头却“偷渡”非洲,国台办一针见血

回不来了?赖清德专机被拦,转头却“偷渡”非洲,国台办一针见血

小蔑谈事
2026-05-05 08:07:15
老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

长安一孤客
2026-04-29 14:33:12
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
真心感慨倪妮的长相太神奇了!
单看五官真没一个是完美标配

真心感慨倪妮的长相太神奇了! 单看五官真没一个是完美标配

小光侃娱乐
2026-05-04 19:30:04
从3-0巴黎到1-3森林:切尔西的崩塌为何比六连败更可怕?

从3-0巴黎到1-3森林:切尔西的崩塌为何比六连败更可怕?

落夜足球
2026-05-05 11:43:47
从51跌到0.98,曾经11次更名,如今或成白酒退市第一股

从51跌到0.98,曾经11次更名,如今或成白酒退市第一股

财经智多星
2026-05-05 09:58:11
周启豪太难了!不仅被王楚钦怒斥去找湿巾,还要给林诗栋指导战术

周启豪太难了!不仅被王楚钦怒斥去找湿巾,还要给林诗栋指导战术

凤幻洋
2026-05-04 17:16:48
李金羽突然下课:赛前发布会成绝唱,是输给了战绩还是算计?

李金羽突然下课:赛前发布会成绝唱,是输给了战绩还是算计?

落夜足球
2026-05-04 23:06:44
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
欧洲巨头懵了:在华订单暴跌,竟因中国改写了电动车制造工艺规则

欧洲巨头懵了:在华订单暴跌,竟因中国改写了电动车制造工艺规则

娱乐圈的笔娱君
2026-05-05 10:27:19
莫耶斯:阿尔特塔会给我发消息吗?我觉得他有自己要关注的事

莫耶斯:阿尔特塔会给我发消息吗?我觉得他有自己要关注的事

懂球帝
2026-05-05 09:37:18
敦煌夜市“雅丹地貌”厕所走红,游客不远千里手拿卫生纸打卡,管理方:卫生间由30年老楼改造而来

敦煌夜市“雅丹地貌”厕所走红,游客不远千里手拿卫生纸打卡,管理方:卫生间由30年老楼改造而来

极目新闻
2026-05-04 21:36:46
31岁女子找不到工作,每天假装上班:其实她是躲到山上发呆

31岁女子找不到工作,每天假装上班:其实她是躲到山上发呆

阅微札记
2026-04-19 11:30:46
吴宜泽世锦赛封王!本赛季23冠全出炉:中国夺7冠,赵心童独揽4冠

吴宜泽世锦赛封王!本赛季23冠全出炉:中国夺7冠,赵心童独揽4冠

小火箭爱体育
2026-05-05 06:59:23
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
2026-05-05 13:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12908文章数 142640关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
健康
教育
本地
公开课

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

干细胞治烧烫伤面临这些“瓶颈”

教育要闻

听课猛如虎,做题二百五

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版