网易首页 > 网易号 > 正文 申请入驻

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

0
分享至


本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。

长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点(gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。

来自港中文(深圳)和上海交通大学的团队提出StreamBP算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。

  • 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
  • 论文:https://arxiv.org/abs/2506.03077
  • 代码:https://github.com/Ledzy/StreamBP

在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源,可集成至现有训练代码。

StreamBP 所需储存的激活值和注意力掩码(橙色)大幅低于梯度检查点(橙色 + 白色部分)。

对于 lmhead 层,当以 SFT 或 GRPO 为目标函数时,观察到不同位置的 logits 对于目标函数的影响相互独立。因此,StreamBP 从序列维度分块,每次计算单块损失函数的梯度,从而只需储存单块 logits 和 logits 梯度。

图:StreamBP for SFT

图:StreamBP for GRPO

对于 DPO,由于非线性 sigmoid 函数的存在,每个位置的 logits 对于目标函数的影响并不独立。StreamBP 利用 logits 梯度在序列维度的独立性,分块进行梯度计算。

图:StreamBP for DPO

实验结果

我们在单张 A800-80GB GPU 上测试了不同大小的模型,StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍,梯度检查点的 2.5-5.5 倍。

图:不同序列长度下的 BP 峰值内存

在现有 Transformers 框架下,StreamBP 的实现可避免计算掩码部分的 pre-attention score(见论文 3.2.2 部分),在长序列训练下相较于梯度检查点实现了加速。

通过使用 StreamBP,不同目标函数下最大的序列长度得到了大幅提升。在同样的序列长度下,StreamBP 允许更大的批处理大小以加速训练。

表:Qwen 3-4B 单个样本 BP 时间,序列长度为 9000。

在 Deepspeed ZeRO 分布式训练模式下,Distributed StreamBP 比梯度检查点的最大可训练序列长度提升了5—5.6倍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
53岁裴勇浚带娃近照太震撼!零皱纹还是帅 韩网热议:保养很好

53岁裴勇浚带娃近照太震撼!零皱纹还是帅 韩网热议:保养很好

ETtoday星光云
2026-06-12 13:06:08
倒逼出来的胜利!欧洲终于扛不住低头,C919这次恐怕真的要起飞了

倒逼出来的胜利!欧洲终于扛不住低头,C919这次恐怕真的要起飞了

无悔的灿烂人生
2026-06-12 11:42:25
大码模特现实里到底多大?

大码模特现实里到底多大?

飛娱日记
2026-05-12 08:27:55
傅全有要求把排职军官工资从90涨到500,财政部长大惊:你胃口真大

傅全有要求把排职军官工资从90涨到500,财政部长大惊:你胃口真大

帝哥说史
2026-06-12 21:59:41
骑士队找到赢得总冠军最重要的拼图

骑士队找到赢得总冠军最重要的拼图

本泽体育
2026-06-12 14:11:35
一枚导弹威慑全球!中国为何主动亮出终极底牌?目的其实只有一个

一枚导弹威慑全球!中国为何主动亮出终极底牌?目的其实只有一个

慕名而来只为你
2026-06-12 21:21:11
她是产后发胖唯一受益人,网友:突然就get到了她的美貌 !​

她是产后发胖唯一受益人,网友:突然就get到了她的美貌 !​

木子爱娱乐大号
2026-06-11 15:47:38
孤女遭亲舅舅烧书阻止参加高考?实为剧本卖惨蹭流量丨真探队

孤女遭亲舅舅烧书阻止参加高考?实为剧本卖惨蹭流量丨真探队

封面新闻
2026-06-12 12:54:21
指鸭为鹅!收割清北骄子的鹅腿阿姨,干嘛非要去招惹国贸牛马?

指鸭为鹅!收割清北骄子的鹅腿阿姨,干嘛非要去招惹国贸牛马?

离离言几许
2026-06-11 18:11:08
“招风耳,悬胆鼻,真是八面玲珑”,附中女孩采访火了,滴水不漏

“招风耳,悬胆鼻,真是八面玲珑”,附中女孩采访火了,滴水不漏

熙熙说教
2026-06-12 19:33:30
12GB内存成了iPhone分水岭,iPhone 17降价后反而更香了

12GB内存成了iPhone分水岭,iPhone 17降价后反而更香了

互联网放大镜
2026-06-12 17:25:00
心理学上有个词叫:破窗效应。如果你整天不学习,不运动,不节制消费,不反省自律,无兴趣爱好、无目标、无期望,生活是不会变好的……

心理学上有个词叫:破窗效应。如果你整天不学习,不运动,不节制消费,不反省自律,无兴趣爱好、无目标、无期望,生活是不会变好的……

LULU生活家
2026-06-11 14:51:01
“电梯亲吻门”后续,女主真实长相曝光,难怪各路大老板接连沦陷

“电梯亲吻门”后续,女主真实长相曝光,难怪各路大老板接连沦陷

今日搞笑分享
2026-06-13 01:31:47
25岁女子确诊红斑狼疮,坚持保胎后多器官衰竭进ICU,丈夫痛哭

25岁女子确诊红斑狼疮,坚持保胎后多器官衰竭进ICU,丈夫痛哭

极目新闻
2026-06-12 17:30:53
俄罗斯通告全球,将使用核武?泽连斯基向32国求助,北约也选边了

俄罗斯通告全球,将使用核武?泽连斯基向32国求助,北约也选边了

南宗历史
2026-06-09 21:26:40
属猴人:6月12日后家中有要事发生,关键人物不是你,是你家孩子

属猴人:6月12日后家中有要事发生,关键人物不是你,是你家孩子

一口娱乐
2026-06-12 20:17:34
日本轮奸犯成亚洲身价第一球星,踢进世界杯!国际媒体提醒当地女性注意安全,日网友替他叫屈!

日本轮奸犯成亚洲身价第一球星,踢进世界杯!国际媒体提醒当地女性注意安全,日网友替他叫屈!

东京新青年
2026-06-12 18:40:44
湖南省600万退休人员养老金将迎调整,看看过去3年是怎样变化的?

湖南省600万退休人员养老金将迎调整,看看过去3年是怎样变化的?

暖心人社
2026-06-12 17:50:54
乌媒:中国主力攻击直升机直-10,竟出自俄罗斯卡-52设计团队之手

乌媒:中国主力攻击直升机直-10,竟出自俄罗斯卡-52设计团队之手

零度Military
2026-06-12 14:36:59
英国少年被刺死,引爆全球反印潮,为何新加坡第一个跳出来护短?

英国少年被刺死,引爆全球反印潮,为何新加坡第一个跳出来护短?

52赫兹实验室
2026-06-11 17:13:50
2026-06-13 03:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13246文章数 142668关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

手机
艺术
旅游
游戏
公开课

手机要闻

vivo X Fold6再预热:天玑9500超能版+OriginOS 6 Fold

艺术要闻

砸了640亿,再赔160亿!沙特“The Line”项目彻底凉了?

旅游要闻

印度有钱人真多酷暑办理旅游签证!不是有钱任性,是热到活不下去

索尼PS国区运营神了!玩梗《黑袍》:我会玩你的游戏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版