网易首页 > 网易号 > 正文 申请入驻

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

0
分享至


本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。

长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点(gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。

来自港中文(深圳)和上海交通大学的团队提出StreamBP算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。

  • 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
  • 论文:https://arxiv.org/abs/2506.03077
  • 代码:https://github.com/Ledzy/StreamBP

在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源,可集成至现有训练代码。

StreamBP 所需储存的激活值和注意力掩码(橙色)大幅低于梯度检查点(橙色 + 白色部分)。

对于 lmhead 层,当以 SFT 或 GRPO 为目标函数时,观察到不同位置的 logits 对于目标函数的影响相互独立。因此,StreamBP 从序列维度分块,每次计算单块损失函数的梯度,从而只需储存单块 logits 和 logits 梯度。

图:StreamBP for SFT

图:StreamBP for GRPO

对于 DPO,由于非线性 sigmoid 函数的存在,每个位置的 logits 对于目标函数的影响并不独立。StreamBP 利用 logits 梯度在序列维度的独立性,分块进行梯度计算。

图:StreamBP for DPO

实验结果

我们在单张 A800-80GB GPU 上测试了不同大小的模型,StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍,梯度检查点的 2.5-5.5 倍。

图:不同序列长度下的 BP 峰值内存

在现有 Transformers 框架下,StreamBP 的实现可避免计算掩码部分的 pre-attention score(见论文 3.2.2 部分),在长序列训练下相较于梯度检查点实现了加速。

通过使用 StreamBP,不同目标函数下最大的序列长度得到了大幅提升。在同样的序列长度下,StreamBP 允许更大的批处理大小以加速训练。

表:Qwen 3-4B 单个样本 BP 时间,序列长度为 9000。

在 Deepspeed ZeRO 分布式训练模式下,Distributed StreamBP 比梯度检查点的最大可训练序列长度提升了5—5.6倍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄干宗被越南女兵带入深山生活十三年生子,归国后一心盼妻儿团聚

黄干宗被越南女兵带入深山生活十三年生子,归国后一心盼妻儿团聚

唠叨说历史
2026-03-10 10:44:22
大谷翔平首棒开轰难救主,日本不敌委内瑞拉,止步2026年WBC止步八强

大谷翔平首棒开轰难救主,日本不敌委内瑞拉,止步2026年WBC止步八强

画夕
2026-03-15 20:59:08
蒂芙尼这一夜,珠圆玉润的章子怡,秒了内娱一堆“排骨精”!

蒂芙尼这一夜,珠圆玉润的章子怡,秒了内娱一堆“排骨精”!

嘴角上翘的弧度
2026-03-15 09:39:10
漂白鸡爪涉事海霸王公司曾被查出弄虚作假

漂白鸡爪涉事海霸王公司曾被查出弄虚作假

界面新闻
2026-03-15 20:29:06
在哈里王子与梅根抛出重磅消息数小时后,威廉王子将高调亮相

在哈里王子与梅根抛出重磅消息数小时后,威廉王子将高调亮相

我是盲流
2026-03-15 08:29:13
315曝光名单!5类有毒物品蔓延全国,碰不得更用不得

315曝光名单!5类有毒物品蔓延全国,碰不得更用不得

兰亭墨未干
2026-03-15 23:36:03
央视主持人再洗牌,3人上桌,2人退场,1人换桌,新面孔大有来历

央视主持人再洗牌,3人上桌,2人退场,1人换桌,新面孔大有来历

揽星河的笔记
2026-03-13 18:02:28
61个俄罗斯人包机来上海,花300万,提前一年就“锁定”了魔都!

61个俄罗斯人包机来上海,花300万,提前一年就“锁定”了魔都!

三农老历
2026-03-15 20:09:09
30岁以上的成熟女性,穿肉色丝袜才更有魅力

30岁以上的成熟女性,穿肉色丝袜才更有魅力

牛弹琴123456
2026-03-08 16:50:43
摩萨德直接向伊朗人民喊话!这招“杀人诛心”太狠了,德黑兰要乱

摩萨德直接向伊朗人民喊话!这招“杀人诛心”太狠了,德黑兰要乱

浯江孤舟
2026-02-28 15:30:39
原来她早已离世!自己定墓园和寿衣,3200万遗产全给姐姐

原来她早已离世!自己定墓园和寿衣,3200万遗产全给姐姐

不写散文诗
2026-01-24 23:27:12
挑衅升级!美方叫嚣想要美国在台湾问题松口,中国得拿真金白银换

挑衅升级!美方叫嚣想要美国在台湾问题松口,中国得拿真金白银换

智商已欠费啦
2026-03-15 22:55:14
巴尔干局势也紧张了?武契奇亮出中国导弹!

巴尔干局势也紧张了?武契奇亮出中国导弹!

我是世界观测站
2026-03-15 23:53:33
打麻将时,有哪四张牌打死都不能打,一打准输钱,不是迷信

打麻将时,有哪四张牌打死都不能打,一打准输钱,不是迷信

云隐南山
2026-03-15 20:51:56
春喝苹果水,内热自己退,3种神仙搭配,清内热,健脾胃,太润了

春喝苹果水,内热自己退,3种神仙搭配,清内热,健脾胃,太润了

江江食研社
2026-02-11 12:30:07
“幼儿园的孩子,活在实时监控里”

“幼儿园的孩子,活在实时监控里”

中国新闻周刊
2026-03-15 18:30:47
农民自愿永久退出承包地:2026最新补偿标准与办理流程全说明

农民自愿永久退出承包地:2026最新补偿标准与办理流程全说明

现代小青青慕慕
2026-03-14 12:56:29
哈兰德伤到敏感部位?瓜帅:我希望他的妻子今晚会高兴

哈兰德伤到敏感部位?瓜帅:我希望他的妻子今晚会高兴

懂球帝
2026-03-15 07:39:51
不是王思雨!不是韩旭!捷克主帅大赞中国2小将,现在已是核心

不是王思雨!不是韩旭!捷克主帅大赞中国2小将,现在已是核心

老吴说体育
2026-03-16 00:03:04
中国34岁女子在泰国被抛尸水沟,生前最后影像曝光!参加泳池派对后昏迷,被一男子拖上宝马车,警方已锁定嫌疑人,目前案件正在侦破中

中国34岁女子在泰国被抛尸水沟,生前最后影像曝光!参加泳池派对后昏迷,被一男子拖上宝马车,警方已锁定嫌疑人,目前案件正在侦破中

大风新闻
2026-03-14 20:49:07
2026-03-16 01:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12498文章数 142585关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

体育要闻

卢卡绝杀掘金:湖人有季后赛氛围了?

娱乐要闻

周小闹回应刘文祥塌房:我晚上吃啥啊

财经要闻

3·15晚会曝光7大乱象 这些企业被点名!

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

教育
时尚
数码
手机
本地

教育要闻

来上课了——其它状语从句目的 结果 让步 因果 地点上第3段

内娱小白花,公然模仿某巨星却被全网夸爆?

数码要闻

全球首台:维修达人成功将苹果MacBook Neo扩容至1TB存储

手机要闻

4月新机潮:OPPO双潜望、华为双旗舰、两台天玑9500性能机齐发!

本地新闻

坐标北京,过敏季反向迁徒

无障碍浏览 进入关怀版