网易首页 > 网易号 > 正文 申请入驻

探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率

0
分享至



随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大模型训练框架,提供了灵活高效的并行化策略;理解这些策略对显存的影响,才能更好地规划训练超参数,在不 OOM (out of memory) 的情况下尽可能提升硬件使用效率。

  • 显存的组成与衡量方法:通过 torch 的显存可视化工具捕捉一个典型的模型训练中的显存占用。静态显存主要组成部分包括模型参数、梯度和优化器的所占用的空间,及一些其他的系统开销。设定 R 为参数重复次数,则对 bf16 训练来说每个参数占用的字节数为 6+12/R。对于 Mixture of Experts (MoE) 模型来说,由于 Megatron 支持 parallel folding,模型的模型会分为稠密部分和 MoE 部分,其中稠密部分的 R 为 DP*CP,MoE 部分的 R 为 EDP=n_GPU/PP/EP/ETP。

动态显存则是模型前向传播过程中暂存的中间结果,用于反向传播时计算梯度,通常被称为激活 (Activation),绝大部分为 bf16 数据类型。

  • 对显存影响的关键超参数:Megatron-Core 支持以下并行、重算维度,组合后可覆盖当下主流大模型训练需求。


约束关系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 为专家数据并行度。

除了完全不重算的情况之外,为了降低动态显存,Megatron-Core 0.14 提供完全重算 (full) 和细粒度重算 (selective) 这两档重算。

  • 显存估计器的设计:当前 Megatron 基于 torch 实现,所有模块均派生自 torch.nn.Module,构成训练 GPT 类模型的模块。我们通过实现一个基类 MemEstimator 并基于此基类派生出所有需要的模块类,根据每个模块的显存占用特点分别计算其中的参数量和激活量。然后复用 Megatron 中本身构建模型的代码,实现一个 Megatron 模拟器,并可以展示出个层次的模块数据量。

  • 关键结论:选取 Qwen3 235B 和 DeepSeek v3 两个时下流行的大模型,使用流行的配置开启训练,并对比显存估计的结果与真实的显存占用。两个模型的实际峰值与估计峰值相差均小于 2GB。





通过对动态显存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只会改变集群内激活值的分布,无法降低激活量,PP 和 VPP 由于 1f1b 的流水线预热机制,无法有效降低峰值激活量。对每一部分激活量,可以通过卸载到 CPU 或者重算的方式来降低显存。Megatron-Core 0.13 当前对卸载的支持还在开发中,但重算已经支持。

Megatron-Core 0.13 现已支持通过 CPU 分担 optimizer 的显存占用,并可以通过超参数设置卸载到 CPU 的比例,每个参数的 6 字节 (bf16 参数,fp32 梯度) 无法卸载,其余可以卸载。

  • 用例分析:用户目标在 32 张 80GB 显存的 GPU 上实现 Qwen3-30B-A3B 的强化学习训练,序列长度是 10k,用户使用显存估计器对并行配置进行摸底。

Megatron 开发者可以通过显存分析工具的 breakdown 视角,详细察看每个模块的激活量,通过权衡激活量和计算量寻找性价比高(激活量 / 计算量)的模块的激活为其开发进行重算或卸载功能。

以上为摘要内容,点击链接阅读完整内容:

探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率 - NVIDIA 技术博客

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

你是我的一个梦
2026-02-20 12:10:11
小资金如果想靠着炒股改善生活,啃这7句口诀就够了

小资金如果想靠着炒股改善生活,啃这7句口诀就够了

流苏晚晴
2026-02-07 16:58:34
年轻时是游泳健将,这大体格看着太舒服了,气血足大气漂亮!

年轻时是游泳健将,这大体格看着太舒服了,气血足大气漂亮!

解说阿洎
2026-02-21 02:57:54
《死或生》新作女性角色引争议 被LGBT人士痛批

《死或生》新作女性角色引争议 被LGBT人士痛批

3DM游戏
2026-02-19 07:05:09
父母能有多阴阳怪气?网友:我对象嘴巴大,我爸叫人家鲶鱼。

父母能有多阴阳怪气?网友:我对象嘴巴大,我爸叫人家鲶鱼。

另子维爱读史
2026-02-20 22:04:27
小妈祖被硬拉上轿,长辈拦不住,这句老话刺痛了多少人?

小妈祖被硬拉上轿,长辈拦不住,这句老话刺痛了多少人?

娱乐圈见解说
2026-02-20 10:01:15
队报:大巴黎向姆巴佩支付了400万欧元欠款,还剩约200万

队报:大巴黎向姆巴佩支付了400万欧元欠款,还剩约200万

懂球帝
2026-02-20 17:45:06
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

不似少年游
2026-02-20 07:22:48
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
两大交易所集中释放利好

两大交易所集中释放利好

21世纪经济报道
2026-02-20 20:56:41
“爸妈来后冰箱都变‘老’了!”网友:原来全国都这样

“爸妈来后冰箱都变‘老’了!”网友:原来全国都这样

环球网资讯
2026-02-20 11:34:10
德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

云舟史策
2026-02-19 07:13:27
女生主动起来有多主动?网友:东北雨姐式才叫真主动

女生主动起来有多主动?网友:东北雨姐式才叫真主动

夜深爱杂谈
2026-02-06 20:23:42
丘吉尔看完《论持久战》,给出13个字评价,至今仍被当做笑谈

丘吉尔看完《论持久战》,给出13个字评价,至今仍被当做笑谈

大千世界观
2026-02-20 15:40:04
被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

流苏晚晴
2026-02-19 16:19:47
春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

深度解析热点
2026-02-18 15:13:48
吉林市发布重要警示公告|吉林市初五“迎财神”活动预告来啦|吉林省长、市长多地同步督促“暗访”此事!

吉林市发布重要警示公告|吉林市初五“迎财神”活动预告来啦|吉林省长、市长多地同步督促“暗访”此事!

吉林乌拉侯
2026-02-20 23:08:44
手里有200万存款,能躺平吗?网友:我要是你早就躺了,够花得了

手里有200万存款,能躺平吗?网友:我要是你早就躺了,够花得了

带你感受人间冷暖
2026-02-21 00:22:37
【数说经济】春节消费展现新活力

【数说经济】春节消费展现新活力

经济日报
2026-02-20 06:54:21
2026-02-21 07:08:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3388文章数 1439关注度
往期回顾 全部

数码要闻

苹果macOS 26.3代码曝光平价MacBook和新显示器

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
手机
家居
亲子
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

苹果 iOS 26.4 新细节:新增“平均就寝时间”

家居要闻

本真栖居 爱暖伴流年

亲子要闻

女子吐槽妈妈因不会带孩子,找来了自己的妈妈!网友:看着都稀罕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版