网易首页 > 网易号 > 正文 申请入驻

探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率

0
分享至



随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大模型训练框架,提供了灵活高效的并行化策略;理解这些策略对显存的影响,才能更好地规划训练超参数,在不 OOM (out of memory) 的情况下尽可能提升硬件使用效率。

  • 显存的组成与衡量方法:通过 torch 的显存可视化工具捕捉一个典型的模型训练中的显存占用。静态显存主要组成部分包括模型参数、梯度和优化器的所占用的空间,及一些其他的系统开销。设定 R 为参数重复次数,则对 bf16 训练来说每个参数占用的字节数为 6+12/R。对于 Mixture of Experts (MoE) 模型来说,由于 Megatron 支持 parallel folding,模型的模型会分为稠密部分和 MoE 部分,其中稠密部分的 R 为 DP*CP,MoE 部分的 R 为 EDP=n_GPU/PP/EP/ETP。

动态显存则是模型前向传播过程中暂存的中间结果,用于反向传播时计算梯度,通常被称为激活 (Activation),绝大部分为 bf16 数据类型。

  • 对显存影响的关键超参数:Megatron-Core 支持以下并行、重算维度,组合后可覆盖当下主流大模型训练需求。


约束关系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 为专家数据并行度。

除了完全不重算的情况之外,为了降低动态显存,Megatron-Core 0.14 提供完全重算 (full) 和细粒度重算 (selective) 这两档重算。

  • 显存估计器的设计:当前 Megatron 基于 torch 实现,所有模块均派生自 torch.nn.Module,构成训练 GPT 类模型的模块。我们通过实现一个基类 MemEstimator 并基于此基类派生出所有需要的模块类,根据每个模块的显存占用特点分别计算其中的参数量和激活量。然后复用 Megatron 中本身构建模型的代码,实现一个 Megatron 模拟器,并可以展示出个层次的模块数据量。

  • 关键结论:选取 Qwen3 235B 和 DeepSeek v3 两个时下流行的大模型,使用流行的配置开启训练,并对比显存估计的结果与真实的显存占用。两个模型的实际峰值与估计峰值相差均小于 2GB。





通过对动态显存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只会改变集群内激活值的分布,无法降低激活量,PP 和 VPP 由于 1f1b 的流水线预热机制,无法有效降低峰值激活量。对每一部分激活量,可以通过卸载到 CPU 或者重算的方式来降低显存。Megatron-Core 0.13 当前对卸载的支持还在开发中,但重算已经支持。

Megatron-Core 0.13 现已支持通过 CPU 分担 optimizer 的显存占用,并可以通过超参数设置卸载到 CPU 的比例,每个参数的 6 字节 (bf16 参数,fp32 梯度) 无法卸载,其余可以卸载。

  • 用例分析:用户目标在 32 张 80GB 显存的 GPU 上实现 Qwen3-30B-A3B 的强化学习训练,序列长度是 10k,用户使用显存估计器对并行配置进行摸底。

Megatron 开发者可以通过显存分析工具的 breakdown 视角,详细察看每个模块的激活量,通过权衡激活量和计算量寻找性价比高(激活量 / 计算量)的模块的激活为其开发进行重算或卸载功能。

以上为摘要内容,点击链接阅读完整内容:

探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率 - NVIDIA 技术博客

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
希金斯:5-8落后让我想起了去年的决赛,和赵心童比赛将非常困难

希金斯:5-8落后让我想起了去年的决赛,和赵心童比赛将非常困难

世界体坛观察家
2026-04-03 07:28:31
谷爱凌香港C位出道!郭晶晶何超琼主动让位,22岁小姑娘凭什么?

谷爱凌香港C位出道!郭晶晶何超琼主动让位,22岁小姑娘凭什么?

师维
2026-04-02 10:56:53
网购13.8元蓝莓苗后选择“仅退款”,两天后女子收到“万古流芳”殡葬用品,商家否认与己有关,顾客称已报警

网购13.8元蓝莓苗后选择“仅退款”,两天后女子收到“万古流芳”殡葬用品,商家否认与己有关,顾客称已报警

极目新闻
2026-04-02 20:21:31
投产!我国造出全球首颗“二维芯片”正式运行,ASML:拦不住了

投产!我国造出全球首颗“二维芯片”正式运行,ASML:拦不住了

谷盟1
2026-04-01 16:40:31
色色是第一生产力!因丝袜效果爆火的作者制作相关模拟器

色色是第一生产力!因丝袜效果爆火的作者制作相关模拟器

3DM游戏
2026-04-02 15:00:47
头号负资产!奥纳纳今夏决心回曼联享受加薪,拉爵恐倒贴才能送走

头号负资产!奥纳纳今夏决心回曼联享受加薪,拉爵恐倒贴才能送走

罗米的曼联博客
2026-04-02 10:42:01
4.3今日金价:大家不必等待了!接下来,金价有可能会重演历史!

4.3今日金价:大家不必等待了!接下来,金价有可能会重演历史!

别人都叫我阿腈
2026-04-03 05:14:50
赢麻了!马刺大将回应最佳第六人呼声:圣城球迷是真爱

赢麻了!马刺大将回应最佳第六人呼声:圣城球迷是真爱

仰卧撑FTUer
2026-04-03 10:59:02
人不会无缘无故得带状疱疹!提醒:患带状疱疹,多半有4个共性

人不会无缘无故得带状疱疹!提醒:患带状疱疹,多半有4个共性

DrX说
2026-04-01 12:09:22
警惕!含大量硼砂的食物就在身边,很多人天天买

警惕!含大量硼砂的食物就在身边,很多人天天买

江江食研社
2026-04-02 19:49:03
押宝张雪的770亿富豪,交最佳年报却遭资本“冷眼”?

押宝张雪的770亿富豪,交最佳年报却遭资本“冷眼”?

雷达财经
2026-04-02 19:20:30
香烟要被洗白了?中科院颠覆性研究,尼古丁或能降低40%死亡率?

香烟要被洗白了?中科院颠覆性研究,尼古丁或能降低40%死亡率?

温读史
2026-04-02 11:11:30
500万粉丝网红“迪士尼在逃公主”自曝酗酒2年!医生警告:30岁可能绝经

500万粉丝网红“迪士尼在逃公主”自曝酗酒2年!医生警告:30岁可能绝经

手工制作阿歼
2026-04-03 00:30:08
中国拉玛西亚第1人?曝14岁边锋加盟巴萨+进U15梯队 董路青训培养

中国拉玛西亚第1人?曝14岁边锋加盟巴萨+进U15梯队 董路青训培养

我爱英超
2026-04-03 06:27:05
华裔老师爆火全球!预言特朗普回归、美伊开战,第三个更吓人

华裔老师爆火全球!预言特朗普回归、美伊开战,第三个更吓人

阿校谈史
2026-04-02 15:28:26
退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

笑熬浆糊111
2026-04-03 00:05:12
历史杂记|江青的冷酷

历史杂记|江青的冷酷

老正时空
2026-04-02 17:30:40
Google Gemma 4 开源|全面解读

Google Gemma 4 开源|全面解读

赛博禅心
2026-04-03 02:11:27
57岁相声演员大兵:回湖南老家生活,已是文联主席,还转行当网红

57岁相声演员大兵:回湖南老家生活,已是文联主席,还转行当网红

白面书誏
2026-04-02 19:19:02
卡佩罗:实话说,意大利需要会防守的后卫而不只是长得好看的

卡佩罗:实话说,意大利需要会防守的后卫而不只是长得好看的

懂球帝
2026-04-03 00:33:07
2026-04-03 11:24:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3487文章数 1444关注度
往期回顾 全部

数码要闻

玩家国度二十年纪念?华硕注册ROG CROSSHAIR X870E EDITION 20

头条要闻

郑丽文顶住压力毅然访陆 洪秀柱表态发文力挺

头条要闻

郑丽文顶住压力毅然访陆 洪秀柱表态发文力挺

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

全球石油危机或将蔓延

科技要闻

SpaceX冲刺2万亿美元估值,马斯克野心太大

汽车要闻

大众严选 何惧"定终身"

态度原创

手机
教育
数码
时尚
公开课

手机要闻

2026 年移动办公折叠屏手机怎么选?这几款旗舰推荐助你高效决策

教育要闻

#小学初中严禁设重点班实验班 【教育部:#全面推进义务教育均衡编班 】今天,教育部发布通知,启动实施...

数码要闻

部分三星Bespoke洗烘一体机出现故障,海外用户更新后无法洗衣服

为什么“这个颜色”成为今年顶流?这样穿好看又治愈

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版