网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】DeepSeek开源第四天,连更三个项目。DualPipe、EPLB、以及计算与通信重叠机制的优化并行策略,让大模型训练更快,成本更低,还能保持顶尖性能。

开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。

  • DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法

  • EPLB:一个针对V3/R1的专家并行负载均衡工具

  • 深入分析V3/R1模型中的计算与通信重叠机制

值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。

有网友对此表示,这是一个颠覆性的突破。

「DualPipe和EPLB让大模型的训练更快、更便宜、更可持续,同时保持顶尖性能」。

开源仅剩最后一天,评论区网友纷纷许愿:明天一定要来个大的。

DualPipe

DualPipe是DeepSeek-V3技术报告中提出的一种创新双向流水线并行算法。

它能够实现前向与后向计算和通信阶段的完全重叠,同时有效减少流水线气泡(空闲时间)。

调度方案

上图展示了在8个流水线并行阶段和20个micro-batches情况下,DualPipe在两个方向上的调度示例。

由于反向方向的微批次与前向方向对称,为了简化图示,这里省略了反向方向的batch ID。图中由同一个黑色边框包围的两个单元格表示同时进行的计算和通信操作,它们实现了相互重叠。

流水线气泡与内存使用比较

图中,代表前向块(forward chunk)的执行时间,代表完整后向块(full backward chunk)的执行时间,代表「权重后向」(backward for weights)块的执行时间,而&则表示同时执行且相互重叠的前向和后向块的执行时间。

快速入门

使用示例如下:

python example.py

注意:在实际生产环境中,需要根据模块特点来实现一个定制化的overlapped_forward_backward方法。

专家并行负载均衡器(EPLB)

在使用专家并行(EP)时,不同的专家模块会被分配到不同的GPU上。由于各个专家的计算负载会随当前任务而变化,因此保持各GPU间负载均衡至关重要。

如DeepSeek-V3论文所述,研究人员采用了冗余专家(redundant experts)策略,对高负载专家进行复制。

随后,通过启发式算法将这些复制的专家合理分配到各GPU上,确保计算资源的平衡利用。

此外,由于DeepSeek-V3采用了组内限制专家路由(group-limited expert routing)机制,研究团队尽可能将同一组的专家放置在同一节点上,以减少节点间的数据传输开销。

为了便于复现和部署,DeepSeek在eplb.py文件中开源了EP负载均衡算法。该算法能够根据估计的专家负载,计算出均衡的专家复制和放置方案。

需要说明的是,专家负载的具体预测方法不在此代码库的讨论范围内,一种常用的方法是采用历史统计数据的滑动平均值。

算法原理

负载均衡算法提供了两种策略,适用于不同场景:

· 层次负载均衡(Hierarchical Load Balancing)

当服务器节点数量能够整除专家组数量时,研究人员采用层次负载均衡策略,来充分利用组内限制专家路由机制。

首先,他们将专家组均匀分配到各节点,确保节点间负载平衡;然后,在每个节点内部复制专家模型;最后,将复制后的专家打包分配到各个GPU上,实现GPU间的负载均衡。

这种层次化策略特别适用于预填充阶段(prefilling stage),此时专家并行规模较小。

· 全局负载均衡(Global Load Balancing)

在其他情况下,研究人员采用全局负载均衡策略,不考虑专家组的限制,直接在全局范围内复制专家并分配到各个GPU上。这种策略更适合解码阶段使用,此时专家并行规模较大。

接口示例

负载均衡器的核心函数是eplb.rebalance_experts。

下面的代码展示了一个双层混合专家模型(MoE)的示例,每层包含12个专家。

DeepSeek为每层引入了4个冗余专家,总计16个专家副本被分配到2个计算节点上,每个节点配有4个GPU。

import torch
import eplb

weight = torch.tensor([[ 90, 132, 40, 61, 104, 165, 39, 4, 73, 56, 183, 86],
[ 20, 107, 104, 64, 19, 197, 187, 157, 172, 86, 16, 27]])

num_replicas = 16
num_groups = 4
num_nodes = 2
num_gpus = 8

phy2log, log2phy, logcnt = eplb.rebalance_experts(weight, num_replicas, num_groups, num_nodes, num_gpus)
print(phy2log)

# Output:
# tensor([[ 5, 6, 5, 7, 8, 4, 3, 4, 10, 9, 10, 2, 0, 1, 11, 1],
# [ 7, 10, 6, 8, 6, 11, 8, 9, 2, 4, 5, 1, 5, 0, 3, 1]])

该层次负载均衡策略产生的结果,展示了如下专家复制与分配方案。

DeepSeek基础设施中的性能剖析数据

在这里,DeepSeek公开分享来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略以及相关底层实现细节。

这些剖析数据是通过PyTorch Profiler工具获取的。

你可以下载后在Chrome浏览器中访问chrome://tracing(或在Edge浏览器中访问edge://tracing)直接进行可视化查看。

需要说明的是,为了便于剖析,研究人员模拟了一个完全均衡的MoE路由策略。

训练过程

训练剖析数据展示了,研究人员在DualPipe中如何实现单对前向和后向计算块的重叠策略。每个计算块包含4个MoE层。

并行配置与DeepSeek-V3预训练设置保持一致:采用EP64、TP1,序列长度为4K。

为简化剖析过程,未包含流水线并行(PP)通信部分。

推理过程

· 预填充

在预填充阶段,剖析配置采用EP32和TP1的配置(与DeepSeek V3/R1实际在线部署一致),提示长度设为4K,每GPU批处理量为16K个token。

研究人员在预填充阶段使用两个micro-batches来实现计算与all-to-all通信的重叠,同时确保注意力机制的计算负载在两个micro-batches间保持平衡——这意味着同一条提示信息可能会被分割到不同micro-batches中处理。

· 解码

解码阶段的剖析配置采用EP128、TP1,提示长度4K(与实际在线部署配置非常接近),每GPU批处理量为128个请求。

与预填充类似,解码阶段也利用两个micro-batches来重叠计算和all-to-all通信。

然而不同的是,解码过程中的全联通通信不占用GPU流处理器(SM):RDMA消息发出后,所有GPU流处理器立即被释放,系统在完成计算后等待全联通通信完成。

关于all-to-all通信实现的更多技术细节,请参考DeepEP文档。

参考资料:

https://x.com/deepseek_ai/status/1894931931554558199

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

舟望停云
2026-07-03 12:41:15
难怪老一辈总说年轻人出门鬼混,网友:还是老辈子玩的花

难怪老一辈总说年轻人出门鬼混,网友:还是老辈子玩的花

康富贵碎碎念
2026-07-02 11:41:22
"一尿成名"任素汐:上半身是普通,下半身是贪婪,又丑又性感

"一尿成名"任素汐:上半身是普通,下半身是贪婪,又丑又性感

无处不风景love
2026-07-02 11:53:48
因长得太漂亮被导演狂追,却因拒绝追求无戏可拍,现搭档胡歌走红

因长得太漂亮被导演狂追,却因拒绝追求无戏可拍,现搭档胡歌走红

余塩搞笑段子
2026-06-23 18:09:41
马丁内斯将带葡萄牙战西班牙,世界杯史上无教练“叛变”成功先例

马丁内斯将带葡萄牙战西班牙,世界杯史上无教练“叛变”成功先例

懂球帝
2026-07-03 13:40:09
太真实!42岁郭碧婷西双版纳纯素颜被偶遇,状态两极分化引热议

太真实!42岁郭碧婷西双版纳纯素颜被偶遇,状态两极分化引热议

观鱼听雨
2026-06-29 23:52:34
为啥有人相信萝莉岛上权贵吃人的传言?因为资本主义是真吃人啊!

为啥有人相信萝莉岛上权贵吃人的传言?因为资本主义是真吃人啊!

怪味历史连连看
2026-07-03 17:48:45
2026年养老金要大变!看懂新规,不吃亏!

2026年养老金要大变!看懂新规,不吃亏!

细说职场
2026-07-03 19:05:51
印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

王新喜
2026-07-02 15:08:27
原来跳楼的严总并非第一个!6年前也有一位亿万大佬被逼破产!

原来跳楼的严总并非第一个!6年前也有一位亿万大佬被逼破产!

魔都囡
2026-07-03 03:34:52
欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

青陆
2026-07-02 15:45:57
002074,出售“17倍牛股”股票!成交额超8亿元

002074,出售“17倍牛股”股票!成交额超8亿元

证券时报e公司
2026-07-04 01:30:42
菲防长终于知道痛了,公开表示希望与中国友好沟通,中方已读不回

菲防长终于知道痛了,公开表示希望与中国友好沟通,中方已读不回

陌冷紫a
2026-07-03 06:28:06
大闹车站女子全网社死!个人信息被扒,正脸曝光,结局解气

大闹车站女子全网社死!个人信息被扒,正脸曝光,结局解气

青梅侃史啊
2026-07-03 16:39:43
心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理观察局
2026-07-01 07:16:08
马丁内斯:VAR没误判,达利奇怒斥“糟糕裁判”

马丁内斯:VAR没误判,达利奇怒斥“糟糕裁判”

坠入温柔晚风
2026-07-04 01:27:01
制毒团伙在养猪场生产麻黄素超2吨,18人获刑 初中学历“制毒师”曾从事美容美发,自学化学制毒

制毒团伙在养猪场生产麻黄素超2吨,18人获刑 初中学历“制毒师”曾从事美容美发,自学化学制毒

红星新闻
2026-07-03 18:10:25
中国男篮73-92日本!赛后看看各大媒体人怎么说,苏群一针见血

中国男篮73-92日本!赛后看看各大媒体人怎么说,苏群一针见血

冷桂零落
2026-07-04 00:54:18
人到中年才恍然明白:领导眼里,你的经验与辛劳无足轻重,真正让领导“倚重”而赋予重任的,是这两种稀缺的核心价值

人到中年才恍然明白:领导眼里,你的经验与辛劳无足轻重,真正让领导“倚重”而赋予重任的,是这两种稀缺的核心价值

心理观察局
2026-07-02 06:26:04
不让坐主桌!广州一堂姐婚礼摔碗离席,新郎霸气护妻

不让坐主桌!广州一堂姐婚礼摔碗离席,新郎霸气护妻

尘埃里的看客
2026-07-03 16:07:15
2026-07-04 02:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15599文章数 66945关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
本地
旅游
艺术
健康

亲子要闻

我们这一大家人在韩国又相聚啦

本地新闻

国内足球之旅?这座小城给你高分答案

旅游要闻

滇中山崖惊现完整脚掌印记,岩层原生无改造,揭开百年民间传说!

艺术要闻

OPPO研发总部地块易主,山子高科“双O”新方案曝光!

听说少吃点能抗衰老?专家讲解!

无障碍浏览 进入关怀版