网易首页 > 网易号 > 正文 申请入驻

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

0
分享至

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

项目地址:https://github.com/deepseek-ai/DualPipe

接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。

项目地址:https://github.com/deepseek-ai/eplb

最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡。

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM。

项目地址:https://github.com/deepseek-ai/profile-data

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网最不想火的鸡煲店,凭一句“劝退”爆火

全网最不想火的鸡煲店,凭一句“劝退”爆火

广东发布
2026-04-03 20:04:56
1270万毕业生最难的,不是找工作,而是父母那套“读书改命”突然不灵了

1270万毕业生最难的,不是找工作,而是父母那套“读书改命”突然不灵了

糖逗在娱乐
2026-04-04 19:08:30
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
4名学生喝冰红茶各中一根10克重金条!高校超市挂横幅祝贺

4名学生喝冰红茶各中一根10克重金条!高校超市挂横幅祝贺

闪电新闻
2026-04-04 11:14:16
性商教母还会来

性商教母还会来

言立方
2026-04-04 15:24:54
冬去春来:左小青童蕾牛莉等,年轻时也太美了,不输章若楠林允

冬去春来:左小青童蕾牛莉等,年轻时也太美了,不输章若楠林允

东方不败然多多
2026-04-05 12:41:11
中国人口绝不能到亿级体量之下

中国人口绝不能到亿级体量之下

文青大叔说
2026-03-08 09:19:26
李泽楷做梦也想不到,为他连生三子的梁洛施,如今竟会跟他谈恋爱

李泽楷做梦也想不到,为他连生三子的梁洛施,如今竟会跟他谈恋爱

深度解析热点
2026-02-22 16:08:07
房地产何时出现拐点?“好房子”建设提速,城市更新的机会在于差异与个性化 | 2026观点年度论坛

房地产何时出现拐点?“好房子”建设提速,城市更新的机会在于差异与个性化 | 2026观点年度论坛

华夏时报
2026-04-03 17:11:02
宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

三农雷哥
2026-03-25 17:58:07
美最高法院集体质疑!保守派大法官罕见反水:特朗普做得太绝

美最高法院集体质疑!保守派大法官罕见反水:特朗普做得太绝

斜烟风起雨未
2026-04-05 08:24:39
金价“卷”到老祖宗那里了?记者实地走访:成品元宝价格整体稳定

金价“卷”到老祖宗那里了?记者实地走访:成品元宝价格整体稳定

封面新闻
2026-04-05 13:15:14
毛主席钢笔字的惊艳之作,书法界大揭秘!

毛主席钢笔字的惊艳之作,书法界大揭秘!

书画相约
2026-04-03 08:51:56
第二名美军飞行员仍存活 紧急营救行动与伊朗激烈交火

第二名美军飞行员仍存活 紧急营救行动与伊朗激烈交火

桂系007
2026-04-05 07:39:47
爆冷!阿森纳1-2英冠队无缘足总杯4强 第85分钟被绝杀 2连败丢2冠

爆冷!阿森纳1-2英冠队无缘足总杯4强 第85分钟被绝杀 2连败丢2冠

我爱英超
2026-04-05 05:21:39
16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

一盅情怀
2026-03-28 15:38:13
真敢说!39岁张雪:创业13年重庆从没有支持过我 一个子儿都没有

真敢说!39岁张雪:创业13年重庆从没有支持过我 一个子儿都没有

念洲
2026-04-01 09:39:30
银行不会直说的潜规则:存款满50万,你就有资格提条件

银行不会直说的潜规则:存款满50万,你就有资格提条件

王二哥老搞笑
2026-04-03 01:16:36
新疆输球季后赛渺茫!媒体赛后透露:刘炜下课原因,内部团体矛盾

新疆输球季后赛渺茫!媒体赛后透露:刘炜下课原因,内部团体矛盾

理工男评篮球
2026-04-04 23:34:28
重磅!北京大学新进博雅特聘教授、清华大学国家金融研究院原院长田轩,出任北京大学光华管理学院院长

重磅!北京大学新进博雅特聘教授、清华大学国家金融研究院原院长田轩,出任北京大学光华管理学院院长

双一流高校
2026-04-05 00:10:40
2026-04-05 13:40:50
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1410文章数 144关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

特朗普:获救的美飞行员受伤 营救行动中无美国人伤亡

头条要闻

特朗普:获救的美飞行员受伤 营救行动中无美国人伤亡

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

家居
手机
艺术
健康
数码

家居要闻

温馨多元 爱的具象化

手机要闻

大疆Osmo Pocket 4包装曝光:1英寸传感器、107GB内置存储

艺术要闻

21位中国当代名家的26幅油画

干细胞抗衰4大误区,90%的人都中招

数码要闻

好用的剃须刀哪款好?品牌十大排名不同需求精准适配,剃须更舒适

无障碍浏览 进入关怀版