网易首页 > 网易号 > 正文 申请入驻

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

0
分享至

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

项目地址:https://github.com/deepseek-ai/DualPipe

接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。

项目地址:https://github.com/deepseek-ai/eplb

最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡。

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM。

项目地址:https://github.com/deepseek-ai/profile-data

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赢球加笔画,常州北站已经变为常洲北站

赢球加笔画,常州北站已经变为常洲北站

懂球帝
2026-04-13 18:03:54
“先瘦50斤变漂亮”!巩立姣半年已减40斤,网友催更减肥教程

“先瘦50斤变漂亮”!巩立姣半年已减40斤,网友催更减肥教程

极目新闻
2026-04-13 15:59:12
欧尔班下台,日媒称“中国失去欧盟最好的朋友”,却忽略重要一点

欧尔班下台,日媒称“中国失去欧盟最好的朋友”,却忽略重要一点

DS北风
2026-04-13 18:40:05
支持中国分裂,拒飞内地航线,歧视大陆游客的国泰航空,如今怎样

支持中国分裂,拒飞内地航线,歧视大陆游客的国泰航空,如今怎样

小莜读史
2025-12-15 21:00:06
林志玲哽咽鼓励小S,小S帮忙擦泪:我感觉走到这一步很不容易

林志玲哽咽鼓励小S,小S帮忙擦泪:我感觉走到这一步很不容易

扒虾侃娱
2026-04-13 15:52:01
为什么那么多酒店都倒闭了?网友:酒店很多需要被高铁替代了

为什么那么多酒店都倒闭了?网友:酒店很多需要被高铁替代了

另子维爱读史
2026-04-12 13:01:06
不许插手中东!白宫贸易代表不顾外交礼仪,对中国提4个无理要求

不许插手中东!白宫贸易代表不顾外交礼仪,对中国提4个无理要求

落梅如雪乱飞
2026-04-13 23:49:30
前国脚王永珀现状:在美国踢野球,开豪车住豪宅,两个女儿很可爱

前国脚王永珀现状:在美国踢野球,开豪车住豪宅,两个女儿很可爱

秋姐居
2026-04-13 19:51:03
学风最好的10所大学!武汉双雄进前五,排名第一的没有想到

学风最好的10所大学!武汉双雄进前五,排名第一的没有想到

史海流年号
2026-04-07 20:40:02
Diaz把裤脚卷了3厘米,亚马逊同款28美元被抢空

Diaz把裤脚卷了3厘米,亚马逊同款28美元被抢空

追星雷达站
2026-04-12 08:13:12
比亚迪财务总监周亚琳,年薪1013.5万元!比王传福高近200万元,成A股首位年薪破千万的财务掌门人

比亚迪财务总监周亚琳,年薪1013.5万元!比王传福高近200万元,成A股首位年薪破千万的财务掌门人

新浪财经
2026-04-13 13:51:13
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

科学发掘
2026-04-13 15:48:27
华为何刚“剧透”全新一代问界M9系列黑科技

华为何刚“剧透”全新一代问界M9系列黑科技

IT之家
2026-04-13 15:00:51
哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

蔡蔡说史
2026-04-11 04:25:53
气质贵妇穿搭:不是穿给谁看,是穿出自己

气质贵妇穿搭:不是穿给谁看,是穿出自己

疾跑的小蜗牛
2026-04-13 22:09:33
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

芳芳历史烩
2026-04-08 16:28:15
中央官宣!6月1号开始全国统一执行,家家户户用水都迎来7大变化

中央官宣!6月1号开始全国统一执行,家家户户用水都迎来7大变化

小谈食刻美食
2026-04-13 08:25:33
泽连斯基祝贺马扎尔赢得大选

泽连斯基祝贺马扎尔赢得大选

近距离
2026-04-13 10:05:37
山东省菏泽市委常委、秘书长肖友华接受审查调查

山东省菏泽市委常委、秘书长肖友华接受审查调查

界面新闻
2026-04-13 10:04:23
2026-04-14 00:55:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1420文章数 145关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

游戏
健康
旅游
本地
公开课

《GTA6》或不及前作轰动?前作配音:现实太抽象

干细胞抗衰4大误区,90%的人都中招

旅游要闻

世博文化公园繁花竞放,解锁上海春日限定浪漫

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版