网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源周第二弹:第一个用于MoE模型训推的EP通信库,暂只支持英伟达卡

0
分享至

直接看,DeepEP 是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它的特点是:

[转圈]高效通信:提供了高吞吐量、低延迟的GPU通信功能(比如MoE中的分发和组合操作),还支持低精度计算(比如FP8)。

[转圈]优化带宽:针对DeepSeek-V3论文中的算法,优化了数据在不同硬件域(比如NVLink到RDMA)之间的传输,适合训练和推理任务,还能控制GPU资源(SM)的使用。

[转圈]低延迟推理:对推理任务特别优化,使用纯RDMA通信来减少延迟,还支持通信和计算重叠的技术,不占用额外GPU资源。

具体来讲,为了与DeepSeek-V3论文中提出的组限门控算法(group-limited gating algorithm)保持一致,DeepEP 提供了一组针对非对称域带宽转发优化的内核,例如从NVLink域转发数据到RDMA域。

DeepSeek在 H800 这种硬件设备上(NVLink 数据传输通道最大传输速度约每秒 160GB)测试那些常规的内核程序。每一个 H800 设备都连接了一张 CX7 InfiniBand 型号的 400 Gb/s 的 RDMA 网卡(每卡最大传输速度每秒约 50GB)。

再按照 DeepSeek-V3/R1 这个预训练的方案来操作(每次处理数据批次里有 4096 个数据单元,隐藏层有 7168 个节点,分组是取前 4 组,专家模块选前 8 个,用 FP8 格式来分配数据,用 BF16 格式来整合数据 )。

在 H800 上对低延迟内核进行测试时,每台 H800 都连接着一块 CX7 InfiniBand 400 Gb/s 的 RDMA 网卡(最大带宽约为 50 GB/s)。遵循 DeepSeek - V3/R1 的典型生产环境设置(每批次 128 个词元、7168 个隐藏单元、前 8 个专家、FP8 调度和 BF16 合并)。

目前,DeepEP需要的软硬件环境版本如下:

· Hopper GPUs(以后可能支持更多架构或设备)
· 用于节点内通信的NVLink
· 用于节点内通信的RDMA网络
· Python 3.8及更高版本
· CUDA 12.3及更高版本
· PyTorch 2.1及更高版本

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗马诺爆料:热刺一笔已谈妥的转会彻底告吹!

罗马诺爆料:热刺一笔已谈妥的转会彻底告吹!

夜白侃球
2026-07-03 10:50:48
巴格达的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什叶派走廊

巴格达的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什叶派走廊

民间胡扯老哥
2026-07-03 05:29:12
西班牙杀出低调战神!29岁射手17场轰17球 比肩4大巨星 创7项纪录

西班牙杀出低调战神!29岁射手17场轰17球 比肩4大巨星 创7项纪录

我爱英超
2026-07-03 05:55:42
情侣徒手爬上443米的美国帝国大厦求婚,在塔尖停留30多分钟,最终双双被警方逮捕;二人曾出演2024网飞纪录片《行走天际:极限爱情故事》

情侣徒手爬上443米的美国帝国大厦求婚,在塔尖停留30多分钟,最终双双被警方逮捕;二人曾出演2024网飞纪录片《行走天际:极限爱情故事》

都市快报橙柿互动
2026-07-02 13:22:29
不敢作了!亲眼看到库明加的下场,伊森果断签下5年8150万

不敢作了!亲眼看到库明加的下场,伊森果断签下5年8150万

杨仔述
2026-07-03 09:33:36
“这以后谁还结婚?!”

“这以后谁还结婚?!”

阿振观点
2026-07-03 13:40:16
油价调整:注意,预计下调825元/吨,今晚油价要跌!

油价调整:注意,预计下调825元/吨,今晚油价要跌!

金投网
2026-07-03 11:23:58
李敖:王菲之所以高冷,因为她肚子里没墨水,本质是1个“愚妇”

李敖:王菲之所以高冷,因为她肚子里没墨水,本质是1个“愚妇”

琴琴有氧运动
2026-07-02 02:25:16
广东宏远离队第一人?曝26岁射手走人,有球队给更大的合同

广东宏远离队第一人?曝26岁射手走人,有球队给更大的合同

国篮会自强
2026-07-03 16:28:41
俄国命运攸关,中国作壁上观?为何俄罗斯被动,中国却不两肋插刀

俄国命运攸关,中国作壁上观?为何俄罗斯被动,中国却不两肋插刀

静夜史君
2026-07-02 03:00:07
大陆发出统一最强音后,赖清德回应,黄智贤不装了,对大陆摊牌了

大陆发出统一最强音后,赖清德回应,黄智贤不装了,对大陆摊牌了

共工之锚
2026-07-03 00:14:32
为何第81分钟换下C罗?葡萄牙主帅回应:球队永远高于个人

为何第81分钟换下C罗?葡萄牙主帅回应:球队永远高于个人

潇湘晨报
2026-07-03 12:04:14
为什么县城正科级以上干部一退休,就几乎看不见人影了?

为什么县城正科级以上干部一退休,就几乎看不见人影了?

奇思妙想生活家
2026-07-02 13:09:07
500多亿交了昂贵学费,京东的外卖败局,给所有企业敲了警钟?

500多亿交了昂贵学费,京东的外卖败局,给所有企业敲了警钟?

幽棠的趣式
2026-07-03 09:14:40
从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

福建睿平
2026-07-02 07:47:57
放弃中国籍加入日本!4次率队击败中国队,退役后却又想回国捞钱

放弃中国籍加入日本!4次率队击败中国队,退役后却又想回国捞钱

跳跳历史
2026-06-19 14:53:52
19岁全红婵颜值大变:身高近170cm,留长发,网友:气质不一样了

19岁全红婵颜值大变:身高近170cm,留长发,网友:气质不一样了

人间颂
2026-07-03 12:59:26
视频丨南部战区位黄岩岛战备警巡,解放军如何在“自家院子”练兵?

视频丨南部战区位黄岩岛战备警巡,解放军如何在“自家院子”练兵?

澎湃新闻
2026-07-02 14:15:03
70家直营门店全关、储存卡清零!这家烤串界的老牌玩家,扛不住了

70家直营门店全关、储存卡清零!这家烤串界的老牌玩家,扛不住了

品牌观察官
2026-07-02 17:19:49
广东女童被扔河沟后续!亲属预谋作案扔完就跑,故意害人却不受罚

广东女童被扔河沟后续!亲属预谋作案扔完就跑,故意害人却不受罚

做一个合格的吃瓜群众
2026-07-03 14:32:52
2026-07-03 16:56:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1593文章数 160关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

办信用卡8年被收8816元年费 女子投诉银行"悄悄扣费"

头条要闻

办信用卡8年被收8816元年费 女子投诉银行"悄悄扣费"

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
旅游
家居
亲子
公开课

教育要闻

7月5日—7日,这些批次进行志愿填报!注意事项来了

旅游要闻

今年首趟中国-中亚人文旅游班列经霍尔果斯铁路口岸出境

家居要闻

传奇筑 日常诗

亲子要闻

因为你的到来,让我们更幸福

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版