网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源MoE新利器LPLB:基于线性规划,专攻训练动态负载不平衡

0
分享至


刚刚DeepSeek在GitHub开源了LPLB(Linear-Programming-Based Load Balancer)。这是一个基于线性规划的并行负载均衡器,旨在优化MoE(混合专家)模型的专家并行工作负载分配

看起来 DeepSeek 和老黄的思路是一致的

英伟达在一个由 NVLink 连接的 1 万张 GPU 集群里,用完全一样的机制来给不同 kernel 分配 SM(GPU 的计算单元:Streaming Multiprocessors)。DeepSeek 做的事也一样,只不过它把这个调度机制往上抽象了一层,做到了整个 pipeline 级别

目前该项目处于早期研究阶段,性能提升仍在评估中。

核心功能与实现

LPLB主要通过以下机制实现动态负载均衡:

动态重排序:基于工作负载统计信息对专家进行动态重排序(该过程由嵌入的EPLB辅助)

副本构建:考虑静态拓扑结构构建专家副本

最优Token分配:针对每个批次(Batch)求解最优Token分配方案

在技术实现上,其内置的LP(线性规划)求解器实现了单SM内点法(Interior Point Method, IPM),并利用NVIDIA的cuSolverDx和cuBLASDx库进行线性代数运算。

工作负载统计信息可由用户提供,通过torch.distributed收集,或从Deep-EP缓冲区的内部通信器获取。

工作原理

LPLB是对EPLB(Expert Parallelism Load Balancer)的扩展,旨在解决MoE训练中的动态负载不平衡问题:

EPLB:主要处理由数据分布引起的静态不平衡(如某些专家持续过载)。

LPLB:针对训练过程中小批次随机性引起的每批次波动

具体机制:

1.冗余专家:每个冗余专家链接到一个原始专家,在GPU之间形成边(Edge)

2.边容量:边的容量定义为当前批次分配给冗余专家的Token数量,即用于平衡的最大Token流

3.LP优化:LPLB求解线性规划问题,在尊重边容量的前提下沿这些边重新分配Token,以最小化专家并行(EP)组内的负载不平衡。

在该过程中,待复制的专家通过EPLB选择(仅重排序,不复制),最重的专家根据选定的LPLB拓扑进行复制。为了减少通信开销,实时工作负载同步利用NVLINK和NVSHMEM(需预装DeepEP),而非torch.distributed.allreduce

支持的拓扑结构

LPLB支持通过修改r2o矩阵探索自定义拓扑,典型拓扑包括:

Cube:在GPU子集上复制专家,形成带有对角边的立方体图。每GPU至少需要2个专家。适用于8-GPU EP子组内的平衡,且不牺牲节点间通信

Hypercube:类似于Cube,但排除对角边,需要16个GPU。适用于跨16个GPU的专家并行

Torus:在同一节点的邻居GPU和邻居节点的GPU上各复制一个专家,形成环面图。每GPU至少需要2个专家。适用于全局平衡,但由于节点内通信效率原因,效果可能不如Cube

局限性

成本估算:目前的规划器仅平衡总Token数量,未考虑分组矩阵乘法时间成本的非线性,可能导致次优性能

求解延迟:求解器进行节点内优化耗时约100 µs(节点间更长),对于小批次任务,此开销不可忽略

极端不平衡:在全局负载极端不平衡的情况下,由于LPLB避免将多个副本分配给同一原始专家,其表现可能不如EPLB

安装与使用

预备条件:

CUDA Toolkit >= 12.6.3(包含cuSolverDx依赖)。

DeepEP(可选,但强烈建议用于实际生产)。

EPLB(已嵌入)

安装命令:

                                                                    ./download-mathdx.sh
# export NVSHMEM_DIR=... # 可选
pip install --no-build-isolation .

接口示例:

                                                                    # 定义冗余专家拓扑
r2o = torch.tensor(
[
[3, 0, 1, 2, 7, 4, 5, 6],
[6, 7, 4, 5, 0, 1, 2, 3],
]
).T.int().cuda()

planner = Planner(
r2o,
n_logical_experts + n_redundants_per_rank * ep_size,
n_logical_experts,
group=ep_group,
)

# 规划器返回物理专家索引
redirected_indices = planner.run(indices, avail_counter, N_SMS)

项目地址:https://github.com/deepseek-ai/LPLB

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅宣布!再见了,保罗!正式结束NBA生涯

重磅宣布!再见了,保罗!正式结束NBA生涯

篮球实战宝典
2026-02-14 02:45:23
亏93亿也要卖,阿里巴巴套现300亿!一场断臂求生的豪赌真相曝光

亏93亿也要卖,阿里巴巴套现300亿!一场断臂求生的豪赌真相曝光

复转小能手
2026-02-13 20:28:44
首次访华前,德国总理默茨发言中将中欧对比引发关注

首次访华前,德国总理默茨发言中将中欧对比引发关注

澎湃新闻
2026-02-12 17:34:26
狂飙22℃再暴跌!江苏最新预测:雨雨雨!

狂飙22℃再暴跌!江苏最新预测:雨雨雨!

江南晚报
2026-02-14 03:32:38
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
7.6元网购2500克土豆,男子食用后连续两年饱受折磨!医生提醒

7.6元网购2500克土豆,男子食用后连续两年饱受折磨!医生提醒

新民晚报
2026-02-13 15:07:33
刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

复转这些年
2026-02-13 23:13:35
日媒:高市早苗因手部病情恶化就医检查,在医院停留约3小时45分钟

日媒:高市早苗因手部病情恶化就医检查,在医院停留约3小时45分钟

环球网资讯
2026-02-13 20:06:13
韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

杨华评论
2026-02-13 19:04:46
俄罗斯再次承诺重启丰田位于舒沙拉的前工厂

俄罗斯再次承诺重启丰田位于舒沙拉的前工厂

居陋室观天下
2026-02-12 19:35:05
马方被封,我们失去了什么?

马方被封,我们失去了什么?

安安观世界
2026-02-12 18:17:18
为何每年都要慰问中央老同志?名单的背后,释放了哪些重要信号?

为何每年都要慰问中央老同志?名单的背后,释放了哪些重要信号?

李昕言温度空间
2026-02-13 23:23:44
22岁中国男子巴厘岛旅游时溺亡,去年刚大学毕业,原计划除夕前回国和家人团圆,同伴发声

22岁中国男子巴厘岛旅游时溺亡,去年刚大学毕业,原计划除夕前回国和家人团圆,同伴发声

极目新闻
2026-02-13 22:17:39
美国摊牌:中国若武统,将遭6大金融组织封杀?赖清德预感不妙

美国摊牌:中国若武统,将遭6大金融组织封杀?赖清德预感不妙

头条爆料007
2026-02-12 08:03:57
不看不知道一看吓一跳,女子短道速滑已改天换地,错怪范可新了

不看不知道一看吓一跳,女子短道速滑已改天换地,错怪范可新了

真理是我亲戚
2026-02-13 10:30:43
斯拉夫不相信寒冷——俄乌血战扎波罗热,乌军夺回150平方公里

斯拉夫不相信寒冷——俄乌血战扎波罗热,乌军夺回150平方公里

史政先锋
2026-02-13 21:26:31
黑龙江一男子摔伤送医急救直呼“饿了,要吃面包”,竟是全身血液已近流干,医生质疑:不像摔得,有可能是车祸

黑龙江一男子摔伤送医急救直呼“饿了,要吃面包”,竟是全身血液已近流干,医生质疑:不像摔得,有可能是车祸

大象新闻
2026-02-13 09:47:05
一夜爆火!八千元就能买匹迷你小马?马主:隐性开销大得吓死人……

一夜爆火!八千元就能买匹迷你小马?马主:隐性开销大得吓死人……

环球网资讯
2026-02-13 20:40:28
应急管理部:加强烟花爆竹非法制售、储存的排查打击

应急管理部:加强烟花爆竹非法制售、储存的排查打击

环球网资讯
2026-02-13 14:16:06
盒马首发荷兰Tessa苹果

盒马首发荷兰Tessa苹果

北京商报
2026-02-12 20:48:07
2026-02-14 05:47:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

手机
房产
艺术
本地
公开课

手机要闻

苹果App Store国区充值加赠10%活动开启

房产要闻

三亚新机场,又传出新消息!

艺术要闻

100张照片,100年来的中国春节

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版