网易首页 > 网易号 > 正文 申请入驻

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。

  • 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》
  • 论文链接:https://arxiv.org/abs/2501.11873

MoE 模型训练中的关键问题

混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。因此,MoE 在训练中需要引入额外辅助的负载均衡损失(load balance loss,LBL)来鼓励专家的选择趋于均衡。

目前主流 MoE 训练框架中实现的 LBL 的优化目标是局部(micro-batch)的负载均衡,这使得模型需要将一个micro-batch的输入都均匀分配给不同的专家。然而,一个micro-batch的输入往往只来自个别领域,局部负载均衡会让模型将每个领域的输入都均匀分配。这种均匀分配会阻碍某些专家更多处理特定领域的数据,也即阻碍专家出现领域层次的分化特征。我们发现,将局部的负载均衡放松到全局的负载均衡,能显著增强专家的特异化并提高模型性能。

背景

我们关注的关键点是,如果一个 micro-batch 中的数据不够多样化,这种实现方式可能会阻碍专家的特异化。例如,假设一个 micro-batch 中只包含代码数据,上述负载均衡损失仍然会推动路由器将这些代码输入均匀分配给所有专家。而理想状况下,处理代码数据的专家网络应该对代码数据有更高的激活频率。在训练基于 MoE 的大型语言模型时,这种情况更常见:一个较小的 micro-batch (通常为 1)中的数据通常来自同一领域。这在一定程度上解释了为什么当前大多数基于 MoE 的大语言模型中都没有观察到明显的领域层次的专家特异化。

这一缺点促使我们将当前局部均衡的方法想办法扩展到全局(global-batch)均衡。

从局部均衡到全局均衡

扩大均衡的范围带来稳定的提升

我们在三种参数规模(3.4B 激活 0.6B, 15B 激活 2.54B,43B 激活 6.6B)下分别训练了 120B 和 400B tokens,对比了不同的均衡范围(Balance BSZ)对模型性能的影响。所有模型都使用了细粒度专家、共享专家及 dropless 策略(专家不会抛弃超过容量的tokens)。可以看到,将均衡范围从一般框架实现的 4,8 或者 16 增大到 128 以上后模型在 Benchmark 指标和 PPL 都有明显提升。

我们在 3.4B 激活 0.6B 的模型训练 400B tokens 到设置上进一步对比了模型效果随着均衡范围的变化,可以看到 balance BSZ 从 2 到 128 模型的 PPL 在快速降低,在 128 后逐渐饱和。目前主流 MoE 框架中即使是进行了机内通信,对于较大的模型 balance BSZ 也一般在 8 到 16 的,这进一步体现了我们通信方法的意义。

分析实验

假设验证

前文提到,这篇工作的出发点是在一个 micro-batch 中,数据的来源较为单一的,进而导致 MoE 模型需要将类似来源的数据均匀分配到所有expert上,我们改进了这一点进而得到了提升。

然而,我们也可以假设 global batch 是因为使用了更多的 token 来统计 expert 激活频率进而减少了方差,使得负载均衡损失更加稳定,进而提升训练洗哦啊过。位了更加严谨地对比这两种假设,我们引入了一种对比的实验设置:Shffuled batch balance, 即我们从global batch中随机抽取一个子集(这个子集的大小等于micro batch的大小)统计专家激活频率,进而计算负载均衡损失。Shuffled batch balance 和 micro-batch balance拥有相同的token数目,和 global-batch balance拥有相同的token分布。

我们发现,shuffled batch balance 和 global batch balance 的表现几乎一致,都显著好于 micro batch balance。说明,引入 global-batch 获得提升的首要原因是在一个更加通用、多样的 token 集合上计算损失。进而验证了我们的出发点和假设。

添加少量局部均衡损失

能提高模型效率

只使用全局均衡会导致局部均衡状况有所降低,这会一定程度影响 MoE 的计算效率。我们进一步实验了在主要使用全局均衡的情况下,在训练过程中添加局部均衡(默认实现的 LBL,损失权重为全局 LBL 的 1%)限制对于模型性能和效率的影响。可以看到,添加局部均衡能提升模型的速度(每个更新步耗时从 1.64秒提升到1.59秒),同时模型的效果也几乎不受影响。

同期相关工作以及讨论

已有工作 GRIN 也提出了 Global Load Balance Loss Adaptations,然而更多将这一均衡方法作为训练框架只使用张量并行、不使用专家并行的优势。GRIN 中并没有从 specialization 或是对模型 performance 影响等方面讨论使用 Global Load Balance 的动机,也没有展示单一使用 Global Load Balance 的影响。

Wang et al. 提出在基于MoE的大语言模型训练中,负载均衡损失和语言模型损失如同杠杆一样需要权衡,因为两者的优化目标并不一致。因此,他们提出了一种基于专家选择频率更新的偏差项(bais term),在不改变路由分数的情况下平衡专家选择,从而去掉了用来辅助训练的负载均衡损失(auxiliary-loss free)。基于专家选择频率更新的偏置项,以在不改变路由评分的情况下平衡专家选择。但是,他们没有比较该方法在专家选择频率是根据 micro-batch 计算和根据 global-batch 计算时的性能差异。

这项工作也被应用到 deepseek-v3 的训练中。deepseek-v3 的技术报告(同期工作)中强调了这项技术的专家选择频率是基于 global-batch 进行计算,并在小规模上讨论了基于global batch 使用 LBL 的结果,也发现这两种方法结果相似。

而我们的工作不仅在大规模上系统验证了这种方法的有效性,还详细析了均衡范围对性能的影响,并消融证明了 global-batch 是通过纳入更多样化的领域信息从而显著提性能。

结论

我们回顾了目前 MoE 训练框架中均衡损失,发现目前的实现方式会将所有来自相同领域的局部输入都均匀分配,限制了专家的分化。通过轻量的通信将局部均衡放松为全局均衡,MoE 模型的性能和专家特异性都得到了显著的提升。我们认为这一进展解决了现有MoE训练中的一个关键问题,为MoE模型的优化提供了新的视角,并有助于构建更加可解释的模型。尽管我们的实验主要集中在基于语言的任务上,我们希望我们的工作能够为在不同领域训练更大规模、更有效的 MoE 模型提供帮助。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电生真火!中国厨房革命来了,燃气罐、燃气公司或将退出历史舞台

电生真火!中国厨房革命来了,燃气罐、燃气公司或将退出历史舞台

Hi科普啦
2025-09-13 09:45:52
剑南春集团新增国资为第二大股东,认缴出资1.37亿元获14.51%股权

剑南春集团新增国资为第二大股东,认缴出资1.37亿元获14.51%股权

红星新闻
2025-09-15 18:57:22
“85花”婚姻全军覆没,当年被嘲“下嫁”的她,如今成唯一赢家

“85花”婚姻全军覆没,当年被嘲“下嫁”的她,如今成唯一赢家

白面书誏
2025-09-15 11:10:04
马云王者归来,阿里巴巴股价暴涨,重回巅峰

马云王者归来,阿里巴巴股价暴涨,重回巅峰

电商派Pro
2025-09-15 09:51:11
一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

北纬的咖啡豆
2025-09-13 19:14:42
收缩型城市要撤并?官方首提这个可能,138城中枪,接下来咋办?

收缩型城市要撤并?官方首提这个可能,138城中枪,接下来咋办?

诗意世界
2025-09-14 23:08:36
生前活活饿死没人问,死后2年18好友来哭坟

生前活活饿死没人问,死后2年18好友来哭坟

韬闻
2025-09-14 14:47:42
海底捞小便门后续:两位熊孩子家长背景曝光,家长:要倾家荡产了

海底捞小便门后续:两位熊孩子家长背景曝光,家长:要倾家荡产了

霁寒飘雪
2025-09-15 09:07:20
中东战场传来捷报,中国FK-2000连斩三架土耳其无人机,弹炮合一

中东战场传来捷报,中国FK-2000连斩三架土耳其无人机,弹炮合一

近史阁
2025-09-15 09:03:31
不知道给不给播?为啥发达国家还在用油车,我国却在拼命推电车?

不知道给不给播?为啥发达国家还在用油车,我国却在拼命推电车?

翻开历史和现实
2025-08-21 16:40:06
名嘴质疑莎莎夺冠含金量:王曼昱是单枪匹马,自己一人没教练

名嘴质疑莎莎夺冠含金量:王曼昱是单枪匹马,自己一人没教练

巷子里的历史
2025-09-15 20:18:08
包养情人无数,娶初中同学女儿为妻,玩老婆闺蜜,嗜色如命的富豪

包养情人无数,娶初中同学女儿为妻,玩老婆闺蜜,嗜色如命的富豪

负面黑洞
2025-09-11 16:19:05
好声音没夺冠,果断嫁爱奇艺总裁,今官宣离婚,给所有人上了一课

好声音没夺冠,果断嫁爱奇艺总裁,今官宣离婚,给所有人上了一课

古木之草记
2025-09-13 16:07:14
澳门男单颁奖礼:王楚钦严肃不笑,和孙颖莎在现“默契走位”

澳门男单颁奖礼:王楚钦严肃不笑,和孙颖莎在现“默契走位”

深析古今
2025-09-14 21:06:02
砸两亿《戏台》陈佩斯父子赚了片酬!欢喜传媒惨遭五连败

砸两亿《戏台》陈佩斯父子赚了片酬!欢喜传媒惨遭五连败

释凡电影
2025-09-13 02:02:46
涉嫌严重违纪违法!泸州一国企原董事长被查!

涉嫌严重违纪违法!泸州一国企原董事长被查!

泸州那点事
2025-09-15 14:05:18
你曾庆幸做过什么事。网友说大概是无意间救了全宿舍人的命

你曾庆幸做过什么事。网友说大概是无意间救了全宿舍人的命

侃神评故事
2025-09-15 11:55:08
河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

飞云如水
2024-06-04 20:56:33
全网厌恶的“海底捞讨蛋糕”事件:病态家长,能带出多没教养的娃

全网厌恶的“海底捞讨蛋糕”事件:病态家长,能带出多没教养的娃

嫹笔牂牂
2025-09-13 07:40:32
运动背心搭配紧身瑜伽裤,穿出美丽又酷帅的气质,阳光少女感十足

运动背心搭配紧身瑜伽裤,穿出美丽又酷帅的气质,阳光少女感十足

小乔古装汉服
2025-09-15 15:30:22
2025-09-15 21:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11296文章数 142450关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

"小电驴"新国标落地两周 新旧车都在涨价

头条要闻

"小电驴"新国标落地两周 新旧车都在涨价

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
手机
家居
数码
公开课

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

手机要闻

消息称荣耀 MagicPad3 Pro 平板端首发第五代骁龙 8 至尊版

家居要闻

典雅大气 舒适中带童趣

数码要闻

美光先发优势遭重挫!NVIDIA叫停首代SOCAMM内存开发:转向SOCAMM2

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版