网易首页 > 网易号 > 正文 申请入驻

全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

0
分享至

大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前,该项研究已被 EMNLP 2025 接收。

  • 论文标题:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 论文链接:https://arxiv.org/abs/2508.19268
  • 代码链接:https://github.com/Eduwad/MultiPL-MoE

背景

现有的通用大模型在代码生成方面已经展示出卓越的能力,然而大量研究表明这些大模型在高资源编程语言(如:Python)与低资源编程语言上(如:Rust)上存在显著的性能差异,后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求,促使人们致力于将广泛的编程语言知识注入 LLM。然而,现有的研究主要存在以下两种问题:

1. 使用多种编程语言的数据对基座模型进行继续训练,但存在计算开销极为庞大的问题;

2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能,但会引发基座模型原有代码能力的严重灾难性遗忘问题。

因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。

方法

1. MoE 定义

2. MultiPL-MoE

MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由,结合了共享专家和一种新的路由权重归一化方法,以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE,我们采用专家选择路由机制,将输入作为上下文连贯的分段,使专家能够捕捉语法结构和一些篇章级的特征。

图 1 MutilPL-MoE 的整体架构

2.1 Token-level MoE

2.2 Segment-level MoE

最后,融合 token-level MoE 和 segment-level MoE 的第 l 层输出为:

2.3 损失函数

通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。

(1) next token prediction loss

(2) load balance loss

最终的优化目标为:

实验结果

实验结果表明,MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能,即显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘。同时,我们也注意到,除基础模型 Qwen1.5 外,基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能,远远低于其他语言。

图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中,Python,Java,C++ 代表高资源语言,Rust,Go,Ruby 代表低资源语言。

结语

本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE,它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性,并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一校花,仙姿绝色,优雅端庄,绝世佳人不过如此

上海一校花,仙姿绝色,优雅端庄,绝世佳人不过如此

动物奇奇怪怪
2026-05-03 21:28:43
比明星还火的“擦边NPC”,被叫停?

比明星还火的“擦边NPC”,被叫停?

印客美学
2026-05-03 14:00:30
失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

路医生健康科普
2026-04-30 13:05:07
持旅游签证赴美卖淫,一女子被ICE逮捕,即将遣返回国

持旅游签证赴美卖淫,一女子被ICE逮捕,即将遣返回国

大洛杉矶LA
2026-05-03 06:14:51
国乒男队遭16年来首败!两大争议集中爆发,王励勤王皓该反思了

国乒男队遭16年来首败!两大争议集中爆发,王励勤王皓该反思了

天马幸福的人生
2026-05-03 19:27:55
金靖“瘦到认不出”热搜第一,本人回应:目前98斤,瘦的4斤全是脂肪,腰围小了5厘米!称每晚尽量9点半入睡:保暖和睡眠很重要

金靖“瘦到认不出”热搜第一,本人回应:目前98斤,瘦的4斤全是脂肪,腰围小了5厘米!称每晚尽量9点半入睡:保暖和睡眠很重要

极目新闻
2026-05-01 19:56:17
63岁穆里尼奥怒了!真不夸张,这可能是今年最黑的一场欧洲比赛!

63岁穆里尼奥怒了!真不夸张,这可能是今年最黑的一场欧洲比赛!

球叮足球
2026-05-03 09:46:37
爆笑经典下棋搞笑冷笑话,记得初中的时候有次上英语课坐最后面两同学上课走象棋,玩着玩着突然吵起来了!

爆笑经典下棋搞笑冷笑话,记得初中的时候有次上英语课坐最后面两同学上课走象棋,玩着玩着突然吵起来了!

天天明星
2026-05-02 12:12:27
2026年上海宝山区房价大幅下滑区域

2026年上海宝山区房价大幅下滑区域

坠入二次元的海洋
2026-05-03 07:36:06
什么叫裁员裁到大动脉?广铁的一次错误决定,让中央调动4万军警

什么叫裁员裁到大动脉?广铁的一次错误决定,让中央调动4万军警

猫眼观史
2025-04-12 22:25:14
小米MIX5曝光!磁吸镜头加持

小米MIX5曝光!磁吸镜头加持

科技美学
2026-05-03 21:35:25
今日金价,大家要有心理准备了,金价或将迎来大风暴

今日金价,大家要有心理准备了,金价或将迎来大风暴

花小猫的美食日常
2026-05-03 01:38:36
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
日本高层抵华!全程无中方要员接见,高市早苗搬救兵也白搭

日本高层抵华!全程无中方要员接见,高市早苗搬救兵也白搭

蓝色海边
2026-05-03 18:56:09
连扳3局逆转!吴宜泽17比16击败马克·艾伦,首次晋级斯诺克世锦赛决赛,将与肖恩·墨菲争冠

连扳3局逆转!吴宜泽17比16击败马克·艾伦,首次晋级斯诺克世锦赛决赛,将与肖恩·墨菲争冠

环球网资讯
2026-05-03 06:37:20
威廉王子深夜指令曝光:即使与哈里决裂,也要为孩子留后路!

威廉王子深夜指令曝光:即使与哈里决裂,也要为孩子留后路!

全球奇趣娱乐八卦
2026-05-03 13:24:13
涉嫌严重违纪违法,林发镇被查

涉嫌严重违纪违法,林发镇被查

都市快报橙柿互动
2026-05-02 23:40:27
燕麦是肠癌的加速器?提醒:不想肠癌找上门,3物千万不要吃

燕麦是肠癌的加速器?提醒:不想肠癌找上门,3物千万不要吃

健身狂人
2026-05-02 22:23:48
77岁知名港星自曝拍限制级影片对女演员有反应,炒股亏掉3000万

77岁知名港星自曝拍限制级影片对女演员有反应,炒股亏掉3000万

叨唠
2026-05-02 22:04:41
突破壁垒,电子陶瓷第一股,无可争议!

突破壁垒,电子陶瓷第一股,无可争议!

飞鲸投研
2026-05-03 18:38:23
2026-05-03 22:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

尤伯杯决赛国羽女队1比3不敌韩国队收获亚军 无缘卫冕

头条要闻

尤伯杯决赛国羽女队1比3不敌韩国队收获亚军 无缘卫冕

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
时尚
亲子
教育
手机

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

亲子要闻

曝光毒绘本:萨琪想要个小宝宝,明显教唆儿童学坏,家长朋友避坑

教育要闻

孩子可以教会您如何转移注意力

手机要闻

走量机卖不过旗舰!华为Pura X Max首销成绩出炉,同行压力山大

无障碍浏览 进入关怀版