网易首页 > 网易号 > 正文 申请入驻

全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

0
分享至



大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前,该项研究已被 EMNLP 2025 接收。



  • 论文标题:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 论文链接:https://arxiv.org/abs/2508.19268
  • 代码链接:https://github.com/Eduwad/MultiPL-MoE

背景

现有的通用大模型在代码生成方面已经展示出卓越的能力,然而大量研究表明这些大模型在高资源编程语言(如:Python)与低资源编程语言上(如:Rust)上存在显著的性能差异,后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求,促使人们致力于将广泛的编程语言知识注入 LLM。然而,现有的研究主要存在以下两种问题:

1. 使用多种编程语言的数据对基座模型进行继续训练,但存在计算开销极为庞大的问题;

2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能,但会引发基座模型原有代码能力的严重灾难性遗忘问题。

因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。

方法

1. MoE 定义





2. MultiPL-MoE

MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由,结合了共享专家和一种新的路由权重归一化方法,以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE,我们采用专家选择路由机制,将输入作为上下文连贯的分段,使专家能够捕捉语法结构和一些篇章级的特征。



图 1 MutilPL-MoE 的整体架构

2.1 Token-level MoE





2.2 Segment-level MoE













最后,融合 token-level MoE 和 segment-level MoE 的第 l 层输出为:



2.3 损失函数

通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。

(1) next token prediction loss



(2) load balance loss



最终的优化目标为:



实验结果

实验结果表明,MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能,即显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘。同时,我们也注意到,除基础模型 Qwen1.5 外,基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能,远远低于其他语言。



图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中,Python,Java,C++ 代表高资源语言,Rust,Go,Ruby 代表低资源语言。

结语

本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE,它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性,并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

云舟史策
2025-10-28 07:46:55
采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

夜深爱杂谈
2025-11-08 20:27:12
华人借证开店要小心啦! 意大利严查已有两家店铺被关闭

华人借证开店要小心啦! 意大利严查已有两家店铺被关闭

椰青美食分享
2025-11-10 02:33:02
1983年一老人微服私访被打,黑老大:我就是法!公安局长连夜跳楼

1983年一老人微服私访被打,黑老大:我就是法!公安局长连夜跳楼

阿胡
2024-02-01 13:20:35
5次射门+造6次机会,阿尔瓦雷斯当选马竞vs莱万特全场最佳

5次射门+造6次机会,阿尔瓦雷斯当选马竞vs莱万特全场最佳

懂球帝
2025-11-09 03:50:06
格力电器的前董事长,绝想不到格力在董明珠管理下会成现在这样了

格力电器的前董事长,绝想不到格力在董明珠管理下会成现在这样了

股灾亲历者
2025-11-09 20:39:35
韩国停用汉字50年,从硬气断根到跪求恢复,追悔莫及想回头

韩国停用汉字50年,从硬气断根到跪求恢复,追悔莫及想回头

华山穹剑
2025-11-09 20:45:22
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
汪峰万万没想到!婚姻里一向不吃亏的自己,竟然拿捏不住章子怡了

汪峰万万没想到!婚姻里一向不吃亏的自己,竟然拿捏不住章子怡了

小娱乐悠悠
2025-11-06 09:53:48
泽连斯基:波克罗夫斯克城内有314名俄军士兵

泽连斯基:波克罗夫斯克城内有314名俄军士兵

山河路口
2025-11-08 13:01:04
武松明明爱上了玉兰,为何又要杀了她?只有潘金莲把他彻底看透

武松明明爱上了玉兰,为何又要杀了她?只有潘金莲把他彻底看透

耳东文史
2025-11-10 00:03:27
根据邵佳一的技战术打法和用人标准,国足新首发11人预测如下

根据邵佳一的技战术打法和用人标准,国足新首发11人预测如下

男足的小球童
2025-11-09 10:13:57
半挂卡车上高速后7天没下,警方察觉不对沿途搜索,打开车门后吐了

半挂卡车上高速后7天没下,警方察觉不对沿途搜索,打开车门后吐了

罪案洞察者
2025-10-29 10:41:32
上海宝妈赢麻了!晒出“天花板”级生育津贴,高达216701.80元…

上海宝妈赢麻了!晒出“天花板”级生育津贴,高达216701.80元…

火山诗话
2025-11-08 14:59:11
突然大反转!深夜利好!A股爆了!

突然大反转!深夜利好!A股爆了!

龙行天下虎
2025-11-09 23:40:37
今年流行的驼色大衣穿搭,教你提升时尚感!

今年流行的驼色大衣穿搭,教你提升时尚感!

小巍解说
2025-11-09 23:39:24
两性关系:为什么73岁以后,女人比男人更希望这些,你真的懂了吗

两性关系:为什么73岁以后,女人比男人更希望这些,你真的懂了吗

荷兰豆爱健康
2025-11-10 02:29:52
创业只用30万,广东90后硬刚大疆,干出1200亿独角兽

创业只用30万,广东90后硬刚大疆,干出1200亿独角兽

毒sir财经
2025-11-08 23:23:36
2016年他们租养鸡场盗墓,2300万卖给香港人,望风的都分了70万

2016年他们租养鸡场盗墓,2300万卖给香港人,望风的都分了70万

收藏大视界
2025-11-03 20:44:38
周末,突发大利好!!!

周末,突发大利好!!!

风风顺
2025-11-09 21:29:21
2025-11-10 03:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

本地
手机
家居
艺术
教育

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

愈演愈烈!iPhone半夜“偷拨号”持续发酵,疑似iOS26的锅?

家居要闻

现代自由 功能美学居所

艺术要闻

探索风情万种的高级美,优雅与野性并存!

教育要闻

收藏!2026艺术类文化课录取分数线要求

无障碍浏览 进入关怀版