网易首页 > 网易号 > 正文 申请入驻

全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

0
分享至



大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前,该项研究已被 EMNLP 2025 接收。



  • 论文标题:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 论文链接:https://arxiv.org/abs/2508.19268
  • 代码链接:https://github.com/Eduwad/MultiPL-MoE

背景

现有的通用大模型在代码生成方面已经展示出卓越的能力,然而大量研究表明这些大模型在高资源编程语言(如:Python)与低资源编程语言上(如:Rust)上存在显著的性能差异,后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求,促使人们致力于将广泛的编程语言知识注入 LLM。然而,现有的研究主要存在以下两种问题:

1. 使用多种编程语言的数据对基座模型进行继续训练,但存在计算开销极为庞大的问题;

2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能,但会引发基座模型原有代码能力的严重灾难性遗忘问题。

因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。

方法

1. MoE 定义





2. MultiPL-MoE

MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由,结合了共享专家和一种新的路由权重归一化方法,以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE,我们采用专家选择路由机制,将输入作为上下文连贯的分段,使专家能够捕捉语法结构和一些篇章级的特征。



图 1 MutilPL-MoE 的整体架构

2.1 Token-level MoE





2.2 Segment-level MoE













最后,融合 token-level MoE 和 segment-level MoE 的第 l 层输出为:



2.3 损失函数

通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。

(1) next token prediction loss



(2) load balance loss



最终的优化目标为:



实验结果

实验结果表明,MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能,即显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘。同时,我们也注意到,除基础模型 Qwen1.5 外,基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能,远远低于其他语言。



图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中,Python,Java,C++ 代表高资源语言,Rust,Go,Ruby 代表低资源语言。

结语

本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE,它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性,并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

健康之光
2026-03-25 21:20:05
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

谈史论天地
2026-03-24 15:45:06
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
3月26日俄乌最新:靴子终于落地了

3月26日俄乌最新:靴子终于落地了

西楼饮月
2026-03-26 19:48:54
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

阅微札记
2026-03-26 20:24:44
克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

仰卧撑FTUer
2026-03-26 22:58:07
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

狼叔评论
2026-03-26 17:50:05
2026-03-26 23:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
数码
房产
公开课
军事航空

教育要闻

骂人没有杀伤力?那不是白忙活吗?

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版