网易首页 > 网易号 > 正文 申请入驻

全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

0
分享至



大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前,该项研究已被 EMNLP 2025 接收。



  • 论文标题:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 论文链接:https://arxiv.org/abs/2508.19268
  • 代码链接:https://github.com/Eduwad/MultiPL-MoE

背景

现有的通用大模型在代码生成方面已经展示出卓越的能力,然而大量研究表明这些大模型在高资源编程语言(如:Python)与低资源编程语言上(如:Rust)上存在显著的性能差异,后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求,促使人们致力于将广泛的编程语言知识注入 LLM。然而,现有的研究主要存在以下两种问题:

1. 使用多种编程语言的数据对基座模型进行继续训练,但存在计算开销极为庞大的问题;

2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能,但会引发基座模型原有代码能力的严重灾难性遗忘问题。

因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。

方法

1. MoE 定义





2. MultiPL-MoE

MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由,结合了共享专家和一种新的路由权重归一化方法,以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE,我们采用专家选择路由机制,将输入作为上下文连贯的分段,使专家能够捕捉语法结构和一些篇章级的特征。



图 1 MutilPL-MoE 的整体架构

2.1 Token-level MoE





2.2 Segment-level MoE













最后,融合 token-level MoE 和 segment-level MoE 的第 l 层输出为:



2.3 损失函数

通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。

(1) next token prediction loss



(2) load balance loss



最终的优化目标为:



实验结果

实验结果表明,MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能,即显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘。同时,我们也注意到,除基础模型 Qwen1.5 外,基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能,远远低于其他语言。



图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中,Python,Java,C++ 代表高资源语言,Rust,Go,Ruby 代表低资源语言。

结语

本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE,它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性,并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今天最后一天!浙江天气即将上演反转,气温跌破20℃……

今天最后一天!浙江天气即将上演反转,气温跌破20℃……

FM93浙江交通之声
2025-11-02 06:05:10
韩华海洋宣布停止进口中国大白菜,反制中国制裁措施

韩华海洋宣布停止进口中国大白菜,反制中国制裁措施

我不叫阿哏
2025-11-02 12:57:14
74年毛主席指示释放全部战犯,看过名单后告周恩来:请他们吃顿饭

74年毛主席指示释放全部战犯,看过名单后告周恩来:请他们吃顿饭

南书房
2025-10-03 23:07:06
闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

农村情感故事
2025-10-12 18:26:37
老年人行房最晚到多大年龄?或许很多人想错了!

老年人行房最晚到多大年龄?或许很多人想错了!

深度报
2025-09-11 23:05:16
1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

刘姚尧的文字城堡
2025-11-02 13:04:08
美专家:抗美援朝若让粟裕代替彭德怀领兵,输的更惨!仅凭三点

美专家:抗美援朝若让粟裕代替彭德怀领兵,输的更惨!仅凭三点

南书房
2025-10-26 14:22:44
短剧尺度突破!原配丈夫孕检信息泄露,特殊职业引关注

短剧尺度突破!原配丈夫孕检信息泄露,特殊职业引关注

观察者海风
2025-11-02 14:54:23
黄晓明,在“油”和“去油”之间找到演员之路

黄晓明,在“油”和“去油”之间找到演员之路

后浪电影
2025-11-02 10:08:36
我为什么不想写太子集团的陈志?

我为什么不想写太子集团的陈志?

伢伢复盘
2025-11-02 09:06:28
“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

热风追逐者
2025-10-24 01:15:03
台湾名嘴赖岳谦说,十年前当大陆提出2025年规划时

台湾名嘴赖岳谦说,十年前当大陆提出2025年规划时

老友科普
2025-11-02 14:24:11
江苏省规模较大的二十家医院

江苏省规模较大的二十家医院

王二哥老搞笑
2025-11-02 12:15:14
早上送孩子上学困难?网友:妈求你了,请天假吧

早上送孩子上学困难?网友:妈求你了,请天假吧

夜深爱杂谈
2025-11-01 22:59:47
黄平:我到过印度的贫民窟,那是中国人无法想象的第三世界

黄平:我到过印度的贫民窟,那是中国人无法想象的第三世界

扶苏聊历史
2025-10-31 17:34:04
莫齐抛弃华裔未婚妻,高攀英国公主,岳父没了爵位之后家里一团糟

莫齐抛弃华裔未婚妻,高攀英国公主,岳父没了爵位之后家里一团糟

户外小阿隋
2025-11-02 07:49:56
全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

杨华评论
2025-11-01 19:30:01
大反转!冷空气即将抵达广东!最低温降至13℃!东莞天气……

大反转!冷空气即将抵达广东!最低温降至13℃!东莞天气……

东莞好生活
2025-11-02 09:28:49
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

老曁科普
2025-11-02 14:52:24
著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

鲁中晨报
2025-11-01 19:03:04
2025-11-02 15:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
教育
时尚
健康
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

教育要闻

全国青少年信息奥赛常州考点,江苏优秀学子在此集聚,祝他们好运

推广|| 每天都在穿!这件外套,轻松搞定秋冬所有搭配

核磁VS肌骨超声,谁更胜一筹?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版