网易首页 > 网易号 > 正文 申请入驻

全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

0
分享至



大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前,该项研究已被 EMNLP 2025 接收。



  • 论文标题:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 论文链接:https://arxiv.org/abs/2508.19268
  • 代码链接:https://github.com/Eduwad/MultiPL-MoE

背景

现有的通用大模型在代码生成方面已经展示出卓越的能力,然而大量研究表明这些大模型在高资源编程语言(如:Python)与低资源编程语言上(如:Rust)上存在显著的性能差异,后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求,促使人们致力于将广泛的编程语言知识注入 LLM。然而,现有的研究主要存在以下两种问题:

1. 使用多种编程语言的数据对基座模型进行继续训练,但存在计算开销极为庞大的问题;

2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能,但会引发基座模型原有代码能力的严重灾难性遗忘问题。

因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。

方法

1. MoE 定义





2. MultiPL-MoE

MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由,结合了共享专家和一种新的路由权重归一化方法,以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE,我们采用专家选择路由机制,将输入作为上下文连贯的分段,使专家能够捕捉语法结构和一些篇章级的特征。



图 1 MutilPL-MoE 的整体架构

2.1 Token-level MoE





2.2 Segment-level MoE













最后,融合 token-level MoE 和 segment-level MoE 的第 l 层输出为:



2.3 损失函数

通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。

(1) next token prediction loss



(2) load balance loss



最终的优化目标为:



实验结果

实验结果表明,MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能,即显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘。同时,我们也注意到,除基础模型 Qwen1.5 外,基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能,远远低于其他语言。



图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中,Python,Java,C++ 代表高资源语言,Rust,Go,Ruby 代表低资源语言。

结语

本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE,它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性,并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
先生,你的不幸是遇到了一位猪一样的队友

先生,你的不幸是遇到了一位猪一样的队友

问道求真
2026-02-01 05:34:22
连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

醉卧浮生
2026-02-01 11:20:02
28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

慧眼看世界哈哈
2026-01-07 11:54:23
2-1爆冷!莱巴金娜掀翻萨巴伦卡首夺澳网冠军!一战创下多项纪录

2-1爆冷!莱巴金娜掀翻萨巴伦卡首夺澳网冠军!一战创下多项纪录

大秦壁虎白话体育
2026-01-31 19:04:42
台积电创办人张忠谋:如果想扼杀中国大陆,中国大陆真的无能为力

台积电创办人张忠谋:如果想扼杀中国大陆,中国大陆真的无能为力

牛牛叨史
2026-02-01 00:13:51
刘雯走秀僵硬翻车,疑似跛脚消极怠工,被嘲与何穗争台步倒数第一

刘雯走秀僵硬翻车,疑似跛脚消极怠工,被嘲与何穗争台步倒数第一

萌神木木
2026-01-31 12:34:20
吴京再次失手,新片上映8天票房1200万,投资血本无归

吴京再次失手,新片上映8天票房1200万,投资血本无归

乐悠悠娱乐
2026-01-31 11:04:02
昨天顿悟,为什么塔利班和伊朗神权也有人支持?

昨天顿悟,为什么塔利班和伊朗神权也有人支持?

修明札记
2026-01-31 11:39:24
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

贵圈真乱
2026-02-01 10:01:34
有哪一瞬间对女朋友彻底失望了?网友:那时,心真的凉透了!

有哪一瞬间对女朋友彻底失望了?网友:那时,心真的凉透了!

夜深爱杂谈
2025-12-24 17:21:24
陈晓版秦始皇嬴政一曝光,观众坐不住了,就这书生气质能演始皇帝

陈晓版秦始皇嬴政一曝光,观众坐不住了,就这书生气质能演始皇帝

春天来了啊
2025-12-16 19:05:22
理想汽车2026年1月交付27668辆汽车

理想汽车2026年1月交付27668辆汽车

IT之家
2026-02-01 10:11:06
央视春晚第三次联排!近十年最强阵容,网友:今年春晚总算有救了

央视春晚第三次联排!近十年最强阵容,网友:今年春晚总算有救了

杨仔述
2026-01-31 18:16:31
赘婿新高度!大布一共千万资产,妻子每月零花钱就百万... 他要学哈里出书了?

赘婿新高度!大布一共千万资产,妻子每月零花钱就百万... 他要学哈里出书了?

英国那些事儿
2026-01-30 23:25:58
认知颠覆,美国移民被合法吃绝户,十年时间,全美移民资产跌9成

认知颠覆,美国移民被合法吃绝户,十年时间,全美移民资产跌9成

孤单是寂寞的毒
2026-01-30 20:19:03
大尺度和谐引玩家不满,任天堂开发商互相甩锅,宝可梦正式道歉

大尺度和谐引玩家不满,任天堂开发商互相甩锅,宝可梦正式道歉

叨叨游戏
2026-01-31 16:37:11
发一张教室女生走光图!

发一张教室女生走光图!

果粉之家
2026-01-30 12:23:03
状元惊艳!火箭复仇独行侠,杜兰特19中6,弗拉格创NBA第一神迹

状元惊艳!火箭复仇独行侠,杜兰特19中6,弗拉格创NBA第一神迹

老侃侃球
2026-02-01 12:02:58
捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

夜深爱杂谈
2026-01-30 18:07:30
2026-02-01 12:35:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142560关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

女子退150多元大衣时不慎寄走奔驰钥匙:配一把6000元

头条要闻

女子退150多元大衣时不慎寄走奔驰钥匙:配一把6000元

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
本地
手机
时尚
公开课

艺术要闻

草书中的“秋风萧瑟”:书法该走专精还是博取之路?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

荣耀扬威欧洲市场,这一成就国产无人能敌

早春绝美cp:九分裤+运动鞋

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版