网易首页 > 网易号 > 正文 申请入驻

Mamba与MoE架构强强联合,Mamba-MoE高效提升LLM计算效率和可扩展性

0
分享至

作为大型语言模型(LLM)基础架构的后起之秀,状态空间模型(State Space Models,SSMs)在序列数据建模领域中已取得了惊人的发展。其中Mamba模型改进了传统的SSM,其通过输入依赖的方式来调整SSM中的参数,允许模型自适应的根据输入数据选择性的传输或遗忘信息,来提高模型在密集型数据上的计算效率。与此同时,Mixture of Experts(MoE)框架也显着改进了基于Transformer的LLM,如何设计更高效的MoE混合策略也成为了LLM研究领域中的潮流方向。

本文介绍一篇来自IDEAS NCBR和华沙大学合作完成的文章,本文作者探索了如何将SSM与MoE结合起来,提出了一种名为MoE-Mamba的框架,MoE-Mamba继承了SSM序列模型的递归计算特性,在推理速度方面相比传统Transformer具有天然优势,同时预测精度优于 Mamba 和 Transformer-MoE。特别的是,MoE-Mamba可以在减少训练steps的情况下达到与普通 Mamba 相同的性能。

论文题目: MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts 论文链接: https://arxiv.org/abs/2401.04081 代码仓库: https://github.com/llm-random/llm-random

一、引言

SSMs模型相比Transformer具有很多优势,例如可并行训练、推理时的线性时间复杂度以及在长上下文任务上的依赖捕获能力。 特别是近期提出的Mamba模型[1],基于选择性的SSM和硬件感知设计在多种语言理解任务上取得了优异的结果,被学术界广泛认为是下一个替代注意力Transformer结构的有力竞争者。Mamba对GPU显存的占用不依赖于上下文长度,因为其反向传播所需的中间状态不会被保存,而是在反向传播期间重新计算,强调了状态压缩的重要性。 此外,专家混合模型MoE[2]被证明可以有效扩展和提升Transformer模型的性能,其可以大幅增加模型的参数数量,而不会对模型推理和训练所需的 FLOP 产生太大影响, 例如近期开源的Mixtral8×7B [3],性能与LLaMa-2 70B相当,但是推理计算量仅为后者的1/6。

本文引入了一种将Mamba与MoE层相结合的模型MoE-Mamba,MoE-Mamba实现了a+b>c的效果,上图展示了MoE-Mamba与其他baseline方法的性能对比效果,可以看到,MoE-Mamba可以在普通Mamba的基础上实现对模型训练步骤缩减的效果。如上图黑色虚线所示,MoE-Mamba在减少2.2倍训练steps的情况下达到了与普通Mamba相同的性能。后续的其他实验也表明,MoE-Mamba拥有大规模扩展模型参数规模的潜力。

二、本文方法

尽管 Mamba 的主要底层机制与 Transformer 中使用的注意力机制有很大不同,但 Mamba 仍然保留了 Transformer 模型的层次结构(即块叠加)。例如包含一层或多层的相同块依次堆叠,每一层的输出会被汇聚到残差信息流中再送入到下一个块中, 残差流的最终状态随后被用于预测语言建模任务中的下一个token。下图展示了这些架构的细节对比,从左到右分别是vanilla Transformer、MoE-Transformer、Mamba、MoE-Mamba。

本文提出的MoE-Mamba充分利用了前两种架构的兼容性,例如,在原有Mamba结构的基础上仿照MoE-Transformer将两个mamba块中的其中一个替换成一个可选择的MoE块。这种将mamba层与MoE交错设置的模式可以有效地将序列的整个上下文集成到mamba块的内部表示中,从而将其与MoE层的条件处理分开。

此外,本文作者认为如果将Mamba块和MoE块在局部层的范围内进行并行执行也是一个非常有前景的改进方向,如上图左侧展示了一种并行的Mamba+MoE 架构,右侧展示了Mamba Block的构成。如果将Mamba Block中的输出投影也替换为MoE,模型可以选择更少的模块来匹配当前输入计算的需要,也能实现与原始Mamba架构相当的效果。当然,也可以进一步将MoE替换Conv Projection层来进一步减少计算量。

三、实验效果

在本文的实验部分,作者比较了5种不同的设置:vanilla Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。为了保证 Mamba 和本文MoE-Mamba模型中每个token的活动参数数量大致相同,作者将每个MoE前馈层的参数量进行了缩减。 不包括嵌入层和非嵌入层,所有模型的每个 token 大约需要访问 26M 个参数,训练数据集使用C4,整体的训练量为大约6.5B个token和10万个训练steps。

上表展示了上述几种对比模型的训练效果,可以看到,MoE-Mamba 比普通 Mamba 模型有了显着的改进。值得注意的是,MoE-Mamba 只需 46% 的训练steps即可达到与 vanilla Mamba 相同的性能。

MoE中的专家数量是MoE-Mamba中的一个重要超参数, 为了评估Mamba能否随着专家数量的增加而扩展,作者在下图绘制了模型在不同专家数量情况下的运行情况,并且加入了Mamba 和 Mamba-MLP(后者相当于具有单个专家的 MoE-Mamba)作为参考。上表展示了模型在10万训练steps之后的结果,结果表明,MoE-Mamba可以很好的适应专家数量的变化,如果专家数量设置为8或超过8,MoE-Mamba可以获得比普通Mamba模型更好的最终性能。

四、总结

本文提出了一种将专家混合MoE技术与Mamba架构进行集成的模块,即MoE-Mamba。基于并行计算的天然优势,Mamba减轻了大模型中复杂循环顺序性质的影响,并且对硬件进行感知来实现参数扩展。 Mamba相比普通注意力机制Transformer解决了序列模型中效率和有效性之间的基本权衡,强调了状态压缩的重要性。将Mamba与高度稀疏的MoE前馈层交错设置可以实现更高推理效率的LLM,但目前的组合方式仍然非常简单,作者也探索了一种局部并行的Mamba+MoE架构以实现更高的预测准确率和更稀疏的推理效果。 期望后续有更多基于条件计算与状态空间模型技术相结合的技术出现,作者认为这条道路将能够更有效地扩展到更大的语言模型中。

参考

[1] Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[J]. arXiv preprint arXiv:2312.00752, 2023.

[2] Sanseviero, O., Tunstall, L., Schmid, P., Mangrulkar, S., Belkada, Y., and Cuenca, P. Mixture of experts explained, 2023. URL https://huggingface.co/blog/moe.

[3] Mistral. Mixtral of experts, Dec 2023. URL https://mistral.ai/news/mixtral-of-experts/.

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一变第四!曼联前锋离队成疑,夏天引援力度,取决于卡里克

第一变第四!曼联前锋离队成疑,夏天引援力度,取决于卡里克

嗨皮看球
2026-02-23 18:51:50
放弃华为百万年薪,34岁高龄参军入伍,如今成为国家栋梁之材!

放弃华为百万年薪,34岁高龄参军入伍,如今成为国家栋梁之材!

用冷眼洞悉世界
2026-02-21 10:25:00
特朗普遭背刺,向全球宣布一件与中国有关大事,中方:日本没资格

特朗普遭背刺,向全球宣布一件与中国有关大事,中方:日本没资格

娱乐的宅急便
2026-02-23 22:33:42
在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

千秋文化
2026-02-19 10:43:29
纽约时报:谷爱凌就像最完美最先进的人工智能,具备神奇运算能力

纽约时报:谷爱凌就像最完美最先进的人工智能,具备神奇运算能力

杨华评论
2026-02-23 15:39:42
陈俊菘2-3惜败张本智和无缘32强!两局因保守输球,还是太年轻!

陈俊菘2-3惜败张本智和无缘32强!两局因保守输球,还是太年轻!

篮球资讯达人
2026-02-23 14:15:16
春节假期发现:越是有钱的亲戚,越是冷漠

春节假期发现:越是有钱的亲戚,越是冷漠

洞见
2026-02-23 20:35:42
上海高速,司机突然四肢瘫软,120因拥堵无法抵达

上海高速,司机突然四肢瘫软,120因拥堵无法抵达

看看新闻Knews
2026-02-23 19:44:06
2026年公务员政审三代最新标准

2026年公务员政审三代最新标准

深度报
2026-02-22 22:51:50
一口气刷完全集,Netflix顶流美剧回来了

一口气刷完全集,Netflix顶流美剧回来了

天天美剧吧
2026-02-23 17:34:45
总统失联、副总统公开参选!菲律宾政坛彻底崩了

总统失联、副总统公开参选!菲律宾政坛彻底崩了

爱看剧的阿峰
2026-02-23 01:56:13
此情此景,我怎么看着刘亦菲有种生无可恋的感觉

此情此景,我怎么看着刘亦菲有种生无可恋的感觉

情感大头说说
2026-02-23 18:05:22
在质疑声中进步 约克雷斯本赛季已进15球 造阿森纳8年新纪录

在质疑声中进步 约克雷斯本赛季已进15球 造阿森纳8年新纪录

智道足球
2026-02-23 17:49:53
美国海关将从2月24日起停止征收被最高法院裁定违法的关税

美国海关将从2月24日起停止征收被最高法院裁定违法的关税

界面新闻
2026-02-23 15:52:55
陕西多地突降暴雪,高速路段通行缓慢,有车主称从汉中到西安花了7个小时,董宇辉发文:不是不回北京上班,你看西安这大雪

陕西多地突降暴雪,高速路段通行缓慢,有车主称从汉中到西安花了7个小时,董宇辉发文:不是不回北京上班,你看西安这大雪

极目新闻
2026-02-23 18:57:24
莱利:希望主教练的着装能回到西装加领带的时代

莱利:希望主教练的着装能回到西装加领带的时代

北青网-北京青年报
2026-02-23 19:34:04
《熊出没》系列闷声发大财,12部电影或吸金超95亿!出品方华强方特是下一个光线传媒?

《熊出没》系列闷声发大财,12部电影或吸金超95亿!出品方华强方特是下一个光线传媒?

金融界
2026-02-23 15:16:27
鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

家传编辑部
2026-02-22 16:40:47
出乎意料《飞驰人生》特别感谢名单里有王思聪!瘦死的骆驼比马大

出乎意料《飞驰人生》特别感谢名单里有王思聪!瘦死的骆驼比马大

乐悠悠娱乐
2026-02-22 14:43:33
特朗普后手来了,中美局势大变!24小时内,越南收到两个好消息

特朗普后手来了,中美局势大变!24小时内,越南收到两个好消息

奇思妙想生活家
2026-02-23 22:23:38
2026-02-24 00:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

艺术
旅游
时尚
数码
公开课

艺术要闻

十大名家画春,送给春天的你!

旅游要闻

云南昆明海埂大坝,春节游客比海鸥多:游客说好像来了一亿人

今年春天一定要拥有的针织,这样穿减龄又好看!

数码要闻

PC鲜辣报:显卡显存回归8GB配置,微星推芙丽莲联名显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版