一文看懂MoE的前世今生，大模型的未来它说了算？|moe

一文看懂MoE的前世今生，大模型的未来它说了算？

2024-04-29 11:15:44　来源: 态℃

北京举报

分享至

出品｜网易科技《态度》栏目

作者｜薛世轩

编辑｜丁广胜

所有的创新都有其现实驱动力。

在互联网巨头的世界，这一驱动力就是成本。

“降本增效”的逻辑贯穿着技术演进的始终，大模型架构也不例外。

目前，大模型的发展已经到了一个瓶颈期，包括被业内诟病的逻辑理解问题、数学推理能力等，想要解决这些问题就不得不继续增加模型的复杂度。

如何平衡大模型的训练难度和推理成本成为摆在各位玩家面前的难题。

而MoE模型的日渐成熟为开发者们重新指引了前进的方向——通过改变模型底层架构，换一种耗能低且训练和推理效果好的模型架构进行大模型开发。

一、MoE的前世今生：老树又冒新芽

MoE（Mixture-of-Experts，专家混合），首次出现于1991年的论文Adaptive Mixture of Local Experts中，其前身是“集成学习”（Ensemble Learning），作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术，MoE由多个子模型（即专家）组成，每个子模型都是一个局部模型，专门处理输入空间的一个子集。

在“分而治之”的核心思想指导下，MoE 使用门控网络来决定每个数据应该被哪个模型去训练，从而减轻不同类型样本之间的干扰。

通俗来讲，MoE就像复仇者联盟，每个子模型（专家）都是一个超级英雄，门控网络则是尼克·弗瑞，负责协调各个超级英雄，决定在什么情况下召唤哪位英雄。门控网络会根据任务的特点，选择最合适的专家进行处理，然后将各位专家的输出汇总起来，给出最终的答案。

门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型，大部分专家模型处于未激活状态。换言之，只有擅长某一特定领域的超级英雄会被派遣，为用户提供最专业的服务，而其他超级英雄则原地待命，静待自己擅长的领域到来。这种“稀疏状态”作为混合专家模型的重要优势，进一步提升了模型训练和推理过程的效率。

MoE发展至今，离不开两个研究领域对其所做的巨大贡献：专家作为关键组件与条件计算。

前者让MoEs成为更深层次网络的组成部分，让MoEs可以灵活的作为多层网络中的某个层级存在，实现模型的大规模化与高效率并存；后者通过动态激活或关闭输入每一层级的数据从而实现数据的高效处理。

MoE的加入让整个神经网络系统就像一个大型图书馆，每层都有不同类型的书籍和专业的图书管理员，门控系统（图书馆的智能导引系统）会根据读者的不同需求，将他们引导至最合适的楼层（多层网络中的某一层级），而这一过程也不断根据数据特点进行实时动态处理。

MoE虽然能够高效地进行预训练并且在推理速度上超越密集型模型，但同时也面临一些挑战。

稀疏专家模型领域的权威研究人员Barret Zoph、Irwan Bello等人指出，每个encoder（光栅）的专家虽然学习到了一部分token或简单的理论，但decoder（译码器）专家并没有展现出专业化的特征；专家虽训练了一个多语言模型，但是并没有发现某一个专家精通某种单一语言。

简言之，这也道出了目前MoE在微调过程中面临的泛化的困难以及可能出现的过拟合困境。

不过综合来看，大模型结合混合专家模型的方法属于老树发新芽，随着应用场景的复杂化和细分化，大模型越来越大，垂直领域应用更加碎片化，想要一个模型既能回答通识问题，又能解决专业领域问题，MoE无疑是一种性价比更高的选择。

二、拓展？颠覆？MoE与Transformer的“夺嫡之争”

Google于2017年在其论文Attention Is All You Need中首次提出了当下大火的大语言模型——Transformer：主要用于处理序列到序列（Seq2Seq）的任务。虽然它在长距离依赖捕捉与并行化处理等方面具有显著优势，但由于缺乏循环结构，使得要想通过Transformer训练AI大模型需要花费大量算力资源且耗时更长。

以GPT为例，其所使用的Transformer的解码器部分在训练过程中每天约消耗超50万度电力，训练成本更是以万亿美元为单位计数。如此巨额的开销自然不是追求“降本增效”的互联网公司所希冀的。

大模型底层架构的更新已势在必行。

搭载MoE架构的可持续新模型逐渐成为大模型开发者的新宠。

2023年12月，Mistral AI 开源了基于 MoE架构的模型Mixtral 8x7B，其性超越包括 GPT-3.5在内的众多参数更多的模型，显示了MoE架构在大模型研究中的潜力。

据NVIDIA高级研究科学家Jim Fan预测，经过训练的MoE大模型性能很有可能无限接近GPT-4。

不止于此，谷歌基于MoE架构成功开发了GLaM的语言模型；Snowflake采用MoE架构发布了大型语言模型Snowflake Arctic；昆仑万维发布的基于MoE架构的大语言模型“天工2.0/3.0”等等。

实践证明，MoE已经成为高性能AI大模型的必选项。

三、大模型的技术性创新：巨头发难下的无奈之举

AI大模型的迭代离不开高效的算力芯片，而英伟达的市场行为通常能够左右AI领域大模型开发者的策略。

奔走在大模型研发前线的开发者们深谙这一法则。所有鸡蛋不能放在同一个篮子里，既要提防英伟达“坐地起价”，又要着手开发能够进一步“降本增效”的大模型，将主动权重新掌握在自己手中。

这种策略是正确的。

2022年底，受禁售传闻等多因素叠加影响，英伟达中国特供版A100一周内涨价超30%，间接导致定制版A800价格飙升至10000美元以上。而随后发布的H100芯片更是在eBay上被炒到超4万美元一枚，且价格仍一路攀升。