网易首页 > 网易科技 > 网易科技 > 正文

一文看懂MoE的前世今生,大模型的未来它说了算?

0
分享至

出品|网易科技《态度》栏目

作者|薛世轩

编辑|丁广胜

所有的创新都有其现实驱动力。

在互联网巨头的世界,这一驱动力就是成本。

“降本增效”的逻辑贯穿着技术演进的始终,大模型架构也不例外。

目前,大模型的发展已经到了一个瓶颈期,包括被业内诟病的逻辑理解问题、数学推理能力等,想要解决这些问题就不得不继续增加模型的复杂度。

如何平衡大模型的训练难度和推理成本成为摆在各位玩家面前的难题。

MoE模型的日渐成熟为开发者们重新指引了前进的方向——通过改变模型底层架构,换一种耗能低且训练和推理效果好的模型架构进行大模型开发。

一、MoE的前世今生:老树又冒新芽

MoE(Mixture-of-Experts,专家混合),首次出现于1991年的论文Adaptive Mixture of Local Experts中,其前身是“集成学习”(Ensemble Learning),作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,MoE由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。

“分而治之”的核心思想指导下,MoE 使用门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。

通俗来讲,MoE就像复仇者联盟,每个子模型(专家)都是一个超级英雄,门控网络则是尼克·弗瑞,负责协调各个超级英雄,决定在什么情况下召唤哪位英雄。门控网络会根据任务的特点,选择最合适的专家进行处理,然后将各位专家的输出汇总起来,给出最终的答案。

门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的超级英雄会被派遣,为用户提供最专业的服务,而其他超级英雄则原地待命,静待自己擅长的领域到来。这种“稀疏状态”作为混合专家模型的重要优势,进一步提升了模型训练和推理过程的效率。

MoE发展至今,离不开两个研究领域对其所做的巨大贡献:专家作为关键组件与条件计算。

前者让MoEs成为更深层次网络的组成部分,让MoEs可以灵活的作为多层网络中的某个层级存在,实现模型的大规模化与高效率并存;后者通过动态激活或关闭输入每一层级的数据从而实现数据的高效处理。

MoE的加入让整个神经网络系统就像一个大型图书馆,每层都有不同类型的书籍和专业的图书管理员,门控系统(图书馆的智能导引系统)会根据读者的不同需求,将他们引导至最合适的楼层(多层网络中的某一层级),而这一过程也不断根据数据特点进行实时动态处理。

MoE虽然能够高效地进行预训练并且在推理速度上超越密集型模型,但同时也面临一些挑战

稀疏专家模型领域的权威研究人员Barret Zoph、Irwan Bello等人指出,每个encoder(光栅)的专家虽然学习到了一部分token或简单的理论,但decoder(译码器)专家并没有展现出专业化的特征;专家虽训练了一个多语言模型,但是并没有发现某一个专家精通某种单一语言。

简言之,这也道出了目前MoE在微调过程中面临的泛化的困难以及可能出现的过拟合困境。

不过综合来看,大模型结合混合专家模型的方法属于老树发新芽,随着应用场景的复杂化和细分化,大模型越来越大,垂直领域应用更加碎片化,想要一个模型既能回答通识问题,又能解决专业领域问题,MoE无疑是一种性价比更高的选择。

二、拓展?颠覆?MoE与Transformer的“夺嫡之争”

Google于2017年在其论文Attention Is All You Need中首次提出了当下大火的大语言模型——Transformer:主要用于处理序列到序列(Seq2Seq)的任务。虽然它在长距离依赖捕捉与并行化处理等方面具有显著优势,但由于缺乏循环结构,使得要想通过Transformer训练AI大模型需要花费大量算力资源且耗时更长。

以GPT为例,其所使用的Transformer的解码器部分在训练过程中每天约消耗超50万度电力,训练成本更是以万亿美元为单位计数。如此巨额的开销自然不是追求“降本增效”的互联网公司所希冀的。

大模型底层架构的更新已势在必行。

搭载MoE架构的可持续新模型逐渐成为大模型开发者的新宠。

2023年12月,Mistral AI 开源了基于 MoE架构的模型Mixtral 8x7B,其性超越包括 GPT-3.5在内的众多参数更多的模型,显示了MoE架构在大模型研究中的潜力。

据NVIDIA高级研究科学家Jim Fan预测,经过训练的MoE大模型性能很有可能无限接近GPT-4。

不止于此,谷歌基于MoE架构成功开发了GLaM的语言模型;Snowflake采用MoE架构发布了大型语言模型Snowflake Arctic;昆仑万维发布的基于MoE架构的大语言模型“天工2.0/3.0”等等。

实践证明,MoE已经成为高性能AI大模型的必选项。

三、大模型的技术性创新:巨头发难下的无奈之举

AI大模型的迭代离不开高效的算力芯片,而英伟达的市场行为通常能够左右AI领域大模型开发者的策略。

奔走在大模型研发前线的开发者们深谙这一法则。所有鸡蛋不能放在同一个篮子里,既要提防英伟达“坐地起价”,又要着手开发能够进一步“降本增效”的大模型,将主动权重新掌握在自己手中。

这种策略是正确的。

2022年底,受禁售传闻等多因素叠加影响,英伟达中国特供版A100一周内涨价超30%,间接导致定制版A800价格飙升至10000美元以上。而随后发布的H100芯片更是在eBay上被炒到超4万美元一枚,且价格仍一路攀升。

高昂的芯片价格压的大模型公司喘不过来气,是继续承担激增的成本还是从大模型底层架构入手另寻他法成为他们必须进行的抉择。

毋庸置疑的是,他们善用技术,当资本与之抗衡时,技术就成为他们最有力的武器。

要想摆脱大模型训练与研发过程中可能存在的断档问题,开发者能做的只有通过大模型技术层面的持续破壁以对冲成本激增所带来的不稳定因素。

四、MoE:前路坦荡但也风雨交加

2017年,谷歌首次将MoE引入自然语言处理领域,通过在LSTM层之间增加MoE实现了机器翻译方面的性能提升。

2020年,Gshard首次将MoE技术引入Transformer架构中,并提供了高效的分布式并行计算架构。

2021年1月,谷歌的Swtich Transformer和GLaM则进一步挖掘MoE技术在自然语言处理领域中的应用潜力,实现了优秀的性能表现。

2021年6月,V-MoE将MoE架构应用在计算机视觉领域的Transformer架构模型中,同时通过路由算法的改进在相关任务中实现了更高的训练效率和更优秀的性能表现;

2022年,LIMoE作为首个应用了稀疏混合专家模型技术的多模态模型,模型性能相较于CLIP也有所提升。

2023年,Mistral AI发布的Mistral 8x7B模型由70亿参数的小模型组合起来的MoE模型,直接在多个跑分上超过了多达700亿参数的Llama 2。

2024年2月,昆仑万维正式发布了搭载新版MoE架构的大语言模型“天工2.0”,并面向全体C端用户免费开放。同年4月,“天工3.0”正式开启公测。

2024年4月,MiniMax 发布的基于万亿 MoE 模型的abab 6.5可以1秒内处理近3万字的文本,并在各类核心能力测试中接近GPT-4、Claude-3、 Gemini-1.5等世界上领先的大语言模型

……

MoE的征途仍在继续。

它自诞生以来便一路高歌,为大模型开发公司进一步“降本增效”的同时实现了大模型训练成本与训练效率之间的动态平衡。

但任何技术的普及与在地化应用从来并非坦途。

根植于MoE架构底层框架之上的训练复杂性、专家模型设计合理性、稀疏性失真、对数据噪声相对敏感等技术难关也都在制约着MoE架构在大数据模型中的发挥。

尽管AI领域的大模型开发者已经利用MoE架构成功研发了多款高效的大模型工具。但,任何技术都不可避免地掣肘于时代背景与现有知识框架,当新技术的发展触碰到了其自身所能达到的边界,这将会倒逼大模型开发者着眼于更开阔的路径,在创新与突破中实现大模型的技术革新与产品升级。

利用MoE,但不止于MoE。

本文系网易科技报道,更多新闻资讯和深度解析,关注我们。


延伸阅读
相关推荐
热点推荐
不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

阿柒的讯
2025-11-05 22:05:25
王家卫录音风波再升级,李立群评论王家卫根本不懂什么叫宗师,向太称王家卫从不给演员高价“不知道他钱去哪儿了”

王家卫录音风波再升级,李立群评论王家卫根本不懂什么叫宗师,向太称王家卫从不给演员高价“不知道他钱去哪儿了”

大象新闻
2025-11-06 18:58:06
开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

Ck的蜜糖
2025-11-06 10:48:53
官宣!2026年1月物业改革:居委会全程监督,公共收益归业主

官宣!2026年1月物业改革:居委会全程监督,公共收益归业主

春序娱乐
2025-11-04 21:31:03
多名院士提倡:超过60岁的老人,宁可在家做家务,也别出去做这些

多名院士提倡:超过60岁的老人,宁可在家做家务,也别出去做这些

瓜汁橘长Dr
2025-11-02 13:42:14
潘基文致辞 穆虹出席 王晓晖致欢迎辞

潘基文致辞 穆虹出席 王晓晖致欢迎辞

爱看头条
2025-11-06 09:55:05
山姆APP已将商品头图改为实拍图

山姆APP已将商品头图改为实拍图

大象新闻
2025-11-04 18:48:02
重磅发声!坚定看好中国资产重估,明确看好“老经济”!

重磅发声!坚定看好中国资产重估,明确看好“老经济”!

中国基金报
2025-11-06 21:36:09
香港冻结太子集团35亿资产!美英新同步出手,国内却静悄悄?

香港冻结太子集团35亿资产!美英新同步出手,国内却静悄悄?

公子麦少
2025-11-05 20:47:52
刘强东新车亮相,步了雷军后尘!

刘强东新车亮相,步了雷军后尘!

李东阳朋友圈
2025-11-06 14:11:53
揭秘朝鲜“不倒翁”金永南,曾是志愿军留朝鲜,忠心辅佐金家三代

揭秘朝鲜“不倒翁”金永南,曾是志愿军留朝鲜,忠心辅佐金家三代

环球热点快评
2025-11-05 08:53:45
沈伯洋再挑战大陆底线,拉拢数百人举牌示威,中央这次动了真格

沈伯洋再挑战大陆底线,拉拢数百人举牌示威,中央这次动了真格

扶苏聊历史
2025-11-05 16:59:59
当心!近期广东多人确诊!已进入高发期,严重可致心肺衰竭

当心!近期广东多人确诊!已进入高发期,严重可致心肺衰竭

潮州玩家
2025-11-06 21:27:56
贵州农妇反抗猥亵被杀害抛尸用巨石压住,凶手淡定参与找人,一个细节令人起疑

贵州农妇反抗猥亵被杀害抛尸用巨石压住,凶手淡定参与找人,一个细节令人起疑

潇湘晨报
2025-11-06 20:14:16
特朗普回应印度裔马姆达尼当选纽约市长:出乎意料,他得对我客气点;马姆达尼曾称将“对抗”特朗普

特朗普回应印度裔马姆达尼当选纽约市长:出乎意料,他得对我客气点;马姆达尼曾称将“对抗”特朗普

鲁中晨报
2025-11-06 15:31:12
C罗:我如果在英超强队踢一年25球!西甲比沙特容易进球太多!

C罗:我如果在英超强队踢一年25球!西甲比沙特容易进球太多!

氧气是个地铁
2025-11-07 01:39:03
神舟二十号疑遭碎片撞击,3名航天员滞留,空间站能维持6人生活吗

神舟二十号疑遭碎片撞击,3名航天员滞留,空间站能维持6人生活吗

胖福的小木屋
2025-11-05 23:45:40
网红街区墙体垮塌遇难女孩已被安葬,怀孕为不实传言,男友:憧憬和她未来买房结婚

网红街区墙体垮塌遇难女孩已被安葬,怀孕为不实传言,男友:憧憬和她未来买房结婚

极目新闻
2025-11-06 14:07:47
我国楼市的大局已定,未来45%的家庭,或将面临“4大挑战”?

我国楼市的大局已定,未来45%的家庭,或将面临“4大挑战”?

巢客HOME
2025-11-06 05:15:03
导演汪俊也没想到,王家卫录音曝光后,自己竟成了最大的受益人

导演汪俊也没想到,王家卫录音曝光后,自己竟成了最大的受益人

洲洲影视娱评
2025-11-05 17:27:39
2025-11-07 04:43:00

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

家居
亲子
教育
游戏
公开课

家居要闻

别样府院 畅享诗意生活

亲子要闻

让宝宝少咳嗽、让孩子晚近视、为罕见病早行动 进博展商交出儿童健康民生答卷

教育要闻

小升初几何题,难倒了不少小学毕业生

珍惜PS4会免!明年将大幅减少数量 只偶尔提供给PS+

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×