网易首页 > 网易号 > 正文 申请入驻

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!

名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。

研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。

目前,研究团队晒出了CoE技术Blog(完整论文即将发布),引起不少网友围观。

翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过

有网友看过这项研究表示:

MoEs中的IsoFLOP层迭代设计,非常奈斯。

还有网友已经开始预测下一代架构了。

CoE究竟长啥样?以下是团队发布的Notion Blog介绍。

CoE专门针对稀疏MoE打造

CoE关键创新在于建立沟通性处理机制,改变了稀疏神经网络的信息处理方式。

具体来说,是通过在单个层的迭代中将MoE输出反馈为多次迭代的输入来实现的。

CoE迭代处理机制可以形式化表示为下面这个样婶儿:

参考DeepSeek-V2的实现,研究团队定义门控机制为如下:

团队介绍,这种设计的好处在于每次迭代的专家选择由前一次迭代的输出决定,形成专家间的依赖关系和更动态的路由机制

而且串行信息可以在迭代过程中累积,实现专家间的直接通信。

实验采取DeepSeek V2架构,在参数规模为500M的MoE模型上使用32K Tok的batch size训练1000步,以此来验证CoE的有效性。

结果CoE在性能、扩展策略、资源效率优化、专家组合自由度、专家使用效率方面具有显著优势。

除了开头所展示的在相似的算力和内存要求下,CoE将loss从1.20下降至1.12,且有更陡峭的下降趋势。

团队进一步在“dense”(专家8选8)模型上也进行了测试,结果证明了串行处理在Sparse MoE上相比Dense模型更有效,CoE是一种专为(细粒度)稀疏混合专家模型(Sparse MoE)设计的方法

采取2次序列化处理并不能显著提升Dense模型性能。

另外,在计算量和效果相似的情况下,CoE可以减小对内存的要求。如下,CoE-2(4/48)的效果与MoE(8/64)相近,但使用更少的总专家数量。loss match的情况下减小了17.6%的内存需求。

团队还对比了在预算相似的情况下,扩展CoE迭代次数和扩展模型层数、扩展专家选择个数的效果,结果扩展CoE迭代次数更优。

CoE-2(8/64),4层 vs MoE(8/64),8层/12层,8层MoE和CoE效果几乎相同,但是对内存要求高72%,即CoE相对节省了42%内存。

团队强调,独立门控机制内残差连接是CoE的关键架构创新,消融研究表明,移除任何组件都会显著降低性能。

更多细节,感兴趣的童鞋可以查看技术报告原文~

谁造的?

CoE由一个5人组成的团队提出。

Zihan Wang是美国西北大学计算机科学专业博士生,本科毕业于中国人民大学高瓴人工智能学院,研究聚焦于基础模型的自主性、效率以及长上下文理解。

Zihan Wang曾在DeepSeek工作过,是ESFT(Expert-Specialized Fine-Tuning)的论文一作。

ESFT通过仅调整与任务相关的部分高效地定制采用MoE,从而在减少资源和存储使用的同时提升效率和性能。

CoE不是Zihan Wang第一次针对DeepSeek搞的“变体”。

之前他还曾基于verl复现了DeepSeek-R1(-Zero)框架——RAGEN (Reinforcement learning AGENt),在GitHub揽星近1k:

Zihan Wang师从Manling Li。Manling Li是西北大学计算机科学系助理教授,此前曾在吴佳俊教授的指导下工作,并得到李飞飞教授的指导。

RAGEN的贡献者名单中也有Manling Li、吴佳俊、李飞飞的身影。

CoE技术报告:http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea
CoE GitHub链接:https://github.com/ZihanWang314/coe
[1]https://x.com/wzihanw/status/1896601518612021709
[2]https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file
[3]https://github.com/deepseek-ai/ESFT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

麦子的篮球故事
2026-03-26 17:33:02
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

界面新闻
2026-03-25 22:29:47
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 18:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
数码
游戏
公开课

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

又一经典最终幻想游戏将停运!开服至今已六年有余

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版