网易首页 > 网易号 > 正文 申请入驻

跳过88%专家,保住97%性能!MoE推理的正确玩法| CVPR’26

0
分享至


新智元报道

编辑:LRST

【新智元导读】CVPR新研究MoDES让多模态大模型推理效率飙升:无需训练,智能跳过88%冗余专家,仍保留97%性能,彻底打破「跳得多必掉点」旧认知,推理速度提升2倍。

多模态大模型正在迅速走向大规模。为了处理更高分辨率图像、更长视频序列以及更复杂跨模态任务,模型参数规模持续增长。

Mixture-of-Experts(MoE)架构成为主流选择:通过只激活部分专家网络,试图在保持模型规模的同时降低计算开销。

但问题在于——即便采用 MoE,多模态模型的推理成本依然很高。

每个token仍需与多个专家交互,大量计算发生在「并非真正关键」的专家上。MoE 的确避免了「全参数全激活」,却没有真正做到「按需计算」。

在视频理解或长上下文场景下,这种冗余会被迅速放大,成为推理瓶颈。

于是,一个自然问题出现:能否在推理阶段动态跳过冗余专家?

已有expert skipping方法在纯文本LLM上取得了一定效果,但一旦直接应用于多模态模型,往往出现明显性能下降。跳得越多,掉点越严重,高比例skipping下甚至直接崩溃。

来自香港科技大学、北航、北大等单位的研究团队提出了MoDES(Multimodal Dynamic Expert Skipping),系统分析了多模态MoE skipping失效的根本原因,并给出了一套面向多模态MoE的training-free动态专家跳过框架,该工作已被CVPR接收


论文地址:https://arxiv.org/pdf/2511.15690

代码地址:https://github.com/ModelTC/MoDES

在Qwen3-VL-MoE-30B上,MoDES在跳过88%专家的情况下,仍保留97.33%原始性能,同时带来显著推理加速,打破了一个长期存在的共识:高比例专家跳过必然带来不可接受的性能损失。


图表1 不同skipping比例下MoDES与现有方法在13个基准上的性能对比

MoDES并没有直接提出新规则,而是首先回答一个更基础的问题:为什么为文本模型设计的skipping方法,在多模态MoE上会明显失效?

论文给出了两个关键观察。

不同层专家对最终输出的全局贡献高度不均衡:现有skipping方法通常仅依据当前层的routing概率判断专家是否重要,但忽略了一个关键事实:不同层专家对最终预测分布的影响差异巨大。

实验表明,当减少routed experts数量时,浅层专家的减少会导致更显著的性能下降,而深层专家的影响相对较小。这意味着浅层误差会在后续层逐步放大,从而引发性能崩溃。

换言之,专家的重要性不仅是「局部routing概率」的问题,更是「对最终输出影响程度」的问题。如果采用层无关的统一规则,很容易在关键浅层跳得过多。相关现象如图表2所示。


图表2 不同层范围减少专家后的性能变化

文本token与视觉token行为存在显著差异:论文进一步分析了模态差异。通过对FFN前后token表征的可视化与统计分析,研究者发现:文本token在FFN中的更新幅度明显更大;视觉token与专家权重更接近正交;专家对视觉token的影响相对较小。

这意味着,专家对文本推理更关键,而对视觉token存在更高冗余。如果skipping策略不区分模态,很可能误删对文本理解至关重要的专家,导致性能下降。相关分析见图表3。


图表3 文本与视觉token在FFN中的差异分析

这两个观察共同指向一个核心结论:多模态MoE的专家重要性,需要同时具备output-aware(输出感知) 与modality-aware(模态感知)。

输出感知+模态感知

动态skipping框架

基于上述insight,MoDES构建了一个输出感知、模态感知的动态专家跳过机制,其整体流程如图表4所示。


图表 4 MoDES框架图

首先,MoDES在原始routing概率基础上引入层级全局重要性因子,用于刻画第

l
层专家对最终输出分布的整体影响。

该因子通过离线校准获得,即比较移除该层专家前后模型输出分布的差异,从而量化该层专家的全局贡献。新的专家重要性分数由局部routing概率与全局因子共同决定。这样一来,浅层专家会被更保守地保留,而深层专家可以更激进地跳过,实现真正的output-aware skipping。

其次,MoDES引入双模态阈值机制,为文本token与视觉token分别设定不同的skipping阈值。通过模态区分,使专家跳过决策更加精细化,避免误删关键专家。

最后,为高效寻找最优阈值组合,MoDES设计了frontier search算法,利用性能与 skipping比例之间的单调性,将搜索复杂度从降为,在保证结果一致性的同时将搜索时间缩短约45倍。


图表5 校准与搜索时间对比

实验结果

在主实验中,QVGen在W4A4/W3A3在大规模实验中,MoDES在多个主流多模态MoE模型上进行了系统评估。

在Kimi-VL-A3B-Instruct上,当跳过83%专家时,多数现有expert skipping方法平均性能下降超过11%,而MoDES仍然保留96.25%原始性能(见图表 6)。这一结果说明,高比例skipping并不必然导致性能崩溃,只要专家的重要性建模足够准确,冗余专家可以被有效识别。

在更大规模的Qwen3-VL-MoE-30B-A3B-Instruct上,MoDES的优势更加明显。在跳过88%专家的条件下,MC-MoE仅保留86.66%性能,DiEP保留85.30%,而MoDES仍然能够保留97.33%原始性能(见图表 7)。在13个图像与视频理解基准上,MoDES均取得最优或接近最优表现。


图表6 Kimi-VL不同skipping比例性能对比


图表7 跨backbone性能对比

这一结果表明,高比例skipping并非不可行,关键在于是否能够正确建模专家对最终输出的全局贡献以及不同模态token的行为差异。

推理效率与量化兼容性

在实际推理测试中,MoDES在H200 GPU上实现了显著加速。在Prefill阶段获得约2×加速,在Decoding阶段仍有约1.2×提升(见图表 8)。由于MoDES为training-free方法,推理阶段不引入额外计算开销,因此加速效果更加稳定。

此外,MoDES与混合精度量化具有良好兼容性。在低比特量化条件下仍能保持较高性能,说明skipping与量化可以从结构与数值两个层面形成互补,共同降低多模态MoE的计算成本。


图表8 推理速度对比。(上)Qwen3-VL;(下)Kimi-VL。

总结

MoDES的核心贡献在于:提出了一种真正output-aware、modality-aware的多模态专家跳过机制。

通过显式建模不同层专家对最终输出分布的全局贡献,以及不同模态token在专家网络中的更新特性,MoDES证明了一件重要的事情:即便跳过80%以上的专家,只要跳得足够「聪明」,模型性能依然可以稳定保持。

在多模态模型规模持续扩大的背景下,这种基于输出影响建模的skipping思路,为大模型推理效率优化提供了一条更加稳健且可落地的路径。

参考资料:

https://arxiv.org/pdf/2511.15690

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西尔斯基官宣:乌军挺过致命冬季,俄军三个月折损近9.3万

西尔斯基官宣:乌军挺过致命冬季,俄军三个月折损近9.3万

老马拉车莫少装
2026-03-03 00:37:50
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
笑麻了!当家里的小朋友有了微信,网友:一天得问十几遍

笑麻了!当家里的小朋友有了微信,网友:一天得问十几遍

夜深爱杂谈
2026-02-25 23:21:48
乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

史政先锋
2026-03-04 19:54:52
上海女子怀孕5个月查出癌症,婆婆凑了400万为她治病,不料,她怕伤到胎儿,坚持先要生下孩子,结局令人泪目

上海女子怀孕5个月查出癌症,婆婆凑了400万为她治病,不料,她怕伤到胎儿,坚持先要生下孩子,结局令人泪目

二胡的岁月如歌
2026-02-04 18:45:04
欧美集体退场,唯有中国死磕到底!我们为何敢赌上百年的国运?

欧美集体退场,唯有中国死磕到底!我们为何敢赌上百年的国运?

他走我心既空
2026-03-04 02:11:59
女子面试后收到感谢信和30元交通补助又被录用,公司:无论是否通过面试都能收到,老板很尊重求职者和员工

女子面试后收到感谢信和30元交通补助又被录用,公司:无论是否通过面试都能收到,老板很尊重求职者和员工

极目新闻
2026-03-05 14:46:04
河北“二婚黄花大闺女”的瓜

河北“二婚黄花大闺女”的瓜

皮蛋儿电影
2026-02-28 13:45:08
费利佩:很荣幸开启国安新篇章,一起创造属于北京的精彩未来

费利佩:很荣幸开启国安新篇章,一起创造属于北京的精彩未来

懂球帝
2026-03-05 12:15:45
美国犹太人资本巨头贝莱德,已经全面渗透中国市场

美国犹太人资本巨头贝莱德,已经全面渗透中国市场

混沌录
2026-02-09 23:17:09
外媒称伊朗导弹快打光了,特朗普说伊朗将彻底战败!这戏才刚开始

外媒称伊朗导弹快打光了,特朗普说伊朗将彻底战败!这戏才刚开始

阿芒娱乐说
2026-03-06 01:23:40
美国中东乱局反送神助攻!中国两大行业将迎国运级爆发

美国中东乱局反送神助攻!中国两大行业将迎国运级爆发

次元君情感
2026-03-05 07:06:19
突然火了,每天几百人对着浙江一口井喊话!几秒后,出现神奇一幕

突然火了,每天几百人对着浙江一口井喊话!几秒后,出现神奇一幕

都市快报橙柿互动
2026-03-06 00:41:00
这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

洲洲影视娱评
2026-03-02 21:06:50
26岁史上最年轻博导,原来取的是马克思的真经

26岁史上最年轻博导,原来取的是马克思的真经

基本常识
2025-12-14 23:09:22
2026胡润全球富豪榜出炉:字节跳动张一鸣以5500亿元成为中国首富 马斯克以5.5万亿元蝉联世界首富宝座

2026胡润全球富豪榜出炉:字节跳动张一鸣以5500亿元成为中国首富 马斯克以5.5万亿元蝉联世界首富宝座

财联社
2026-03-05 15:35:05
美国威胁切断与西班牙贸易关系 西班牙首相回应:西班牙拒绝战争

美国威胁切断与西班牙贸易关系 西班牙首相回应:西班牙拒绝战争

国际在线
2026-03-05 15:25:59
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
武汉房价太荒唐!买家宁丢2万定金,也不肯买这套房

武汉房价太荒唐!买家宁丢2万定金,也不肯买这套房

流苏晚晴
2026-03-05 18:55:26
小米Tag官网上架:10g重量,售价69元起

小米Tag官网上架:10g重量,售价69元起

安卓中国
2026-03-03 11:47:07
2026-03-06 05:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14647文章数 66653关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗:已作好准备应对美国地面行动

头条要闻

伊朗:已作好准备应对美国地面行动

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

家居
健康
教育
时尚
亲子

家居要闻

奶白柔境 闲卧享时光

转头就晕的耳石症,能开车上班吗?

教育要闻

华南理工大学公开招聘专职辅导员!

显白的奶茶色,穿出春日味道

亲子要闻

去挖煤了?娃穿一天的衣服能脏到哪种程度?网友:扫地机都多余买

无障碍浏览 进入关怀版