网易首页 > 网易号 > 正文 申请入驻

复旦&通义万相提出ProMoE,显式路由引导打破DiT MoE scaling瓶颈

0
分享至



混合专家架构(Mixture-of-Experts,MoE)在扩展模型容量的同时保持了计算效率,在大语言模型(LLM)的发展中发挥了巨大作用。然而,现有方法将 MoE 应用于 Diffusion Transformer(DiT)时,却发现收益非常有限,无法复刻 MoE 在 LLM 中的成功。

为什么同样的架构,跨界到视觉生成领域就「水土不服」了?

近期,来自复旦大学、阿里通义万相Wan Team、浙江大学和香港大学的研究团队指出,视觉 Token 的高度冗余性和功能异质性阻碍了视觉 MoE 中专家的专业化(specialization)。为此,他们提出了 ProMoE,一种带有显式路由引导的两步路由 MoE 框架。相关论文已被 ICLR2026 接收,第一作者为复旦大学博士卫昱杰。



  • 论文标题:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
  • 论文地址:
  • https://arxiv.org/abs/2510.24711
  • 代码:
  • https://github.com/ali-vilab/ProMoE

视觉 Token 与语言 Token 的差异

为了探究 MoE 在 DiT 中收益不明显的原因,研究团队发现,视觉 Token 具有两个独特的属性,导致传统的隐式路由分配策略产生次优的效果:

  • 高度空间冗余性(High Spatial Redundancy):离散的文本 Token 语义高度浓缩且差异明显,而连续的图像 Patch(视觉 Token)在空间上高度耦合,存在大量的冗余信息,导致视觉 MoE 中的专家往往学到同质化的特征。

  • 功能异质性(Functional Heterogeneity):扩散模型普遍依赖无分类器引导(CFG)技术。这就导致输入 Token 天然分为两派:条件 Token 和无条件 Token。标准 MoE 范式对它们一视同仁、同时分配,忽略了它们不同的功能角色。

图 1:(a)我们从 110 个 ImageNet 类别中随机抽取 1k 个中间层 Token,进行 10 簇 k-means 聚类(以颜色区分)。以类别名称 / 标签作为输入时,LLM Token 形成紧凑、分离良好的簇,语义密度高,而视觉 Token 则较为分散。这种差异可以用类间距离与类内距离的比值来量化(19.283 ≫ 0.748)。(b)我们对每个 MoE 层的专家权重矩阵进行奇异值分解,并计算由其左前 k 个奇异向量张成的子空间的平均相似度来衡量专家间的多样性。引入路由引导(我们的方法)可以增强专家间的多样性。

ProMoE:两步路由与显式语义路由引导

MoE 的核心原则是专家专业化(Expert Specialization),即确保每个专家都能获取集中且不重叠的知识。为了在视觉模型中实现「专家内一致」和「专家间多样」,ProMoE 引入了两步路由器(Two-Step Router)和路由对比学习(Routing Contrastive Learning)。

两步路由器

  • 第一步:条件路由(Conditional Routing)

路由器首先根据 Token 的功能角色进行硬路由分配。无条件图像 Token(来源于 null conditioning 下的图像 Patch)被直接分配给专门的无条件专家(Unconditional Experts)进行处理。而条件图像 Token 则进入下一步,交由标准的路由专家(Routed Experts)进行处理。这种机制实现了专家的功能隔离。

  • 第二步:原型路由(Prototypical Routing)

对于条件图像 Token,ProMoE 引入了一组可学习的「原型」(Prototypes),每个原型对应一个特定专家。原型路由在隐空间中计算 Token 与各个 Prototype 之间的余弦相似度,并选择 identity function 作为激活函数得到路由分数,分数较高的 Token 会被分配给对应的专家。

显式语义路由引导:路由对比学习(Routing Contrastive Learning)

为了显式增强原型路由的语义引导,ProMoE 提出了一种无需手动标注的路由对比损失(Routing Contrastive Loss,RCL)。在训练过程中,RCL 会产生两种影响:

  • 拉近:将 Prototype 拉向分配给它的 Token 集合的质心,确保同一个专家处理的 Token 是语义相似的。

  • 将 Prototype 推离其他专家处理的 Token 集合的质心,鼓励不同专家之间形成差异化,增强多样性。

同时,实验发现 RCL 中的「推开」操作在语义层面上天然起到了负载均衡的作用,比传统的负载均衡损失更加灵活且有效。



图 2:ProMoE 架构概览。输入 Token 通过条件路由被分为无条件 Token 子集和条件 Token 子集。无条件图像 Token 由无条件专家处理。条件图像 Token 通过基于可学习原型的原型路由进行分配。路由对比学习显式增强了原型路由中的语义引导。

算法伪代码如下:



实验结果

模型配置



与 Dense Model 的对比

ProMoE 在各种规模和设置下均稳定超越了稠密模型。亮眼的是,参数量仅 1.063B 的 ProMoE-L-Flow,凭借更少的激活参数,超越了计算量更大的 Dense-DiT-XL-Flow。





与 SOTA MoE Model 的对比

ProMoE 超越现有的视觉 MoE 方案。特别是,用 1.063B 超越了拥有 16 个专家,1.846B 的 DiffMoE。



Text-to-Image 验证

在 GenEval bench 中,ProMoE 在所有子任务上优于标准的 Token-Choice MoE 模型,展现出一定的泛化能力。



可视化结果

Class-to-image generation



Text-to-image generation



收敛性分析

训练曲线显示,ProMoE 的收敛速度明显快于稠密模型和现有 MoE 模型。



Scaling 实验

ProMoE 展现出一定的扩展潜力。随着模型尺寸从 Base 扩展至 XL,以及专家数量从 4 逐步增加到 16,ProMoE 的生成性能均呈现出稳定的提升。



消融实验



总结

通过分析语言和视觉 Token 之间的差异,ProMoE 提出了一种带有显式路由引导的 MoE 框架。通过巧妙设计的条件路由、原型路由以及路由对比学习机制,ProMoE 用更少的激活参数超越了 Dense Model 以及现有 MoE 方法。这为如何在大规模扩散模型中高效引入 MoE 架构提供了一套可能的开源范式。

更多技术与实验细节,欢迎阅读原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
争端升级,美国指责中国扣船,话音刚落,中方一句话让美下不来台

争端升级,美国指责中国扣船,话音刚落,中方一句话让美下不来台

郭蛹包工头
2026-03-30 19:26:38
男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

洪观新闻
2026-03-31 14:40:02
直降3519元!新iPhone 又降价了,这次真的离谱啊

直降3519元!新iPhone 又降价了,这次真的离谱啊

科技堡垒
2026-03-31 10:56:16
2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

就一点
2026-03-28 17:42:50
巴拿马接到中方通知,156亿赔款远远不够,港口管控再升级

巴拿马接到中方通知,156亿赔款远远不够,港口管控再升级

智慧生活笔记
2026-03-30 16:54:57
绝对“钞能力”!哈兰德用不到一周工资,入手限量LV联名迈巴赫!

绝对“钞能力”!哈兰德用不到一周工资,入手限量LV联名迈巴赫!

田先生篮球
2026-03-30 21:35:46
我去出差发现老公关了家里监控,悄悄飞回国,推开家门我愣住了

我去出差发现老公关了家里监控,悄悄飞回国,推开家门我愣住了

青青会讲故事
2025-10-02 16:25:03
油价调整最新消息

油价调整最新消息

掌上常熟
2026-03-30 23:34:34
韩媒:中国队也被非洲球队“教育”了,被喀麦隆的节奏彻底压制

韩媒:中国队也被非洲球队“教育”了,被喀麦隆的节奏彻底压制

懂球帝
2026-03-31 16:48:25
从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

阿胡
2026-03-30 12:52:29
中国U19vs澳大利亚U19:魏祥鑫首发,苗润东、杨铭锐替补

中国U19vs澳大利亚U19:魏祥鑫首发,苗润东、杨铭锐替补

懂球帝
2026-03-31 18:21:07
中印西山口白刃战:印度弯刀对上我军三棱刺,126名印军无一生还

中印西山口白刃战:印度弯刀对上我军三棱刺,126名印军无一生还

棠棣分享
2026-03-22 00:12:09
1228胜场里程碑!41岁勒布朗21+12+10又刷五纪录 有球无球都顶尖

1228胜场里程碑!41岁勒布朗21+12+10又刷五纪录 有球无球都顶尖

颜小白的篮球梦
2026-03-31 12:11:52
这肉再贵也要吃!增强记忆,提高免疫力,保护视力,正大量上市

这肉再贵也要吃!增强记忆,提高免疫力,保护视力,正大量上市

阿龙美食记
2026-03-30 15:32:04
大战一触即发,特朗普准备豪赌

大战一触即发,特朗普准备豪赌

南风窗
2026-03-30 15:29:40
失踪两月黄鹏遗体找到:父母靠搬砖供出的博士,励志没换来圆满!

失踪两月黄鹏遗体找到:父母靠搬砖供出的博士,励志没换来圆满!

小怪吃美食
2026-03-31 16:49:32
医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

健康科普365
2026-03-28 18:20:07
杠上了,国足0比2落后喀麦隆,黄健翔发文再次暗讽董路

杠上了,国足0比2落后喀麦隆,黄健翔发文再次暗讽董路

姜大叔侃球
2026-03-31 15:34:06
传iPhone 17系列国内销量接近2600万台 碾压国产旗舰

传iPhone 17系列国内销量接近2600万台 碾压国产旗舰

CNMO科技
2026-03-31 09:22:06
73比83爆冷输球!女篮霸主惨遭淘汰无缘四强:5大国手成摆设了?

73比83爆冷输球!女篮霸主惨遭淘汰无缘四强:5大国手成摆设了?

篮球快餐车
2026-03-31 02:11:55
2026-03-31 19:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12647文章数 142600关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

数码
艺术
家居
本地
公开课

数码要闻

机构:现货贸易抛盘低端资源承压 渠道低容量DDR4内存条价格下跌逾20%

艺术要闻

石涛『野色册』

家居要闻

新婚爱巢 甜蜜情趣拉满

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版