网易首页 > 网易号 > 正文 申请入驻

英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。

正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主」,包括计算机视觉、自然语言处理、语音处理和机器人技术。

第一个挑战Transformer架构的是Mamba,一种新的状态空间模型(SSM),它具有线性时间复杂度,并在多个语言建模任务中超越或与Transformer媲美。

但在不同的视觉任务上,Vision Transformer (ViT) 和卷积神经网络 (CNN) 架构的骨干网络,仍然优于基于Mamba的视觉模型。

而这一次,英伟达高级工程师Ali Hatamizade,宣布被顶会CVPR-2025接受的MambaVision,在视觉任务上超越以往的模型,而设计的关键在于将Mamba和Transformer混合。

正如图1所示,在ImageNet-1K基准上,MambaVision的Top-1准确率和图像处理能力达到了新的Pareto最优点,超越了Mamba、CNN和ViT基于的模型,有时差距非常显著。

在下游任务如目标检测、实例分割以及语义分割中,采用MambaVision作为骨干网络的模型在MS COCO和ADE20数据集上分别超越了同等规模的对比模型。

MambaVision是首个针对计算机视觉应用,结合Mamba和Transformer的混合架构的尝试。主要贡献总结如下:

1 引入了重新设计的适用于视觉任务的Mamba模块,提升了相较于原始Mamba架构的准确性和图像处理能力。

2 系统性地研究了Mamba和Transformer模块的融合模式,并展示了在最终阶段加入自注意力模块,显著提高了模型捕捉全局上下文和长距离空间依赖的能力。

论文链接:https://arxiv.org/abs/2407.08083

在这项工作中,作者系统地重新设计了Mamba模块,使其更加适合视觉任务。

新方法是一种混合架构,结合了新提出的公式(即MambaVision Mixer和MLP)以及Transformer模块。

具体来说,研究了不同的集成模式,比如以等参数方式将Transformer模块添加到早期、中间和最终层,或者每隔l层添加一次。

分析表明,在最终阶段利用多个自注意力模块,可以显著增强捕捉全局上下文和长程空间依赖的能力。

使用混合架构相较于纯Mamba或ViT模型,图像处理能力也得到了显著提升。

网络架构

宏观架构

如图2所示,MambaVision 采用了分层架构,由4个不同的阶段组成。

前两个阶段使用基于CNN的层,负责在较高输入分辨率下进行快速特征提取,而第3和第4阶段则包括了新提出的 MambaVision和Transformer模块。

具体来说,给定一个大小为H×W×3的图像,输入首先被转换为大小为H/4×W/4×C的重叠patch,并通过两层连续 3×3的CNN 层(步幅为2)构成的主干投影到C维嵌入空间中。

在各个阶段之间的下采样模块由一个批归一化的3×3的CNN 层(步幅为2)组成,将图像分辨率减半。

此外,第1和第2阶段中的CNN模块,采用了通用的残差模块结构,具体如下:

其中:Conv3×3 表示3×3卷积操作;BN表示批归一化(Batch Normalization);GELU 是激活函数,表示 Gaussian Error Linear Unit;z^ 是经过卷积、批归一化和激活函数处理后的中间结果;最后,z是通过卷积和批归一化后的结果与原始输入相加,形成残差连接。

这种结构有助于缓解深层网络训练中的梯度消失问题,并提高模型的训练效率。

Mamba架构

Mamba是结构化状态空间序列模型的扩展,能够通过可学习的隐状态 h(t),将一维连续输入x(t)转换为y(t)。该过程的公式如下:

其中,矩阵A,B,C是模型的参数。

离散化:为了提高计算效率,以上公式中的连续参数A,B和C需要转化为离散参数。具体而言,假设时间步长为Δ,可以应用零阶保持规则来获取离散参数:

这种离散化方法能够提升计算效率,便于在实际应用中实现 Mamba 模型。

使用离散参数代入到原方程:

此外,对于一个大小为T的输入序列,可以用带有卷积核K的全局卷积,进一步简化上式中的输出,具体如下

选择性:Mamba 进一步扩展了S4公式,引入了一种选择机制,使得模型能够进行依赖于输入的序列处理。这种机制使得模型的参数B 、C和Δ可以根据输入动态调整,从而滤除无关信息。

设输入X是TxC矩阵,其中 T 为序列长度,C为嵌入维度,第3和第4阶段的第n层输出可以按如下方式计算:

其中,NormNorm和MixerMixer分别表示层归一化和 token 混合模块的选择。

层架构

在不失一般性的情况下,层归一化(Layer Normalization)被用于 NormNorm。给定N层,前 N/2层使用 MambaVision混合模块,而剩余的N/2层使用自注意力机制。

MambaVision 混合模块:重新设计了原始的Mamba混合模块,使其更适合视觉任务。

如图3所示, 首先将因果卷积(causal convolution)替换为常规卷积,因为因果卷积将信息限制在一个方向上,这对视觉任务来说不仅没必要,而且局限性还很大。

此外,添加了一个不包含SSM(状态空间模型)的对称分支,该分支由额外的卷积和SiLU激活函数组成,以补偿由于SSM的顺序约束而可能丢失的内容。

然后,将两个分支的输出拼接起来,并通过最终的线性层进行投影。这种组合确保了最终的特征表示,同时包含顺序信息和空间信息,从而充分利用了两个分支的优势。

注意到,每个分支的输出被投影到一个大小为C/2的嵌入空间(即原始嵌入维度的一半),以保持与原始模块设计相似的参数量。

给定输入Xin,MambaVision混合模块的输出Xout计算如下:

其中,Linear(Cin,Cout)(⋅)表示一个线性层,输入和输出的嵌入维度分别为Cin和Cout;Scan是选择性扫描操作(selective scan);σ是激活函数,这里使用的是Sigmoid线性单元(SiLU;Conv和Concat 分别表示1D卷积和拼接操作。

实验结果

表1展示了ImageNet-1K分类结果。具体来说,与不同类别的模型进行了比较,包括基于卷积的模型、基于 Transformer的模型、卷积-Transformer混合模型以及基于Mamba的模型,并证明新模型在ImageNet Top-1准确率和图像处理能力方面大幅超越了之前的工作。

例如,与流行的模型如ConvNeXt和Swin Transformers相比,MambaVision-B(84.2%)优于 ConvNeXt-B(83.8%)和 SwinB(83.5%),同时在图像处理能力上也有显著优势。

在与基于 Mamba 的模型比较时也观察到了类似的趋势。具体来说,尽管MambaVision-B(84.2%的图像处理能力显著更高,但仍优于 VMamba-B(83.9%)。

与同等规模的模型相比,MambaVision 型变体的FLOPs远低于它们。例如,MambaVision-B 的GFLOPs比 MaxViT-B 少了56%。

表2展示在MS COCO数据集上的目标检测和实例分割结果。

具体来说,训练了不同检测尺寸的模型,以进一步验证 MambaVision 不同场景下的有效性。

通过简单的Mask-RCNN检测头,预训练的MambaVision-T骨干网络,超过了 ConvNeXt-T和 Swin-T模型。

使用Cascade Mask-RCNN网络时,MambaVision-T、MambaVision-S和MambaVision-B都超过了竞争对手。

表3展示了在ADE20K数据集上的语义分割基准测试。

对于这些实验,使用了 UPerNet,以便与其他模型进行比较。

观察到,MambaVision 模型在不同变体下超越了同等规模的竞争模型。

例如,MambaVision-T、MambaVision-S 和 MambaVision-B分别在mIoU上超越了Swin-T、Swin-S和Swin-B,提升幅度为+0.6、+0.6和+1.0。

尽管没有对下游任务进行大量的超参数调优优化,这些结果仍然证明了MambaVision作为一种有前景的视觉任务骨干网络的可行性,特别是在高分辨率设置下。

消融实验和更多细节请参考原文。

参考资料:

https://arxiv.org/abs/2407.08083

https://x.com/ahatamiz1/status/1894838302450295183

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗布泊惊现神秘干尸,警方侦查后震惊:竟是失踪58年的志愿功臣

罗布泊惊现神秘干尸,警方侦查后震惊:竟是失踪58年的志愿功臣

浩渺青史
2025-11-10 16:19:39
张展硕退赛

张展硕退赛

新京报
2025-11-17 23:08:46
印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

近史博览
2025-09-22 15:47:35
涉及朝阳两个乡!这两街区迎重大规划!

涉及朝阳两个乡!这两街区迎重大规划!

家住朝阳
2025-11-17 18:13:44
她考上乡镇编就分手,两年后我去调研,她作为拟提拔对象想敬我酒

她考上乡镇编就分手,两年后我去调研,她作为拟提拔对象想敬我酒

凯裕说故事
2025-11-17 10:48:06
中国通告全球:黄海中部将连续三天进行实弹射击,不予准入,引发日、美等国高度关注

中国通告全球:黄海中部将连续三天进行实弹射击,不予准入,引发日、美等国高度关注

青风点评
2025-11-16 11:05:11
“电诈恶魔”陈志在逃!起底他与四川网红妻子的奢靡浮沉

“电诈恶魔”陈志在逃!起底他与四川网红妻子的奢靡浮沉

阿燕姐说育儿
2025-11-17 13:36:56
人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

一家说
2025-05-23 15:05:58
钟嘉欣后悔了!放弃林峯嫁丑男的她,花十年时间看穿丈夫真面目

钟嘉欣后悔了!放弃林峯嫁丑男的她,花十年时间看穿丈夫真面目

TVB的四小花
2025-11-17 15:46:31
难顶!南京芳草园,从9.2万/平跌到2.7万/平!

难顶!南京芳草园,从9.2万/平跌到2.7万/平!

黯泉
2025-11-12 12:19:33
G联赛首秀的易建联,首秀的周琦,首秀的杨瀚森,对比之下看差距

G联赛首秀的易建联,首秀的周琦,首秀的杨瀚森,对比之下看差距

篮球看比赛
2025-11-17 11:46:51
王珞丹 这腿,我酸了

王珞丹 这腿,我酸了

小椰的奶奶
2025-11-03 14:33:40
打工皇帝!英格兰薪资公布:第1名意外,凯恩仅第2,第4踢不上球

打工皇帝!英格兰薪资公布:第1名意外,凯恩仅第2,第4踢不上球

小金体坛大视野
2025-11-17 20:23:13
43岁王心凌的“括号臀”又辣又撩,弯腰那一刻,网友:这谁hold得住!

43岁王心凌的“括号臀”又辣又撩,弯腰那一刻,网友:这谁hold得住!

健身迷
2025-10-08 09:57:23
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
现在的4S 店有多惨,午餐就能看出来

现在的4S 店有多惨,午餐就能看出来

autocarweekly
2025-11-17 14:16:49
晚旗报:埃及就萨拉赫、马尔穆什参加非洲杯时间与红军曼城谈判

晚旗报:埃及就萨拉赫、马尔穆什参加非洲杯时间与红军曼城谈判

懂球帝
2025-11-17 21:15:25
中方“正面痛撃”宣言震动日本!国民不安爆棚,政党内斗添焦虑

中方“正面痛撃”宣言震动日本!国民不安爆棚,政党内斗添焦虑

小影的娱乐
2025-11-18 01:36:22
连续两场40+赛季第4人!马卡47+7,乔治34分,双加时送公牛5连败

连续两场40+赛季第4人!马卡47+7,乔治34分,双加时送公牛5连败

无术不学
2025-11-17 12:49:48
机关算尽太聪明,离婚13年后再看车晓李兆会,胜者早就不言而喻

机关算尽太聪明,离婚13年后再看车晓李兆会,胜者早就不言而喻

小熊侃史
2025-11-18 00:15:46
2025-11-18 03:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13890文章数 66259关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了 日本国内集体破大防

头条要闻

该聊聊琉球问题了 日本国内集体破大防

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

游戏
本地
房产
健康
艺术

魔坛节奏丨魔兽操作之神,Happy 4-3力克浪漫夺得少帅杯冠军

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

血液科专家揭秘白血病七大误区

艺术要闻

惊艳!全球百大美女变身顶级辣妈,居然在中国!

无障碍浏览 进入关怀版