网易首页 > 网易号 > 正文 申请入驻

英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。

正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主」,包括计算机视觉、自然语言处理、语音处理和机器人技术。

第一个挑战Transformer架构的是Mamba,一种新的状态空间模型(SSM),它具有线性时间复杂度,并在多个语言建模任务中超越或与Transformer媲美。

但在不同的视觉任务上,Vision Transformer (ViT) 和卷积神经网络 (CNN) 架构的骨干网络,仍然优于基于Mamba的视觉模型。

而这一次,英伟达高级工程师Ali Hatamizade,宣布被顶会CVPR-2025接受的MambaVision,在视觉任务上超越以往的模型,而设计的关键在于将Mamba和Transformer混合。

正如图1所示,在ImageNet-1K基准上,MambaVision的Top-1准确率和图像处理能力达到了新的Pareto最优点,超越了Mamba、CNN和ViT基于的模型,有时差距非常显著。

在下游任务如目标检测、实例分割以及语义分割中,采用MambaVision作为骨干网络的模型在MS COCO和ADE20数据集上分别超越了同等规模的对比模型。

MambaVision是首个针对计算机视觉应用,结合Mamba和Transformer的混合架构的尝试。主要贡献总结如下:

1 引入了重新设计的适用于视觉任务的Mamba模块,提升了相较于原始Mamba架构的准确性和图像处理能力。

2 系统性地研究了Mamba和Transformer模块的融合模式,并展示了在最终阶段加入自注意力模块,显著提高了模型捕捉全局上下文和长距离空间依赖的能力。

论文链接:https://arxiv.org/abs/2407.08083

在这项工作中,作者系统地重新设计了Mamba模块,使其更加适合视觉任务。

新方法是一种混合架构,结合了新提出的公式(即MambaVision Mixer和MLP)以及Transformer模块。

具体来说,研究了不同的集成模式,比如以等参数方式将Transformer模块添加到早期、中间和最终层,或者每隔l层添加一次。

分析表明,在最终阶段利用多个自注意力模块,可以显著增强捕捉全局上下文和长程空间依赖的能力。

使用混合架构相较于纯Mamba或ViT模型,图像处理能力也得到了显著提升。

网络架构

宏观架构

如图2所示,MambaVision 采用了分层架构,由4个不同的阶段组成。

前两个阶段使用基于CNN的层,负责在较高输入分辨率下进行快速特征提取,而第3和第4阶段则包括了新提出的 MambaVision和Transformer模块。

具体来说,给定一个大小为H×W×3的图像,输入首先被转换为大小为H/4×W/4×C的重叠patch,并通过两层连续 3×3的CNN 层(步幅为2)构成的主干投影到C维嵌入空间中。

在各个阶段之间的下采样模块由一个批归一化的3×3的CNN 层(步幅为2)组成,将图像分辨率减半。

此外,第1和第2阶段中的CNN模块,采用了通用的残差模块结构,具体如下:

其中:Conv3×3 表示3×3卷积操作;BN表示批归一化(Batch Normalization);GELU 是激活函数,表示 Gaussian Error Linear Unit;z^ 是经过卷积、批归一化和激活函数处理后的中间结果;最后,z是通过卷积和批归一化后的结果与原始输入相加,形成残差连接。

这种结构有助于缓解深层网络训练中的梯度消失问题,并提高模型的训练效率。

Mamba架构

Mamba是结构化状态空间序列模型的扩展,能够通过可学习的隐状态 h(t),将一维连续输入x(t)转换为y(t)。该过程的公式如下:

其中,矩阵A,B,C是模型的参数。

离散化:为了提高计算效率,以上公式中的连续参数A,B和C需要转化为离散参数。具体而言,假设时间步长为Δ,可以应用零阶保持规则来获取离散参数:

这种离散化方法能够提升计算效率,便于在实际应用中实现 Mamba 模型。

使用离散参数代入到原方程:

此外,对于一个大小为T的输入序列,可以用带有卷积核K的全局卷积,进一步简化上式中的输出,具体如下

选择性:Mamba 进一步扩展了S4公式,引入了一种选择机制,使得模型能够进行依赖于输入的序列处理。这种机制使得模型的参数B 、C和Δ可以根据输入动态调整,从而滤除无关信息。

设输入X是TxC矩阵,其中 T 为序列长度,C为嵌入维度,第3和第4阶段的第n层输出可以按如下方式计算:

其中,NormNorm和MixerMixer分别表示层归一化和 token 混合模块的选择。

层架构

在不失一般性的情况下,层归一化(Layer Normalization)被用于 NormNorm。给定N层,前 N/2层使用 MambaVision混合模块,而剩余的N/2层使用自注意力机制。

MambaVision 混合模块:重新设计了原始的Mamba混合模块,使其更适合视觉任务。

如图3所示, 首先将因果卷积(causal convolution)替换为常规卷积,因为因果卷积将信息限制在一个方向上,这对视觉任务来说不仅没必要,而且局限性还很大。

此外,添加了一个不包含SSM(状态空间模型)的对称分支,该分支由额外的卷积和SiLU激活函数组成,以补偿由于SSM的顺序约束而可能丢失的内容。

然后,将两个分支的输出拼接起来,并通过最终的线性层进行投影。这种组合确保了最终的特征表示,同时包含顺序信息和空间信息,从而充分利用了两个分支的优势。

注意到,每个分支的输出被投影到一个大小为C/2的嵌入空间(即原始嵌入维度的一半),以保持与原始模块设计相似的参数量。

给定输入Xin,MambaVision混合模块的输出Xout计算如下:

其中,Linear(Cin,Cout)(⋅)表示一个线性层,输入和输出的嵌入维度分别为Cin和Cout;Scan是选择性扫描操作(selective scan);σ是激活函数,这里使用的是Sigmoid线性单元(SiLU;Conv和Concat 分别表示1D卷积和拼接操作。

实验结果

表1展示了ImageNet-1K分类结果。具体来说,与不同类别的模型进行了比较,包括基于卷积的模型、基于 Transformer的模型、卷积-Transformer混合模型以及基于Mamba的模型,并证明新模型在ImageNet Top-1准确率和图像处理能力方面大幅超越了之前的工作。

例如,与流行的模型如ConvNeXt和Swin Transformers相比,MambaVision-B(84.2%)优于 ConvNeXt-B(83.8%)和 SwinB(83.5%),同时在图像处理能力上也有显著优势。

在与基于 Mamba 的模型比较时也观察到了类似的趋势。具体来说,尽管MambaVision-B(84.2%的图像处理能力显著更高,但仍优于 VMamba-B(83.9%)。

与同等规模的模型相比,MambaVision 型变体的FLOPs远低于它们。例如,MambaVision-B 的GFLOPs比 MaxViT-B 少了56%。

表2展示在MS COCO数据集上的目标检测和实例分割结果。

具体来说,训练了不同检测尺寸的模型,以进一步验证 MambaVision 不同场景下的有效性。

通过简单的Mask-RCNN检测头,预训练的MambaVision-T骨干网络,超过了 ConvNeXt-T和 Swin-T模型。

使用Cascade Mask-RCNN网络时,MambaVision-T、MambaVision-S和MambaVision-B都超过了竞争对手。

表3展示了在ADE20K数据集上的语义分割基准测试。

对于这些实验,使用了 UPerNet,以便与其他模型进行比较。

观察到,MambaVision 模型在不同变体下超越了同等规模的竞争模型。

例如,MambaVision-T、MambaVision-S 和 MambaVision-B分别在mIoU上超越了Swin-T、Swin-S和Swin-B,提升幅度为+0.6、+0.6和+1.0。

尽管没有对下游任务进行大量的超参数调优优化,这些结果仍然证明了MambaVision作为一种有前景的视觉任务骨干网络的可行性,特别是在高分辨率设置下。

消融实验和更多细节请参考原文。

参考资料:

https://arxiv.org/abs/2407.08083

https://x.com/ahatamiz1/status/1894838302450295183

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

大风新闻
2026-04-06 15:06:12
这哪是「浪姐7」?划水躺平不背歌词的姐姐真不少,让人看的无语

这哪是「浪姐7」?划水躺平不背歌词的姐姐真不少,让人看的无语

娱乐圈笔娱君
2026-04-08 16:20:51
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
谋女郎刘浩存太绝了,这灰衣黑裤下的逆天长腿,谁看了不迷糊?

谋女郎刘浩存太绝了,这灰衣黑裤下的逆天长腿,谁看了不迷糊?

娱乐领航家
2026-04-08 22:00:03
太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

田先生篮球
2026-04-08 16:40:24
云南美女赵杨珍去世,年仅 24 岁,新店还在装修,去世原因令人惋惜

云南美女赵杨珍去世,年仅 24 岁,新店还在装修,去世原因令人惋惜

小鹿姐姐情感说
2026-04-09 01:40:38
广汽集团发布2025年报:营收965.42亿元

广汽集团发布2025年报:营收965.42亿元

新浪财经
2026-03-27 22:03:32
贺晓龙痛批国乒后继无人,孙颖莎和王楚钦的夺冠,没有体现统治力

贺晓龙痛批国乒后继无人,孙颖莎和王楚钦的夺冠,没有体现统治力

子水体娱
2026-04-08 00:19:50
4周实现100%清除肿瘤!国研TIL疗法再传捷报,狂攻肺癌、脑胶质瘤

4周实现100%清除肿瘤!国研TIL疗法再传捷报,狂攻肺癌、脑胶质瘤

无癌家园i
2026-04-08 12:03:23
当初没听他的建议,后来付出了3500万人的血肉,妇人之仁呀!

当初没听他的建议,后来付出了3500万人的血肉,妇人之仁呀!

历史按察使司
2026-04-07 12:34:23
伊媒:伊朗已叫停霍尔木兹海峡油轮通行

伊媒:伊朗已叫停霍尔木兹海峡油轮通行

第一财经资讯
2026-04-08 23:51:39
炸裂,广州首个顶奢商场,撑不住了

炸裂,广州首个顶奢商场,撑不住了

拆神
2026-04-08 10:26:47
难怪特朗普宣布停火,美国连收3条坏消息,从放狠话到跪求停火

难怪特朗普宣布停火,美国连收3条坏消息,从放狠话到跪求停火

小蚁讲故事
2026-04-08 23:36:05
危机公关“沉默疗法”,2026年彻底失效

危机公关“沉默疗法”,2026年彻底失效

蓝鲸新闻
2026-04-07 15:53:43
非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

每日经济新闻
2026-04-08 17:44:10
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
突发:两周停火协议宣布后,阿联酋空军空袭伊朗波斯湾油设施

突发:两周停火协议宣布后,阿联酋空军空袭伊朗波斯湾油设施

Nee看
2026-04-08 19:07:45
战时逃单:人性贪婪在阴霾中暴露

战时逃单:人性贪婪在阴霾中暴露

烽火瞭望者
2026-04-08 06:48:13
刘维伟谈威瑟斯庞:输球我可以担责,但他总闹情绪实在让我太累

刘维伟谈威瑟斯庞:输球我可以担责,但他总闹情绪实在让我太累

懂球帝
2026-04-09 00:09:07
2026-04-09 02:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14926文章数 66754关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗武装部队:伊朗对美以绝不信任

头条要闻

伊朗武装部队:伊朗对美以绝不信任

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

艺术
游戏
旅游
手机
公开课

艺术要闻

惊艳!她的私房自拍照让人无法抵挡!

真爱拉电线!《终末地》日本市场收入超中国:全球第一

旅游要闻

三大花海已浪漫盛放!来这里“花”点时间!

手机要闻

iPhone Air三个月体验:双机党的新宠,单机党的噩梦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版