网易首页 > 网易号 > 正文 申请入驻

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

0
分享至



机器之心专栏

机器之心编辑部

Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

上周四, Vision Mamba(Vim)的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天,中国科学院、华为、鹏城实验室的研究人员提出了 VMamba:一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。



  • 论文标题:VMamba: Visual State Space Model
  • 论文地址: https://arxiv.org/abs/2401.10166
  • 代码地址: https://github.com/MzeroMiko/VMamba

CNN 和视觉 Transformer(ViT)是当前最主流的两类基础视觉模型。尽管 CNN 具有线性复杂度,ViT 具有更为强大的数据拟合能力,然而代价是计算复杂较高。研究者认为 ViT 之所以拟合能力强,是因为其具有全局感受野和动态权重。受 Mamba 模型的启发,研究者设计出一种在线性复杂度下同时具有这两种优秀性质的模型,即 Visual State Space Model(VMamba)。大量的实验证明,VMamba 在各种视觉任务中表现卓越。如下图所示,VMamba-S 在 ImageNet-1K 上达到 83.5% 的正确率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。



方法介绍



VMamba 成功的关键在于采用了 Selective Scan Space State Sequential Model(S6 模型)。该模型设计之初是用于解决自然语言处理(NLP)任务。与 ViT 中注意力机制不同,S6 将 1D 向量中的每个元素(例如文本序列)与在此之前扫描过的信息进行交互,从而有效地将二次复杂度降低到线性。

然而,由于视觉信号(如图像)不像文本序列那样具有天然的有序性,因此无法在视觉信号上简单地对 S6 中的数据扫描方法进行直接应用。为此研究者设计了 Cross-Scan 扫描机制。Cross-Scan 模块(CSM)采用四向扫描策略,即从特征图的四个角同时扫描(见上图)。该策略确保特征中的每个元素都以不同方向从所有其他位置整合信息,从而形成全局感受野,又不增加线性计算复杂度。



在 CSM 的基础上,作者设计了 2D-selective-scan(SS2D)模块。如上图所示,SS2D 包含了三个步骤:

  • scan expand 将一个 2D 特征沿 4 个不同方向(左上、右下、左下、右上)展平为 1D 向量。
  • S6 block 独立地将上步得到的 4 个 1D 向量送入 S6 操作。
  • scan merge 将得到的 4 个 1D 向量融合为一个 2D 特征输出。



上图为本文提出的 VMamba 结构图。VMamba 的整体框架与主流的视觉模型类似,其主要区别在于基本模块(VSS block)中采用的算子不同。VSS block 采用了上述介绍的 2D-selective-scan 操作,即 SS2D。SS2D 保证了 VMamba 在线性复杂度的代价下实现全局感受野。

实验结果

ImageNet 分类



通过对比实验结果不难看出,在相似的参数量和 FLOPs 下:

  • VMamba-T 取得了82.2%的性能,超过 RegNetY-4G 达 2.2%、DeiT-S 达 2.4%、Swin-T 达 0.9%。
  • VMamba-S 取得了83.5%的性能,超过 RegNetY-8G 达 1.8%,Swin-S 达 0.5%。
  • VMamba-B 取得了83.2%的性能(有 bug,正确结果将尽快在 Github 页面更新),比 RegNetY 高 0.3%。

这些结果远高于 Vision Mamba (Vim) 模型,充分验证了 VMamba 的潜力。

COCO 目标检测



在 COOCO 数据集上,VMamba 也保持卓越性能:在 fine-tune 12 epochs 的情况下,VMamba-T/S/B 分别达到 46.5%/48.2%/48.5% mAP,超过了 Swin-T/S/B 达 3.8%/3.6%/1.6% mAP,超过 ConvNeXt-T/S/B 达 2.3%/2.8%/1.5% mAP。这些结果验证了 VMamba 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。

ADE20K 语义分割



在 ADE20K 上,VMamba 也表现出卓越性能。VMamba-T 模型在 512 × 512 分辨率下实现 47.3% 的 mIoU,这个分数超越了所有竞争对手,包括 ResNet,DeiT,Swin 和 ConvNeXt。这种优势在 VMamba-S/B 模型下依然能够保持。

分析实验

有效感受野



VMamba 具有全局的有效感受野,其他模型中只有 DeiT 具有这个特性。但是值得注意的是,DeiT 的代价是平方级的复杂度,而 VMamaba 是线性复杂度。

输入尺度缩放



  • 上图(a)显示,VMamba 在不同输入图像尺寸下展现出最稳定的性能(不微调)。有意思的是,随着输入尺寸从 224 × 224 增加到 384 × 384,只有 VMamba 表现出性能明显上升的趋势(VMamba-S 从 83.5% 上升到 84.0%),突显了其对输入图像大小变化的稳健性。
  • 上图(b)显示,VMamba 系列模型随着输入变大,复杂性呈线性增长,这与 CNN 模型是一致的。

最后,让我们期待更多基于 Mamba 的视觉模型被提出,并列于 CNNs 和 ViTs,为基础视觉模型提供第三种选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女教师“幼态字体”引发教育热议:字如其人,教育该何去何从?

女教师“幼态字体”引发教育热议:字如其人,教育该何去何从?

鬼谷子思维
2024-06-03 14:08:31
郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

蜜桔娱乐
2024-06-03 10:24:55
财政部拟支持青岛等15个城市实施更新

财政部拟支持青岛等15个城市实施更新

齐鲁壹点
2024-06-02 20:15:05
普通股民给证监会主席写公开信:如果没有造假赔偿制度,受伤的只会是我们这群人

普通股民给证监会主席写公开信:如果没有造假赔偿制度,受伤的只会是我们这群人

西游日记
2024-06-03 12:10:43
突发跳水!大跌25%

突发跳水!大跌25%

中国基金报
2024-06-03 11:01:23
恐怖!网传台州石人峡突发户外穿越事故,两人在众人面前被水冲走

恐怖!网传台州石人峡突发户外穿越事故,两人在众人面前被水冲走

火山诗话
2024-06-03 08:52:52
伊朗外交部竟然向我国提出了抗议!

伊朗外交部竟然向我国提出了抗议!

止戈军是我
2024-06-03 09:49:47
广东原省委副书记判“死缓”,家中搜出十几车现金与黄金,曾向周永康递效忠信

广东原省委副书记判“死缓”,家中搜出十几车现金与黄金,曾向周永康递效忠信

天闻地知
2024-06-03 14:48:57
都是低生育率国家,为什么日韩是“不想生”,中国却是“不敢生”?

都是低生育率国家,为什么日韩是“不想生”,中国却是“不敢生”?

小萝卜丝
2024-06-03 11:09:01
问界某车主在4s店门口拉白色横幅:等车100天,开车60天变老款!

问界某车主在4s店门口拉白色横幅:等车100天,开车60天变老款!

火山诗话
2024-06-03 14:20:27
上海新政指向明确:盘活二手房!交易火爆、买房人扎堆?记者走遍内中外环中介,真相是...

上海新政指向明确:盘活二手房!交易火爆、买房人扎堆?记者走遍内中外环中介,真相是...

上观新闻
2024-06-02 11:09:55
50岁警察中15刀身亡,凶手曝光,追悼会照片流出,遗像爆大量隐情

50岁警察中15刀身亡,凶手曝光,追悼会照片流出,遗像爆大量隐情

温柔看世界
2024-06-03 15:30:46
俩游客横渡峡谷落水失联!遇险者身份曝光,至少犯了6大致命错误

俩游客横渡峡谷落水失联!遇险者身份曝光,至少犯了6大致命错误

洛洛女巫
2024-06-03 12:36:09
没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

末位侃球
2024-06-03 09:12:25
湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

百晓史
2024-06-02 09:09:36
香会对话最后一天,发生极其罕见一幕,主持人竟打断我方防长讲话

香会对话最后一天,发生极其罕见一幕,主持人竟打断我方防长讲话

三分亮剑
2024-06-03 11:12:51
比亚迪出口到巴西,谁知出现一个副作用,巴西的偷车贼消失了

比亚迪出口到巴西,谁知出现一个副作用,巴西的偷车贼消失了

阿珂谈汽车
2024-06-03 16:54:36
“官场小说家”杨克宁被决定逮捕!

“官场小说家”杨克宁被决定逮捕!

正义网
2024-06-03 15:01:04
2024高考将是“最残酷”的一届,高考复读生超400万,创历史新高

2024高考将是“最残酷”的一届,高考复读生超400万,创历史新高

C妈学堂
2024-06-03 14:07:02
中国女排香港站赛程出炉,若输两球队或将无缘奥运,蔡斌别再保守

中国女排香港站赛程出炉,若输两球队或将无缘奥运,蔡斌别再保守

海宝爱体育
2024-06-03 14:08:43
2024-06-03 18:50:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9045文章数 141935关注度
往期回顾 全部

科技要闻

特斯拉回应单踏板模式可能被禁止:暂无影响

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

时尚
教育
房产
家居
军事航空

为什么我劝中年男人:衣不穿紧、不塞衣角?看这3组对比就明白了

教育要闻

又到高考季!祝福张桂梅校长生日快乐,身体健康,平安顺遂

房产要闻

12000+起!海口40+楼盘,最新价格曝光!

家居要闻

静谧极简 让空间回归本质

军事要闻

泽连斯基称俄武器来自中国 外交部回应

无障碍浏览 进入关怀版