网易首页 > 网易号 > 正文 申请入驻

AS-MLP:上海科技&腾讯优图开源首个检测与分割领域MLP架构

0
分享至

本文是上海科技大学腾讯优图在MLP架构方面的探索,它设计了一种轴向移位操作以便于进行空间信息交互。在架构方面,AS-MLP采用了类似PVT的分层架构,因为可以轻易的迁移到下游任务。所提方法在ImageNet数据集上取得了优于其他MLP架构的性能,在COC检测与ADE20K分割任务上取得了与Swin相当的性能。值得一提的是,AS-MLP是首个迁移到下游任务的MLP架构。

注:CycleMLP与AS-MLP属于同一时期的工作,发到arxiv的时间也只差两天,说两者都是首个其实也可以。

pa p er:

https://arxiv.org/abs/2107.08391

code:

https://github.com/svip-lab/AS-MLP

一、Abstract

本文提出了一种轴向移动架构AS-MLP(Axial Shifted MLP)用于不同的视觉任务(包含图像分类、检测以及分割)。不同于MLP-Mixer通过矩阵转置+词混叠MLP进行全局空域特征编码,我们在局部特征通信方向投入了更多的关注。

通过轴向移动特征信息,AS-MLP可以得到不同方向的信息流,这有助于捕获局部相关性。该操作使得我们采用纯MLP架构即可取得与CNN相同的感受野。我们还可以类似卷积核设置AS-MLP模块的感受野尺寸以及扩张因子。如此简单而有效的架构取得了优于其他MLP架构的性能,同时具有与Transformer架构(比如Swin Transformer)相当的性能,甚至具有稍少的FLOPs。比如,AS-MLP在ImageNet数据集上凭借88M参数量+15.2GFLOPs取得了83.3%top1精度,且无需额外训练数据。

此外,所提AS-MLP也是首个用于下游任务(如目标检测、语义分割)的MLP架构。AS-MLP在COC验证集上取得了51.5mAP指标,在ADE20K数据集上取得了49.5mIoU指标,具有与Transformer架构相当的性能。

二、Method

上图给出了本文所提AS-MLP-Tiny架构示意图,它以RGB图像作为输入,然后将其拆分为非重叠 4×4 块,此时得到尺寸为的词。由于AS-MLP具有四个阶段,每个阶段具有不同数量的AS-MLP模块。前述所得的所有词将被送入送入到这四个阶段,最终的输出特征将被用于分类。

阶段1包含一个线性嵌入层与多个AS-MLP模块,输出词的维度为;阶段2先进行块合并将近邻 2×2 块进行合并得到尺寸为的词,然后通过线性层映射为并后接多个AS-MLP模块。阶段3与阶段4具有与阶段2相似的结构。

AS-MLP Block

下图给出了本文的核心模块的架构示意图,它主要包含Norm、Axial Shift操作、MLP以及残差连接。在Axial Shift操作中,我们采用通道投影、垂直移动、水平移动提取特征。

如上图b所示,我们以水平移动进行说明。假设输入尺寸为 C×h×w ,为方便起见,我们忽略了h并假设 C=3,w=5C=3,w=5 。当移动尺寸为3时,输入特征被分为三部分,每部分分别沿水平方向移动 {-1,0,1} 步长。注:此时我们采用了“zero-padding”。垂直移动操作与水平移动非常类似。

通过水平移动与垂直移动,特征可以进行了单一空间方向上的汇聚。在接下来的通道投影操作,两个方向的信息将进行汇聚。下图给出了本文所提AS-MLP实现code。

Comparisons between AS-MLP, Convolution, Transformer and MLP-Mixer

在这里,我们将AS-MLP、卷积、Swin以及MLP-Mixer进行对比分析。尽管这些模型是从不同角度出发设计得到,但它们均基于给定输出位置点,其值依赖于局部特征的加权。这些采样位置包含局部依赖与长距离依赖。

从上述对比图可以看到:

· 卷积是一种局部感受野的操作,更适合于提取具有局部依赖关系的特征;

· Swin同样是一种局部感受野操作,Swin为自注意力机制引入了局部性提升了Transformer架构的性能,同时也降低了计算复杂度;

· MLP-Mixer是一种全局感受野操作,它仅仅由矩阵转置与MLP操作构成;

· AS-MLP是一种局部“十”字感受野操作,它可以更好的提取局部依赖关系。

Variants of AS-MLP Architecture

前面的Figure仅仅给出了Tiny版本的AS-MLP架构,参考DeiT与Swin,我们通过调整模块数与通道数构建了不同大小的模型。

· AS-MLP-T:C=96,模块数: {2,2,6,2} ;

· AS-MLP-S:C=96,模块数: {2,2,18,2} ;

· AS-MLP-B:C=128,模块数:{2,2,18,2} ;

三、ExperimentsImageNet Classification

上表给出了所提方法在ImageNet数据上的性能对比,从中可以看到:

· 所提AS-MLP取得了比其他MLP架构更优的性能,同时具有相似的参数量与FLOPs;

· AS-MLP-S取得了83.1%的top1精度同时具有比Mixer-B/16、ViP-Medium/7更少的参数量;

· 此外,AS-MLP-B取得了与Swin相当的性能:83.3%。

此外,我们还对比了端侧配置版本的AS-MLP,结果见上表。可以看到:在端侧配置下,所提方法大幅超越了Swin Transformer。

COCO Detection

上表对比了COCO检测任务上的性能对比,可以看到:

· 所提AS-MLP是首个用于下游任务的MLP架构;

· 所提AS-MLP取得了与Swin相当的性能。具体来说,在Cascade Mask R-CNN+Swin-B取得了51.9AP指标,参数量为145M;而AS-MLP-B取得了51。5AP指标,参数量为145M。

ADE20K Segmentation

上表给出了ADE20K分割任务上的性能对比,从中可以看到:

· 所提AS-MLP同样是首个用于分割任务的MLP架构;

· AS-MLP-T取得了比Swin-T等有的性能,同时具有稍少FLOPs;

· UperNet+Swin-B取得了49.7mIoU,参数量为121M,计算量为1188GFLOPs;而UperNet+AS-MLP-B取得了49.5mIoU,参数量121M,计算量为1166GFLOPs。

Ablation Study

AS-MLP的核心是轴向移动,接下来我们将对其不同成分进行消融分析,所有试验均基于AS-MLP-T实现。

上表对比了不同padding方式、不同移动尺寸以及不同扩展比例的性能对比,从中可以看到:

· zero-padding更适合于AS-MLP设计;

· 提升扩张因子会轻微降低模型性能;

· 提升移动尺寸,模型精度会先上升后下降。

· 基于上述分析,我们采用shift=5,zero-padding,dilation=1。

我们同时还比较了AS-MLP模块的不同链接类型,结果见上表,从中可以看到:在不同移动尺寸下,并行连接总是具有比串行连接更佳性能。

四、Comparsion with S2MLP

在初看到该文时,第一感觉这个与百度的那篇S2MLP(见下图核心模块)真的非常相似,都是采用了垂直、水平移位方式进行空间信息交互,而且还都是上下左右四个方向。可惜AS-MLP并未与S2MLP进行对比,反而比较晚(指的是见刊arxiv)的ViP进行的对比。

既然提到了,我们还是对S2MLP与ASMLP进行一下对比吧。

· 在整体架构方面,AS-MLP采用了类似PVT的分层架构,而S2MLP一文则是采用了类似ViT的柱状架构;

· 在应用方面,AS-MLP即可应用于图像分类,还可以迁移到下游任务中;而S2MLP则仅适用于图像分类,并不适用下游任务;

· 在核心模型方面,AS-MLP采用并行垂直、水平移动,分别进行特征汇聚后再进行特征相加汇聚;而S2MLP则采用分组方式,不同组进行不同方向的移动,然后再进行空间信息汇聚;

· 在模型性能方面,AS-MLP取得了与Swin相当的性能,比ViP更优的性能;而S2MLP的性能则弱于Swin与ViP;

· 最后一点,AS-MLP开源了,但S2MLP并未开源。

Illustrastion by Natasha Remarchuk from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>>> 投稿请添加工作人员微信!

本周上新!

扫码观看!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李春江确认重返CBA?5年,整整封杀了5年……

李春江确认重返CBA?5年,整整封杀了5年……

篮球实战宝典
2024-06-11 20:33:52
两次世界大战中国正确“站队”的重大意义

两次世界大战中国正确“站队”的重大意义

小刀99
2024-06-16 16:11:58
凯特王妃重返公众视野,与王室成员的聊天被唇语解读

凯特王妃重返公众视野,与王室成员的聊天被唇语解读

土澳的故事
2024-06-15 23:09:09
一起来看看各大高校四六级平均分排行榜!你的高校榜上有名吗?

一起来看看各大高校四六级平均分排行榜!你的高校榜上有名吗?

谁为锦年织彩衣
2024-06-15 07:05:08
网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?

网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?

火山诗话
2024-06-16 06:51:58
以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

笔墨V
2024-06-16 03:31:34
潮汕首富之子,百亿身家座驾竟不是宝马奔驰?品味甩王思聪几条街

潮汕首富之子,百亿身家座驾竟不是宝马奔驰?品味甩王思聪几条街

小宇宙双色球
2024-06-16 07:41:22
女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

社会潜伏者
2024-05-13 01:15:15
江苏中考分流有多变态?竟然把数学竞赛全球第12名给分流了……

江苏中考分流有多变态?竟然把数学竞赛全球第12名给分流了……

人情皆文史
2024-06-14 00:28:56
现场|京港、沪港高铁动卧首发列车抵港,乘客“打100分”

现场|京港、沪港高铁动卧首发列车抵港,乘客“打100分”

澎湃新闻
2024-06-16 10:36:35
詹姆斯退役后,谁有资格做他的名人堂引荐人?满打满算只有5人

詹姆斯退役后,谁有资格做他的名人堂引荐人?满打满算只有5人

大卫的篮球故事
2024-06-14 13:46:11
广州南通知晚点的列车准点开走,众多旅客滞留,12306回应惹争议

广州南通知晚点的列车准点开走,众多旅客滞留,12306回应惹争议

妮子说美食
2024-06-16 17:42:41
申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

替补席看球
2024-06-16 22:06:11
致敬披头士,塞尔维亚发布战英格兰海报

致敬披头士,塞尔维亚发布战英格兰海报

懂球帝
2024-06-16 17:24:09
才知道,水果店为什么喜欢把西瓜切一半卖?背后“猫腻”真不小!

才知道,水果店为什么喜欢把西瓜切一半卖?背后“猫腻”真不小!

阿龙美食记
2024-06-16 15:44:21
这回不是火箭弹了!伊拉克密集的导弹撕裂以色列海法城市的夜空

这回不是火箭弹了!伊拉克密集的导弹撕裂以色列海法城市的夜空

青年的背包
2024-06-16 11:23:35
又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

室内设计师阿喇
2024-06-16 00:23:36
青岛西海岸vs武汉三镇全场数据:射门数10-23,射正数5-10

青岛西海岸vs武汉三镇全场数据:射门数10-23,射正数5-10

懂球帝
2024-06-16 22:21:10
到底图个啥?六届全明星啊,在鱼腩浪费六年巅峰,今夏还不换队吗

到底图个啥?六届全明星啊,在鱼腩浪费六年巅峰,今夏还不换队吗

球毛鬼胎
2024-06-14 13:27:33
中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

星辰故事屋
2024-06-09 17:09:59
2024-06-16 23:18:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1823文章数 585关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

理想车友聚会多车连环追尾 组织者:突遭大雨 车距较近

头条要闻

理想车友聚会多车连环追尾 组织者:突遭大雨 车距较近

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

时尚
亲子
房产
旅游
军事航空

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

亲子要闻

夏季戏水好物 2 折起,种类超全!

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

军事要闻

以军宣布在加沙南部实行"战术暂停"

无障碍浏览 进入关怀版