网易首页 > 网易号 > 正文 申请入驻

使用动图深入解释微软的Swin Transformer

0
分享至

Swin Transformer(Liu et al。,2021)是一个基于Transformer的深度学习模型,在视觉任务中取得了最先进的性能。 与VIT不同Swin Transformer更加高效并且有更高的精度。 由于Swin Transformer的一些特性,现在许多视觉的模型体系结构中,Swin Transformers还是被用作模型的骨干。文旨在使用插图和动画为Swin Transformers提供全面的指南,以帮助您更好地理解这些概念。

Swin Transformer 一个改进的VIT

近年来,Transformer(Vaswani ,2017)在自然语言处理(NLP)任务中占据了深度学习体系结构。Transformer在NLP中的巨大成功激发了研究它用于其他任务的研究。

2020年,将纯粹的Transformer体系结构应用视觉任务的Vision Transformer(VIT)引起了AI社区的广泛关注。尽管有希望,但VIT并不完美,还是包含了几个缺点。这里面最严重的一个就是VIT和高分辨率图像的兼容性,因为其计算会产生与图像大小相关的二次复杂度。

Swin架构和关键概念

VIT的一系列研究工作大多数是对标准Transformer体系结构进行了增强。 2021年微软研究人员发表了Swin Transformer(Liu,2021),这可以说是原始VIT后最令人兴奋的研究之一。

Swin Transformer引入了两个关键概念来解决原始ViT面临的问题——层次化特征映射和窗口注意力转换。事实上,Swin Transformer的名字来自于“Shifted window Transformer”。Swin Transformer的总体架构如下所示。

Swin Transformer总体架,' patch partition '被用作第一个块。为了简单起见,我使用“patch merging’”作为图中的第一个块,因为它们的操作类似。

正如我们所看到的 ,“patch merging”块和“Swin Transformer块”是Swin Transformer中的两个关键构建块。在下一节中,我们将详细介绍这两个块。

分层特征图

VIT的第一个重大区别是是Swin Transformer构建“分层特征图”。 让我们将其分为两个部分

首先,“特征图”只是从每个连续层生成的中间张量。至于“分层”,在这里指的是特征映射从一层到另一层合并(下一节详细介绍),有效地降低了从一层到另一层的特征映射的空间维数(即向下采样)。

Swin Transformer中的分层特征映射。特征映射在每一层之后逐步合并和下采样,创建具有层次结构的特征映射。本图为了简单起见,省略了特性映射的深度。

可能会注意到,这些分层特征映射的空间分辨率与ResNet中的相同。因为这样做是有意的,这样Swin Transformer就可以方便地在现有的视觉任务方法中替换ResNet骨干网络。

更重要的是,这些分层的特性映射允许Swin Transformer应用于需要细粒度预测的领域,例如语义分割。而ViT在整个架构中使用单一的、低分辨率的特性图并不适应这类的任务。

Patch Merging

在前一节中,我们已经看到了如何通过逐步合并和降低特征图的空间分辨率来构建分层特征图。在ResNet等卷积神经网络中,特征映射的下采样是通过卷积操作完成的。那么在不使用卷积的情况下,我们如何对纯Transformer网络中的特征映射进行下采样呢?

Swin Transformer中使用的无卷积下采样技术被称为Patch Merging。在这种情况下,“Patch ”指的是特征图中的最小单位。换句话说,在一个14x14的feature map中,有14x14=196个Patch 。

为了对特征映射下采样n倍,patch merge将每一组n × n个相邻patch的特征连接起来。通过语言描述可能很难理解,所以我创建了一个动画来更好地说明这一点。

patch merge操作通过对nxn patch进行分组并按深度拼接,对输入的数据进行n倍的采样。

正如我们从上面的动画中看到的,补丁合并将每个nxn个相邻的patch分组,并将它们深度级联。这有效地对输入进行n倍的下采样,将输入从H x W x C的形状转换为(H/n) x (W/n) x (2nC),其中H、W和C分别表示高度、宽度和通道深度。

Swin transformer块

Swin transformer中使用的块用Window MSA (W-MSA)和shift Window MSA (SW-MSA)模块取代了ViT中使用的标准多头自注意力(MSA)模块。Swin Transformer模块如下图所示。

Swin transformer块有两个子单元。第一个单元使用W-MSA,第二个单元使用SW-MSA。每个子单元由一个规一化层、一个注意力模块、另一个规范化层和一个MLP层组成。第一个子单元使用Window MSA (W-MSA)模块,而第二个子单元使用移位Window MSA (SW-MSA)模块。

窗口级别的自注意力

ViT中使用的标准MSA执行全局自注意力,每个Patch之间的关系是根据所有其他Patch计算的。这会产生与Patch数量相关的二次复杂度,使它不适合高分辨率的图像。

ViT中使用的标准MSA计算

为了解决这个问题,Swin Transformer使用了基于窗口的MSA方法。窗口只是Patch的集合,注意力只在每个窗口内计算。例如下图使用的窗口大小为2 × 2 patch,基于窗口的MSA只计算每个窗口内的注意力。

Swin Transformer中使用的窗口MSA只在每个窗口内计算注意力。

由于窗口大小在整个网络中是固定的,因此基于窗口的MSA的复杂度相对于patch的数量(即图像的大小)是线性的,相对于标准MSA的二次复杂度有了很大的提高。

移动窗口Self-Attention

基于窗口的MSA的一个明显缺点是,将注意力限制在每个窗口,限制了网络的建模能力。为了解决这个问题,Swin Transformer在W-MSA模块之后使用了移位窗口MSA (SW-MSA)模块。

为了引入跨窗口连接,移位窗口MSA将窗口向右下角移动M/2,其中M是窗口大小(上面动画中的第1步)。

这种转变会导致不属于任何窗口的“孤立”patch,以及patch不完整的窗口。Swin Transformer应用了“循环移位”技术(上面动画中的第2步),它将“孤立的”patch移动到带有不完整patch的窗口中。在这次移位之后,一个窗口可能会由原始feature map中不相邻的patch组成,因此在计算过程中应用了一个mask,将自注意力限制在相邻的patch上。

这种移动窗口的方法引入了重要的窗口之间的交叉连接,可以提高网络的性能。

总结

Swin Transformer可能是继最初的Vision Transformer之后最令人兴奋的一项研究。Swin Transformer使用分层特征映射和移位窗口MSA解决了困扰原始ViT的问题。Swin Transformer在包括图像分类和目标检测在内的广泛视觉任务中通常被用作骨干架构。

https://avoid.overfit.cn/post/50b62c574f364a62b53c4db363486f74

作者:James Loy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0射门!1.8亿天才连续3场欧冠隐身,9战拜仁0胜,被换后皇马绝平

0射门!1.8亿天才连续3场欧冠隐身,9战拜仁0胜,被换后皇马绝平

我爱英超
2024-05-01 05:28:24
本周重大事件:布林肯访华,特斯拉“解禁”,问界M7追尾起火3人死亡

本周重大事件:布林肯访华,特斯拉“解禁”,问界M7追尾起火3人死亡

一周财经观察
2024-04-30 19:57:19
神舟十七号落点精度有多高?4190米!精确控制落点究竟多难?

神舟十七号落点精度有多高?4190米!精确控制落点究竟多难?

火星一号
2024-04-30 20:54:40
梅州交警:广东梅龙高速(S12)梅州往福建方向K11+900m道路塌方,双向封闭

梅州交警:广东梅龙高速(S12)梅州往福建方向K11+900m道路塌方,双向封闭

界面新闻
2024-05-01 07:28:43
女子闯红灯拒不下车,被强制拉下,执勤民警遭处分,网友:该跪下求她?

女子闯红灯拒不下车,被强制拉下,执勤民警遭处分,网友:该跪下求她?

小萝卜丝
2024-04-30 19:04:33
大V预判:中国在制度和电力上优势明显,借助AI未来或成为前所未有的强国

大V预判:中国在制度和电力上优势明显,借助AI未来或成为前所未有的强国

老郭在学习
2024-05-01 08:48:09
汤尤杯爆大冷!4世界冠军落败,陆光祖绝杀,男双憾负,韩国失利

汤尤杯爆大冷!4世界冠军落败,陆光祖绝杀,男双憾负,韩国失利

知轩体育
2024-05-01 01:03:16
迈腾男捉奸暴打女友后续:双方家庭已知情,曝出轨对象也有女友

迈腾男捉奸暴打女友后续:双方家庭已知情,曝出轨对象也有女友

180°视角
2024-04-30 11:46:37
台媒曝具俊晔事业低迷!大S开价6万没人买账,打碟被批歌老人也老

台媒曝具俊晔事业低迷!大S开价6万没人买账,打碟被批歌老人也老

洛洛女巫
2024-04-30 15:46:00
这一中央部门有重要部署!履新一月后,蔡丽新南下,提出新要求

这一中央部门有重要部署!履新一月后,蔡丽新南下,提出新要求

政知新媒体
2024-04-30 20:13:05
凯特王妃最新纪念照片:威廉发了13年前一张婚礼照片,画上句号

凯特王妃最新纪念照片:威廉发了13年前一张婚礼照片,画上句号

小寒嫣语
2024-04-30 11:16:25
深圳一女子开房黄体破裂后续:男友同事发声,评论区彻底失控!

深圳一女子开房黄体破裂后续:男友同事发声,评论区彻底失控!

古希腊掌管松饼的神
2024-04-29 15:39:11
解密黄家驹的真正死因:不是意外,前世是金丝猴,最终死于降头术

解密黄家驹的真正死因:不是意外,前世是金丝猴,最终死于降头术

洞鉴历史
2024-04-29 16:50:12
“中国有望实现沙伊复交后又一突破”

“中国有望实现沙伊复交后又一突破”

观察者网
2024-04-30 22:00:18
中企赴俄:抓住机会,但也不要忽视风控

中企赴俄:抓住机会,但也不要忽视风控

经济观察报
2024-04-30 22:15:20
西方突然发现不对劲:中国加紧增加战略储备,是在做最坏打算?

西方突然发现不对劲:中国加紧增加战略储备,是在做最坏打算?

三分亮剑
2024-04-30 19:16:04
“问界M7事件”大结局:官媒求删文,受害人家属在反口!

“问界M7事件”大结局:官媒求删文,受害人家属在反口!

兵叔评说
2024-04-30 16:06:39
A股又要炸锅了,晚间消息让人触目惊心,2亿股民要惊掉下巴!

A股又要炸锅了,晚间消息让人触目惊心,2亿股民要惊掉下巴!

彩云的夕阳
2024-05-01 04:40:03
“李四强抢劫案”的无罪判决,解开了哥哥8年来的疑惑 | 深度聚焦

“李四强抢劫案”的无罪判决,解开了哥哥8年来的疑惑 | 深度聚焦

北青深一度
2024-04-30 08:08:55
乌克兰媒体:乌军对克里米亚发动大规模导弹袭击

乌克兰媒体:乌军对克里米亚发动大规模导弹袭击

新华社
2024-04-30 22:58:08
2024-05-01 10:02:44
deephub
deephub
CV NLP和数据挖掘知识
1326文章数 1413关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

牛弹琴:因为去了趟中国 马斯克被印度骂惨了

头条要闻

牛弹琴:因为去了趟中国 马斯克被印度骂惨了

体育要闻

穆雷,绝杀了一个时代

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

房产
游戏
本地
时尚
公开课

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

《模拟人生》竞品《你的人生》6月登陆抢先体验

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

这才是夏天更提时尚气质的穿衣示范,经典不过时,简约高级又显瘦

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版