网易首页 > 网易号 > 正文 申请入驻

Self-Attention 加速方法一览:ISSA、CCNet、CGNL、Linformer

0
分享至

Attention 机制最早在NLP 领域中被提出,基于attention 的transformer结构近年在NLP的各项任务上大放异彩。在视觉任务中,attention也收到了很多的关注,比较有名的方法包括Non-Local Network,能够在时空volume中对全局的关系进行建模,获得了很好的效果。但视觉任务中的self-attention模块通常需要进行大矩阵的矩阵乘法,显存占用大且比较耗时。所以近年有许多优化self-attention模块速度的方法,这篇笔记主要讨论几篇相关方法,有错误之处欢迎指正。

Self-Attention 简介

Attention 机制通常可以表达为如下的形式

其中, 为query, 为key, 为value。从检索任务的角度来看,query是要检索的内容,key是索引,value则是待检索的值。attention的过程就是计算query 和key之间的相关性,获得attention map,再基于attention map去获得value中的特征值。而在如下图所示的self-attention中,Q K V均为同一个feature map。

上图是一个self-attention模块的基本结构,输入为 , 分别通过1x1卷积获得 。则可以获得attention map为 。最后与 做矩阵乘法获得与输入shape想同的self-attention feature map。

在self-attention中,计算量和显存占用比较大的主要是生成attention map时的 和 最后的 两个步骤。对于64大小的feature map, 的大小为 。因此,self-attention 模块通常放在分辨率较低的网络后半段特征。

如何了优化attention的显存和计算量效率内,今天介绍的方法主要有两个方向的思路:

  • 改变attention的形式,避免直接全图attention

    • Long + Short range attention:Interlaced Sparse Self-Attention

    • 水平+垂直attention:Ccnet: Criss-cross attention for semantic segmentation

    • A2-Nets: Double Attention Networks

  • 降低attention计算过程中的某个维度

    • 降低N维度:Linformer: Self-Attention with Linear Complexity

    • 降低C维度:常用方法了,通常就是C/2 或者C/4

  • 其他

    • 优化GNL:Compact generalized non-local network


Attention 形式优化

ISSA: Interlaced Sparse Self-Attention

  • 论文基本思路: 这篇论文的基本思路是“交错”。如下图所示,首先通过permute将feature以一定规律打乱,然后将feature map分为几个块分别做self-attention,这样获得的是long-range 的attention信息;此后,再进行一次permute还原回原来的特征位置,再次进行分块attention,获得了short-range 的attention。通过拆解long/short range的attention,能够大大降低计算量。

  • 具体的性能表现如下图所示,可以看出,下降最明显的是显存的占用,主要是因为避免了attention过程中的大矩阵。而由于permute,divide等操作虽然不占flop,但是在inference的时候需要一定的时间,所以实际速度没有flops提升的那么多。不过总体而言,在效果没有明显下降的前提下,这个速度/显存的优化已经很优秀了。

  • 这篇文章在看的时候感觉既视感好强,后来想到这不就是hw上的shufflenet嘛。

CCNet: Criss-cross attention for semantic segmentation

  • 论文主要思路: 区别与Non-Local 中的全局attention,这篇文章提出只在特征点所对应的十字上进行attention。从而将复杂度从 降低到

  • CCNet 的具体做法是,对于 上的一个点 ,我们都可以得到对应的特征向量 ,对于这个点对应的十字形区域,我们可以从 中提取对应的特征,构成 ,针对 和 进行矩阵乘法,则可以得到attention map 为 。最后对 以同样的方式提取十字形特征并进行矩阵乘法,则可以得到最后的结果。

  • 那么如何从十字attention过渡到全局attention呢,方法其实很简单,只需要做两次十字attention,每个点就可以获得全局的信息了。

  • CCNet 的理论计算量(Flops and memory)比起Non-Local 是很有优势的。但是提取十字形特征这一步的效率可能并不是很高,论文中也并没有放出具体的代码实现。

A2-Nets: Double Attention Networks

  • 这篇论文的attention 方式看下图即可

  • 第一个 feautre gathering,可以理解为对每个channel,softmax找到最重要的位置,再去gathering所有channel上这个最重要位置上的特征;得到 CxC

  • 第二个 feautre distribution,可以理解为对每个channel,softmax找到最重要的位置,然后给每个channel的这个位置都分配一遍特征。

  • 这篇文章的attention 方式很有趣,值得仔细琢磨一下的。不过速度方面比起NL应该没有提升特别多。


Attention 维度优化

Linformer: Self-Attention with Linear Complexity

  • Attention的过程如上所说,可以看作是 ,这篇文章对N做降维,将attention 转化为 ,在K是定值的情况下,既将复杂度从 降低到了

  • 这篇文章大部分的篇幅,是在证明这样降低维度和原来的结果是近似的,没看太懂证明部分

  • 实验部分,K取得越大效果越好,但是并不明显。即降维会非常略微地影响效果,同时非常有效地提升速度。


其他

CGNL: Compact generalized non-local network

这篇文章主要是来优化一种计算量更大的Self-attention方法:Generalized Non-local (GNL)。这种方法不仅做H W两个spatial尺度上的non-local attention,还额外考虑了C维度。因此复杂度是 。

这篇文章的主要思路是:利用泰勒展开,将 近似成了 。从而可以通过先计算后两项,将复杂度从 降低到了

  • 这篇文章在视频理解、目标检测等任务上的实验效果都还不错,但是并没有给出速度方面的实验结果和分析。

来源:知乎

作者:林天威

深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
单局18-16!张本美和3-0开门红,伊藤3-2,孙颖莎比赛时间曝光

单局18-16!张本美和3-0开门红,伊藤3-2,孙颖莎比赛时间曝光

体育就你秀
2026-03-30 11:32:24
善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

老赳说历史
2026-03-29 20:02:37
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
乒乓球世界杯:周启豪逆转失败!挽救局点仍输9-11,1-1被追平!

乒乓球世界杯:周启豪逆转失败!挽救局点仍输9-11,1-1被追平!

刘姚尧的文字城堡
2026-03-30 11:06:37
伊朗军队:袭击阿联酋境内美军雷达站

伊朗军队:袭击阿联酋境内美军雷达站

看看新闻Knews
2026-03-30 17:47:03
俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

让生活充满温暖
2026-03-22 16:46:14
“情况比预想的还要糟糕”,李在明:我都无法入睡

“情况比预想的还要糟糕”,李在明:我都无法入睡

观察者网
2026-03-30 19:01:14
买莴笋时,看到这种碰都不碰,菜贩自己从不吃,别说没有提醒你

买莴笋时,看到这种碰都不碰,菜贩自己从不吃,别说没有提醒你

马蹄烫嘴说美食
2026-03-19 14:35:45
阿联酋明牌支持美军,彻底打服伊朗!为什么阿拉伯人不愿中立了?

阿联酋明牌支持美军,彻底打服伊朗!为什么阿拉伯人不愿中立了?

漫步独行侠
2026-03-29 18:13:56
单依纯不简单啊

单依纯不简单啊

牛锅巴小钒
2026-03-30 10:43:11
赵少康评判郑丽文访问大陆,既有期待也有施压,讲了一堆废话

赵少康评判郑丽文访问大陆,既有期待也有施压,讲了一堆废话

呼呼历史论
2026-03-30 15:46:44
全球行驶里程最长特斯拉刷新纪录 100万公里后的样子

全球行驶里程最长特斯拉刷新纪录 100万公里后的样子

3DM游戏
2026-03-28 11:36:04
美媒文章:中国正日益成为“工厂的工厂”

美媒文章:中国正日益成为“工厂的工厂”

参考消息
2026-03-30 18:37:03
691辆!中国车在澳洲掀翻日本28年统治,比亚迪却不是最大的赢家

691辆!中国车在澳洲掀翻日本28年统治,比亚迪却不是最大的赢家

李子橱
2026-03-29 12:00:17
“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

上观新闻
2026-03-29 18:06:13
净利润暴跌90%!理想的销量神话破灭

净利润暴跌90%!理想的销量神话破灭

大佬灼见
2026-03-13 12:23:26
中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

混沌录
2026-03-30 20:17:34
福特号士兵叛乱?火灾并非意外,真相曝光,44名士兵遇难只是开始

福特号士兵叛乱?火灾并非意外,真相曝光,44名士兵遇难只是开始

策略述
2026-03-28 12:47:15
蔡正元入狱第三天,大陆发布邀请公告,信号明确,郑丽文或成功臣

蔡正元入狱第三天,大陆发布邀请公告,信号明确,郑丽文或成功臣

李健政观察
2026-03-30 16:08:37
2026-03-30 21:28:49
深兰深延AI
深兰深延AI
让AI赋能更简单!
71文章数 0关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

家居
健康
亲子
本地
公开课

家居要闻

东方法式美学 现代简约

干细胞抗衰4大误区,90%的人都中招

亲子要闻

孩子眼睛出现这些现象,一定要警惕!

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版