网易首页 > 网易号 > 正文 申请入驻

Google的RFA:transformers的Softmax注意机制最新替代

0
分享至

什么是注意力机制?为什么RFA比Softmax更好?

Google最近发布了一种新方法-Random Feature Attention-用来取代transformers中的softmax注意力机制,以实现相似或更好的性能,并显着改善时间和空间复杂度。

在此文章中,我们将探讨transformers的背景,什么是注意力机制,以及为什么RFA可以更好地替代softmax注意力机制。 我们将通过RFA的一些总结来结束本篇文章。

背景

目前,transformers是序列到序列机器学习模型的最佳模型。 它专门研究数据序列使其在自然语言处理,机器翻译,时间序列建模和信号处理中特别有用。

注意力机制是transformers成功的基石。 这些机制研究输入序列并确定最重要的元素。 这些元素在对序列进行编码时将具有较重的权重,即应引起更多关注。

注意机制是什么?

可以认为这就像我们在开会中写笔记以编写后续电子邮件一样。 当记笔记时,我们几乎不可能写下所有内容。 我们可能需要用缩写词或图画代替单词; 我们可能还需要跳过可以在意义上损失最小的情况下推断出的词。 此过程会将一个小时的会议压缩到仅一页的笔记中。 本质上,注意力机制在尝试通过更加重要的嵌入(单词的缩写或图标表示)来尝试编码序列的过程中也是如此。

什么是Softmax注意机制?

假设我们有这样一个句子“注意力机制到底是什么”

注意力机制的目标是计算一个相对矩阵,该矩阵涉及序列的不同部分应如何相互链接。例如,“注意”和“机制”应该联系在一起,但两者都不应该与“实际”和“是”紧密联系在一起。

该机制将从输入句子的数字形式开始,即一个词嵌入矩阵

注意:词嵌入是一个词的向量表示,它包含该词的不同属性。这些属性的一个过于简单的例子可以是情感、词性和字符数。

然后,它将初始化查询Wq、键Wk和值W_v的三个权重矩阵。

然后,我们可以计算查询矩阵Q、键矩阵K和值矩阵V,分别作为词嵌入矩阵与Wq、Wk和W_v的点积。正如论文中所述,最初的注意力矩阵可以计算如下:

数学公式如下:

为了帮助理解矩阵的操作流程,下面是底层矩阵的图形流程:

这种注意力也被称为softmax注意力,因为它使用softmax激活函数将Q和K的缩放点积转化为注意力的相对测量,即a,其中每一个单词将分享一个比例的注意力,然后总和为1(或100%)。softmax结果将与V结合,为其提供基于注意力的语义结果。

但是什么是查询、键和值呢?

要理解查询、键、值三人组背后的概念,一种过于简单的方法是将transformer理解句子的能力视为最大化以下条件可能性:

当输入序列为[y, "actually", "is", "attention", "mechanism"]时,y = " What "的概率

当输入序列为["what", y, "is", "attention", "mechanism"]时,y = " actually "的概率

当输入序列为["what", "actually", y, "attention", "mechanism"]时,y = " is "的概率为

当输入序列为["what", "actually", "is", y, "mechanism"]时,y = " attention "的概率

当输入序列为["what", "actually", "is", "attention", y]

而推断可能性的方法是注意输入句子中的其他单词(单词嵌入)。在训练过程中,transformers将学习如何在嵌入的基础上通过精炼三个权重矩阵来链接单词。

这种架构的好处在于,我们可以通过创建多组查询、键、值三元组(也称为多头注意层)或堆叠这些注意层来捕获更复杂的语义结构。

为什么Softmax的注意力机制不够好?

在一个典型的transformer中,部署多头注意力来解压缩更复杂的语言模式。softmax注意力机制的时间和空间复杂度变成O(MN),并以输入序列长度的二次速率增长。

为了解决这个问题,来自Google Deepmind的小组利用了Bochner定理,并扩展了Rahmi&Recht(2008)的工作,softmax函数与指数函数的随机特性映射ϕ(独立和正态分布的随机向量w与输入语句x之间的内积的傅立叶特征)。

softmax函数

随机特征映射

随机特征图的点积可用于估计指数函数

在不深入过多数学推导细节的情况下,softmax注意机制可以近似为以下结构:

通过将softmax近似为RFA,谷歌Deepmind将时间和空间复杂度降低到O(M + N),即从二次到线性。

Deepmind的研究成果

由于RFA具有相同的输入和输出尺寸要求,可以作为softmax注意机制的替代。

随着复杂度从二次型下降到线性型,RFA在输入文本序列较长的情况下得到了更显著的改善。

RFA背后的基本原理可以用来近似高斯核之外的其他核函数。在谷歌Deepmind的论文中,他们演示了如何将同样的方法应用于近似弧余弦核。

与softmax一样,RFA本身并不考虑输入句子中的位置距离。在Deepmind的谷歌论文中,他们讨论了如何将递归神经网络的灵感应用于RFA,从而使单词的重要性根据它们在句子中的相对位置呈指数衰减。

最后但并非最不重要的是,机器学习看起来非常出色,但它都是关于数学和统计的。多亏了优秀的研究人员和程序员,我们才有了像TensorFlow和PyTorch这样的高级软件包。尽管如此,我们仍然需要不断学习最新的发展和修改核心概念,以确保我们正在开发可解释的机器学习模型和管道。

作者:Louis Chan

deephub翻译组

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三星Galaxy S26 Ultra真机释出:4.74GHz高配版骁龙8E5

三星Galaxy S26 Ultra真机释出:4.74GHz高配版骁龙8E5

IT之家
2026-02-23 11:09:22
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

削桐作琴
2025-12-10 16:53:18
海南封关首个春节,三亚免税店排长队!每克黄金低近180元,金饰品区格外火爆

海南封关首个春节,三亚免税店排长队!每克黄金低近180元,金饰品区格外火爆

大风新闻
2026-02-23 10:54:05
万荣县出租司机称当地强制他们给游客打折:一天可能50块都赚不到

万荣县出租司机称当地强制他们给游客打折:一天可能50块都赚不到

映射生活的身影
2026-02-22 08:39:24
爆堵!大批人返深路上被堵哭,有人开了近24小时!网友:高速全红

爆堵!大批人返深路上被堵哭,有人开了近24小时!网友:高速全红

王晓爱体彩
2026-02-23 00:25:24
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
A股:大家做好准备,A股突发两条消息,周二股市要这样走!

A股:大家做好准备,A股突发两条消息,周二股市要这样走!

财经大拿
2026-02-23 11:05:47
癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

健康之光
2026-02-11 14:15:20
邮轮假期变噩梦!退休夫妇回家见账单崩溃,存款瞬间缩水

邮轮假期变噩梦!退休夫妇回家见账单崩溃,存款瞬间缩水

华人生活网
2026-02-23 02:27:49
恩爱17年难抵残酷现实,王志文近况曝光,年龄差终究是道坎

恩爱17年难抵残酷现实,王志文近况曝光,年龄差终究是道坎

琨玉秋霜
2026-02-23 03:39:38
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
一人毁了一部电影?《惊蛰无声》唯一败笔,观众:看他演戏真别扭

一人毁了一部电影?《惊蛰无声》唯一败笔,观众:看他演戏真别扭

吴猖旅行ing
2026-02-23 05:15:42
特朗普访华泡汤?中方划下红线,今年必须做了断,美国这次听懂了

特朗普访华泡汤?中方划下红线,今年必须做了断,美国这次听懂了

介知
2026-02-23 06:36:39
队报:舍瓦利耶失去巴黎主力位置,可能落选法国队世界杯名单

队报:舍瓦利耶失去巴黎主力位置,可能落选法国队世界杯名单

懂球帝
2026-02-23 07:17:12
赵心童10-7夺冠,六进决赛全胜,喜迎四大利好!

赵心童10-7夺冠,六进决赛全胜,喜迎四大利好!

情系雨樱花叶
2026-02-23 11:06:29
每户发1000到3000元?江苏这波“真金白银”的操作,暖心!

每户发1000到3000元?江苏这波“真金白银”的操作,暖心!

西莫的艺术宫殿
2026-02-22 17:31:45
纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

谈史论天地
2026-02-19 15:41:31
美媒:谷爱凌口才像政治家能玩弄所有记者,但已不可能在美国从政

美媒:谷爱凌口才像政治家能玩弄所有记者,但已不可能在美国从政

杨华评论
2026-02-23 02:51:08
2026-02-23 11:39:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1928文章数 1456关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
健康
游戏
亲子
时尚

教育要闻

福耀科技大学,揭牌首个境外机构

转头就晕的耳石症,能开车上班吗?

外网用户表扬生化8PC表现极好!6k光追跑120帧

亲子要闻

自从有了俩双胞胎,我这家庭地位直线下降啊

今年春天一定要拥有的针织,这样穿减龄又好看!

无障碍浏览 进入关怀版