网易首页 > 网易号 > 正文 申请入驻

AAAI 2024|ETH轻量化Transformer最新研究,浅层MLP完全替换注意力模块提升性能

0
分享至

目前,在大型语言模型(LLMs)和AIGC的双重浪潮席卷之下,AI迎来了前所未有的发展机遇。一时间,深度模型训练框架、AI算力等等已经成为社区的热点话题。作为LLMs和AIGC的基础算法backbone,Transformer模型已经成为目前最为关键的基础研究方向,对Transformer现有的注意力机制原理进行探索,并提出优化简化的方案,是目前研究的热点。

本文介绍一篇来自苏黎世联邦理工学院(ETH Zurich)的最新Transformer优化工作,目前该文已被人工智能顶级会议AAAI 2024录用。本文的核心出发点是,能否使用更加轻量经济的前馈神经网络(MLP)来替代Transformer中笨重的自注意力层,并通过知识蒸馏的方式使用原始模块进行迁移训练,作者将优化后的模型称为“attentionless Transformers”。作者在IWSLT2017等数据集上的实验验证了attentionless Transformer可以达到与原始架构相当的性能,同时进行了一系列消融实验表明,如果正确的配置参数,浅层MLP完全具有模拟注意力机制的潜力。

论文题目: Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers 论文链接: https://arxiv.org/abs/2311.10642 代码仓库: https://github.com/vulus98/Rethinking-attention
一、引言

Vaswani等人在2017年发表的Transformer结构[1]从根本上改变了sequence-to-sequence建模任务的格局,从那时起,Attention Is All You Need。此外 ,原始Transformer论文还为机器翻译这一基础NLP任务设定了全新的基准(使用BLEU分数作为评价指标)。后续有很多工作对Transformer结构的原理进行探索,人们认为,Transformer的注意力机制能够在时序数据中建立长期依赖关系,使其能够关注序列中的每个元素,这是之前的网络架构在没有大量计算开销的情况下难以实现的效果。为了进一步缩小注意力机制的资源消耗,本文作者提出了一个大胆的设想,能否直接用更轻量的浅层MLP来模拟注意力机制的计算,虽然缺乏在理论上的推理证明,但本文通过实验表明,这种替代方式是完全有效的。

二、本文方法

原始的Transformer架构由一系列的编码器和解码器块堆叠而成。其中编码器层有一个自注意力块,而解码器层包含自注意力块和交叉注意力块。本文针对注意力块提出了四种不同程度的MLP替换模式,这四种替换模式如下图所示。

(1)注意力层替换(Attention Layer Replacement,ALR):仅用MLP替换多头注意力(MHA)块,保留残差连接和归一化层

(2)残差连接替换的注意力层(Attention Layer with Residual Connection Replacement,ALRR):MHA模块以及残差连接被MLP替换,这种方式可以直接消除 Transformer 中的残差连接

(3)注意力头分离替换(Attention Separate heads Layer Replacement,ASLR):ALR的变体,该方法用单独的MLP替换MHA模块的每个单独头

(4)编码器层替换(Encoder Layer Replacement,ELR):完全使用MLP替换编码器层。

其中 ALR 和 ALRR 的设计灵感是将注意力层的性能提升与残差连接的性能提升分离开来,而ASLR则是用来模拟多头注意力层中每个单独头的操作,即直接使用MLP来代替多头注意力(MHA)。而ELR作为最高的抽象级别,直接将整个编码器块替换为MLP网络,这本质上颠覆了原始编码器架构,将Transformer转换为纯MLP结构。这种替换方式对模型整体参数规模的影响非常显著,下表展示了以上四种方式在XS、S、M和L四种尺寸下的参数大小。

作者以ALRR模式作为样例,首先训练了原始6层编码器和6层解码器的Transformer模型作为MLP网络的教师模型,为了提高训练速度,作者将原始嵌入长度从512减少到128,这样做对模型BLEU分数的影响并不大,但其需要的计算需求会显著降低,此时模型的训练和推理流程如下图所示,使用其他三种模式的训练流程与此类似。

在进行知识蒸馏之前,需要从原始Transformer模型中提取中间激活值,并且对其进行额外的调整,如下图所示,首先需要在每个注意力层中将句子的输入单词表示转换为由输入表示提取的值的线性组合,随后,MLP网络需要将句子的串联单词表示作为输入,并在一次前向传播中生成更新的单词表示作为输出。为了处理不同长度的输入句子,作者直接将所有句子填充到最大固定长度,并用零屏蔽填进行占位。


当模型蒸馏结束后,直接将ALRR简化块插入到Transformer架构中替换之前的冗余层,在替换时,需要考虑对编码器中的注意力层和解码器的注意力层进行区别处理,主要区别在于,解码器中的MLP替换网络需要遵循因果Mask机制,即只有句子中前面的单词才能影响当前单词的语义,而编码器中的替换不需要考虑这一点。
三、实验效果

本文的实验主要在 IWSLT2017 数据集上进行,该数据集提供了多个语言翻译子集,包括法语-英语(F2E)、英语-法语(E2F)、德语-英语(G2E)和英语-德语(E2G)子集,这些子集平均含有 200000 个训练句子和 1000 个测试句子。翻译后的评价指标选取BLEU分数,BLEU可以衡量模型输出结果与人类专家翻译的直观比较,下表展示了基线Transformer模型(原始模型)在四个翻译子集上的平均效果。

随后作者将本文提出的四种MLP替换模式一一进行了实验,下表首先展示了ALR(仅替换多头注意力层)模式的实验结果,其中“Enc”代表编码器,“Dec”代表解码器,“SA”代表自注意力,“CA”代表交叉注意力,E-D代表同时对编码器和解码器进行替换。从表中可以分析得出,在ALR模式下,“Dec CA”(解码器中的交叉注意力)的BLEU分数较低。

下表展示了其他三种模式:ALRR、ASLR和ELR替换后的实验效果,由于这三种模式不涉及对解码器注意力层的替换,因此模型的整体表现较好。

下图展示了四种替换模式与原始基线Transformer模型的BLEU分数差距,与基线相比,所有提出的替换模式都取得了有竞争力的结果,在四种替换模式中,ELR 表现最差,这是由于ELR的构建过于简单

此外,作者还对ALR替换模式在Transformer中的各种替换位置进行了消融实验,如下图所示。ALR在解码器自注意力层中的替换展现出了较好的性能,而在交叉注意力块的表现较差,作者分析造成这种现象的原因是ALR简单的前向传播结构缺乏描述交叉注意力中复杂的映射交互能力,因此,目前想直接使用MLP完全替换交叉注意力层仍然无法实现,同时还有一个缺陷,当使用ALR替换时,模型将只能接受固定长度的序列作为输入,而失去原本的灵活性

作者还提到,如果能够在对MLP替换层进行知识蒸馏的基础上,引入更加高级的参数搜索策略(例如使用贝叶斯优化)进一步优化MLP层的超参数,有可能会提升模型整体的性能,同时可以进一步缩减MLP替换层的参数量。此外,另一个潜在的研究方向就是对MLP层进行针对性设计,使其模拟交叉注意力模块中的复杂建模能力。

四、总结

本文介绍了一种简单直接的Transformer架构优化方法,以Transformer模型中的核心操作自注意力(SA)和交叉注意力层(CA)为优化目标,直接使用简单高效的MLP层进行替换。根据替换抽象程度和模型参数缩减规模,作者提出了四种替换模式:ALR、ALRR、ASLR和ELR,然后通过知识蒸馏技术将原始Transformer模型的拟合能力迁移到这些轻量化的MLP层中。 作者通过在基础NLP翻译基准上的实验表明,Transformer模型完全可以在Attention Free的情况下正常运作,但是需要保留原始的交叉注意力层。

参考

[1] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, L.; and Polosukhin, I. 2017. Attention Is All You Need. arXiv:1706.03762.

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
时代的起点!重建马刺第1次季后赛直通总决 波波维奇最伟大的作品

时代的起点!重建马刺第1次季后赛直通总决 波波维奇最伟大的作品

云隐南山
2026-05-31 13:20:08
王者归来 29岁樊振东率队3-1进决赛:出任一单独取2分 与新主争冠

王者归来 29岁樊振东率队3-1进决赛:出任一单独取2分 与新主争冠

风过乡
2026-05-31 07:09:45
模仿黄仁勋走红后,“我现在很害怕”

模仿黄仁勋走红后,“我现在很害怕”

中国新闻周刊
2026-05-30 18:22:20
何超莲也没想到,公开回应婚变传闻后,窦骁竟再次为赌王家族长脸

何超莲也没想到,公开回应婚变传闻后,窦骁竟再次为赌王家族长脸

仙味少女心
2026-05-30 20:41:08
日本1-0冰岛,小川航基头球破门,富安健洋造险

日本1-0冰岛,小川航基头球破门,富安健洋造险

懂球帝
2026-05-31 20:37:23
3比0!冠军!准备总冠军!谢谢你,孙铭徽!

3比0!冠军!准备总冠军!谢谢你,孙铭徽!

篮球实战宝典
2026-05-31 21:25:57
重大损失!蔡元元在澳门去世

重大损失!蔡元元在澳门去世

南方都市报
2026-05-31 09:06:40
演员肖旭被曝出轨,其宣布结婚当天,前女友石蕊发文控诉:长达13年的感情,竟以“8年背叛”收场

演员肖旭被曝出轨,其宣布结婚当天,前女友石蕊发文控诉:长达13年的感情,竟以“8年背叛”收场

扬子晚报
2026-05-30 10:14:11
一男子家中被盗10万,嫌狗不叫把它卖了300元,谁料,3天后警察上门,说出一句话,男子疯了一样冲出去...

一男子家中被盗10万,嫌狗不叫把它卖了300元,谁料,3天后警察上门,说出一句话,男子疯了一样冲出去...

背包旅行
2026-05-31 11:50:15
云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

林林故事揭秘
2025-01-03 17:30:21
15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

科技堡垒
2026-05-29 11:14:19
特斯拉国产 Model Y 周边新品真火了,海外车主:请在全球上架售卖!

特斯拉国产 Model Y 周边新品真火了,海外车主:请在全球上架售卖!

新浪财经
2026-05-31 10:31:03
这跟不穿有啥区别!北京这一夜,31岁徐璐穿透视礼服,属实辣眼睛

这跟不穿有啥区别!北京这一夜,31岁徐璐穿透视礼服,属实辣眼睛

八斗小先生
2026-05-29 19:24:16
20分6板6记三分球!年薪仅300万美金!文班亚马盛赞尚帕尼

20分6板6记三分球!年薪仅300万美金!文班亚马盛赞尚帕尼

世界体育圈
2026-05-31 14:37:18
日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

东京新青年
2026-05-31 18:08:07
德甲爆大冷!卡尔伯格两分邱党双打立功 樊振东新东家3-2逆转进决赛 与樊振东争冠!

德甲爆大冷!卡尔伯格两分邱党双打立功 樊振东新东家3-2逆转进决赛 与樊振东争冠!

好乒乓
2026-05-31 11:20:37
德比斯阿拉贡站第8!失利原因曝光,张雪很生气,二回夺冠概率低

德比斯阿拉贡站第8!失利原因曝光,张雪很生气,二回夺冠概率低

暖心萌阿菇凉
2026-05-31 09:14:28
张雪机车德比斯复盘失利:换了新轮胎加速上不去,自己两弯道失误

张雪机车德比斯复盘失利:换了新轮胎加速上不去,自己两弯道失误

代古龙侃球
2026-05-31 19:45:22
释永信“私生子”传闻再次发酵!网友:他此前每天怎么面对佛祖的

释永信“私生子”传闻再次发酵!网友:他此前每天怎么面对佛祖的

火山詩话
2026-05-31 12:25:32
朱军62岁退休,正义虽迟但到,女方终受惩

朱军62岁退休,正义虽迟但到,女方终受惩

潘殤旅行浪子
2026-05-31 18:15:16
2026-05-31 22:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2395文章数 596关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
亲子
本地
房产
公开课

LCK第二赛段:HLE连下两城击溃BRO,排行榜第一,进军季后赛

亲子要闻

青少年哪个品牌DHA好?藻油组合易吸收,纯净配方无负担,学习状态更稳定

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版