网易首页 > 网易号 > 正文 申请入驻

谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本

0
分享至

Transformer对大模型界的影响力不言而喻,ChatGPT、Sora、Stable Difusion等知名模型皆使用了该架构。

但有一个很明显的缺点,其注意力复杂度的二次方增长在处理书籍、PDF等超长文档时会显著增加算力负担。

虽然会通过滑动窗口注意力和稀疏注意力等技术来解决这一问题,在处理极长序列时仍存在局限性。

因此,谷歌的研究人员提出了全新架构TransformerFAM,可以无缝与预训练模型集成,并通过LoRA进行少量精调从而大幅度提升模型性能

研究人员在1B、8B和24B三种参数的Flan-PaLM大语言模型上评估了Transformer FAM的性能。实验结果显示,与Transformer架构相比,TransformerFAM在长序列任务上取得了好的能力并且资源消耗更低。

论文地址:https://arxiv.org/abs/2404.09173



TransformerFAM的技术灵感来自人脑中工作记忆的机制。研究人员发现,大脑中的工作记忆能力是由前额叶皮层和视床之间的反馈循环维持的,即持续的神经元脉冲活动形成了一个反馈回路,从而实现了对短期记忆的维持和更新。

受此启发,研究人员设计了一个集成在Transformer中的反馈循环,使得注意力机制不仅可以关注输入序列,还能自我关注自身的潜在表示,使大模型能够存储超长和更新全局上下文信息。

简单来说,可以把TransformerFAM看成是一个"便签本",可以帮助大模型记住很多短暂、细小的事情,又不会对内存、算力造成过多的负担。

反馈注意力记忆

反馈注意力记忆(Feedback Attention Memory,FAM)是TransformerFAM架构的核心模块,主要通过反馈循环使神经网络能够注意到自身的潜在表示,从而允许大模型处理超长的输入序列。



研究人员在每个Transformer层中都加入了FAM模块,在自注意力过程中被激活,使得输入查询不仅关注当前块和滑动窗口覆盖的过去记忆段,还能关注前一步的FAM状态,将全局上下文知识融入当前表示。

同时一个专门的FAM查询则负责根据当前块和上一步的FAM,更新后续的FAM状态以实现全局上下文信息的传递。

这种巧妙设计使得每个Transformer层都能够维持一个与其抽象层次相对应的分布式工作记忆状态。

块内压缩

块内压缩是Transformer架构中处理长序列数据的关键技术。主要是将长序列分成若干个小块,然后对每个块中的信息进行压缩,以便模型能够更高效地处理和记忆这些信息。

在每个Transformer层中,块内压缩通过自注意力机制将当前块的信息压缩成一个固定长度的表示用于反馈记忆的激活。然后再与之前的FAM状态结合,通过一个前馈网络进行更新生成全新的FAM状态。



更新后的FAM状态会被传递到下一个块,作为那里的额外上下文信息,从而实现跨块的数据信息传递。

随着模型逐块处理整个序列,新的记忆状态会包含越来越多跨块的信息,从而形成一个全局的上下文理解,但对内存、算力的需求几乎没有额外增加,同时又获得了“记忆存储”的泛化能力。

本文素材来源TransformerFAM论文,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湘江水位已回落,此轮强降雨湖南紧急转移2.3万人次

湘江水位已回落,此轮强降雨湖南紧急转移2.3万人次

澎湃新闻
2024-06-21 13:52:33
中国扩大对美制裁后,美国反应很快来了,美高官:表示强烈反对

中国扩大对美制裁后,美国反应很快来了,美高官:表示强烈反对

博览历史
2024-06-20 17:38:00
要40万彩礼被婆家记仇!浙江女子刚生完孩子,就被老公提出离婚

要40万彩礼被婆家记仇!浙江女子刚生完孩子,就被老公提出离婚

好笑娱乐君每一天
2024-06-21 07:15:10
签了!108亿美元, 要买100架国产C919飞机!

签了!108亿美元, 要买100架国产C919飞机!

证券时报e公司
2024-06-20 20:56:50
详解毕福剑事件始未,世间再无“毕姥爷”!

详解毕福剑事件始未,世间再无“毕姥爷”!

平安是福呀
2024-04-27 08:46:59
朱芳雨透漏实情,周琦这小子去意已决?关系再铁也没用

朱芳雨透漏实情,周琦这小子去意已决?关系再铁也没用

体坛狗哥
2024-06-20 22:15:47
贪欲膨胀,并非法收受巨额财物,东莞梁晃标被“双开”

贪欲膨胀,并非法收受巨额财物,东莞梁晃标被“双开”

南方都市报
2024-06-20 21:26:12
球迷不当行为!塞尔维亚要求欧足联严惩克罗地亚和阿尔巴尼亚

球迷不当行为!塞尔维亚要求欧足联严惩克罗地亚和阿尔巴尼亚

直播吧
2024-06-20 17:33:18
玫瑰的故事:直到肖小雨往方协文身上生扑,才明白他为何同意离婚

玫瑰的故事:直到肖小雨往方协文身上生扑,才明白他为何同意离婚

娱乐故事
2024-06-21 11:08:10
现在我们就在萧条期!什么时候会结束?

现在我们就在萧条期!什么时候会结束?

古老板的老巢
2024-04-29 19:37:22
河南小麦:亩产1825斤,评论区骂声一片。网友:没这数去哪领补贴

河南小麦:亩产1825斤,评论区骂声一片。网友:没这数去哪领补贴

三月柳
2024-06-19 11:02:13
太丢人了!大连一男子当街疑骚扰妙龄女子,结果被她按在地上摩擦

太丢人了!大连一男子当街疑骚扰妙龄女子,结果被她按在地上摩擦

火山诗话
2024-06-20 14:24:49
国足的保利尼奥!英冠21岁后腰愿接受归化 他是三代华裔

国足的保利尼奥!英冠21岁后腰愿接受归化 他是三代华裔

球事百科吖
2024-06-21 12:02:22
天哪!王思聪有私生女不算什么,这才是王家最大的瓜

天哪!王思聪有私生女不算什么,这才是王家最大的瓜

洛子帅品评
2024-06-19 10:54:32
2009年百名黑人围堵广东警局,逼得军区出动,面对他们的就两个字

2009年百名黑人围堵广东警局,逼得军区出动,面对他们的就两个字

畅敏风云
2024-06-20 17:08:24
46岁男星走投无路,跪在电视台门口乞求工作,母亲或不堪贫苦自杀

46岁男星走投无路,跪在电视台门口乞求工作,母亲或不堪贫苦自杀

娱乐白名单
2024-06-20 10:25:09
疑惑,费迪南德:索斯盖特现在还意识不到福登该踢中路吗

疑惑,费迪南德:索斯盖特现在还意识不到福登该踢中路吗

懂球帝
2024-06-21 01:22:20
反华总统迎来援军,两艘航母强势抵达战场,中方大怒:实弹备战!

反华总统迎来援军,两艘航母强势抵达战场,中方大怒:实弹备战!

博文聊世界
2024-06-19 08:11:31
查尔斯已入院准备动手术,卡米拉打破常规陪同,两人去探望了凯特

查尔斯已入院准备动手术,卡米拉打破常规陪同,两人去探望了凯特

一口娱乐
2024-06-21 13:17:18
2024年养老金上涨3%,调整方法具体要求有变,传递了什么信号?

2024年养老金上涨3%,调整方法具体要求有变,传递了什么信号?

小强财艺
2024-06-20 22:55:44
2024-06-21 14:32:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
335文章数 51关注度
往期回顾 全部

科技要闻

已经全球第一了,为什么还要“奋斗100天”

头条要闻

普京离开越南前警告韩国:若向乌提供武器将犯下大错

头条要闻

普京离开越南前警告韩国:若向乌提供武器将犯下大错

体育要闻

1-0"吊打"意大利 西班牙这就叫冠军相?

娱乐要闻

陈晓惹争议!被曝婚变离家出走冷暴力

财经要闻

普华永道,引火烧身

汽车要闻

领克纯电,来得不晚

态度原创

健康
旅游
数码
亲子
公开课

晚餐不吃or吃七分饱,哪种更减肥?

旅游要闻

强降雨天气来袭:桂林部分景点关闭 酒店启动退改

数码要闻

一加 100W 超级闪充移动电源官宣:12000mAh、100W 输出 45W 输入

亲子要闻

重要提醒!你家娃补打脊灰疫苗了吗?这些娃需要补打

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版