网易首页 > 网易号 > 正文 申请入驻

Meta开源“记忆层”,重塑Transformer架构大模型

0
分享至

11月3日凌晨三点,全球社交巨头Meta分享了一个创新研究——Memory layers(记忆层)。

目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。“记忆层”则提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小集合中的键,可以快速找到最相关的键,而无需遍历模型的整个记忆层。

换言之,可以在不增加算力的情况下显著增加大模型的参数。在传统的键值查找中,每个查询都需要与记忆层中的每个键进行比较,以找到最匹配的值。该方法在键的数量较少时是可行的,但随着记忆层规模的增长,这种暴力搜索的方式变得非常低效,需要消耗巨大算力和时间。

Product - Key Lookup是“记忆层”的核心算法之一,使用了一种分而治之的策略,将传统的单一键集合分解为两个较小的键集合,通过两个阶段的查找来减少必要的比较次数,从而提高查找效率。

除了计算效率之外,Product-Key Lookup模块还优化了内存和带宽的使用。由于每个GPU只需要处理一半的键,因此内存的使用量减少了一半。由于每个GPU只需要返回与自己处理的键相关的值,所以内存带宽的需求也得到了优化。

Product-Key Lookup算法不仅提高了记忆层的查询效率,还为记忆层的应用开辟了新的可能性,使得记忆层可以被应用于更大规模的数据集和更复杂的任务中,包括大规模知识图谱的查询、长文本的语义检索等。

并行记忆层则主要是用于对硬件GPU的优化。在传统的Transformer架构模型中,随着模型规模的增加,计算和内存需求也随之增长。特别是在处理大规模数据集时,单一的计算单元很难满足这种需求。并行记忆层通过在多个GPU之间分配任务,有效解决这一难题。在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少单个计算单元的负担,同时提高整体的处理速度。

共享记忆参数则是另外一个重要优化方法,允许不同层的记忆层共享同一个参数集合。这种设计的优势在于,它减少了模型的总参数数量,同时提高了参数的利用率。

为了应对训练期间可能出现的变化,研究人员开发了一套动态调整策略。每当有新的键加入或旧有的键被更新时,系统会自动调整相应的子集,而无需对整个记忆池进行全面改造。这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你闻过最难闻的味道是什么?网友:从此对美女有阴影了!

你闻过最难闻的味道是什么?网友:从此对美女有阴影了!

另子维爱读史
2025-12-12 20:40:44
女人想让你“得手”,不会明说,而会用这些“信号”提示你

女人想让你“得手”,不会明说,而会用这些“信号”提示你

文雅笔墨
2026-01-03 11:08:48
人社部重磅发声!2026年养老金定调,取消“挂钩”调整?别做梦了

人社部重磅发声!2026年养老金定调,取消“挂钩”调整?别做梦了

李博世财经
2026-01-02 16:59:40
俄媒预测:2026年,中国的GDP增速将是美国的2倍!

俄媒预测:2026年,中国的GDP增速将是美国的2倍!

王爷说图表
2026-01-02 20:50:53
武汉体育学院宿舍楼深夜着火,学生称因电路老化燃过多次; 校方:无伤亡,会发通报

武汉体育学院宿舍楼深夜着火,学生称因电路老化燃过多次; 校方:无伤亡,会发通报

大风新闻
2026-01-03 11:52:11
骚乱升级?特朗普:准备干涉,伊朗总统称,责任在己,不怨美国!

骚乱升级?特朗普:准备干涉,伊朗总统称,责任在己,不怨美国!

清风醉史
2026-01-03 14:51:29
叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

寻史者也
2024-11-04 23:44:47
43岁孙俪苏州拍戏一脸凶相!对粉丝翻白眼好吓人,助理追着路人撵

43岁孙俪苏州拍戏一脸凶相!对粉丝翻白眼好吓人,助理追着路人撵

观察鉴娱
2026-01-01 13:04:06
“台独”分子懵了!国民党领导人:两岸没有国籍问题只有户籍问题

“台独”分子懵了!国民党领导人:两岸没有国籍问题只有户籍问题

趣生活
2026-01-02 14:21:30
江青的唯一外孙王效芝,12岁母亲改嫁王景清,王效芝:我感激外公

江青的唯一外孙王效芝,12岁母亲改嫁王景清,王效芝:我感激外公

谈古论今历史有道
2026-01-02 15:20:02
“港独分子”陈方安生,如今已活成了一个“笑话”?善恶终有报!

“港独分子”陈方安生,如今已活成了一个“笑话”?善恶终有报!

凉羽亭
2025-12-29 19:37:55
中国海警发海报,要查扣美国军火?四国已经集结,准备对华出手?

中国海警发海报,要查扣美国军火?四国已经集结,准备对华出手?

荐史
2026-01-01 10:08:49
她和撒贝宁同居多年!却转身投入富豪怀抱,没想到现在竟沦落至此

她和撒贝宁同居多年!却转身投入富豪怀抱,没想到现在竟沦落至此

失宠的小野猪
2026-01-03 14:59:04
村干部工资新标准,2026年开始,村书记每个月拿多少钱?

村干部工资新标准,2026年开始,村书记每个月拿多少钱?

老特有话说
2025-12-28 21:51:02
央行定调:下一步要“涨物价”,强拉通胀了!这意味着什么?

央行定调:下一步要“涨物价”,强拉通胀了!这意味着什么?

诗意世界
2026-01-03 13:16:32
青岛卫健委通报“护士带男友进医院配药室”事件:涉事护士已停职

青岛卫健委通报“护士带男友进医院配药室”事件:涉事护士已停职

封面新闻
2026-01-03 13:17:02
切尔西临时主帅:球员展现出的活力是顶级的;不认识瓜迪奥拉

切尔西临时主帅:球员展现出的活力是顶级的;不认识瓜迪奥拉

懂球帝
2026-01-02 22:54:12
小玥儿问“你会走吗”,马筱梅没躲,她陪孩子哭也陪孩子想妈妈

小玥儿问“你会走吗”,马筱梅没躲,她陪孩子哭也陪孩子想妈妈

东方不败然多多
2026-01-02 09:37:22
2500亿!深圳的超级IPO来了

2500亿!深圳的超级IPO来了

深圳梦
2026-01-03 12:08:44
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
2026-01-03 15:43:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
131468文章数 1849606关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

男子花29万买了一辆智界R7展车 撞车后拆出麻花和饼干

头条要闻

男子花29万买了一辆智界R7展车 撞车后拆出麻花和饼干

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

家居
教育
亲子
数码
公开课

家居要闻

无形有行 自然与灵感诗意

教育要闻

99999次方看着可怕,分类讨论不难

亲子要闻

为什么爸爸妈妈看见你拖拉就着急?

数码要闻

苹果首款低价MacBook即将发布:搭载A18 Pro芯片+12.9英寸屏幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版