网易首页 > 网易号 > 正文 申请入驻

Meta开源“记忆层”,重塑Transformer架构大模型

0
分享至

11月3日凌晨三点,全球社交巨头Meta分享了一个创新研究——Memory layers(记忆层)。

目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。“记忆层”则提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小集合中的键,可以快速找到最相关的键,而无需遍历模型的整个记忆层。

换言之,可以在不增加算力的情况下显著增加大模型的参数。在传统的键值查找中,每个查询都需要与记忆层中的每个键进行比较,以找到最匹配的值。该方法在键的数量较少时是可行的,但随着记忆层规模的增长,这种暴力搜索的方式变得非常低效,需要消耗巨大算力和时间。

Product - Key Lookup是“记忆层”的核心算法之一,使用了一种分而治之的策略,将传统的单一键集合分解为两个较小的键集合,通过两个阶段的查找来减少必要的比较次数,从而提高查找效率。

除了计算效率之外,Product-Key Lookup模块还优化了内存和带宽的使用。由于每个GPU只需要处理一半的键,因此内存的使用量减少了一半。由于每个GPU只需要返回与自己处理的键相关的值,所以内存带宽的需求也得到了优化。

Product-Key Lookup算法不仅提高了记忆层的查询效率,还为记忆层的应用开辟了新的可能性,使得记忆层可以被应用于更大规模的数据集和更复杂的任务中,包括大规模知识图谱的查询、长文本的语义检索等。

并行记忆层则主要是用于对硬件GPU的优化。在传统的Transformer架构模型中,随着模型规模的增加,计算和内存需求也随之增长。特别是在处理大规模数据集时,单一的计算单元很难满足这种需求。并行记忆层通过在多个GPU之间分配任务,有效解决这一难题。在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少单个计算单元的负担,同时提高整体的处理速度。

共享记忆参数则是另外一个重要优化方法,允许不同层的记忆层共享同一个参数集合。这种设计的优势在于,它减少了模型的总参数数量,同时提高了参数的利用率。

为了应对训练期间可能出现的变化,研究人员开发了一套动态调整策略。每当有新的键加入或旧有的键被更新时,系统会自动调整相应的子集,而无需对整个记忆池进行全面改造。这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Shams:大合同是安抚布朗唯一方法 但绿军从未打算提前续约

Shams:大合同是安抚布朗唯一方法 但绿军从未打算提前续约

北青网-北京青年报
2026-07-03 08:30:08
8天跌没4430亿美元,人类首个“万亿富翁”宝座,还没坐热就塌了

8天跌没4430亿美元,人类首个“万亿富翁”宝座,还没坐热就塌了

南方健哥
2026-07-03 03:31:04
超越姆巴佩,亚马尔是国家队大赛收获10胜最年轻的欧洲球员

超越姆巴佩,亚马尔是国家队大赛收获10胜最年轻的欧洲球员

懂球帝
2026-07-03 05:46:04
6-9落后擦边绝杀!19岁松岛辉空终于觉醒 双项折戟后打崩世界第九

6-9落后擦边绝杀!19岁松岛辉空终于觉醒 双项折戟后打崩世界第九

颜小白的篮球梦
2026-07-03 06:25:49
曼联周5官宣150万出租奥纳纳!拒绝让他当替补,预计最终免费走人

曼联周5官宣150万出租奥纳纳!拒绝让他当替补,预计最终免费走人

罗米的曼联博客
2026-07-03 09:55:39
毕业即失业!这10个理工类烂专业,分数再高也别乱报

毕业即失业!这10个理工类烂专业,分数再高也别乱报

户外阿毽
2026-06-30 00:25:16
深夜,全球资产拉升!美联储,加息突变!

深夜,全球资产拉升!美联储,加息突变!

证券时报
2026-07-02 23:05:18
一旦开战,中国3000架飞机根本上不了场?俄专家揭露真相

一旦开战,中国3000架飞机根本上不了场?俄专家揭露真相

青山夜谈
2026-06-16 17:16:03
凌晨暴雨!冷黄梅结束热黄梅来了

凌晨暴雨!冷黄梅结束热黄梅来了

脊梁in上海
2026-07-03 07:09:38
FSD清白了 特斯拉致命车祸司机人为超速、被控过失杀人

FSD清白了 特斯拉致命车祸司机人为超速、被控过失杀人

凤凰网科技
2026-07-03 07:16:28
中央巡查组明查暗访发现:南宁邕江水上运动已形成重大安全隐患,再不治理迟早出大事

中央巡查组明查暗访发现:南宁邕江水上运动已形成重大安全隐患,再不治理迟早出大事

上观新闻
2026-07-02 16:14:42
11球+14球,C罗是首位世界杯+欧洲杯打入25球的球员

11球+14球,C罗是首位世界杯+欧洲杯打入25球的球员

懂球帝
2026-07-03 09:03:12
球迷穿日本球衣都要管?足协先解释为什么国足几十年进不了世界杯!

球迷穿日本球衣都要管?足协先解释为什么国足几十年进不了世界杯!

人间运行手册
2026-07-03 08:05:49
如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

灯锦年
2026-07-01 17:38:16
四个城市,人口跌破千万了

四个城市,人口跌破千万了

城市财经
2026-07-02 12:27:49
被称“全球最美女孩”的她,结婚了!

被称“全球最美女孩”的她,结婚了!

自愈小日子
2026-07-02 01:24:54
世界杯巨星魔咒,这次被梅西姆巴佩砸碎了

世界杯巨星魔咒,这次被梅西姆巴佩砸碎了

竞技风云录
2026-07-03 01:35:28
丰田销冠换人,凯美瑞力压RAV4

丰田销冠换人,凯美瑞力压RAV4

字节漫游指南
2026-07-03 03:22:46
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

格斗时代
2026-06-30 20:34:39
2026-07-03 11:00:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
144534文章数 1850899关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

克罗地亚绝平球无效 官方放赛事用球内置芯片检测画面

头条要闻

克罗地亚绝平球无效 官方放赛事用球内置芯片检测画面

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

黄晓明深夜约会美女,分手原因曝光

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

数码
本地
亲子
公开课
军事航空

数码要闻

专业无线麦克风也卡颜了?DJI Mic Mini 2S体验

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

亲子要闻

800元“包怀孕”,地下黑市背后的全民生育焦虑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版