网易首页 > 网易号 > 正文 申请入驻

M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制

0
分享至

本文的第一作者Yu Wang来自加州大学圣地亚哥分校,主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习过程中完成,通讯作者Zexue He也毕业于加州大学圣地亚哥分校。

M+是在 MemoryLLM 之上提出的长期隐空间记忆扩展框架:通过把「过期」隐藏向量写入CPU - 侧长期记忆池,再用协同检索器拉回最相关记忆,它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上,同时显存占用保持不变。

  • 论文标题:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 论文链接:https://arxiv.org/abs/2502.00592
  • 代码仓库:https://github.com/wangyu-ustc/MemoryLLM
  • 开源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 记忆 & 现有记忆模型的缺陷

上下文窗口并不能直接等价于记忆。GPT-4.1 之类的模型即便支持 100 万 token,也会随窗口线性升高显存与延迟,难以落地本地部署。

业界主流做法是 “Token-Level Memory”:把历史内容或三元组存在数据库 / 向量库,检索后再拼接回 prompt;MemGPT等系统即属此类。该类做法不需要重复训练,直接结合 GPT-4 这样的大模型便可以获得很不错的性能,但是,它也会有一些随之而来的问题:(1)冗余:原始文本并非最紧凑表达,重复率高。(2)冲突难解:遇到相互矛盾或不断更新的信息时,文本级冲突消解复杂。(3)多模态能力弱:由于数据库格式为文本,处理音频或者图片,视频数据将相对困难。

因此,我们希望探索隐空间 (Latent-Space) 的 Memory -- 既压缩又可端到端训练,更接近人类在神经激活中存储信息的方式。

M + 的关键改进:Long-Term Memory

在 MemoryLLM 中,我们为 8B 的 Llama3 模型引入了约 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 层。当第一层接收到词输入后,会通过 Embedding 层将词转化为一系列 4096 维的向量。基于这一特点,我们设计了 MemoryLLM,在每一层都加入 N 个 Memory Tokens(实验中 N=12800)。在生成过程中,这些 Memory Tokens 会作为每一层的 Prefix,通过 Cross-Attention 将信息注入后续层,使模型能 “看到” 保存在 Memory Pool 中的历史信息。

在更新阶段,我们会将每层 Memory Token 中最后 K 个(实验中 K=256)与需要写入的信息一同送入 Transformer,再次经过 Cross-Attention,将信息压入新的 Memory Tokens 中(如下图所示)。与此同时,我们在原有 Memory 中随机丢弃 K 个旧 Token,并将新生成的 K 个 Token 放到 Memory 尾部,完成更新。

基于这样的设计,借助每层 12800 个 Memory Vectors,我们在 50k tokens 内都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后续在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可达 50k)。然而,这样的记忆容量仍无法满足我们对更长序列的期待。要进一步扩展 Memory,单靠原有的 1.67B 容量已远远不够,因此我们提出了Long-Term Memory。

如何高效实现 Long-Term Memory?考虑到 MemoryLLM 中每一个 Memory Token 本质上都来自 Hidden States,我们将那些在更新过程中被 “丢弃” 的 Memory Token 并非直接舍弃,而是将其保存在长期记忆池中(如下图)。

仅仅保存是不够的,我们还需要具备强大的提取能力。最初我们尝试用 Attention 来从长期记忆中检索 Hidden States,但实验表明 Attention 在提取 Hidden States 时效果有限(在论文的消融实验中做了详尽对比)。因此我们提出协同提取器(Co-trained Retriever),并与全模型进行联合训练(如下图)。

通过这一结构,我们将模型的有效记忆跨度从 50k 一举提升到 160k,且由于 Memory 主要驻留在 CPU,不会显著增加 GPU 负担。

M + 的实验结果

显著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 两个数据集上,我们都在更少 GPU 的使用下(单卡 18GB 左右)获得了更强大的性能。

更强的信息留存能力:在 SQuAD 数据集上表现出远超 MemoryLLM-7B 以及相关 ablation baseline 的信息留存能力,可以达到 160k 依旧不完全遗忘过去的信息。

结语

M+ 展示了我们在探索隐空间长期记忆领域的重要进展,也为下一代具备持续记忆能力的语言模型提供了坚实的技术支撑。未来,我们将继续研究更高效的存储机制、更智能的检索策略,以及与多模态输入更自然融合的隐空间记忆架构。在此方向上,M+ 不仅是对 MemoryLLM 的一次扩展,也是我们对 “让模型拥有接近人类记忆能力” 这一愿景的又一次有力实践。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不退役了?勇士4冠功臣预计回归,年薪创纪录,阻碍开拓者引援!

不退役了?勇士4冠功臣预计回归,年薪创纪录,阻碍开拓者引援!

你的篮球频道
2026-04-19 17:14:51
日本乒坛内讧:松岛辉空当众炮轰张本智和:你不守时,我特别讨厌你!

日本乒坛内讧:松岛辉空当众炮轰张本智和:你不守时,我特别讨厌你!

最爱乒乓球
2026-04-20 00:07:44
2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

老特有话说
2026-04-16 16:16:26
为何单身老人喜欢请保姆?50岁保姆倾诉:大多不是为了花钱买服务

为何单身老人喜欢请保姆?50岁保姆倾诉:大多不是为了花钱买服务

烙任情感
2026-04-19 11:10:39
古装剧都是骗人的:真实的古代百姓餐桌,现代人看一眼就想吐

古装剧都是骗人的:真实的古代百姓餐桌,现代人看一眼就想吐

富贵说
2026-04-19 14:52:13
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
拱北海关原一级巡视员彭伟鹏被查

拱北海关原一级巡视员彭伟鹏被查

新京报
2026-04-20 10:19:05
日本垄断全球90%!一旦断供,别国造不出,中国咋办?

日本垄断全球90%!一旦断供,别国造不出,中国咋办?

今墨缘
2026-04-14 09:57:22
秦岚 x 黑丝要人命

秦岚 x 黑丝要人命

TVB的四小花
2026-04-20 01:48:17
解气!!!来而不往非礼也!中国海军今天出手了!

解气!!!来而不往非礼也!中国海军今天出手了!

乐趣纪史
2026-04-20 08:03:19
看不上!西媒:若克洛普执教皇马,佛爷必须出售姆巴佩和维尼修斯

看不上!西媒:若克洛普执教皇马,佛爷必须出售姆巴佩和维尼修斯

夏侯看英超
2026-04-20 11:32:19
她穿着玫瑰裙站上擂台,全场数到第50618人

她穿着玫瑰裙站上擂台,全场数到第50618人

体坛观察猿
2026-04-19 09:35:02
伊朗宣布对所有商船开放霍尔木兹海峡

伊朗宣布对所有商船开放霍尔木兹海峡

环球网资讯
2026-04-17 21:29:34
NBA公布MVP三大最终候选!文班强势入围,评论区球迷炸锅

NBA公布MVP三大最终候选!文班强势入围,评论区球迷炸锅

仰卧撑FTUer
2026-04-20 11:31:22
太尴尬了!9个姐妹聚餐,临时倡议各邀请一男生,竟然无一人到场

太尴尬了!9个姐妹聚餐,临时倡议各邀请一男生,竟然无一人到场

火山詩话
2026-04-19 08:06:38
癌症不是突然发生的!《细胞》重磅研究首次“直播”癌变全过程

癌症不是突然发生的!《细胞》重磅研究首次“直播”癌变全过程

Thurman在昆明
2026-04-19 21:57:59
杉杉集团家族内斗失控

杉杉集团家族内斗失控

地产微资讯
2026-03-27 10:10:55
中东大消息!刚刚,直线拉升

中东大消息!刚刚,直线拉升

中国基金报
2026-04-20 07:38:31
35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了2个大错

35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了2个大错

小柱解说游戏
2026-04-19 21:11:53
上海连续5天雨!140年来最强厄尔尼诺,今年冲击高温极限?权威回应

上海连续5天雨!140年来最强厄尔尼诺,今年冲击高温极限?权威回应

新浪财经
2026-04-20 08:28:42
2026-04-20 12:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12803文章数 142632关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

时尚
旅游
游戏
艺术
公开课

今年最流行的衣服竟然是它?高级又气质!

旅游要闻

赣鄱千年道:见证一片叶子的多种“打开方式”

光荣特库摩《仁王3》大更新官宣!DLC也有新进展

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版