网易首页 > 网易号 > 正文 申请入驻

M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制

0
分享至



本文的第一作者Yu Wang来自加州大学圣地亚哥分校,主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习过程中完成,通讯作者Zexue He也毕业于加州大学圣地亚哥分校。

M+是在 MemoryLLM 之上提出的长期隐空间记忆扩展框架:通过把「过期」隐藏向量写入CPU - 侧长期记忆池,再用协同检索器拉回最相关记忆,它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上,同时显存占用保持不变。



  • 论文标题:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 论文链接:https://arxiv.org/abs/2502.00592
  • 代码仓库:https://github.com/wangyu-ustc/MemoryLLM
  • 开源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 记忆 & 现有记忆模型的缺陷

上下文窗口并不能直接等价于记忆。GPT-4.1 之类的模型即便支持 100 万 token,也会随窗口线性升高显存与延迟,难以落地本地部署。

业界主流做法是 “Token-Level Memory”:把历史内容或三元组存在数据库 / 向量库,检索后再拼接回 prompt;MemGPT等系统即属此类。该类做法不需要重复训练,直接结合 GPT-4 这样的大模型便可以获得很不错的性能,但是,它也会有一些随之而来的问题:(1)冗余:原始文本并非最紧凑表达,重复率高。(2)冲突难解:遇到相互矛盾或不断更新的信息时,文本级冲突消解复杂。(3)多模态能力弱:由于数据库格式为文本,处理音频或者图片,视频数据将相对困难。

因此,我们希望探索隐空间 (Latent-Space) 的 Memory -- 既压缩又可端到端训练,更接近人类在神经激活中存储信息的方式。

M + 的关键改进:Long-Term Memory

在 MemoryLLM 中,我们为 8B 的 Llama3 模型引入了约 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 层。当第一层接收到词输入后,会通过 Embedding 层将词转化为一系列 4096 维的向量。基于这一特点,我们设计了 MemoryLLM,在每一层都加入 N 个 Memory Tokens(实验中 N=12800)。在生成过程中,这些 Memory Tokens 会作为每一层的 Prefix,通过 Cross-Attention 将信息注入后续层,使模型能 “看到” 保存在 Memory Pool 中的历史信息。



在更新阶段,我们会将每层 Memory Token 中最后 K 个(实验中 K=256)与需要写入的信息一同送入 Transformer,再次经过 Cross-Attention,将信息压入新的 Memory Tokens 中(如下图所示)。与此同时,我们在原有 Memory 中随机丢弃 K 个旧 Token,并将新生成的 K 个 Token 放到 Memory 尾部,完成更新。



基于这样的设计,借助每层 12800 个 Memory Vectors,我们在 50k tokens 内都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后续在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可达 50k)。然而,这样的记忆容量仍无法满足我们对更长序列的期待。要进一步扩展 Memory,单靠原有的 1.67B 容量已远远不够,因此我们提出了Long-Term Memory。

如何高效实现 Long-Term Memory?考虑到 MemoryLLM 中每一个 Memory Token 本质上都来自 Hidden States,我们将那些在更新过程中被 “丢弃” 的 Memory Token 并非直接舍弃,而是将其保存在长期记忆池中(如下图)。



仅仅保存是不够的,我们还需要具备强大的提取能力。最初我们尝试用 Attention 来从长期记忆中检索 Hidden States,但实验表明 Attention 在提取 Hidden States 时效果有限(在论文的消融实验中做了详尽对比)。因此我们提出协同提取器(Co-trained Retriever),并与全模型进行联合训练(如下图)。



通过这一结构,我们将模型的有效记忆跨度从 50k 一举提升到 160k,且由于 Memory 主要驻留在 CPU,不会显著增加 GPU 负担。

M + 的实验结果

显著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 两个数据集上,我们都在更少 GPU 的使用下(单卡 18GB 左右)获得了更强大的性能。





更强的信息留存能力:在 SQuAD 数据集上表现出远超 MemoryLLM-7B 以及相关 ablation baseline 的信息留存能力,可以达到 160k 依旧不完全遗忘过去的信息。





结语

M+ 展示了我们在探索隐空间长期记忆领域的重要进展,也为下一代具备持续记忆能力的语言模型提供了坚实的技术支撑。未来,我们将继续研究更高效的存储机制、更智能的检索策略,以及与多模态输入更自然融合的隐空间记忆架构。在此方向上,M+ 不仅是对 MemoryLLM 的一次扩展,也是我们对 “让模型拥有接近人类记忆能力” 这一愿景的又一次有力实践。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-0,38岁梅西1球1助,劳塔罗1球1助,阿根廷豪取3连胜,太丝滑了

2-0,38岁梅西1球1助,劳塔罗1球1助,阿根廷豪取3连胜,太丝滑了

侧身凌空斩
2025-11-15 02:02:02
上海通报“绿捷食安事件”:已查明违法犯罪事实,公司8名责任人被依法执行逮捕

上海通报“绿捷食安事件”:已查明违法犯罪事实,公司8名责任人被依法执行逮捕

澎湃新闻
2025-11-14 14:08:43
混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

湘楚风云
2025-11-15 03:02:03
校运动会上高中女生被弓箭射中面部,校方:已妥善救治,情况稳定

校运动会上高中女生被弓箭射中面部,校方:已妥善救治,情况稳定

大风新闻
2025-11-14 19:22:32
李连杰返老孩童被扒新线索,本人行为太反常,官媒曾披露具体细节

李连杰返老孩童被扒新线索,本人行为太反常,官媒曾披露具体细节

古希腊掌管月桂的神
2025-11-14 15:24:51
武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

封面新闻
2025-11-14 18:57:05
中日关系突变!日本自民党递交决议,可能直接驱逐中国总领事!

中日关系突变!日本自民党递交决议,可能直接驱逐中国总领事!

翻开历史和现实
2025-11-14 23:02:00
成功着陆!神舟二十号航天员返回:飞船在南大西洋异常区离轨

成功着陆!神舟二十号航天员返回:飞船在南大西洋异常区离轨

火星一号
2025-11-14 17:43:05
大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

吭哧有力
2025-11-14 10:22:35
网红“峰哥亡命天涯”多平台账号被禁止关注

网红“峰哥亡命天涯”多平台账号被禁止关注

极目新闻
2025-11-14 18:38:00
辽宁一网友网购50条观赏鱼,到货只有一袋水,商家:从广东发货,担心鱼冻死放了加热包,路途远鱼被煮熟后分解了

辽宁一网友网购50条观赏鱼,到货只有一袋水,商家:从广东发货,担心鱼冻死放了加热包,路途远鱼被煮熟后分解了

大象新闻
2025-11-13 22:46:04
赵薇49岁突传逝世消息,胃癌去世传闻5个月前已证实

赵薇49岁突传逝世消息,胃癌去世传闻5个月前已证实

领悟看世界
2025-11-15 01:44:47
最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

云鹏叙事
2025-11-14 10:26:55
走路出现这7种迹象,寿命可能长不了!第5个尤其凶险

走路出现这7种迹象,寿命可能长不了!第5个尤其凶险

资说
2025-11-14 10:47:02
家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

潇湘晨报
2025-11-14 09:15:24
大反转!狗咬人事件凶器上只有死者DNA,重伤者疑被自己人所伤?

大反转!狗咬人事件凶器上只有死者DNA,重伤者疑被自己人所伤?

乌娱子酱
2025-11-14 16:46:28
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

军机Talk
2025-11-14 11:02:16
纵览热点|山西忻州一小学要求家长填写“可提供的社会资源”引发争议,当地教育局展开调查

纵览热点|山西忻州一小学要求家长填写“可提供的社会资源”引发争议,当地教育局展开调查

纵览新闻
2025-11-14 19:15:05
1-2!特鲁姆普拒绝3连败,单局68分止损,赵心童半决赛优势缩水!

1-2!特鲁姆普拒绝3连败,单局68分止损,赵心童半决赛优势缩水!

刘姚尧的文字城堡
2025-11-15 03:57:02
《惊天魔盗团3》上映,女主丑,毁所有,无法实现第二部的票房

《惊天魔盗团3》上映,女主丑,毁所有,无法实现第二部的票房

马庆云的影音娱
2025-11-14 18:40:39
2025-11-15 05:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

游戏
艺术
健康
公开课
军事航空

迟迟没有Switch2版!这三款任天堂第一方游戏太可惜

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

金振口服液助力科学应对呼吸道疾病

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版