网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 | LightMem:把大模型「长期记忆」的成本打下来

0
分享至



大模型已经很强,但一旦进入 “长对话、跨多轮、多任务” 的真实智能体交互场景,模型很快就会遇到两类老问题:

一是上下文窗口有限,越聊越长时不可避免地 “塞不下”;二是经典的 lost in the middle,即使塞得下也未必用得好。

于是,给大模型配 “外部记忆系统” 尤为重要:把对话写进长期记忆、需要时再检索出来。但现实很快给出了代价 —— 记忆系统往往非常贵:频繁调用大模型做总结 / 抽取、实时做冲突消解与更新、长链路的维护开销,最终让 “有记忆的智能体” 在工程上难以承受。

这篇工作提出 LightMem:一个在 “效果” 和 “效率” 之间更平衡的记忆系统。核心目标很直接:

在不牺牲准确率的前提下,把 token、API 调用次数和运行时延降下来。



  • 论文标题:LightMem: Lightweight and Efficient Memory-Augmented Generation
  • 论文链接:https://arxiv.org/abs/2510.18866
  • 代码链接:https://github.com/zjunlp/LightMem

为什么现有记忆系统 “能用但太贵”?

从主流范式来看,LLM 记忆系统大多是这样工作的:把原始对话按 turn/session 切分;每一段都让 LLM 做总结 / 抽取,写入向量库 / 知识图谱;新信息到来时,再让 LLM 在线做更新 (add/delete/merge/ignore);推理时检索相关记忆拼到 prompt 里回答。



问题在于,不管是 user 侧还是 assistant 侧,真实对话场景中含有非常多的冗余信息:寒暄、重复确认、冗余解释等等。现有系统往往 照单全收,导致:

1) 冗余信息直接进入管线:token 消耗飙升,而且可能反而干扰 in-context learning;

2) 切分粒度僵硬:按 turn 太细会导致总结调用爆炸,按 session 太粗又容易主题混杂,最后总结不准;

3) 在线更新太重:更新与遗忘在 test time 强绑定,长任务延迟高,而且 LLM 还可能在更新时 “误删” 信息。

LightMem 的出发点是:人类记忆并不是 “所有信息都进长期记忆”,而是有一套高效的分层机制:

感官记忆先过滤 → 短时记忆组织整合 → 长时记忆在睡眠时离线巩固。

LightMem 的核心思路:三段式 “类人记忆” 管线

LightMem 把记忆系统拆成三个轻量模块 (对应如下的 Light1/Light2/Light3):

Light1:感官记忆 (Sensory Memory)

目标:快速过滤无用信息、把输入压缩到 “值得记” 的部分,并进行主题切分。

Light2:短时记忆 (Short-Term Memory, STM)

目标:按主题把对话组织成结构化单元,降低总结调用次数,同时减少主题混杂。

Light3:长时记忆 (Long-Term Memory, LTM)+ 睡眠更新 (Sleep-time Update)

目标:把昂贵的记忆更新从在线推理中 “拿出来”,在离线并行地做去重、合并、修复与巩固。



Light1:感官记忆 —— 先压缩,再切主题

轻量压缩:把冗余 token 在系统输入端过滤掉

LightMem 使用一个轻量压缩模型 (论文默认采用 LLMLingua-2) 对原始输入做预压缩:

保留信息量更高、语义更关键的 token,把大量冗余 token 提前过滤掉并挡在 pipeline 之外。

论文实验也验证:在合理压缩率下 (50% 到 80%),LLM 依然能理解压缩后的上下文,准确率基本不受影响。

混合主题切分:避免 “按窗口切” 的粗暴做法

仅靠固定窗口 (turn/session) 很难适配开放对话。LightMem 做了一个混合切分策略:

  • 用注意力信号找到候选 topic 边界 (局部峰值);
  • 再用相邻片段的语义相似度做二次确认;
  • 取二者交集作为最终切分点,降低 attention sink、注意力稀释等噪声影响。

Light2:主题感知 STM—— 用 “内容边界” 替代 “窗口边界”

在拿到 topic segments 后,LightMem 把它们以 {topic, turns} 的结构送入 STM buffer。

当 buffer 达到 token 阈值时,才触发一次 LLM 总结,对每个 topic 生成更结构化的 summary,并写入 LTM。

相比 “每一轮都总结一次”,这种做法直接带来两点收益:

  • 调用次数降低:总结不再是 N 次,而是按 buffer 触发的更少次数;
  • 总结更准确:输入被 topic 约束,不容易 “把 A 主题的细节总结进 B 主题里”。

论文的消融实验也显示:去掉 topic segmentation 会带来明显准确率下降 (GPT/Qwen 都一致)。

Light3:睡眠更新 —— 把开销最高的部分从在线推理中剥离

记忆系统最贵、也最容易出错的一步,往往是 “更新 / 遗忘”。

现有系统经常在 test time 做 hard update:合并、删改、冲突消解都在线执行,延迟高且风险大。

LightMem 的策略是 “两段式更新”:

在线只做 Soft Update:先写入,不纠结

测试时新记忆条目到来,LightMem 直接插入 LTM (带时间戳),不做复杂更新。

这极大降低了在线延迟,并避免 LLM 在实时更新中误判冲突导致信息丢失。

离线做 Parallel Update:每条记忆维护 “可更新队列”

离线阶段 (sleep time) 触发更新:

对每个条目构建一个 update queue (只允许 “新的更新旧的”,即时间戳约束 tj ≥ ti),然后把这些更新操作并行执行。

并行化的关键好处是:

传统在线更新存在顺序依赖 (读写约束) 导致串行累计延迟;而 LightMem 把更新拆成多个独立队列,可以离线并行,整体更快。

结果:不仅更准,而且便宜很多

论文在两个长记忆基准上验证了 LightMem 的效果与效率:

  • LongMemEval (LongMemEval-S)
  • LoCoMo

并在不同 backbone 上测试:GPT-4o-mini 、 Qwen3-30B-A3B、GLM4.6。





整体结论非常清晰:LightMem 在准确率上超过基线,同时把成本打下来。

论文报告的代表性结果包括:

  • 在 LongMemEval 上,LightMem 相比强基线准确率最高提升约 7.7% / 29.3% (不同设置与 backbone);
  • 总 token 消耗降低最高可达 38× / 20.9×,API 调用次数降低最高可达 30× / 55.5×;
  • 如果只看在线 test-time 成本,节省幅度更夸张:token 最高 106× / 117×,API 调用最高 159× / 310×。

LightMem 是一套面向真实长交互场景的 “轻量记忆系统” 答案:

它不追求让记忆机制越来越复杂,而是用更接近人类记忆分工的方式,把冗余挡在入口,把维护放到离线,把代价控制在可部署的范围内。

如果你正在做长对话助手、长期在线 agent、或者任何需要 “记忆但又怕贵” 的系统,这篇工作值得细读。

我们将 LightMem 的方法论与工程经验沉淀到 OpenMem 社区 ,推动记忆机制的开放共建与演进。

OpenMem 旨在共建一个 AI 记忆科学探索与产业实践的全球协作社区,让记忆成为 AI 的新 computer layer,促进 Memory Engineering 开源开放,成为 “记忆研究者的家” 与 “记忆技术的标准化基地”,支撑企业级学术级开发者级的记忆应用生态。

作者简介

方继展,浙江大学人工智能硕士在读,师从张宁豫副教授。研究方向为 Continual Learning、LLM/Agent Memory 与大模型知识编辑,聚焦记忆系统、自进化 Agent 与模型可控更新。以第一/共一作者身份在 ICLR、ACL、ACM MM等国际顶级会议发表/接收多篇论文。提出并开源面向 Agent 的轻量化长期记忆框架 LightMem,获得较高社区关注(GitHub 600+ Star),受到MIT technology review邀请专访,并收到国内多家投资机构/大模型厂商的创业交流邀请。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
很多中字头工程局都发不出工资了!

很多中字头工程局都发不出工资了!

黯泉
2026-03-25 21:14:53
中国外长判断出现和平曙光,中东大战终于进入尾声?

中国外长判断出现和平曙光,中东大战终于进入尾声?

小嵩
2026-03-26 18:19:20
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

快看张同学
2026-03-26 10:19:39
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

猫叔东山再起
2026-03-26 09:10:08
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

阿芒娱乐说
2026-03-26 12:37:49
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

极果酷玩
2026-03-26 16:58:41
张雪峰经典语录:句句都是人间清醒

张雪峰经典语录:句句都是人间清醒

山东教育
2026-03-26 08:07:56
加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

懂球帝
2026-03-26 04:09:06
以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

网络易不易
2026-03-26 15:05:07
NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

醉卧浮生
2026-03-25 23:03:44
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
问界M6预售24小时订单突破6万,26.98万起剑指Model Y

问界M6预售24小时订单突破6万,26.98万起剑指Model Y

泡泡网
2026-03-24 17:26:07
凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

叶青足球世界
2026-03-26 10:18:34
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

百科密码
2026-03-26 14:50:58
2026-03-26 19:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
家居
艺术
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

这就是引导型老师的厉害吗?

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版