网易首页 > 网易号 > 正文 申请入驻

UIUC清华微软联合提出PlugMem:当Agent记忆告别经历,存储经验

0
分享至



随着大语言模型 Agent 开始在对话、问答与复杂交互环境中长期运行,“记忆该如何设计” 正在成为一个绕不开的核心问题。



  • 论文标题:PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
  • 论文链接:https://arxiv.org/abs/2603.0329
  • 微软研究院官方博客:https://msft.it/6017Qc9vv
  • 作者单位:UIUC、清华大学、微软研究院
  • 研究方向:LLM Agent・长期记忆・知识抽象・任务泛化

UIUC、清华、微软研究院联合提出:

一种 “可插拔” 的通用 Agent 记忆模块 PlugMem

来自UIUC、清华大学与微软研究院的研究团队,近日提出了一种面向LLM Agent 的任务无关记忆模块 PlugMem。该工作试图回答一个在 Agent 研究中反复出现、却始终没有统一答案的问题:

Agent 的长期记忆,究竟该 “存什么”,才能真正帮助它在不同任务中做出更好的决策?

在当前主流设计中,大多数 Agent 的记忆仍停留在 “存经历、再检索” 的范式:

要么把对话、轨迹、网页观察等原始内容直接存下来,要么在此基础上做简单压缩或检索增强(如 RAG、GraphRAG)。

问题在于,这类方法在任务切换时往往失效:

一个在长对话中表现良好的记忆机制,放到 Web Agent 或多跳问答中,几乎无法直接复用。

一个典型的失败场景:

Agent 记住了 “经历”,却忘了 “经验”

作者在论文中给出了一个极具代表性的隐含例子:

  • 在长期对话中,Agent 多次与用户讨论饮食偏好
  • 在网页任务中,Agent 多次成功完成 “搜索 — 筛选 — 下单” 的流程

但当 Agent 面临一个新任务时(比如推荐菜谱,或在陌生电商页面购物):

  • 原始对话记录太长、太杂,直接检索会引入大量无关上下文
  • 完整网页轨迹高度依赖具体页面结构,几乎无法迁移

真正对决策有帮助的,其实只是两类高度抽象的信息:

  • 「用户是素食者、对乳制品过敏」(事实性知识)
  • 「在电商页面中寻找最低价的一般流程」(可复用的行动策略)

但这些信息,往往并不存在于任何一条原始记忆中,而是分散在大量经历里。

PlugMem 的核心判断:

决策相关信息,应该以 “知识” 为单位被存储

基于这一观察,PlugMem 提出了一种与主流 Agent 记忆设计明显不同的思路:

记忆的基本单位,不应是 “文本” 或 “轨迹”,而应是 “可决策的知识”。

具体来说,系统将 Agent 的长期记忆明确拆分为三类:

  • 情景记忆(Episodic):原始交互与行为轨迹,作为可追溯证据
  • 语义记忆(Semantic):从经历中抽象出的事实性命题(knowing that)
  • 程序记忆(Procedural):可跨任务复用的行动处方(knowing how)



与 GraphRAG 等方法不同,PlugMem 构建的并不是 “实体图” 或 “文本图”, 而是一个以命题(proposition)和处方(prescription)为节点的知识中心记忆图

换句话说,Agent 检索的不是 “我曾经做过什么”,而是 “我已经学会了什么”。

一个关键技术细节:

同一套记忆结构,如何同时支持三类任务?

论文中一个很有说服力的点在于:

PlugMem 在不做任何任务特化修改的情况下,被直接用于三类差异极大的任务:

  1. 长时对话记忆(LongMemEval)
  2. 多跳知识问答(HotpotQA)
  3. Web Agent 决策(WebArena)

在每种任务中,系统会动态判断当前更需要哪一类记忆:

  • 回忆具体经历 → 使用情景记忆
  • 推理事实关系 → 使用语义记忆
  • 执行复杂操作 → 使用程序记忆

而检索与推理始终围绕知识级节点展开,而不是原始文本。

评估与分析:

实验在回答哪些问题?

PlugMem 的实验设计,围绕三个明确的问题展开。这三个问题,分别对应 Agent 记忆系统中最关键、也最容易被混用的三个层面:通用性、因果结构,以及可迁移性。

RQ1:同一套记忆机制,

能否同时适用于不同类型的 Agent 任务?

第一个问题关注的是 PlugMem 的适用范围。

作者将同一个 PlugMem 实现,直接用于三类结构差异极大的任务:

  • LongMemEval:强调跨轮次对话中的事实一致性
  • HotpotQA:强调多跳知识检索与组合推理
  • WebArena:强调交互式环境中的程序性操作

这些任务对记忆的需求并不相同:

有的依赖对过往事实的回忆,有的依赖知识之间的关联,有的则依赖对行动策略的复用。

实验结果显示,在三类任务中,PlugMem 都能够在提升任务表现的同时,显著降低 Agent 侧所消耗的记忆 token 数量。这表明,将记忆表示为知识级单元,有助于在不同任务中稳定提升单位记忆的决策价值。



这一结果为后续分析提供了基础前提:记忆的组织方式,会系统性地影响其在不同任务中的有效性。

一个中间视角:

如何比较不同任务中的 “记忆效率”?

在进一步分析之前,作者引入了一个统一的评估视角,用于衡量记忆系统在不同任务中的性价比。

具体而言,论文将记忆的作用表述为:在给定状态下,记忆对 Agent 正确决策概率所带来的信息增益,并将这一增益归一化到所使用的记忆 token 数量上。由此得到的 “信息密度” 指标,使得不同任务、不同记忆设计可以在同一尺度下进行比较。

这一评估框架,为后续的消融分析和跨任务比较提供了统一坐标系。

RQ2:结构化、检索与推理,

各自在记忆系统中起什么作用?

第二个问题关注的是 PlugMem 内部各组件的作用分工。



作者通过系统性的消融实验,分别移除结构化模块、检索模块和推理模块,观察性能与记忆消耗的变化。实验结果呈现出清晰的分工关系:

  • 检索模块决定记忆是否能够被有效利用

当检索被移除后,记忆几乎无法在决策中发挥作用。

  • 结构化模块决定检索到的内容质量

在缺少结构化的情况下,系统更容易检索到冗余、粒度不合适的原始信息,从而限制性能提升空间。

  • 推理模块主要影响记忆使用效率

移除推理模块后,性能变化相对有限,但记忆 token 消耗显著增加,表明其主要作用在于压缩与整合。

这组实验明确区分了三个常被混为一谈的概念:

检索让记忆 “可达”,结构化让记忆 “可用”,推理让记忆 “省着用”。

RQ3:Agent 记忆能否作为可继承的经验,

在新任务中继续发挥作用?

第三个问题关注的是记忆的可迁移性。

在 WebArena 中,作者将任务划分为 online 与 offline 两个阶段:

Agent 只允许在 online 阶段写入记忆,而 offline 阶段则在基本冻结记忆的情况下进行评估。

这一设置刻意避免了通过重复试错积累熟练度的可能性,重点考察已有记忆是否能够支持新任务中的决策。

实验结果表明,即使在 offline 阶段,PlugMem 仍能显著提升任务成功率,尤其是在涉及多站点组合操作的任务中。这表明系统中存储的程序性与语义知识,能够被新的 Agent 实例直接复用,而不依赖于具体的交互轨迹。

小结

通过这三组问题,实验逐步澄清了 PlugMem 所刻画的 Agent 记忆形态:

  • 记忆以知识为基本单位
  • 决策相关信息可以在不同任务间复用
  • 结构化与检索决定 “能否用”,推理决定 “如何高效地用”

在这一意义上,PlugMem 的实验不仅验证了方法本身,也为理解 Agent 长期记忆的设计与评估提供了一组清晰的分析视角。

总体来看,PlugMem 从记忆的基本单位、组织方式与评估视角三个层面,系统性地重审了 Agent 长期记忆这一问题。通过将经历抽象为可复用的语义与程序性知识,并在多类任务中进行统一评估,作者展示了一种更接近 “经验继承” 而非 “历史回放” 的 Agent 记忆形态。这一思路,也为后续构建可迁移、可积累经验的通用 Agent 提供了新的设计基线。

作者简介:

杨可,清华大学本科、UIUC计算机三年级博士生,主要研究AI agents、语言模型、信息检索与算法审计。本项目由其承担领导与主要写作工作,为排序第一作者,并与陈子曦、何宣、蒋积泽共同作为共同第一作者。该成果由UIUC、清华大学与微软研究院合作完成,并接受Michel Galley、汪成龙博士建议,得到高剑峰、韩家炜、翟成祥教授指导。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“被吓到!”AI生图已经这么逼真了?网友:以后还能信吗?

“被吓到!”AI生图已经这么逼真了?网友:以后还能信吗?

鲁中晨报
2026-04-24 16:56:11
南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

环球网资讯
2026-04-26 16:19:07
雷军“被围堵维权”?知情人士:造谣者被行拘十日

雷军“被围堵维权”?知情人士:造谣者被行拘十日

每日经济新闻
2026-04-26 00:35:05
斯诺克赛程:决出第4席8强,赵心童丁俊晖生死战,吴宜泽PK塞尔比

斯诺克赛程:决出第4席8强,赵心童丁俊晖生死战,吴宜泽PK塞尔比

刘姚尧的文字城堡
2026-04-26 09:50:13
仅次《指环王》的大制作美剧,竟然还有第二季

仅次《指环王》的大制作美剧,竟然还有第二季

i书与房
2026-04-26 16:35:03
彻底焊死了!

彻底焊死了!

安安说
2026-04-25 11:52:50
人性何在?伊朗宣布服兵役的年龄低至12岁了,少年征兵引发争议

人性何在?伊朗宣布服兵役的年龄低至12岁了,少年征兵引发争议

吃瓜局
2026-04-26 14:50:58
拜仁女足总监:球员的头发都垂到了臀部,拽头发犯规应该修改

拜仁女足总监:球员的头发都垂到了臀部,拽头发犯规应该修改

懂球帝
2026-04-26 13:18:18
浙江东海惊现215斤巨型鱼王, 老渔民: 活了半辈子第一次见

浙江东海惊现215斤巨型鱼王, 老渔民: 活了半辈子第一次见

万象硬核本尊
2026-04-25 19:23:02
视频曝光!北京街头,一骑行人被撞身亡!警惕这个致命细节↗

视频曝光!北京街头,一骑行人被撞身亡!警惕这个致命细节↗

BRTV新闻
2026-04-25 15:19:06
赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

两岸观点
2026-04-23 12:30:15
华谊:靠周星驰狂赚12.48亿!却耍赖8600万,换来十一年因果报应

华谊:靠周星驰狂赚12.48亿!却耍赖8600万,换来十一年因果报应

一盅情怀
2026-04-25 16:23:35
7换1!超值太交易,黑八奇迹,来吧!

7换1!超值太交易,黑八奇迹,来吧!

体育新角度
2026-04-26 16:17:48
甲骨文创始人和朱可人带俩娃出街,朱可人穿超短裙露美腿,脸老了

甲骨文创始人和朱可人带俩娃出街,朱可人穿超短裙露美腿,脸老了

奇怪的鲨鱼们
2026-04-26 11:58:26
伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

墨印斋
2026-04-23 15:42:00
27岁新郎出轨女亲戚,婚礼当天私聊记录曝光,网友:一点脸不要!

27岁新郎出轨女亲戚,婚礼当天私聊记录曝光,网友:一点脸不要!

辣媒专栏记录
2026-04-25 08:54:13
泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

鲁中晨报
2026-04-24 20:08:07
33岁嫁10亿富豪,生了冠军儿子,50岁复出 如今成人生赢家

33岁嫁10亿富豪,生了冠军儿子,50岁复出 如今成人生赢家

黔乡小姊妹
2026-04-26 09:37:41
特朗普发布晚宴安全事件嫌疑人照片:一名特勤局特工遭到枪击,但因穿了防弹背心而幸免于难,公布是为了展示安保人员对枪手的反应速度

特朗普发布晚宴安全事件嫌疑人照片:一名特勤局特工遭到枪击,但因穿了防弹背心而幸免于难,公布是为了展示安保人员对枪手的反应速度

鲁中晨报
2026-04-26 11:00:13
全线跳水,近10万人爆仓!

全线跳水,近10万人爆仓!

每日经济新闻
2026-04-25 21:57:11
2026-04-26 18:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12855文章数 142636关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

美国网民质疑:为什么先救万斯

头条要闻

美国网民质疑:为什么先救万斯

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

中办、国办:加强新就业群体服务管理

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

家居
健康
房产
公开课
军事航空

家居要闻

自然肌理 温润美学

干细胞如何让烧烫伤皮肤"再生"?

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版