![]()
南京大学&上海人工智能实验室联合推出LoCoMo-Refined:严苛的Agent记忆评测基准,主流记忆系统真实水平大比拼!
01
引言:Agent记忆系统高分背后,
评测“标尺”仍待校准
随着 Agent 应用持续走向复杂任务,"记忆能力"正逐渐成为影响系统可用性与用户体验的关键基础能力之一。尽管模型的长上下文窗口不断扩展(从 128K 扩展到 1M、2M),但其仍无法有效解决真实长周期对话中频发的"失忆"问题。因此,围绕Agent的记忆框架迅速兴起,成为当前业界提升长期记忆能力的一条重要技术路径。
在当下各大主流记忆评测榜单中(如 Agent Memory 领域的代表性基准 LoCoMo),主流记忆框架动辄获得90%以上的高分。但在接入真实的业务场景时,却发现 Agent 依然频频失效:昨天说好的日程今天搞错时间、用户偏好被张冠李戴、甚至还会"脑补"出从未发生过的对话细节。明明在评测基准里拿了高分,为什么一到真实应用就表现不佳?
南京大学强化学习实验室联合上海人工智能实验室群体智能团队,在深度剖析了超长对话记忆基准 LoCoMo 后,找到了核心原因——现有的评测“标尺”本身存在偏差,并总结出当前记忆评测基准普遍存在的两大漏洞:
第一,评判标准过于宽容:行业通用的 LLM 裁判(Judger)基本逻辑是"相关即正确",这种宽松的判定掩盖了当前记忆外挂的核心缺陷——召回冗余信息与过度生成;
第二,考卷本身也存在错漏:数据集中潜藏着部分逻辑颠倒、事实偏差的"脏数据",干扰了评测精度。
如果评测“标尺”本身不够准确,Agent 记忆系统的研究将在高分的假象中迷失方向,导致记忆系统的真实瓶颈被持续忽视。为此,在LoCoMo基础上,联合团队正式推出专为验证真实记忆架构而生的严谨测试基准 LoCoMo-Refined:
▪ 新 Judger 的核心原则:包含且不矛盾,完整且不越界——对冗余生成和未验证细节明确扣分。
▪ 数据修正方面,人工逐题核验核心四类题目,修订了题目模糊、主客体颠倒、时间不符等问题,最终形成高质量新数据集。
在 LoCoMo-Refined 的严苛标准下,MemPalace、EverMemOS等主流记忆框架的得分普遍下降15–22个百分点——它们此前的高分,在很大程度上是评测标尺本身的宽松所致。
02
揭秘旧基准得分虚高的两大原因
那些在真实场景中表现不佳的记忆系统,究竟是如何斩获高分的?我们深入分析了现有的LoCoMo评测体系,发现了两个关键原因。
原因一:宽松的裁判——“相关即正确”掩盖了记忆系统的缺陷
主流记忆框架在实际使用中容易产生冗余信息——既可能在检索阶段召回无关记忆,也可能在生成阶段引入未经验证的细节。然而,现有评测体系中,通用 LLM Judger(裁判)的判定门槛较低,其核心逻辑是"相关即正确"——只要回答在语义上与标准答案相关,就倾向于判定为正确,极易产生评判幻觉。具体表现为:
![]()
▪忽视时间漂移:比如问题问“Deborah 何时去巴西”,标准答案是“2020年”。如果记忆系统回答“2020年8月30日”(强加了未经验证的具体日期),通用 Judger 依然会判定为正确。
▪纵容过度生成与冗余:比如问题问“他喜欢什么类型的电影”,标准答案是“动作片和科幻片”。如果记忆系统召回了多余的信息,回答“动作、科幻和奇幻片”,在旧规则下,这依然是一个“满分答案”。
这种宽松的裁判标准,实际上导致了严重的假阳性。它让那些记忆混乱、时间线模糊、生成额外事实的结果,获得了远超其真实能力的高分。当评测失去了区分度,得分的参考价值也就大打折扣。
原因二:带瑕疵的考卷——考题和标准答案存在误导
除了评判标准的过度宽容,测试数据本身的问题同样会干扰评测的客观性。通过 AI 初筛结合人工核验,在原始 LoCoMo 中精确定位了 337 道存在逻辑或事实偏差的题目。这类错误一旦作为“金标准”,会直接干扰对 Agent记忆系统的准确评估。
![]()
▪以"主客体颠倒"为例:例如原数据集题目:“Nate 去 Joanna 家玩时想做什么?”但回溯长达数百轮的原始对话记录发现,Nate 说的实际上是:“我很高兴你能再来我家玩”——访客与主人的关系完全相反。如果记忆系统依据这样的标注进行学习或评测,会导致错误的结果被判定为正确。
03
LoCoMo-Refined 怎么做?
——专为“记忆架构”打造的客观标尺
为了精准评估 Agent 外挂记忆系统的真实能力,团队从评测标准和数据质量两个维度进行了系统性重构。
严格标尺:精准识别“幻觉”与“冗余”的新 Judger
针对旧裁判过度宽松的问题,围绕记忆任务的本质要求,首先重新界定“什么才算真正答对”。与开放式生成任务不同,记忆评测关注的并不是仅仅是回答是否“看起来合理”或“主题相关”,而是系统能否在给定问题下准确、完整、边界清晰地回忆目标信息。基于这一认识,首先给出新Judger的设计哲学——
包含且不矛盾,完整且不越界。
![]()
▪必要信息完整覆盖:回答必须覆盖标准答案的所有关键要素,命中一部分不算答对——从相关性匹配升级为信息完备性检验。
▪冗余生成边界控制:回答不能超出标准答案的可验证范围。未经证实的补充细节,即便看似合理,也应被扣分——评测关注的是"忠实复现",而非"合理扩展"。
精修考卷:AI 与人工的协同校准
有了精确的标尺,考卷本身的质量同样需要保证。团队引入了前沿 AI 模型作为初筛工具,对全部数据执行了基于证据(Evidence-based)的测试检验。随后,人工对初筛出的错题及 AI 修复建议进行了逐题复核。
![]()
在剔除无效题型后,在剩余的 1540 道核心考题中,精修了 337 道存在逻辑或事实瑕疵的题目,数据集的纯净度得到了极大提升,最终获得1382道精修后的题目。
One More Thing:引入“多模态”记忆标记
业界往往忽略了一个归因盲区:当 Agent 面对混合了图片的长期对话答错时,到底是因为“文本记忆没存好”,还是因为“没看懂图片”?
为了剥离这种干扰,在 LoCoMo-Refined 中引入了多模态标记。其中 521 道题目(占比37.70%)被清晰地打上了该标签,这让开发者能够更精细化地评估记忆框架在“纯文本”与“图文交织”场景下的能力边界。
04
评测结果:
严苛标尺下的重测,主流记忆框架真实水平展现
▎标尺校准:旧版裁判模型为何不再适用?
在测试真实记忆系统之前,团队先用对比数据验证了旧版评测结果为何缺乏区分度。
通过抽取的 300 条高难度样本进行双盲测试。结果显示,人类专家标注表现出较强的一致性——达到 0.9373,其中更是有高达 92.33% 的样本一致性超过 0.8。这表明“记忆是否准确”在人类视角下有着清晰的共识。
![]()
LLM Judger裁判评分的核心包括两部分:大模型 + 评判规则,二者共同影响评判都准确率。以人类标注的300道题目为基础,对这两个因素进行了测评,从而衡量“评判标尺”是否准确。
![]()
▪大模型的选择:业界通用LoCoMo裁判采用GPT-4o mini作为后端LLM,在人工精标测试集上只有43.67%的准确率。Qwen3-14B 在相同配置下高出近 15%,因此LoCoMo-Refined 默认采用 Qwen3-14B。
▪评判标准的校验:现有LoCoMo裁判的标准(旧评判标准)较为宽松,这是造成评测标尺不准确的核心原因。团队对前面所提出的新评判标准进行了测评,以 Qwen3-14B 作为后端 LLM 时,新评判标准与人类标注的一致准确率达到 86.33%,显著优于旧评判标准。
▪新裁判在高共识样本上更稳定:结合大模型和评判标准的结构,在LoCoMo-Refined中使用Qwen3-14B + 新评判标准作为默认裁判,即新裁判。当人工标注者本身更容易达成一致时,新裁判的优势会变得更明显。对于一致性大于0.8 的样本,新裁判的准确率达到 89.5%;而在一致性小于 0.8 的样本上,则下降到 47.8%。相比之下,旧裁判在这两类样本上的准确率几乎没有变化,分别只有 48.4% 和 47.8%。
![]()
重测结果:主流记忆框架回归真实水平
为了验证LoCoMo-Refined基准以及新裁判的有效性和区分度,团队针对主流记忆系统——如 Mem0、MemOS、EverMemOS和MemPalace进行了测评。
在旧裁判下,这些框架的表现看起来相当不错,但在严惩信息冗余和时间漂移的新裁判下,它们的得分显著下降:
![]()
这组对比结果也揭示了一个此前被宽松评判标准所掩盖的事实:现有记忆系统在长对话场景中的实际表现,与旧基准所呈现的高分之间存在较大的差距。许多涉及时间推理、多事件区分和精确细节回忆的题目,对当前主流框架而言仍是未解决的难题——只是在旧裁判下,这些错误未被有效识别。我们希望 LoCoMo-Refined 能让这些真实的瓶颈充分暴露出来,为后续记忆架构的改进提供更准确的方向。
05
开源与生态:
建立更健康的 Agent 记忆测评基础设施
LoCoMo-Refined 的目标不是否定特定框架,而是为社区提供更客观的验证工具,帮助识别真实瓶颈,推动记忆架构的针对性改进。
目前,LoCoMo-Refined 的完整修订版数据集以及配套的严格评测脚本已经全部开源。
GitHub 地址:https://github.com/mem-eval-suite/LoCoMo_refined
期待社区开发者们在 LoCoMo-Refined 基础上构建出更强大的 Agent 记忆系统,共同推动相关技术的发展!
![]()
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.