Agent记忆赛道大洗牌！LoCoMo-Refined重磅发布，主流记忆框架迎来核心检验|标尺|基准|agent

Agent记忆赛道大洗牌！LoCoMo-Refined重磅发布，主流记忆框架迎来核心检验

2026-04-15 16:34:01　来源: AI科技评论

广东举报

分享至

南京大学&上海人工智能实验室联合推出LoCoMo-Refined：严苛的Agent记忆评测基准，主流记忆系统真实水平大比拼！

引言：Agent记忆系统高分背后，

评测“标尺”仍待校准

随着 Agent 应用持续走向复杂任务，"记忆能力"正逐渐成为影响系统可用性与用户体验的关键基础能力之一。尽管模型的长上下文窗口不断扩展（从 128K 扩展到 1M、2M），但其仍无法有效解决真实长周期对话中频发的"失忆"问题。因此，围绕Agent的记忆框架迅速兴起，成为当前业界提升长期记忆能力的一条重要技术路径。

在当下各大主流记忆评测榜单中（如 Agent Memory 领域的代表性基准 LoCoMo），主流记忆框架动辄获得90%以上的高分。但在接入真实的业务场景时，却发现 Agent 依然频频失效：昨天说好的日程今天搞错时间、用户偏好被张冠李戴、甚至还会"脑补"出从未发生过的对话细节。明明在评测基准里拿了高分，为什么一到真实应用就表现不佳？

南京大学强化学习实验室联合上海人工智能实验室群体智能团队，在深度剖析了超长对话记忆基准 LoCoMo 后，找到了核心原因——现有的评测“标尺”本身存在偏差，并总结出当前记忆评测基准普遍存在的两大漏洞：

第一，评判标准过于宽容:行业通用的 LLM 裁判（Judger）基本逻辑是"相关即正确"，这种宽松的判定掩盖了当前记忆外挂的核心缺陷——召回冗余信息与过度生成；

第二，考卷本身也存在错漏:数据集中潜藏着部分逻辑颠倒、事实偏差的"脏数据"，干扰了评测精度。

如果评测“标尺”本身不够准确，Agent 记忆系统的研究将在高分的假象中迷失方向，导致记忆系统的真实瓶颈被持续忽视。为此，在LoCoMo基础上，联合团队正式推出专为验证真实记忆架构而生的严谨测试基准 LoCoMo-Refined：

▪ 新 Judger 的核心原则：包含且不矛盾，完整且不越界——对冗余生成和未验证细节明确扣分。

▪ 数据修正方面，人工逐题核验核心四类题目，修订了题目模糊、主客体颠倒、时间不符等问题，最终形成高质量新数据集。

在 LoCoMo-Refined 的严苛标准下，MemPalace、EverMemOS等主流记忆框架的得分普遍下降15–22个百分点——它们此前的高分，在很大程度上是评测标尺本身的宽松所致。

揭秘旧基准得分虚高的两大原因

那些在真实场景中表现不佳的记忆系统，究竟是如何斩获高分的？我们深入分析了现有的LoCoMo评测体系，发现了两个关键原因。

原因一：宽松的裁判——“相关即正确”掩盖了记忆系统的缺陷

主流记忆框架在实际使用中容易产生冗余信息——既可能在检索阶段召回无关记忆，也可能在生成阶段引入未经验证的细节。然而，现有评测体系中，通用 LLM Judger（裁判）的判定门槛较低，其核心逻辑是"相关即正确"——只要回答在语义上与标准答案相关，就倾向于判定为正确，极易产生评判幻觉。具体表现为：

▪忽视时间漂移：比如问题问“Deborah 何时去巴西”，标准答案是“2020年”。如果记忆系统回答“2020年8月30日”（强加了未经验证的具体日期），通用 Judger 依然会判定为正确。

▪纵容过度生成与冗余：比如问题问“他喜欢什么类型的电影”，标准答案是“动作片和科幻片”。如果记忆系统召回了多余的信息，回答“动作、科幻和奇幻片”，在旧规则下，这依然是一个“满分答案”。

这种宽松的裁判标准，实际上导致了严重的假阳性。它让那些记忆混乱、时间线模糊、生成额外事实的结果，获得了远超其真实能力的高分。当评测失去了区分度，得分的参考价值也就大打折扣。

原因二：带瑕疵的考卷——考题和标准答案存在误导

除了评判标准的过度宽容，测试数据本身的问题同样会干扰评测的客观性。通过 AI 初筛结合人工核验，在原始 LoCoMo 中精确定位了 337 道存在逻辑或事实偏差的题目。这类错误一旦作为“金标准”，会直接干扰对 Agent记忆系统的准确评估。

▪以"主客体颠倒"为例：例如原数据集题目：“Nate 去 Joanna 家玩时想做什么？”但回溯长达数百轮的原始对话记录发现，Nate 说的实际上是：“我很高兴你能再来我家玩”——访客与主人的关系完全相反。如果记忆系统依据这样的标注进行学习或评测，会导致错误的结果被判定为正确。

LoCoMo-Refined 怎么做？

——专为“记忆架构”打造的客观标尺

为了精准评估 Agent 外挂记忆系统的真实能力，团队从评测标准和数据质量两个维度进行了系统性重构。

严格标尺：精准识别“幻觉”与“冗余”的新 Judger

针对旧裁判过度宽松的问题，围绕记忆任务的本质要求，首先重新界定“什么才算真正答对”。与开放式生成任务不同，记忆评测关注的并不是仅仅是回答是否“看起来合理”或“主题相关”，而是系统能否在给定问题下准确、完整、边界清晰地回忆目标信息。基于这一认识，首先给出新Judger的设计哲学——

包含且不矛盾，完整且不越界。

▪必要信息完整覆盖：回答必须覆盖标准答案的所有关键要素，命中一部分不算答对——从相关性匹配升级为信息完备性检验。

▪冗余生成边界控制：回答不能超出标准答案的可验证范围。未经证实的补充细节，即便看似合理，也应被扣分——评测关注的是"忠实复现"，而非"合理扩展"。

精修考卷：AI 与人工的协同校准

有了精确的标尺，考卷本身的质量同样需要保证。团队引入了前沿 AI 模型作为初筛工具，对全部数据执行了基于证据（Evidence-based）的测试检验。随后，人工对初筛出的错题及 AI 修复建议进行了逐题复核。

在剔除无效题型后，在剩余的 1540 道核心考题中，精修了 337 道存在逻辑或事实瑕疵的题目，数据集的纯净度得到了极大提升，最终获得1382道精修后的题目。

One More Thing：引入“多模态”记忆标记

业界往往忽略了一个归因盲区：当 Agent 面对混合了图片的长期对话答错时，到底是因为“文本记忆没存好”，还是因为“没看懂图片”？

为了剥离这种干扰，在 LoCoMo-Refined 中引入了多模态标记。其中 521 道题目（占比37.70%）被清晰地打上了该标签，这让开发者能够更精细化地评估记忆框架在“纯文本”与“图文交织”场景下的能力边界。

评测结果：

严苛标尺下的重测，主流记忆框架真实水平展现

▎标尺校准：旧版裁判模型为何不再适用？

在测试真实记忆系统之前，团队先用对比数据验证了旧版评测结果为何缺乏区分度。

通过抽取的 300 条高难度样本进行双盲测试。结果显示，人类专家标注表现出较强的一致性——达到 0.9373，其中更是有高达 92.33% 的样本一致性超过 0.8。这表明“记忆是否准确”在人类视角下有着清晰的共识。

LLM Judger裁判评分的核心包括两部分：大模型 + 评判规则，二者共同影响评判都准确率。以人类标注的300道题目为基础，对这两个因素进行了测评，从而衡量“评判标尺”是否准确。

▪大模型的选择：业界通用LoCoMo裁判采用GPT-4o mini作为后端LLM，在人工精标测试集上只有43.67%的准确率。Qwen3-14B 在相同配置下高出近 15%，因此LoCoMo-Refined 默认采用 Qwen3-14B。

▪评判标准的校验：现有LoCoMo裁判的标准（旧评判标准）较为宽松，这是造成评测标尺不准确的核心原因。团队对前面所提出的新评判标准进行了测评，以 Qwen3-14B 作为后端 LLM 时，新评判标准与人类标注的一致准确率达到 86.33%，显著优于旧评判标准。

▪新裁判在高共识样本上更稳定：结合大模型和评判标准的结构，在LoCoMo-Refined中使用Qwen3-14B + 新评判标准作为默认裁判，即新裁判。当人工标注者本身更容易达成一致时，新裁判的优势会变得更明显。对于一致性大于0.8 的样本，新裁判的准确率达到 89.5%；而在一致性小于 0.8 的样本上，则下降到 47.8%。相比之下，旧裁判在这两类样本上的准确率几乎没有变化，分别只有 48.4% 和 47.8%。

重测结果：主流记忆框架回归真实水平

为了验证LoCoMo-Refined基准以及新裁判的有效性和区分度，团队针对主流记忆系统——如 Mem0、MemOS、EverMemOS和MemPalace进行了测评。

在旧裁判下，这些框架的表现看起来相当不错，但在严惩信息冗余和时间漂移的新裁判下，它们的得分显著下降：

这组对比结果也揭示了一个此前被宽松评判标准所掩盖的事实：现有记忆系统在长对话场景中的实际表现，与旧基准所呈现的高分之间存在较大的差距。许多涉及时间推理、多事件区分和精确细节回忆的题目，对当前主流框架而言仍是未解决的难题——只是在旧裁判下，这些错误未被有效识别。我们希望 LoCoMo-Refined 能让这些真实的瓶颈充分暴露出来，为后续记忆架构的改进提供更准确的方向。

开源与生态：

建立更健康的 Agent 记忆测评基础设施

LoCoMo-Refined 的目标不是否定特定框架，而是为社区提供更客观的验证工具，帮助识别真实瓶颈，推动记忆架构的针对性改进。

目前，LoCoMo-Refined 的完整修订版数据集以及配套的严格评测脚本已经全部开源。

GitHub 地址：https://github.com/mem-eval-suite/LoCoMo_refined

期待社区开发者们在 LoCoMo-Refined 基础上构建出更强大的 Agent 记忆系统，共同推动相关技术的发展！

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.