网易首页 > 网易号 > 正文 申请入驻

Agent记忆赛道大洗牌!LoCoMo-Refined重磅发布,主流记忆框架迎来核心检验

0
分享至


京大学&上海人工智能实验室联合推出LoCoMo-Refined严苛的Agent记忆评测基准,主流记忆系统真实水平大比拼!

01


引言:Agent记忆系统高分背后,

评测“标尺”仍待校准

随着 Agent 应用持续走向复杂任务,"记忆能力"正逐渐成为影响系统可用性与用户体验的关键基础能力之一。尽管模型的长上下文窗口不断扩展(从 128K 扩展到 1M、2M),但其仍无法有效解决真实长周期对话中频发的"失忆"问题。因此,围绕Agent的记忆框架迅速兴起,成为当前业界提升长期记忆能力的一条重要技术路径。

在当下各大主流记忆评测榜单中(如 Agent Memory 领域的代表性基准 LoCoMo),主流记忆框架动辄获得90%以上的高分。但在接入真实的业务场景时,却发现 Agent 依然频频失效:昨天说好的日程今天搞错时间、用户偏好被张冠李戴、甚至还会"脑补"出从未发生过的对话细节。明明在评测基准里拿了高分,为什么一到真实应用就表现不佳?

南京大学强化学习实验室联合上海人工智能实验室群体智能团队,在深度剖析了超长对话记忆基准 LoCoMo 后,找到了核心原因——现有的评测“标尺”本身存在偏差,并总结出当前记忆评测基准普遍存在的两大漏洞:

第一,评判标准过于宽容:行业通用的 LLM 裁判(Judger)基本逻辑是"相关即正确",这种宽松的判定掩盖了当前记忆外挂的核心缺陷——召回冗余信息与过度生成;

第二,考卷本身也存在错漏:数据集中潜藏着部分逻辑颠倒、事实偏差的"脏数据",干扰了评测精度。

如果评测“标尺”本身不够准确,Agent 记忆系统的研究将在高分的假象中迷失方向,导致记忆系统的真实瓶颈被持续忽视。为此,在LoCoMo基础上,联合团队正式推出专为验证真实记忆架构而生的严谨测试基准 LoCoMo-Refined

▪ 新 Judger 的核心原则:包含且不矛盾,完整且不越界——对冗余生成和未验证细节明确扣分。

▪ 数据修正方面,人工逐题核验核心四类题目,修订了题目模糊、主客体颠倒、时间不符等问题,最终形成高质量新数据集。

在 LoCoMo-Refined 的严苛标准下,MemPalace、EverMemOS等主流记忆框架的得分普遍下降15–22个百分点——它们此前的高分,在很大程度上是评测标尺本身的宽松所致。

02


揭秘旧基准得分虚高的两大原因

那些在真实场景中表现不佳的记忆系统,究竟是如何斩获高分的?我们深入分析了现有的LoCoMo评测体系,发现了两个关键原因。

原因一:宽松的裁判——“相关即正确”掩盖了记忆系统的缺陷

主流记忆框架在实际使用中容易产生冗余信息——既可能在检索阶段召回无关记忆,也可能在生成阶段引入未经验证的细节。然而,现有评测体系中,通用 LLM Judger(裁判)的判定门槛较低,其核心逻辑是"相关即正确"——只要回答在语义上与标准答案相关,就倾向于判定为正确,极易产生评判幻觉。具体表现为:


忽视时间漂移:比如问题问“Deborah 何时去巴西”,标准答案是“2020年”。如果记忆系统回答“2020年8月30日”(强加了未经验证的具体日期),通用 Judger 依然会判定为正确。

纵容过度生成与冗余:比如问题问“他喜欢什么类型的电影”,标准答案是“动作片和科幻片”。如果记忆系统召回了多余的信息,回答“动作、科幻和奇幻片”,在旧规则下,这依然是一个“满分答案”。

这种宽松的裁判标准,实际上导致了严重的假阳性。它让那些记忆混乱、时间线模糊、生成额外事实的结果,获得了远超其真实能力的高分。当评测失去了区分度,得分的参考价值也就大打折扣。

原因二:带瑕疵的考卷——考题和标准答案存在误导

除了评判标准的过度宽容,测试数据本身的问题同样会干扰评测的客观性。通过 AI 初筛结合人工核验,在原始 LoCoMo 中精确定位了 337 道存在逻辑或事实偏差的题目。这类错误一旦作为“金标准”,会直接干扰对 Agent记忆系统的准确评估。


以"主客颠倒"为例:例如原数据集题目:“Nate 去 Joanna 家玩时想做什么?”但回溯长达数百轮的原始对话记录发现,Nate 说的实际上是:“我很高兴你能再来我家玩”——访客与主人的关系完全相反。如果记忆系统依据这样的标注进行学习或评测,会导致错误的结果被判定为正确。

03


LoCoMo-Refined 怎么做?

——专为“记忆架构”打造的客观标尺

为了精准评估 Agent 外挂记忆系统的真实能力,团队从评测标准和数据质量两个维度进行了系统性重构。

严格标尺:精准识别“幻觉”与“冗余”的新 Judger

针对旧裁判过度宽松的问题,围绕记忆任务的本质要求,首先重新界定“什么才算真正答对”。与开放式生成任务不同,记忆评测关注的并不是仅仅是回答是否“看起来合理”或“主题相关”,而是系统能否在给定问题下准确、完整、边界清晰地回忆目标信息。基于这一认识,首先给出新Judger的设计哲学——

包含且不矛盾,完整且不越界。


必要信息完整覆盖:回答必须覆盖标准答案的所有关键要素,命中一部分不算答对——从相关性匹配升级为信息完备性检验。

冗余生成边界控制:回答不能超出标准答案的可验证范围。未经证实的补充细节,即便看似合理,也应被扣分——评测关注的是"忠实复现",而非"合理扩展"。

精修考卷:AI 与人工的协同校准

有了精确的标尺,考卷本身的质量同样需要保证。团队引入了前沿 AI 模型作为初筛工具,对全部数据执行了基于证据(Evidence-based)的测试检验。随后,人工对初筛出的错题及 AI 修复建议进行了逐题复核。


在剔除无效题型后,在剩余的 1540 道核心考题中,精修了 337 道存在逻辑或事实瑕疵的题目,数据集的纯净度得到了极大提升,最终获得1382道精修后的题目。

One More Thing:引入“多模态”记忆标记

业界往往忽略了一个归因盲区:当 Agent 面对混合了图片的长期对话答错时,到底是因为“文本记忆没存好”,还是因为“没看懂图片”?

为了剥离这种干扰,在 LoCoMo-Refined 中引入了多模态标记。其中 521 道题目(占比37.70%)被清晰地打上了该标签,这让开发者能够更精细化地评估记忆框架在“纯文本”与“图文交织”场景下的能力边界。

04


评测结果:

严苛标尺下的重测,主流记忆框架真实水平展现

标尺校准:旧版裁判模型为何不再适用?

在测试真实记忆系统之前,团队先用对比数据验证了旧版评测结果为何缺乏区分度。

通过抽取的 300 条高难度样本进行双盲测试。结果显示,人类专家标注表现出较强的一致性——达到 0.9373,其中更是有高达 92.33% 的样本一致性超过 0.8。这表明“记忆是否准确”在人类视角下有着清晰的共识。


LLM Judger裁判评分的核心包括两部分:大模型 + 评判规则,二者共同影响评判都准确率。以人类标注的300道题目为基础,对这两个因素进行了测评,从而衡量“评判标尺”是否准确。


大模型的选择:业界通用LoCoMo裁判采用GPT-4o mini作为后端LLM,在人工精标测试集上只有43.67%的准确率。Qwen3-14B 在相同配置下高出近 15%,因此LoCoMo-Refined 默认采用 Qwen3-14B。

评判标准的校验:现有LoCoMo裁判的标准(旧评判标准)较为宽松,这是造成评测标尺不准确的核心原因。团队对前面所提出的新评判标准进行了测评,以 Qwen3-14B 作为后端 LLM 时,新评判标准与人类标注的一致准确率达到 86.33%,显著优于旧评判标准。

新裁判在高共识样本上更稳定:结合大模型和评判标准的结构,在LoCoMo-Refined中使用Qwen3-14B + 新评判标准作为默认裁判,即新裁判。当人工标注者本身更容易达成一致时,新裁判的优势会变得更明显。对于一致性大于0.8 的样本,新裁判的准确率达到 89.5%;而在一致性小于 0.8 的样本上,则下降到 47.8%。相比之下,旧裁判在这两类样本上的准确率几乎没有变化,分别只有 48.4% 和 47.8%。


重测结果:主流记忆框架回归真实水平

为了验证LoCoMo-Refined基准以及新裁判的有效性和区分度,团队针对主流记忆系统——如 Mem0、MemOS、EverMemOS和MemPalace进行了测评。

在旧裁判下,这些框架的表现看起来相当不错,但在严惩信息冗余和时间漂移的新裁判下,它们的得分显著下降:


这组对比结果也揭示了一个此前被宽松评判标准所掩盖的事实:现有记忆系统在长对话场景中的实际表现,与旧基准所呈现的高分之间存在较大的差距。许多涉及时间推理、多事件区分和精确细节回忆的题目,对当前主流框架而言仍是未解决的难题——只是在旧裁判下,这些错误未被有效识别。我们希望 LoCoMo-Refined 能让这些真实的瓶颈充分暴露出来,为后续记忆架构的改进提供更准确的方向。

05


开源与生态:

建立更健康的 Agent 记忆测评基础设施

LoCoMo-Refined 的目标不是否定特定框架,而是为社区提供更客观的验证工具,帮助识别真实瓶颈,推动记忆架构的针对性改进。

目前,LoCoMo-Refined 的完整修订版数据集以及配套的严格评测脚本已经全部开源。

GitHub 地址:https://github.com/mem-eval-suite/LoCoMo_refined

期待社区开发者们在 LoCoMo-Refined 基础上构建出更强大的 Agent 记忆系统,共同推动相关技术的发展!


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“毒包子”养废了多少孩子,很多家长还在喂,看完文章停下来吧

“毒包子”养废了多少孩子,很多家长还在喂,看完文章停下来吧

枕边聊育儿
2026-04-20 08:46:22
章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

观鱼听雨
2026-04-17 22:15:44
中央电视台录播2026年4月20日至26日乒乓球比赛

中央电视台录播2026年4月20日至26日乒乓球比赛

乒乓球球
2026-04-20 00:37:33
广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

观世记
2026-04-18 15:55:41
换籍复出?"世界冠军"方博以哈萨克斯坦运动员身份回归,恢复参赛

换籍复出?"世界冠军"方博以哈萨克斯坦运动员身份回归,恢复参赛

八斗小先生
2026-04-20 14:46:09
5月1日起全民严查,开车上下班,做生意的这些“小事”千万别碰!

5月1日起全民严查,开车上下班,做生意的这些“小事”千万别碰!

小谈食刻美食
2026-04-20 08:17:46
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
河南平顶山动物园的狼见人就“作揖”讨吃的,游客质疑狼被饿着;园方:“作揖”属正常习性,每天喂一次,一只狼4斤肉

河南平顶山动物园的狼见人就“作揖”讨吃的,游客质疑狼被饿着;园方:“作揖”属正常习性,每天喂一次,一只狼4斤肉

大风新闻
2026-04-20 12:44:10
急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

体育大朋说
2026-04-20 11:15:16
跳楼身亡、家里现金堆成山、偷养私生子,大衣哥私生活谣言太离谱

跳楼身亡、家里现金堆成山、偷养私生子,大衣哥私生活谣言太离谱

姩姩有娱
2026-04-20 17:23:51
1947华野一夜暴富,粟裕看战场缴获当场惊呆

1947华野一夜暴富,粟裕看战场缴获当场惊呆

疯狂的小历史
2026-04-20 11:39:25
国乒新情报:4月20日,国乒出征伦敦时间确定,世界排名蒯曼掉落

国乒新情报:4月20日,国乒出征伦敦时间确定,世界排名蒯曼掉落

生活新鲜市
2026-04-20 13:00:55
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
谁敢买伊朗石油,美国就要动手,中方一句话,直接灭了特朗普威风

谁敢买伊朗石油,美国就要动手,中方一句话,直接灭了特朗普威风

芳芳历史烩
2026-04-19 06:30:55
快讯!日本惊出一身冷汗!

快讯!日本惊出一身冷汗!

达文西看世界
2026-04-20 11:51:01
复杂的黎巴嫩,走投无路的真主党

复杂的黎巴嫩,走投无路的真主党

寰宇大观察
2026-04-17 17:36:11
医生发现:吃一根香菜,就等于喝了一杯降糖茶,真的假的?

医生发现:吃一根香菜,就等于喝了一杯降糖茶,真的假的?

清欢百味
2026-04-19 17:38:59
中产彻底清醒!钢琴销量暴跌72%:不是不爱音乐,是时代不装了…

中产彻底清醒!钢琴销量暴跌72%:不是不爱音乐,是时代不装了…

火山詩话
2026-04-09 13:45:45
广州一地现“淘晶热”,市民称不少家长带孩子挖水晶,树根被刨空、地表坑洼遍地,官方发布告知书明确制止→

广州一地现“淘晶热”,市民称不少家长带孩子挖水晶,树根被刨空、地表坑洼遍地,官方发布告知书明确制止→

大风新闻
2026-04-20 11:41:04
很多微信群都变成了死群,因为人很难对没有利益的事保持长久热情

很多微信群都变成了死群,因为人很难对没有利益的事保持长久热情

大张的自留地
2026-04-20 13:10:12
2026-04-20 18:28:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7202文章数 20747关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小伙入职仅一天公司40多部手机集体"失灵" 警方提醒

头条要闻

小伙入职仅一天公司40多部手机集体"失灵" 警方提醒

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
家居
数码
艺术
公开课

今年最流行的衣服竟然是它?高级又气质!

家居要闻

自然慢调 慢享时光

数码要闻

华为MateBook 14鸿蒙版笔记本官宣搭载麒麟X90处理器

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版