网易首页 > 网易号 > 正文 申请入驻

你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-Bench

0
分享至

来源:市场资讯


ATM-Bench 将「个人 AI 助手是否真的记得你」这件事,变成了一个研究的测试基准。结果并不乐观:专用记忆智能体系统普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。

想象一个场景:妈妈问我:「你上次去日本旅行帮我买的相机,现在还在保修期内吗?」

对人类来说,这不算难。就算一时记不起来,也可以翻翻收据、照片,或者查一下当时的邮件。大脑会将线索串起来,逐渐定位或是搜索到相关记忆。但对今天的 AI 来说,这类问题远没有看上去那么简单。

最近,来自剑桥大学的团队开源了面向 AI 个人助理的长期记忆基准测试 ATM-Bench。他们评测一个直接的问题:当 AI 真正面对一个人多年真实生活数据时,它到底能不能「记住你」?

实验结果并不乐观。在该 ATM-Bench-Hard 基准上,当前非常热门的开源智能体「小龙虾」OpenClaw 仅达到 25.4% 的准确率;而被许多人视为编程智能体标杆、搭载 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多数开源专用记忆系统,准确率甚至低于 20%。


  • 论文地址: https://arxiv.org/abs/2603.01990

  • 项目主页: https://atmbench.github.io

ATM-Bench:系统评估 AI 长期个性化记忆能力的基准

过去已经有不少工作在评估 AI 的「记忆能力」,例如 LoCoMo、LongMemEval 等,它们大多聚焦于对话历史,但真实世界中的个人记忆,远不止聊天记录。一个人的生活记忆通常分散在:

  • 照片:旅行、聚会、用餐、日常片段

  • 视频:重要时刻、活动过程、环境变化

  • 邮件:机票、酒店、餐厅预订、票据、确认函

而且这些记忆往往横跨几年,互相之间并不对其。为此,ATM-Bench 提出了首个面向长期、多模态、多来源、个性化指代记忆问答的基准。它的几个关键特征是:

  • 时间跨度约 4 年;

  • 覆盖图像、视频、邮件三类模态,超一万条记忆数据;

  • 记忆数据来自真实个人生活,而非合成对话;

  • 图像、视频数据包含地点、时间等元数据,地点包含 4 大洲;

  • 包含 1000 + 条完全人工标注的问题、答案与证据。

ATM-Bench 考验了智能体能不能像一个真正的个人助理那样,找到隐藏在记忆库深处的正确记忆,并给出可靠答案。

挑战 AI 的记忆盲区

ATM-Bench 的核心难点包含:

  • 个性化指代:我的宠物猫「Grace」「我们上次那趟葡萄牙旅行」;

  • 多来源拼接:照片时间戳要和邮件确认函对齐;

  • 记忆冲突:预订金额和最终发票金额不一致;

  • 元数据噪音: GPS 由于定位准确度本身就可能出错。

这里展示了三种难题的案例。

个性化引用解析 ——Grace 到底是谁?

示例:「我想剪一个视频发小红书,帮我把 Grace 偷偷摸摸的照片视频找出来。」

  • 判断 Grace 是朋友、家人,还是宠物;

  • 在图片或视频里识别这个对象;

  • 再理解「偷偷摸摸」这种带主观色彩的描述。


证据冲突怎么选?

示例:「我最近去葡萄牙旅行住酒店花了多少钱?」

这类问题常常对应多份证据:过时的预订确认邮件,最终结算发票等。

AI 需要理解不同来源之间可能存在冲突,也需要判断哪条信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿着过时的预订邮件而不是最终的发票当作答案。


看不见的线索,才最考验 AI 的长期记忆

示例:「我在 Fancett 餐厅点了什么?」

陷阱在于:「Fancett」这个名字只出现在邮件确认单里,而照片本身并没有 GPS 标签。

要回答这个问题,AI 必须先:

从邮件中找到与 Fancett 相关的预订信息;

提取对应时间并锁定时间窗口;

再跨模态到相册中找到同一时段的照片;

最后从视觉内容中判断点了什么菜。

这类问题仅靠单一模态无法解决,需在邮件中挖掘文本线索,将时间范围缩小,找到照片并回答问题。少了任何一环,问题都无法被正确回答。


实验结果

团队在 ATM-Bench-Hard 上测试了多种专用记忆系统,包括 A-Mem、HippoRAG2、mem0、MemoryOS。

结果并不理想:最好的系统准确率不到 20%。这些系统本来就是为记忆而设计的,但当任务超过了仅仅是对话历史,记忆变得真实、长期、个性化、跨模态的生活场景时,它们依然显得力不从心。

除开源专用记忆系统之外,团队还测试了当前最强的通用智能体系统。这类智能体具备完整的代码执行能力、文件系统访问权限和工具调用能力,具有比专用记忆系统拥有更强的工程能力与搜索能力。


核心发现:

表现最好的 Codex 也只有 39.7% 的准确率,连及格线都够不着;

Claude Code + Opus 4.6 作为编程智能体的标杆,也只有 33.8%,尽管明显优于多数专用记忆系统,但仍难以胜任真实长期记忆 QA;

OpenCode(Kimi K2.5)达到 30.3%,而 OpenClaw(Kimi K2.5)为 25.4%;

Token 开销非常高:Codex 消耗了 15.46M tokens,OpenClaw 也达到 9.63M,即便投入大量工具调用与上下文预算,效果仍然有限。

这说明,即便给 AI 配齐代码执行、文件搜索、索引构建等整套工具链,长期个性化记忆问答仍然是一个根本性难题。

ATM-Bench 的实验结果虽然「惨淡」,但作者团队相信这为未来的长期记忆机制与个性化 AI 助手的研究开辟了新的方向。

OpenClaw、Codex、Claude Code 的集体表现不佳告诉我们:工具链再完善、模型再强大,也弥补不了记忆架构上的根本缺陷。

当 AI 真正能够像人类一样,在数年的记忆长河中准确检索、关联、推理,我们离真正的「个性化 AI」才会更近一步。

在那之前,也许我们不该对智能体的记忆能力期待太高,毕竟,它们连「去年给妈妈买的相机」都记不住,OpenClaw、Codex、Claude Code 都不行。

数据集已开源

ATM-Bench 数据集现已在 HuggingFace 上线:

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工标注的 1069 个 QA 对

  • 多模态证据标注

  • NIAH 大海捞针评估支持

  • 开箱即用的基准测试代码

作者介绍

梅敬标,剑桥大学机器智能实验室博士四年级在读,师从 Bill Byrne 教授,获剑桥信托基金奖学金资助。本科及硕士均毕业于剑桥大学工程系,主修信息与计算机工程与电子工程。

其主要研究方向为多模态大语言模型的应用,涵盖多模态检索、模型安全、强化学习及智能体系统等领域。相关成果已发表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等国际顶级会议,累计发表论文十余篇。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张柱任农业农村部党组书记

张柱任农业农村部党组书记

澎湃新闻
2026-04-28 21:26:27
斯诺克世锦赛:吴宜泽单局0分!瓦菲2-1再次领先,萝卜追平巫师!

斯诺克世锦赛:吴宜泽单局0分!瓦菲2-1再次领先,萝卜追平巫师!

刘姚尧的文字城堡
2026-04-28 22:46:34
为什么丑时散财、午时却有横财运?那么哪个时辰出生的人最有钱呢

为什么丑时散财、午时却有横财运?那么哪个时辰出生的人最有钱呢

卡西莫多的故事
2026-04-09 09:56:51
开战即封门!87万在日华人已被盯上,开战后日本将露出最残酷底色

开战即封门!87万在日华人已被盯上,开战后日本将露出最残酷底色

田园小归
2026-04-27 09:06:16
亲戚让孩子挂我家户口上学,原想同意,听孩子说话,我立刻拒绝

亲戚让孩子挂我家户口上学,原想同意,听孩子说话,我立刻拒绝

拾代谈生活
2026-04-28 14:27:01
你以为麻豆传媒是卖片的,其实它是卖人的

你以为麻豆传媒是卖片的,其实它是卖人的

创始人笔记
2026-04-23 21:44:50
军统之花向影心:为毛人凤生育8子,戴笠死后,被丈夫送入疯人院

军统之花向影心:为毛人凤生育8子,戴笠死后,被丈夫送入疯人院

探史
2026-04-27 15:49:20
全球第四大车企出售工厂,震动行业!

全球第四大车企出售工厂,震动行业!

财经三分钟pro
2026-04-28 17:23:53
石宇奇汤杯退赛引争议,队友揭秘21年桃田赛点真相

石宇奇汤杯退赛引争议,队友揭秘21年桃田赛点真相

老曁科普
2026-04-29 01:10:39
六台:阿尔瓦雷斯已经告知马竞,自己想加盟巴萨

六台:阿尔瓦雷斯已经告知马竞,自己想加盟巴萨

懂球帝
2026-04-28 15:10:14
伊朗战争,让美国再也不敢有对我们动手的念头了

伊朗战争,让美国再也不敢有对我们动手的念头了

农夫史记
2026-04-27 20:56:58
特斯拉中国:推出 Model Y 单人充气床垫,售价 659 元!

特斯拉中国:推出 Model Y 单人充气床垫,售价 659 元!

新浪财经
2026-04-27 22:52:45
曼晚:梅努在曼联战术调整后,对阿莫林做出了最好回应

曼晚:梅努在曼联战术调整后,对阿莫林做出了最好回应

懂球帝
2026-04-29 00:55:58
火箭湖人G5最新伤情通报:火箭坏消息,湖人好坏消息都有!

火箭湖人G5最新伤情通报:火箭坏消息,湖人好坏消息都有!

老皢尾声体育解说
2026-04-29 00:48:55
入选住建部“美好家园案例集”成都高新这个小区凭啥出圈?

入选住建部“美好家园案例集”成都高新这个小区凭啥出圈?

红星新闻
2026-04-28 21:53:08
150万人香港研究:低剂量他汀吃10年,整体癌症风险降低57%?

150万人香港研究:低剂量他汀吃10年,整体癌症风险降低57%?

医学科普汇
2026-04-28 21:55:07
刺激夜:曼联2-1,中国男足爆冷2-0意大利,吴宜泽13-11进世锦赛8强

刺激夜:曼联2-1,中国男足爆冷2-0意大利,吴宜泽13-11进世锦赛8强

侧身凌空斩
2026-04-28 05:58:58
法国集齐八大前锋,姆巴佩不参加世界杯也没事?

法国集齐八大前锋,姆巴佩不参加世界杯也没事?

吴朑爱游泳
2026-04-29 00:25:59
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

喜欢历史的阿繁
2026-04-26 11:01:11
2026-04-29 01:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3049670文章数 6990关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

游戏
本地
亲子
公开课
军事航空

这不爽翻了?曝PS6或能稳稳运行60帧+光追的游戏画面

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

有一点点近视,到底要不要戴眼镜?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版