网易首页 > 网易号 > 正文 申请入驻

AI用3年时光,来了解你!首个AI Clone长期记忆基准

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有AI记忆评测存在局限,如数据源单一、忽视变化本质、注入成本高等。CloneMem通过层次化生成框架构建合成人生,设计贴近真实场景的评测任务,涵盖多种问题类型。实验发现简单方法在检索上更有效,复杂系统会丢失关键细节,记忆系统应保留细节和时间脉络,还原而非压缩信息,以更好地理解人。

AI数字分身正在从科幻走向现实帮你回邮件、管理日程,甚至可以直接替你和别人coffee chat。

但问题是:AI如何深度了解并与你保持同步

不仅要「知道」你叫什么,住在哪里,喜欢听什么音乐,喜欢吃什么,更要「持续了解」:这几年你经历了什么、你的想法是如何一步步转变的、为什么去年你想要跳槽,但今年却想要留下。

这些,才真正定义了你是谁。

针对这一问题,开源学术社区QuantaAlpha联合国内外知名高校团队提出了CloneMem——首个专门评估AI Clone长期记忆能力的基准测试,并提供了中英文双语版本


论文链接:https://arxiv.org/pdf/2601.07023

代码数据:https://github.com/AvatarMemory/CloneMemBench


AI Clone 应用场景示意图

人生的关键变化

往往不发生在聊天框里

现有AI记忆评测主要考察模型能否记住用户与AI之间说过的话。但这套评测范式存在三个根本局限:

数据源单一。

仅依赖用户与AI的对话记录,而这些记录往往只反映了生活中的某些片段。更关键的是,对话内容高度依赖用户主动表达,本身就已经经过个人的二次叙述,很难还原一个人真实而连续的生活轨迹。

忽视「变化」的本质。

现有基准关注的是「AI 能否记住某个事实」,而非「AI 能否理解这个人是怎么一步步变成现在这样的」——经历如何塑造情绪,情绪如何影响观点,观点又如何左右选择。

注入成本高。

想让AI了解你,你得不断主动和它聊。但谁有时间每天给AI写日记?这种机制难以长期维持。


CloneMem与现有记忆评测基准对比

数据怎么造?

层次化生成一个合成人生

真实用户数据涉及隐私,研究团队设计了一套层次化生成框架:

宏观层面,基于大五人格初始化人物设定,构建职业、家庭、情绪、价值观等长期人生弧线;中观层面,将每个重大事件拆分为多个阶段,维护内部状态快照(能量、压力、情绪、关注焦点),状态在阶段间传递以保证连贯性;微观层面,为每个阶段生成具体事件,并同步产出日记、帖子、消息等多种媒介内容。

这种自顶向下的设计确保了经历、情绪、观点在长时间跨度上保持一致。


CloneMem 完整的数据构建流程

面向真实交互场景的评测任务设计

CloneMem设计了一系列贴近真实使用场景的评测任务。所有问题都从「与AI Clone聊天的朋友」视角出发,而不是系统自问自答。

提问者像现实中的熟人一样,会在不同时间点向AI Clone询问你的近况和想法。

更关键的是,这些问题不是集中在某一个时间段,而是贯穿在你完整的人生时间线上,这也就意味着模型需要在横跨数年的日记、社交媒体、聊天记录和邮件等多源记录里,找到关键信息,并理解经历如何影响情绪,情绪如何塑造观点,观点又如何推动选择,才能做出正确的判断。


CloneMem评测任务示例

CloneMem设计了7种问题类型,涵盖了事实回忆、规律识别、变化对比、长期轨迹理解、因果推理、反事实推理,以及无法回答的情况。

而考虑到在真实场景下的开放式问答难度不低,CloneMem也为每道简答题设计了对应的选择题版本,用来降低难度。

实验发现

简单方法反超,复杂系统压缩掉关键细节

研究团队从检索能力、记忆有效性和回答一致性等多个维度,对Flat Retriever、A-MEM和Mem0三种记忆系统进行了评估,结果却有些出人意料。

在检索层面,简单方法反而更有效

在多数指标上,最简单的Flat Retriever表现最好。原因是抽象和总结虽然有助于搜索,但会损失细节保真度。而AI Clone任务高度依赖时间顺序、原始表述、事件间的细微关联,而这些信息往往在摘要的过程中被压缩掉了。


不同记忆系统的 QA 性能与记忆效用对比(Oracle 为使用真实上下文的上界)

在表征层面,记忆系统只记事件,而不记状态

以老沈为例,他正在经历中年危机,连续两周在凌晨浏览招聘网站,搜索各种岗位信息。记忆系统非常诚实的记下了这些行为,但无法表征他还在犹豫,一份简历都没投出去的状态。

因此当被问到老沈有没有看重的公司时,模型面对一堆求职相关的行为记录,自然会脑补出老沈看重了几家公司,然而实际上,他什么都没有决定。

在生成层面,模型容易被叙事惯性所带偏

即使检索到了正确的信息,模型仍然倾向于套用高概率叙事模板,而并没有依据事实证据。比如当问老沈为什么愿意向妻子敞开心扉,正确答案是他意识到长期强撑正在伤害家庭,模型却回答女儿的一幅画触动了他,这听起来很合理,但证据完全对不上。

对记忆系统设计的启示

CloneMem的实验结果指向一个核心问题:当前的记忆系统把记住当成了目标,但AI Clone真正需要的是还原。

这意味着记忆系统不能只做信息压缩,而要保留原始表述和时间脉络;不能只记发生了什么事,还要能表征一个人正在经历什么阶段;不能总是给出答案,而要在证据不足时学会说不知道。

换句话说,AI Clone的记忆不应该是一个越压越小的知识库,而应该是一个保留完整证据链的底座,因为理解一个人,靠的不是摘要,而是细节。

QuantaAlpha

QuantaAlpha成立于2025年4月,由来自国内外知名院校的老师和学生组成,使命是探索智能的「量子」,引领智能体研究的「阿尔法」前沿,从CodeAgent到自进化智能,再到金融与跨领域专用智能体,致力于重塑人工智能的边界。

2026年,研究团队将在CodeAgent、DeepResearch、Agent Memory、Agentic Reasoning/Agentic RL、自进化与协同学习等方向持续产出高质量研究成果,欢迎对我们方向感兴趣的同学加入我们!


团队主页:https://quantaalpha.github.io/

参考资料:

https://arxiv.org/pdf/2601.07023


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全美第一热搜!森林狼8换2迎三球组后场双枪  美记:价格低得离谱

全美第一热搜!森林狼8换2迎三球组后场双枪 美记:价格低得离谱

颜小白的篮球梦
2026-06-25 21:38:28
东风-17亮剑,31国全安静了?中国这一手,藏着2个没说破的警告

东风-17亮剑,31国全安静了?中国这一手,藏着2个没说破的警告

忠于法纪
2026-06-25 09:34:29
英媒:切尔西需先出售5名球员,才能开始考虑对查洛巴的报价

英媒:切尔西需先出售5名球员,才能开始考虑对查洛巴的报价

懂球帝
2026-06-25 23:32:19
北京这一天,洗把脸就来的王凯,秒了内娱一堆涂脂抹粉的小鲜肉

北京这一天,洗把脸就来的王凯,秒了内娱一堆涂脂抹粉的小鲜肉

星宿影视鸭
2026-06-25 17:05:27
A股:今晚2.5亿股民,要兴奋到睡不着觉了,你知道为什么吗?

A股:今晚2.5亿股民,要兴奋到睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-06-25 21:40:13
6692万!3195万!一场NBA比赛还没打 新科状元迪班萨就狂赚2.18亿

6692万!3195万!一场NBA比赛还没打 新科状元迪班萨就狂赚2.18亿

麦子的篮球故事
2026-06-24 20:30:06
2026年浙江高考前10名新鲜出炉,分别来自这些学校

2026年浙江高考前10名新鲜出炉,分别来自这些学校

乡土宁海
2026-06-25 22:01:40
FIFA这逆天规则,正在杀死世界杯的经典剧情

FIFA这逆天规则,正在杀死世界杯的经典剧情

星河漫山野
2026-06-25 01:24:06
黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

磊子讲史
2026-06-23 12:00:56
上游新闻报道“四次配合反诈调查仍被限制出境”后,晋江公安致歉并协助当事人重办护照

上游新闻报道“四次配合反诈调查仍被限制出境”后,晋江公安致歉并协助当事人重办护照

上游新闻
2026-06-25 22:20:20
大陆“向阳红22”科研船在台湾东部水域遭台湾海巡驱离,国台办:如再借此滋事挑衅,升高两岸对立对抗,必遭挫败

大陆“向阳红22”科研船在台湾东部水域遭台湾海巡驱离,国台办:如再借此滋事挑衅,升高两岸对立对抗,必遭挫败

政知新媒体
2026-06-24 13:57:50
黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

磊子讲史
2026-06-22 15:59:52
最新世界排名:中国一姐晋级四强飙升13位!郑钦文无缘8强升15位

最新世界排名:中国一姐晋级四强飙升13位!郑钦文无缘8强升15位

杨仔述
2026-06-25 09:33:15
皇马头号水货!连小将都不如,穆里尼奥要卖他买恩佐

皇马头号水货!连小将都不如,穆里尼奥要卖他买恩佐

一隅非生
2026-06-25 09:48:46
悲惨!因辅导作业,情绪失控,母女相继跳楼,双双坠亡!

悲惨!因辅导作业,情绪失控,母女相继跳楼,双双坠亡!

闲侃闲侃
2026-06-25 07:43:49
黑了半个月突然洗白!《联合早报》极致变脸,网友:精神分裂了?

黑了半个月突然洗白!《联合早报》极致变脸,网友:精神分裂了?

小徐讲八卦
2026-06-25 19:14:06
成都石室(文庙)已有2名学生取得四川高考历史类前10名成绩

成都石室(文庙)已有2名学生取得四川高考历史类前10名成绩

封面新闻
2026-06-25 21:44:02
遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

健康之光
2026-06-22 12:55:25
1分垫底!7分头名!但全世界都问加拿大:你是怎么混进去的?

1分垫底!7分头名!但全世界都问加拿大:你是怎么混进去的?

林子说事
2026-06-25 12:13:11
A-史密斯:如果湖人留不下詹姆斯,他们下赛季屁都赢不了

A-史密斯:如果湖人留不下詹姆斯,他们下赛季屁都赢不了

懂球帝
2026-06-25 12:45:25
2026-06-26 01:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15531文章数 66936关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
时尚
本地
艺术
健康

教育要闻

6月24日,2026年河南普通高校招生批次录取控制分数线出炉

女人不管多大年纪,夏天都要准备一两条过膝裙,舒适又提气质

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

医生如何快速诊断脑梗和脑出血?

无障碍浏览 进入关怀版