网易首页 > 网易号 > 正文 申请入驻

AI用3年时光,来了解你!首个AI Clone长期记忆基准

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有AI记忆评测存在局限,如数据源单一、忽视变化本质、注入成本高等。CloneMem通过层次化生成框架构建合成人生,设计贴近真实场景的评测任务,涵盖多种问题类型。实验发现简单方法在检索上更有效,复杂系统会丢失关键细节,记忆系统应保留细节和时间脉络,还原而非压缩信息,以更好地理解人。

AI数字分身正在从科幻走向现实帮你回邮件、管理日程,甚至可以直接替你和别人coffee chat。

但问题是:AI如何深度了解并与你保持同步

不仅要「知道」你叫什么,住在哪里,喜欢听什么音乐,喜欢吃什么,更要「持续了解」:这几年你经历了什么、你的想法是如何一步步转变的、为什么去年你想要跳槽,但今年却想要留下。

这些,才真正定义了你是谁。

针对这一问题,开源学术社区QuantaAlpha联合国内外知名高校团队提出了CloneMem——首个专门评估AI Clone长期记忆能力的基准测试,并提供了中英文双语版本


论文链接:https://arxiv.org/pdf/2601.07023

代码数据:https://github.com/AvatarMemory/CloneMemBench


AI Clone 应用场景示意图

人生的关键变化

往往不发生在聊天框里

现有AI记忆评测主要考察模型能否记住用户与AI之间说过的话。但这套评测范式存在三个根本局限:

数据源单一。

仅依赖用户与AI的对话记录,而这些记录往往只反映了生活中的某些片段。更关键的是,对话内容高度依赖用户主动表达,本身就已经经过个人的二次叙述,很难还原一个人真实而连续的生活轨迹。

忽视「变化」的本质。

现有基准关注的是「AI 能否记住某个事实」,而非「AI 能否理解这个人是怎么一步步变成现在这样的」——经历如何塑造情绪,情绪如何影响观点,观点又如何左右选择。

注入成本高。

想让AI了解你,你得不断主动和它聊。但谁有时间每天给AI写日记?这种机制难以长期维持。


CloneMem与现有记忆评测基准对比

数据怎么造?

层次化生成一个合成人生

真实用户数据涉及隐私,研究团队设计了一套层次化生成框架:

宏观层面,基于大五人格初始化人物设定,构建职业、家庭、情绪、价值观等长期人生弧线;中观层面,将每个重大事件拆分为多个阶段,维护内部状态快照(能量、压力、情绪、关注焦点),状态在阶段间传递以保证连贯性;微观层面,为每个阶段生成具体事件,并同步产出日记、帖子、消息等多种媒介内容。

这种自顶向下的设计确保了经历、情绪、观点在长时间跨度上保持一致。


CloneMem 完整的数据构建流程

面向真实交互场景的评测任务设计

CloneMem设计了一系列贴近真实使用场景的评测任务。所有问题都从「与AI Clone聊天的朋友」视角出发,而不是系统自问自答。

提问者像现实中的熟人一样,会在不同时间点向AI Clone询问你的近况和想法。

更关键的是,这些问题不是集中在某一个时间段,而是贯穿在你完整的人生时间线上,这也就意味着模型需要在横跨数年的日记、社交媒体、聊天记录和邮件等多源记录里,找到关键信息,并理解经历如何影响情绪,情绪如何塑造观点,观点又如何推动选择,才能做出正确的判断。


CloneMem评测任务示例

CloneMem设计了7种问题类型,涵盖了事实回忆、规律识别、变化对比、长期轨迹理解、因果推理、反事实推理,以及无法回答的情况。

而考虑到在真实场景下的开放式问答难度不低,CloneMem也为每道简答题设计了对应的选择题版本,用来降低难度。

实验发现

简单方法反超,复杂系统压缩掉关键细节

研究团队从检索能力、记忆有效性和回答一致性等多个维度,对Flat Retriever、A-MEM和Mem0三种记忆系统进行了评估,结果却有些出人意料。

在检索层面,简单方法反而更有效

在多数指标上,最简单的Flat Retriever表现最好。原因是抽象和总结虽然有助于搜索,但会损失细节保真度。而AI Clone任务高度依赖时间顺序、原始表述、事件间的细微关联,而这些信息往往在摘要的过程中被压缩掉了。


不同记忆系统的 QA 性能与记忆效用对比(Oracle 为使用真实上下文的上界)

在表征层面,记忆系统只记事件,而不记状态

以老沈为例,他正在经历中年危机,连续两周在凌晨浏览招聘网站,搜索各种岗位信息。记忆系统非常诚实的记下了这些行为,但无法表征他还在犹豫,一份简历都没投出去的状态。

因此当被问到老沈有没有看重的公司时,模型面对一堆求职相关的行为记录,自然会脑补出老沈看重了几家公司,然而实际上,他什么都没有决定。

在生成层面,模型容易被叙事惯性所带偏

即使检索到了正确的信息,模型仍然倾向于套用高概率叙事模板,而并没有依据事实证据。比如当问老沈为什么愿意向妻子敞开心扉,正确答案是他意识到长期强撑正在伤害家庭,模型却回答女儿的一幅画触动了他,这听起来很合理,但证据完全对不上。

对记忆系统设计的启示

CloneMem的实验结果指向一个核心问题:当前的记忆系统把记住当成了目标,但AI Clone真正需要的是还原。

这意味着记忆系统不能只做信息压缩,而要保留原始表述和时间脉络;不能只记发生了什么事,还要能表征一个人正在经历什么阶段;不能总是给出答案,而要在证据不足时学会说不知道。

换句话说,AI Clone的记忆不应该是一个越压越小的知识库,而应该是一个保留完整证据链的底座,因为理解一个人,靠的不是摘要,而是细节。

QuantaAlpha

QuantaAlpha成立于2025年4月,由来自国内外知名院校的老师和学生组成,使命是探索智能的「量子」,引领智能体研究的「阿尔法」前沿,从CodeAgent到自进化智能,再到金融与跨领域专用智能体,致力于重塑人工智能的边界。

2026年,研究团队将在CodeAgent、DeepResearch、Agent Memory、Agentic Reasoning/Agentic RL、自进化与协同学习等方向持续产出高质量研究成果,欢迎对我们方向感兴趣的同学加入我们!


团队主页:https://quantaalpha.github.io/

参考资料:

https://arxiv.org/pdf/2601.07023


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

历史甄有趣
2026-01-04 09:30:24
3-0!神级双赢大交易!火箭曾经的球队门面

3-0!神级双赢大交易!火箭曾经的球队门面

篮球实战宝典
2026-01-21 16:03:47
HBO的史诗级美剧,终于上线了

HBO的史诗级美剧,终于上线了

来看美剧
2026-01-21 18:59:51
俄外长:俄曾通过外交渠道告诉日方,日本领土上出现美国陆基打击系统“不可接受”

俄外长:俄曾通过外交渠道告诉日方,日本领土上出现美国陆基打击系统“不可接受”

环球网资讯
2026-01-21 18:38:56
伊朗宗教政权的重要支柱——伊斯兰革命卫队

伊朗宗教政权的重要支柱——伊斯兰革命卫队

老头和你随便聊聊
2026-01-15 08:01:47
鲁比奥的一句话,彻底打破日本幻想,高市早苗:对中国放手一搏

鲁比奥的一句话,彻底打破日本幻想,高市早苗:对中国放手一搏

琉璃聊科学
2026-01-21 20:59:47
据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

忠于法纪
2025-12-04 11:25:07
英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

鹤羽说个事
2026-01-17 14:30:04
美国街头陷入混乱:数千名蒙面执法者突袭,62.2万人被驱逐出境

美国街头陷入混乱:数千名蒙面执法者突袭,62.2万人被驱逐出境

兴史兴谈
2026-01-21 11:16:57
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

谈史论天地
2026-01-21 06:10:03
广东某设计院批量大裁员,劳务派遣“团灭”!

广东某设计院批量大裁员,劳务派遣“团灭”!

黯泉
2026-01-21 22:44:10
广州男篮官宣:郭艾伦1月23日主场战同曦复出 已连续伤停14场

广州男篮官宣:郭艾伦1月23日主场战同曦复出 已连续伤停14场

醉卧浮生
2026-01-21 16:15:35
严维耀已任中央纪委国家监委驻全国人大机关纪检监察组组长

严维耀已任中央纪委国家监委驻全国人大机关纪检监察组组长

澎湃新闻
2026-01-21 20:27:04
抗癌归来的冯提莫,力挺“直播禁美颜”,素颜后恶心的一幕上演了

抗癌归来的冯提莫,力挺“直播禁美颜”,素颜后恶心的一幕上演了

跳跳历史
2026-01-09 11:32:07
51岁何炅生图曝光!脸部下垂全是褶断崖式衰老,现场互动好心酸

51岁何炅生图曝光!脸部下垂全是褶断崖式衰老,现场互动好心酸

八卦王者
2026-01-21 16:25:26
终于有一部国产剧,不靠「爽感」博眼球了

终于有一部国产剧,不靠「爽感」博眼球了

独立鱼
2026-01-20 22:06:35
国足打进决赛,日韩媒体疯狂吹捧一人!安东尼奥:中国不缺好球员

国足打进决赛,日韩媒体疯狂吹捧一人!安东尼奥:中国不缺好球员

杨仔述
2026-01-21 18:02:46
王钰栋晒与队友跳舞庆祝视频,内马尔账号评论“太棒了”

王钰栋晒与队友跳舞庆祝视频,内马尔账号评论“太棒了”

懂球帝
2026-01-21 20:57:16
金球奖红毯真敢穿,女星个个风情万种,詹妮弗“透视装”尺度拉满

金球奖红毯真敢穿,女星个个风情万种,詹妮弗“透视装”尺度拉满

电影烂番茄
2026-01-18 23:17:51
2026-01-21 23:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14380文章数 66521关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

游戏
房产
教育
手机
公开课

数毛社:NS2《FF7RE》画面部分方面与PS5版相媲美!

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

教育要闻

高考地理中的生态修复

手机要闻

真我Neo8参数汇总,就差价格了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版