网易首页 > 网易号 > 正文 申请入驻

中科大少年班校友搞出“会进化”的AI记忆,解题步骤直接砍半

0
分享至

今年 26 岁的魏天心,是中国科学技术大学少年班毕业生,目前在美国伊利诺伊大学香槟分校读博,同时也是谷歌 DeepMind 的实习生。实习期间,他与所在团队围绕大模型智能体在长期使用过程中如何积累和利用经验这一问题,构建了名为 Evo-Memory 的评测框架,用于系统性刻画智能体在测试阶段的记忆进化行为,即如何在持续使用过程中,像人脑一样不断积累经验,并逐步提升解决问题的能力。


图 | 魏天心(来源:魏天心)

魏天心让 Evo-Memory 去挑战数学竞赛题目、研究生级别的科学问题、甚至让其在虚拟实验室里完成复杂的多步骤人物。结果发现在某个虚拟任务中,新型 AI 的步骤从平均 22.6 步减少到了 11.5 步,这说明其学会了更优的路径和方法。

即使任务的难度突然变化,或者记忆里混入了一些失败经验,记忆进化之后的 AI 也能保持稳定的表现,因为它会主动整理和优化记忆,而不是被杂乱的信息干扰。


(来源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 变得会更会搜索,面对新问题的时候 AI 会迅速在记忆里找到类似的情况;AI 也会变得更会思考,不仅会查看旧有答案,还会分析此前在给出旧有答案时是怎么想的以及使用了什么方法;AI 还会变得更会自我优化,每当解决一个新的问题,AI 就会把这次的经验比如怎么想的、怎么做的、结果如何等内容整理好,整理好之后还会扔掉没用的、突出有用的。

这个过程叫做测试时进化,即每次在被使用以及每次在解决问题的时候,AI 都在实时地自我学习和自我进化。为了测试这种能力,魏天心设计了一个名为 Evo-Memory 的基准测试,把数学题、科学实验和虚拟世界任务等十多种不同类型的挑战,编成连续的任务流,让 AI 一个一个去完成,结果发现它果然可以借助以往经验解决新问题。

魏天心告诉 DeepTech:“我们此次成果的核心贡献是系统性地定义、设计并评估了大模型智能体的测试时学习能力。也就是在不改变模型训练参数的前提下,让智能体通过自我演化,实现跨任务、跨时间的持续改进。”


(来源:https://arxiv.org/abs/2511.20857)

过去两年,大模型和 AI 智能体的能力提升很快,但在实际部署后魏天心发现它们几乎不会从经验中学习。大多数评测默认它们是一次性系统,而在现实中,智能体是长期运行的。

它会不断遇到新情况、会犯错、会修正,这才符合真实世界的背景。因此,本次研究不仅关注它当下的能力,更关注它能否持续进化、持续从经验中学习,并把这种进化变成可控、可衡量的一个系统性过程。

为了让 AI 学会进化记忆,魏天心构建了一个基准测试框架,对相关方法进行了全面评估,并在其中提出并实现了两种关键测试方法,用于刻画智能体在持续学习过程中的记忆进化行为:

第一个方法叫做 ExpRAG,负责经验检索与聚合。其实它是一个错题本,每当 AI 遇到新题目的时候,它就会立马去错题本里搜搜看,看看是否有类似的旧题目和旧答案。然后,它会把找到的旧有例子和当前题目放在一起思考并给出新答案,最后再把这次的新经历记录到错题本里。

第二个方法叫做 ReMem,它能让 AI 进行协同的推理、行动和记忆,并能给 AI 装上“三核处理器”。首先是思考核,专门负责分析问题和制定计划;其次是行动核,专门负责执行具体的操作或者给出答案;再次是记忆整理核,这是一个全新的部分,它专门负责管理经验宝箱,实时地判断哪些记忆有用、哪些应该合并或删除,让记忆库始终保持在最佳状态。

这三个核心协同工作,让 AI 在解决问题的同时,不仅可以思考怎么做,还能同步思考自己之前学的哪些经验能够用上、这次的新经验应该怎么存,真正实现了边学边用和越用越聪明。


(来源:https://arxiv.org/abs/2511.20857)

魏天心补充称:“研究过程总体顺利,但有几个发现很有意思。一是如果记忆模块设计不当,无法正确从经验中学习,错误可能会随时间积累,导致效果反而变差。二是目前很多方法难以在不同数据集上取得稳定的提升。

这说明提升空间还很大,而且目前的方法大多只是提出了新的测试流程,尚未触及更本质的层面。未来,我认为会有更多工作出现,进行更深入的分析和分离实验,以获得更本质的结论。”

谈及在 DeepMind 的实习体会,他表示:“首先,DeepMind 最直观的感受是研究氛围十分浓厚,同时内部交流非常开放。你可以很容易地在内部找到在相关方向有深入研究的研究人员进行讨论,无论资历或岗位背景,都可以围绕具体研究问题直接沟通,使想法能够被快速反馈和打磨。

此外,公司的整体工作环境和支持条件包括食堂健身房等都非常好。在实习过程中,我还进一步了解了公司重点关注的前沿研究方向和核心业务,这对我后续的研究方向和发展规划产生了积极影响。”

一步步走到今天,他也感恩于父母的帮助和支持。他回忆称:“一方面,父母没有给我很大压力,不会因为我某次考试或状态的起伏而施加额外压力。另一方面,对于一些关键机会,比如报考中科大少年班或者参加竞赛学习,都是父母建议和鼓励我去尝试的。

如果没有他们的信息搜集和建议,我可能在高二时就不知道还有这样的渠道,从而错过机会。所以,父母在信息搜集和长远规划上的作用非常大。作为学生,准备高考和竞赛压力大,很容易忽略这些信息,而父母从旁观者的角度能更好地帮助梳理。”

目前,魏天心在美国伊利诺伊大学香槟分校读博士五年级,主要研究方向是大模型与智能体的高效化研究,包括长期推理、自我进化以及在推荐系统等领域的应用。

参考资料:

相关论文 https://arxiv.org/abs/2511.20857

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拉萨市委书记调整

拉萨市委书记调整

观察者网
2026-03-24 09:27:07
索马里海盗抢了艘俄罗斯油轮,打开一看全是中国石油,俄方处理方式让人叫绝

索马里海盗抢了艘俄罗斯油轮,打开一看全是中国石油,俄方处理方式让人叫绝

寄史言志
2026-03-23 22:06:19
女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

观威海
2026-03-22 07:59:02
中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

安安说
2026-03-02 13:42:53
伊朗都敢打美军基地,解放军凭啥不打?美专家:反华决战失算

伊朗都敢打美军基地,解放军凭啥不打?美专家:反华决战失算

沧海旅行家
2026-03-12 15:19:17
1975年基辛格访华,毛主席指着随行一人,直言此人能当选美国总统

1975年基辛格访华,毛主席指着随行一人,直言此人能当选美国总统

唠叨说历史
2026-03-17 09:51:12
特朗普称“很快就会让霍尔木兹海峡开放”

特朗普称“很快就会让霍尔木兹海峡开放”

新华社
2026-03-14 23:05:02
罗马诺:老佛爷亲自推动维尼修斯续约谈判,决定权在球员手中

罗马诺:老佛爷亲自推动维尼修斯续约谈判,决定权在球员手中

懂球帝
2026-03-25 02:20:06
乌克兰军队赫尔松发起反攻,前锋已渡过第聂伯河

乌克兰军队赫尔松发起反攻,前锋已渡过第聂伯河

名人苟或
2026-03-24 16:06:22
曾经的顶流,就这样一点点消失了:中山美穂官网关停

曾经的顶流,就这样一点点消失了:中山美穂官网关停

日本通
2026-03-24 10:34:08
不要把女儿送出国留学!黄多多和考拉陷入风波,黄磊钟丽缇后悔了

不要把女儿送出国留学!黄多多和考拉陷入风波,黄磊钟丽缇后悔了

小撇说事
2026-03-23 23:34:24
贾跃亭宣布FF正式乔迁洛杉矶硅滩 开启发展新篇章

贾跃亭宣布FF正式乔迁洛杉矶硅滩 开启发展新篇章

CNMO科技
2026-03-24 14:50:05
菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

小丸说故事
2026-03-17 14:23:29
脏得下不去手!乘客吐槽大连地铁站门帘太脏,地铁回应:只是掉皮,不是脏

脏得下不去手!乘客吐槽大连地铁站门帘太脏,地铁回应:只是掉皮,不是脏

齐鲁壹点
2026-03-24 15:01:14
长春新建一年产20000吨啤酒厂!

长春新建一年产20000吨啤酒厂!

长春新风采
2026-03-23 20:19:34
女老师亲自出镜拍摄淫秽视频售卖最新后续,长相甜美,照片曝光

女老师亲自出镜拍摄淫秽视频售卖最新后续,长相甜美,照片曝光

老猫观点
2026-03-24 08:03:54
克拉拉粉红内衣配黑外套,辣到犯规!这身材是真实存在的吗?

克拉拉粉红内衣配黑外套,辣到犯规!这身材是真实存在的吗?

娱乐领航家
2026-03-24 23:00:06
医生劝告:一旦吃上降压药,这4种食物必须戒掉,再吃有中风风险

医生劝告:一旦吃上降压药,这4种食物必须戒掉,再吃有中风风险

冷眼看世界728
2026-02-28 09:53:17
315晚会后,不出意外的话,这5样东西再“无人问津”,白给也不要

315晚会后,不出意外的话,这5样东西再“无人问津”,白给也不要

小兰聊历史
2026-03-21 12:03:54
他是上海知名主持人,曾和王志文是好兄弟,如今活成“不老神话”

他是上海知名主持人,曾和王志文是好兄弟,如今活成“不老神话”

梦史
2026-01-26 15:53:00
2026-03-25 04:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16475文章数 514791关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

亲子
手机
数码
旅游
房产

亲子要闻

拍完这条,老母亲学会了好多西语单词

手机要闻

iQOO Z11手机官宣搭载天玑8500满血版+最新Monster超核引擎

数码要闻

荣耀平板PC应用新增剪映专业版App,支持大屏多轨剪辑等功能

旅游要闻

联袂演绎江南风华,浦东多个古镇将集中亮相2026上海旅游产业博览会

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

无障碍浏览 进入关怀版