网易首页 > 网易号 > 正文 申请入驻

中科大少年班校友搞出“会进化”的AI记忆,解题步骤直接砍半

0
分享至

今年 26 岁的魏天心,是中国科学技术大学少年班毕业生,目前在美国伊利诺伊大学香槟分校读博,同时也是谷歌 DeepMind 的实习生。实习期间,他与所在团队围绕大模型智能体在长期使用过程中如何积累和利用经验这一问题,构建了名为 Evo-Memory 的评测框架,用于系统性刻画智能体在测试阶段的记忆进化行为,即如何在持续使用过程中,像人脑一样不断积累经验,并逐步提升解决问题的能力。


图 | 魏天心(来源:魏天心)

魏天心让 Evo-Memory 去挑战数学竞赛题目、研究生级别的科学问题、甚至让其在虚拟实验室里完成复杂的多步骤人物。结果发现在某个虚拟任务中,新型 AI 的步骤从平均 22.6 步减少到了 11.5 步,这说明其学会了更优的路径和方法。

即使任务的难度突然变化,或者记忆里混入了一些失败经验,记忆进化之后的 AI 也能保持稳定的表现,因为它会主动整理和优化记忆,而不是被杂乱的信息干扰。


(来源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 变得会更会搜索,面对新问题的时候 AI 会迅速在记忆里找到类似的情况;AI 也会变得更会思考,不仅会查看旧有答案,还会分析此前在给出旧有答案时是怎么想的以及使用了什么方法;AI 还会变得更会自我优化,每当解决一个新的问题,AI 就会把这次的经验比如怎么想的、怎么做的、结果如何等内容整理好,整理好之后还会扔掉没用的、突出有用的。

这个过程叫做测试时进化,即每次在被使用以及每次在解决问题的时候,AI 都在实时地自我学习和自我进化。为了测试这种能力,魏天心设计了一个名为 Evo-Memory 的基准测试,把数学题、科学实验和虚拟世界任务等十多种不同类型的挑战,编成连续的任务流,让 AI 一个一个去完成,结果发现它果然可以借助以往经验解决新问题。

魏天心告诉 DeepTech:“我们此次成果的核心贡献是系统性地定义、设计并评估了大模型智能体的测试时学习能力。也就是在不改变模型训练参数的前提下,让智能体通过自我演化,实现跨任务、跨时间的持续改进。”


(来源:https://arxiv.org/abs/2511.20857)

过去两年,大模型和 AI 智能体的能力提升很快,但在实际部署后魏天心发现它们几乎不会从经验中学习。大多数评测默认它们是一次性系统,而在现实中,智能体是长期运行的。

它会不断遇到新情况、会犯错、会修正,这才符合真实世界的背景。因此,本次研究不仅关注它当下的能力,更关注它能否持续进化、持续从经验中学习,并把这种进化变成可控、可衡量的一个系统性过程。

为了让 AI 学会进化记忆,魏天心构建了一个基准测试框架,对相关方法进行了全面评估,并在其中提出并实现了两种关键测试方法,用于刻画智能体在持续学习过程中的记忆进化行为:

第一个方法叫做 ExpRAG,负责经验检索与聚合。其实它是一个错题本,每当 AI 遇到新题目的时候,它就会立马去错题本里搜搜看,看看是否有类似的旧题目和旧答案。然后,它会把找到的旧有例子和当前题目放在一起思考并给出新答案,最后再把这次的新经历记录到错题本里。

第二个方法叫做 ReMem,它能让 AI 进行协同的推理、行动和记忆,并能给 AI 装上“三核处理器”。首先是思考核,专门负责分析问题和制定计划;其次是行动核,专门负责执行具体的操作或者给出答案;再次是记忆整理核,这是一个全新的部分,它专门负责管理经验宝箱,实时地判断哪些记忆有用、哪些应该合并或删除,让记忆库始终保持在最佳状态。

这三个核心协同工作,让 AI 在解决问题的同时,不仅可以思考怎么做,还能同步思考自己之前学的哪些经验能够用上、这次的新经验应该怎么存,真正实现了边学边用和越用越聪明。


(来源:https://arxiv.org/abs/2511.20857)

魏天心补充称:“研究过程总体顺利,但有几个发现很有意思。一是如果记忆模块设计不当,无法正确从经验中学习,错误可能会随时间积累,导致效果反而变差。二是目前很多方法难以在不同数据集上取得稳定的提升。

这说明提升空间还很大,而且目前的方法大多只是提出了新的测试流程,尚未触及更本质的层面。未来,我认为会有更多工作出现,进行更深入的分析和分离实验,以获得更本质的结论。”

谈及在 DeepMind 的实习体会,他表示:“首先,DeepMind 最直观的感受是研究氛围十分浓厚,同时内部交流非常开放。你可以很容易地在内部找到在相关方向有深入研究的研究人员进行讨论,无论资历或岗位背景,都可以围绕具体研究问题直接沟通,使想法能够被快速反馈和打磨。

此外,公司的整体工作环境和支持条件包括食堂健身房等都非常好。在实习过程中,我还进一步了解了公司重点关注的前沿研究方向和核心业务,这对我后续的研究方向和发展规划产生了积极影响。”

一步步走到今天,他也感恩于父母的帮助和支持。他回忆称:“一方面,父母没有给我很大压力,不会因为我某次考试或状态的起伏而施加额外压力。另一方面,对于一些关键机会,比如报考中科大少年班或者参加竞赛学习,都是父母建议和鼓励我去尝试的。

如果没有他们的信息搜集和建议,我可能在高二时就不知道还有这样的渠道,从而错过机会。所以,父母在信息搜集和长远规划上的作用非常大。作为学生,准备高考和竞赛压力大,很容易忽略这些信息,而父母从旁观者的角度能更好地帮助梳理。”

目前,魏天心在美国伊利诺伊大学香槟分校读博士五年级,主要研究方向是大模型与智能体的高效化研究,包括长期推理、自我进化以及在推荐系统等领域的应用。

参考资料:

相关论文 https://arxiv.org/abs/2511.20857

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南718分考生刷屏:没有手机、没让妈妈陪过作业

河南718分考生刷屏:没有手机、没让妈妈陪过作业

一口娱乐
2026-06-26 03:14:46
“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

林林先生
2026-06-21 10:10:03
焦点大战开打!CCTV5直播美国大满贯,莎头迎战张本兄妹冲击桂冠

焦点大战开打!CCTV5直播美国大满贯,莎头迎战张本兄妹冲击桂冠

观察鉴娱
2026-06-26 11:20:08
平湖中学最高705分,当湖中学最高654分,均创历史最佳!2026嘉兴高考喜报出炉!

平湖中学最高705分,当湖中学最高654分,均创历史最佳!2026嘉兴高考喜报出炉!

平湖在线
2026-06-26 11:41:00
冯导的荒诞美学,把自己给整荒诞了

冯导的荒诞美学,把自己给整荒诞了

二湘空间
2026-06-26 09:00:29
都骂董洁看走眼,但没人知道,王大治除了外貌低配,其他全是顶配

都骂董洁看走眼,但没人知道,王大治除了外貌低配,其他全是顶配

山谷里的怒吼
2026-06-12 13:22:54
女人一进澡堂,才看懂了什么叫人间真实

女人一进澡堂,才看懂了什么叫人间真实

小陆搞笑日常
2026-06-25 18:12:30
瞒不住了!国家在东莞布下惊天大局,东莞真正的王牌正在悄悄崛起

瞒不住了!国家在东莞布下惊天大局,东莞真正的王牌正在悄悄崛起

亿通电子游戏
2026-06-26 02:59:06
王菲谢霆锋牵手同框,难堪一幕重现,评论不堪入目,恩爱刺痛了谁

王菲谢霆锋牵手同框,难堪一幕重现,评论不堪入目,恩爱刺痛了谁

李大嘴说本尊
2026-06-26 15:35:40
72小时极限反转!泽连斯基要“自己动手”,拉夫罗夫:随时可以谈

72小时极限反转!泽连斯基要“自己动手”,拉夫罗夫:随时可以谈

小小科普员
2026-06-25 18:09:37
在波兰召开的援乌会议圆满成功

在波兰召开的援乌会议圆满成功

名人苟或
2026-06-26 14:26:37
我国首颗原子弹爆炸成功后,蒋介石听说消息后,说了什么?

我国首颗原子弹爆炸成功后,蒋介石听说消息后,说了什么?

萧狡科普解说
2026-06-24 04:30:34
王毅刚回北京,不到24小时,巴基斯坦打来电话,向中方通报一件事

王毅刚回北京,不到24小时,巴基斯坦打来电话,向中方通报一件事

面包夹知识
2026-06-26 15:15:38
60岁以后,存款超过这三个数,那么恭喜您,你已经超过了大多数人

60岁以后,存款超过这三个数,那么恭喜您,你已经超过了大多数人

猫叔东山再起
2026-06-26 09:45:11
黄仁勋:Prompt正在过时,Loop才是新范式

黄仁勋:Prompt正在过时,Loop才是新范式

量子位
2026-06-25 16:05:47
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
世界杯小组赛遭厄瓜多尔爆冷逆转,德国队主帅、队长发声

世界杯小组赛遭厄瓜多尔爆冷逆转,德国队主帅、队长发声

环球网资讯
2026-06-26 10:48:11
NBA年代中锋分档榜出炉!姚明排名惹争议 他真的不如大本?

NBA年代中锋分档榜出炉!姚明排名惹争议 他真的不如大本?

体坛八点半的那些事儿
2026-06-26 14:03:19
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
第30次参加高考,高考钉子户成绩出炉

第30次参加高考,高考钉子户成绩出炉

杨兴文
2026-06-25 22:31:01
2026-06-26 16:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16882文章数 515052关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

朝鲜领导层重大调整:"反腐少将"被查 赵甬元被"召回"

头条要闻

朝鲜领导层重大调整:"反腐少将"被查 赵甬元被"召回"

体育要闻

三球换里德:森林狼和黄蜂谁更癫?!

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

数码
旅游
亲子
时尚
本地

数码要闻

Rokid AR眼镜亮相:骁龙至尊空间计算协处理器,空间+ AI双摄

旅游要闻

老一辈都听过的滇王故事,一座古庙串联起整个消失的古滇王国!

亲子要闻

1-3岁皮肤娇嫩阶段,换季儿童被怎么选能低敏亲肤不会闷出疹子?

盛夏,才要穿出松弛感!

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

无障碍浏览 进入关怀版