网易首页 > 网易号 > 正文 申请入驻

中科大少年班校友搞出“会进化”的AI记忆,解题步骤直接砍半

0
分享至

今年 26 岁的魏天心,是中国科学技术大学少年班毕业生,目前在美国伊利诺伊大学香槟分校读博,同时也是谷歌 DeepMind 的实习生。实习期间,他与所在团队围绕大模型智能体在长期使用过程中如何积累和利用经验这一问题,构建了名为 Evo-Memory 的评测框架,用于系统性刻画智能体在测试阶段的记忆进化行为,即如何在持续使用过程中,像人脑一样不断积累经验,并逐步提升解决问题的能力。


图 | 魏天心(来源:魏天心)

魏天心让 Evo-Memory 去挑战数学竞赛题目、研究生级别的科学问题、甚至让其在虚拟实验室里完成复杂的多步骤人物。结果发现在某个虚拟任务中,新型 AI 的步骤从平均 22.6 步减少到了 11.5 步,这说明其学会了更优的路径和方法。

即使任务的难度突然变化,或者记忆里混入了一些失败经验,记忆进化之后的 AI 也能保持稳定的表现,因为它会主动整理和优化记忆,而不是被杂乱的信息干扰。


(来源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 变得会更会搜索,面对新问题的时候 AI 会迅速在记忆里找到类似的情况;AI 也会变得更会思考,不仅会查看旧有答案,还会分析此前在给出旧有答案时是怎么想的以及使用了什么方法;AI 还会变得更会自我优化,每当解决一个新的问题,AI 就会把这次的经验比如怎么想的、怎么做的、结果如何等内容整理好,整理好之后还会扔掉没用的、突出有用的。

这个过程叫做测试时进化,即每次在被使用以及每次在解决问题的时候,AI 都在实时地自我学习和自我进化。为了测试这种能力,魏天心设计了一个名为 Evo-Memory 的基准测试,把数学题、科学实验和虚拟世界任务等十多种不同类型的挑战,编成连续的任务流,让 AI 一个一个去完成,结果发现它果然可以借助以往经验解决新问题。

魏天心告诉 DeepTech:“我们此次成果的核心贡献是系统性地定义、设计并评估了大模型智能体的测试时学习能力。也就是在不改变模型训练参数的前提下,让智能体通过自我演化,实现跨任务、跨时间的持续改进。”


(来源:https://arxiv.org/abs/2511.20857)

过去两年,大模型和 AI 智能体的能力提升很快,但在实际部署后魏天心发现它们几乎不会从经验中学习。大多数评测默认它们是一次性系统,而在现实中,智能体是长期运行的。

它会不断遇到新情况、会犯错、会修正,这才符合真实世界的背景。因此,本次研究不仅关注它当下的能力,更关注它能否持续进化、持续从经验中学习,并把这种进化变成可控、可衡量的一个系统性过程。

为了让 AI 学会进化记忆,魏天心构建了一个基准测试框架,对相关方法进行了全面评估,并在其中提出并实现了两种关键测试方法,用于刻画智能体在持续学习过程中的记忆进化行为:

第一个方法叫做 ExpRAG,负责经验检索与聚合。其实它是一个错题本,每当 AI 遇到新题目的时候,它就会立马去错题本里搜搜看,看看是否有类似的旧题目和旧答案。然后,它会把找到的旧有例子和当前题目放在一起思考并给出新答案,最后再把这次的新经历记录到错题本里。

第二个方法叫做 ReMem,它能让 AI 进行协同的推理、行动和记忆,并能给 AI 装上“三核处理器”。首先是思考核,专门负责分析问题和制定计划;其次是行动核,专门负责执行具体的操作或者给出答案;再次是记忆整理核,这是一个全新的部分,它专门负责管理经验宝箱,实时地判断哪些记忆有用、哪些应该合并或删除,让记忆库始终保持在最佳状态。

这三个核心协同工作,让 AI 在解决问题的同时,不仅可以思考怎么做,还能同步思考自己之前学的哪些经验能够用上、这次的新经验应该怎么存,真正实现了边学边用和越用越聪明。


(来源:https://arxiv.org/abs/2511.20857)

魏天心补充称:“研究过程总体顺利,但有几个发现很有意思。一是如果记忆模块设计不当,无法正确从经验中学习,错误可能会随时间积累,导致效果反而变差。二是目前很多方法难以在不同数据集上取得稳定的提升。

这说明提升空间还很大,而且目前的方法大多只是提出了新的测试流程,尚未触及更本质的层面。未来,我认为会有更多工作出现,进行更深入的分析和分离实验,以获得更本质的结论。”

谈及在 DeepMind 的实习体会,他表示:“首先,DeepMind 最直观的感受是研究氛围十分浓厚,同时内部交流非常开放。你可以很容易地在内部找到在相关方向有深入研究的研究人员进行讨论,无论资历或岗位背景,都可以围绕具体研究问题直接沟通,使想法能够被快速反馈和打磨。

此外,公司的整体工作环境和支持条件包括食堂健身房等都非常好。在实习过程中,我还进一步了解了公司重点关注的前沿研究方向和核心业务,这对我后续的研究方向和发展规划产生了积极影响。”

一步步走到今天,他也感恩于父母的帮助和支持。他回忆称:“一方面,父母没有给我很大压力,不会因为我某次考试或状态的起伏而施加额外压力。另一方面,对于一些关键机会,比如报考中科大少年班或者参加竞赛学习,都是父母建议和鼓励我去尝试的。

如果没有他们的信息搜集和建议,我可能在高二时就不知道还有这样的渠道,从而错过机会。所以,父母在信息搜集和长远规划上的作用非常大。作为学生,准备高考和竞赛压力大,很容易忽略这些信息,而父母从旁观者的角度能更好地帮助梳理。”

目前,魏天心在美国伊利诺伊大学香槟分校读博士五年级,主要研究方向是大模型与智能体的高效化研究,包括长期推理、自我进化以及在推荐系统等领域的应用。

参考资料:

相关论文 https://arxiv.org/abs/2511.20857

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-1爆冷 澳网首日疯狂:首位晋级中国球员诞生 送大满贯亚军出局

2-1爆冷 澳网首日疯狂:首位晋级中国球员诞生 送大满贯亚军出局

侃球熊弟
2026-01-19 00:24:29
共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

阿器谈史
2026-01-18 21:24:07
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
再有钱,在权力面前屁都不是

再有钱,在权力面前屁都不是

霹雳炮
2024-08-29 21:53:04
登山网暴救命搭子后续:为救人手废了,女子身份被扒,全程作死

登山网暴救命搭子后续:为救人手废了,女子身份被扒,全程作死

涵豆说娱
2026-01-19 18:06:47
我和妻子年终奖只有1万2,同事们都是12万,老板让我们续签8年合同

我和妻子年终奖只有1万2,同事们都是12万,老板让我们续签8年合同

小秋情感说
2026-01-19 14:41:35
毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

历史回忆室
2026-01-13 23:39:16
70年代,演员利智在西安兴庆公园和父亲、继母等,一张温馨的合影

70年代,演员利智在西安兴庆公园和父亲、继母等,一张温馨的合影

阿废冷眼观察所
2026-01-19 04:23:51
南非宣布进入“国家灾难状态”

南非宣布进入“国家灾难状态”

财联社
2026-01-19 01:50:47
李亚鹏总算听劝了!纸巾牛奶玉米全上架,网友买疯了

李亚鹏总算听劝了!纸巾牛奶玉米全上架,网友买疯了

钱小刀娱乐
2026-01-17 21:59:50
新乡工程学院通报“食堂花生米黄曲霉毒素超标11倍”:未提供给学生食用,和相关公司解除供货合同,立即整改

新乡工程学院通报“食堂花生米黄曲霉毒素超标11倍”:未提供给学生食用,和相关公司解除供货合同,立即整改

大风新闻
2026-01-19 15:40:05
19岁皇马租将炸裂首秀:9过人+1助攻!6项最佳 加冕MVP

19岁皇马租将炸裂首秀:9过人+1助攻!6项最佳 加冕MVP

叶青足球世界
2026-01-19 16:50:35
饭局后,客人说“你破费了”,低情商的人说:“不客气,没多少钱”,高情商的人都这样回答!

饭局后,客人说“你破费了”,低情商的人说:“不客气,没多少钱”,高情商的人都这样回答!

每日一首古诗词
2026-01-19 12:14:22
生育率回旋镖要来了

生育率回旋镖要来了

放牛娃的遐想
2026-01-18 07:00:09
抚顺“西丰鸡架”李辉去世,长期用钢焦炭,曝死因,还有两年退休

抚顺“西丰鸡架”李辉去世,长期用钢焦炭,曝死因,还有两年退休

裕丰娱间说
2026-01-19 09:32:07
李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

墨印斋
2026-01-18 21:54:20
1962年杜聿明参加国庆,看见一中将大惊失色:16年前你不是死了吗

1962年杜聿明参加国庆,看见一中将大惊失色:16年前你不是死了吗

兴趣知识
2026-01-19 17:01:03
正式跌破7%,中国人口会跌到什么程度?| 地球知识局

正式跌破7%,中国人口会跌到什么程度?| 地球知识局

地球知识局
2026-01-19 13:46:04
恭喜皇马!新大罗闪耀!巧妙助攻,活力十足,阿隆索坑惨了他

恭喜皇马!新大罗闪耀!巧妙助攻,活力十足,阿隆索坑惨了他

阿泰希特
2026-01-19 11:04:29
中锋变飞翼,恩德里克在法甲证明皇家马德里错了

中锋变飞翼,恩德里克在法甲证明皇家马德里错了

油泼辣不辣
2026-01-19 16:48:22
2026-01-19 18:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16148文章数 514503关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

李亚鹏不享有嫣然医院经济回报

头条要闻

李亚鹏不享有嫣然医院经济回报

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

房产
健康
家居
教育
军事航空

房产要闻

三亚危房,紧急撤离!

血常规3项异常,是身体警报!

家居要闻

隽永之章 清雅无尘

教育要闻

部分年级期末考时间定了!厦门高一、高二年学校自主开展期末考试

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版