网易首页 > 网易号 > 正文 申请入驻

61.3%!「人类最后一场考试」AI终于及格了,揭秘Agent自我进化新路径

0
分享至

拒绝微调,告别死记硬背:MemRL如何让大模型拥有“会思考的长期记忆”?

01

导语:跨越及格线

“人类最后一场考试”(Humanity's Last Exam, HLE)一直被视为AI推理能力的“终极考验”。面对这场汇聚了多学科专家级难题的极限测试,此前的大模型往往折戟沉沙。即便是强大的 Gemini-3-Pro,在没有任何辅助的情况下,准确率也仅为35.7%;在允许AI访问google search的情况下,准确率也仅为45.8% 。

然而,一项最新的研究打破了这一僵局。上海交通大学、西安电子科技大学、上海创智学院与记忆张量(MemTensor)的联合团队提出了一种名为MemRL的新框架,在不微调模型参数的前提下,让 AI 的成绩一举跃升至61.3%AI 终于及格了,但它做对的不仅仅是“刷题”,而是学会了像人类一样从过往经验中“提炼智慧”。


HLE 之所以被称为“人类最后一场考试”,是因为它考验的不再是单纯的知识储备,而是对人类资深专家级问题的深入理解和复杂推理能力。而这,恰恰击中了当前大模型技术栈的软肋。

02
痛点:为什么传统的“外挂大脑”不管用?

在通往通用人工智能(AGI)的路上,我们一直希望 Agent 能像人类一样持续学习。作者们尝试过两条路,但都很难走:

1.微调(Fine-tuning):就像通过“做手术”来增加脑容量。成本高昂不说,还容易引发“灾难性遗忘”,学了新知识,忘了旧本领 。

2.RAG(检索增强):就像给 AI 一本“参考书”。但传统的 RAG 是盲目检索,它只看关键词匹不匹配(语义相似度),却不管检索回来的内容对解决问题有没有真正的帮助。

结果就是,Agent 往往检索回来一堆看似相关实则无用的“噪声”,导致推理失败。

既然“改造大脑”(微调)太危险,“盲目翻书”(RAG)又不靠谱,有没有一种方法,既能保持大脑的稳定性,又能像人类一样灵活地积累经验?

03
破局:MemRL 的“认知觉醒”

答案就藏在我们的生物本能中,MemRL的核心理念受到了人类认知科学中构建性情景模拟的深刻启发:将“稳定的推理能力”与“动态的情景记忆”解耦


这就好比一个聪明人(冻结的 LLM),他的智商是固定的,但他可以通过不断优化自己的“方法笔记”(进化的记忆)来解决新问题。MemRL 不再执着于“我记得什么”,而是开始思考“过往的经历中哪些经验教训是值得借鉴的,如果参考过往的某种做法接下来会发生什么”,进而得到改进后的策略,并在新策略付诸实施后根据结果再更新对过往经验的评价 。

1.核心机制——记忆的三元组

传统的 RAG(检索增强生成)只看“长得像不像”(语义相似度),而 MemRL 引入了一个更像人类的机制:“Intent-Experience-Utility”(意图-经验-效用)三元组。

简单来说,每一次Memory不仅存储了“我想做什么”(Intent)和“我做了什么”(Experience),更关键的是贴上了一个“这一招好不好用”的标签(Utility/Q值)。这就像我们在脑海里给过去的经验打分,下次遇到类似问题,不仅看谁相关,更看谁的参考价值更大。

2.它是如何“思考”的?——引入“价值评估”过程

MemRL 抛弃了传统的简单存储,它为每一条记忆打上了一个Q值(效用分数)

· 在检索时,它不仅看“这条经验和当前问题像不像”(阶段A:语义召回);

· 更会像一个严厉的批评家一样审视:“历史数据告诉我,用这条经验解决这类问题,预期的结果好吗?”(阶段B:价值感知选择)。

通过加权语义相似度以及效用分数,MemRL 能够精准地从海量记忆中捞出那些真正能通向成功的“金钥匙” 。

3.它是如何“进化”的?——无参数的自我修正

MemRL 的核心在于让 Agent 在运行时“记住什么是有效的”。这一过程完全在记忆空间 (Memory Space) 内完成,不需要任何梯度传播。

具体的进化包含两个并行过程:

1.Q 值更新 (Refining Utilities): 当 Agent 完成任务并获得环境反馈(Reward, 如成功/失败或分数)后,我们会对刚才使用过的记忆进行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我们使用One-step MDP 形式,将当前状态视为终局,对记忆的Q值进行更新。

· 通过这一规则,记忆的 Q 值会被推向“经验期望回报” (Empirical Expected Return)。

· 简单来说:如果某条记忆刚才帮了大忙,它的 Q 值会上升,预示着它在相似的场景下具备更高的“参考价值”;反之则会降低。

2.经验回写 (Experience Expansion): 除了更新旧记忆,MemRL 还会将当前的完整轨迹(Trajectory)通过 LLM 总结为新的经验,并且结合意图(intent)以及初始化的效用(Q-init)成一个新的三元组 (Intent,Experience,Q-init),写入记忆库。这意味着记忆库不仅在“修正”旧知,还在不断“扩充”新知。


04
实验核心:Runtime 进化与记忆的真正价值

1. Main Results: 惊人的 Runtime Learning 能力


作者们在四大 Benchmark 上进行了测试:BigCodeBench(代码生成)、ALFWorld(具身决策)、Lifelong Agent Bench(操作系统/数据库交互) 和HLE(复杂推理)。 对比基线包括Standard RAGSelf-RAG以及最先进的 Agent Memory 方法 (Mem0, MemP)。结论非常硬核(Table 1)MemRL 不需要任何参数更新 (Training-free),仅靠运行时积累经验,就能实现持续的性能攀升。

· 在ALFWorld中,MemRL 的最终准确率达到69.7%,相比 MemP (45.6%) 提升了53%

· 在HLE这种高难度基准上,MemRL 同样刷新了记录:首次突破60%。 这证明了“非参数化强化学习”能让 Agent 像人类一样,通过 Trial-and-Error(试错)在运行时持续学习,越来越强。

2. Transfer Learning: 举一反三的泛化能力


不仅是“熟能生巧”,MemRL 还学会了“触类旁通”。 作者们测试了迁移学习场景 (Table 2):让 Agent 先训练,然后冻结记忆库,直接在30% 的未见任务 (Held-out sets)上测试。 结果显示: MemRL 在所有任务上都超越了 RAG 和 MemP。 这意味着 MemRL 存储的不仅仅是具体的“答案”,更是抽象的“高价值策略”。它成功过滤掉了那些只能解决特定训练题的“过拟合记忆”,留下了真正能应对未知环境的通用经验

05
深入分析:不止罗列成果,

文章还提出了非常深入的分析与思考

1. 轨迹验证器:长程任务更有提升空间 (Trajectory Verifier)


实验数据(Table 3)揭示了一个关键现象:任务链路越长,MemRL 优势越大。

· 在单步任务 (BigCodeBench) 上提升较小 (+2.5 pp);

· 但在多步顺序任务 (ALFWorld)上,提升高达+24.1 pp原因揭秘:传统 RAG 容易检索到“开头很像但结局跑偏”的错误经验。而 MemRL 因为记录了整条轨迹的 Q 值 (Utility),它实际上充当了一个“轨迹验证器” (Trajectory Verifier)。它能预判这条路走下去会不会“翻车”,从而在一开始就避开那些表面看似相关、实则会导致失败的路径。

2. 意外发现:从“差一点”中学习 (Near-misses)


这是一个反直觉但极具深意的发现 (Figure 8b)。 作者们在高 Q 值 (High-Utility) 的记忆库中,发现了约12% 的失败案例。 深入分析发现,其中存在一些“Near-misses” (差一点就成功)的案例。它们虽然最终报错(例如输出格式微小错误),但整体推理逻辑是正确的。MemRL 敏锐地识别出了这些案例的“战略价值”,将它们作为“纠错指南”保留下来。这证明系统具备了从部分失败中提取正确逻辑的高级能力,也符合人类从失败中学习的认知原理。

3. 理论保证的稳定性:告别灾难性遗忘 (Stability Guarantee)


持续学习最怕“捡了芝麻丢西瓜”。 在长期训练动态 (Figure 9) 中,作者们揭示了一个残酷的现象:启发式方法(如 MemP)往往出现CSR(历史最佳)与当前准确率的脱节。这意味着新的探索无意中“覆盖”了旧的成功策略,导致了灾难性遗忘。

相比之下,MemRL 展现了更加一致的Synchronized Growth (同步增长)。这源于 MemRL 背后收敛稳定性的理论保障,这也是MemRL与大多自进化智能体的核心区别

· 蒙特卡洛式建模的收敛性 (Monte Carlo Style Modeling):基于原文 Eq. 8 的建模,作者们在原文Section 4.5中给出了相应的理论分析,确保了算法的收敛稳定性。

· 变分下界约束 (Variational Lower Bound):不同于启发式排序可能出现的随机漂移,MemRL会推动策略去攀登“期望奖励的变分下界”

结论:这从理论层面锁定了性能的单调不减 (Non-decreasing),确保每一次更新都是在夯实地基,而非拆东墙补西墙。从这个实验中我们也能得到一个有价值的启发:在这个Agent爆发的时代,很多时候并不需要理论保障,仅通过直觉搭个“Agentic Pipeline”也能观察到显著的性能提升(如图中蓝色线条),那我们为什么要去研究理论呢,通过这张图,或许能窥见一部份答案。

4. 数据洞察:从数据集的语义空间到记忆泛化


在实验的最后,作者们通过Figure 11探讨了一个根本性问题:“长得像”是否意味着“更有用”?作者们的核心发现是:数据集内的相似度(Intra-dataset Similarity)与 Memory Gain(记忆带来的性能提升)呈现出显著的正相关性。

基于这一发现,作者们进一步解析了 MemRL 的收益来源,将其归纳为两种截然不同的模式:

1.Positive Transfer (正向迁移):ALFWorld这类具有高相似度的任务中,MemRL 充分利用相似性快速复用历史上的不同问题的最优策略,从而获得了最大的收益。

2.Runtime Memorization (运行时记忆):HLE这类低相似度/跨学科的任务中,虽然题目之间互不相同,但 MemRL 依然获得了+21.6%的显著提升。这得益于其强大的“单题突破”能力——即通过“记住”特定难题的解法来应对复杂场景。

结论:这解释了 MemRL 为什么既能做“举一反三”的通用推手(依靠 Transfer),也能做“博闻强记”的特定领域专家(依靠 Memorization)。

06
结语:迈向终身学习的 Agent

上海交大、西电、上海创智学院与记忆张量团队的这项工作,为 AI 社区提供了一个优雅的范式:我们不需要总是通过昂贵的训练来让模型变强,也不需要针对问题场景去精雕细琢所谓的“agentic pipeline”

MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)。这或许才是通往 AGI 更经济、更高效的未来之路。

论文信息

· 论文标题:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 联合团队:上海交通大学、西安电子科技大学、上海创智学院、记忆张量(MemTensor)等

· arXiv 链接:https://arxiv.org/abs/2601.03192

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

夜深爱杂谈
2026-06-02 21:07:12
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

洪观新闻
2026-06-02 13:19:43
女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

谭谈社会
2026-06-01 17:39:07
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
菲戈:不能拿姆巴佩和C罗比较

菲戈:不能拿姆巴佩和C罗比较

懂球帝
2026-06-02 12:28:06
3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

海浪星体育
2026-06-02 11:32:20
37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

小妹讲史
2026-06-02 16:13:11
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

懂球帝
2026-06-02 20:59:08
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

老特有话说
2026-06-02 21:21:03
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

夜白侃球
2026-06-02 11:05:46
中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

薇说体育
2026-06-02 11:49:56
2026-06-03 02:44:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7327文章数 20755关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
旅游
本地
公开课
军事航空

家居要闻

流线型轮廓 包容多元身形

旅游要闻

北京位列全球数字旅游引领型城市榜首

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版