61.3%！「人类最后一场考试」AI终于及格了，揭秘Agent自我进化新路径|轨迹|推理|记忆库|agent

分享至

拒绝微调，告别死记硬背：MemRL如何让大模型拥有“会思考的长期记忆”？

导语：跨越及格线

“人类最后一场考试”（Humanity's Last Exam, HLE）一直被视为AI推理能力的“终极考验”。面对这场汇聚了多学科专家级难题的极限测试，此前的大模型往往折戟沉沙。即便是强大的 Gemini-3-Pro，在没有任何辅助的情况下，准确率也仅为35.7%；在允许AI访问google search的情况下，准确率也仅为45.8% 。

然而，一项最新的研究打破了这一僵局。上海交通大学、西安电子科技大学、上海创智学院与记忆张量（MemTensor）的联合团队提出了一种名为MemRL的新框架，在不微调模型参数的前提下，让 AI 的成绩一举跃升至61.3%。AI 终于及格了，但它做对的不仅仅是“刷题”，而是学会了像人类一样从过往经验中“提炼智慧”。

HLE 之所以被称为“人类最后一场考试”，是因为它考验的不再是单纯的知识储备，而是对人类资深专家级问题的深入理解和复杂推理能力。而这，恰恰击中了当前大模型技术栈的软肋。

02
痛点：为什么传统的“外挂大脑”不管用？

在通往通用人工智能（AGI）的路上，我们一直希望 Agent 能像人类一样持续学习。作者们尝试过两条路，但都很难走：

1.微调（Fine-tuning）：就像通过“做手术”来增加脑容量。成本高昂不说，还容易引发“灾难性遗忘”，学了新知识，忘了旧本领。

2.RAG（检索增强）：就像给 AI 一本“参考书”。但传统的 RAG 是盲目检索，它只看关键词匹不匹配（语义相似度），却不管检索回来的内容对解决问题有没有真正的帮助。

结果就是，Agent 往往检索回来一堆看似相关实则无用的“噪声”，导致推理失败。

既然“改造大脑”（微调）太危险，“盲目翻书”（RAG）又不靠谱，有没有一种方法，既能保持大脑的稳定性，又能像人类一样灵活地积累经验？

03
破局：MemRL 的“认知觉醒”

答案就藏在我们的生物本能中，MemRL的核心理念受到了人类认知科学中构建性情景模拟的深刻启发：将“稳定的推理能力”与“动态的情景记忆”解耦。

这就好比一个聪明人（冻结的 LLM），他的智商是固定的，但他可以通过不断优化自己的“方法笔记”（进化的记忆）来解决新问题。MemRL 不再执着于“我记得什么”，而是开始思考“过往的经历中哪些经验教训是值得借鉴的，如果参考过往的某种做法接下来会发生什么”，进而得到改进后的策略，并在新策略付诸实施后根据结果再更新对过往经验的评价。

1.核心机制——记忆的三元组

传统的 RAG（检索增强生成）只看“长得像不像”（语义相似度），而 MemRL 引入了一个更像人类的机制：“Intent-Experience-Utility”（意图-经验-效用）三元组。

简单来说，每一次Memory不仅存储了“我想做什么”（Intent）和“我做了什么”（Experience），更关键的是贴上了一个“这一招好不好用”的标签（Utility/Q值）。这就像我们在脑海里给过去的经验打分，下次遇到类似问题，不仅看谁相关，更看谁的参考价值更大。

2.它是如何“思考”的？——引入“价值评估”过程

MemRL 抛弃了传统的简单存储，它为每一条记忆打上了一个Q值（效用分数）。

· 在检索时，它不仅看“这条经验和当前问题像不像”（阶段A：语义召回）；

· 更会像一个严厉的批评家一样审视：“历史数据告诉我，用这条经验解决这类问题，预期的结果好吗？”（阶段B：价值感知选择）。

通过加权语义相似度以及效用分数，MemRL 能够精准地从海量记忆中捞出那些真正能通向成功的“金钥匙” 。

3.它是如何“进化”的？——无参数的自我修正

MemRL 的核心在于让 Agent 在运行时“记住什么是有效的”。这一过程完全在记忆空间 (Memory Space) 内完成，不需要任何梯度传播。

具体的进化包含两个并行过程：

1.Q 值更新 (Refining Utilities)：当 Agent 完成任务并获得环境反馈（Reward, 如成功/失败或分数）后，我们会对刚才使用过的记忆进行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我们使用One-step MDP 形式，将当前状态视为终局，对记忆的Q值进行更新。

· 通过这一规则，记忆的 Q 值会被推向“经验期望回报” (Empirical Expected Return)。

· 简单来说：如果某条记忆刚才帮了大忙，它的 Q 值会上升，预示着它在相似的场景下具备更高的“参考价值”；反之则会降低。

2.经验回写 (Experience Expansion)：除了更新旧记忆，MemRL 还会将当前的完整轨迹（Trajectory）通过 LLM 总结为新的经验，并且结合意图（intent）以及初始化的效用（Q-init）成一个新的三元组 (Intent,Experience,Q-init)，写入记忆库。这意味着记忆库不仅在“修正”旧知，还在不断“扩充”新知。

04
实验核心：Runtime 进化与记忆的真正价值

1. Main Results: 惊人的 Runtime Learning 能力

作者们在四大 Benchmark 上进行了测试：BigCodeBench(代码生成)、ALFWorld(具身决策)、Lifelong Agent Bench(操作系统/数据库交互) 和HLE(复杂推理)。对比基线包括Standard RAG、Self-RAG以及最先进的 Agent Memory 方法 (Mem0, MemP)。结论非常硬核（Table 1）：MemRL 不需要任何参数更新 (Training-free)，仅靠运行时积累经验，就能实现持续的性能攀升。

· 在ALFWorld中，MemRL 的最终准确率达到69.7%，相比 MemP (45.6%) 提升了53%！

· 在HLE这种高难度基准上，MemRL 同样刷新了记录：首次突破60%。这证明了“非参数化强化学习”能让 Agent 像人类一样，通过 Trial-and-Error（试错）在运行时持续学习，越来越强。

2. Transfer Learning: 举一反三的泛化能力

不仅是“熟能生巧”，MemRL 还学会了“触类旁通”。作者们测试了迁移学习场景 (Table 2)：让 Agent 先训练，然后冻结记忆库，直接在30% 的未见任务 (Held-out sets)上测试。结果显示： MemRL 在所有任务上都超越了 RAG 和 MemP。这意味着 MemRL 存储的不仅仅是具体的“答案”，更是抽象的“高价值策略”。它成功过滤掉了那些只能解决特定训练题的“过拟合记忆”，留下了真正能应对未知环境的通用经验。

05
深入分析：不止罗列成果，

文章还提出了非常深入的分析与思考

1. 轨迹验证器：长程任务更有提升空间 (Trajectory Verifier)

实验数据（Table 3）揭示了一个关键现象：任务链路越长，MemRL 优势越大。

· 在单步任务 (BigCodeBench) 上提升较小 (+2.5 pp)；

· 但在多步顺序任务 (ALFWorld)上，提升高达+24.1 pp！原因揭秘：传统 RAG 容易检索到“开头很像但结局跑偏”的错误经验。而 MemRL 因为记录了整条轨迹的 Q 值 (Utility)，它实际上充当了一个“轨迹验证器” (Trajectory Verifier)。它能预判这条路走下去会不会“翻车”，从而在一开始就避开那些表面看似相关、实则会导致失败的路径。

2. 意外发现：从“差一点”中学习 (Near-misses)

这是一个反直觉但极具深意的发现 (Figure 8b)。作者们在高 Q 值 (High-Utility) 的记忆库中，发现了约12% 的失败案例。深入分析发现，其中存在一些“Near-misses” (差一点就成功)的案例。它们虽然最终报错（例如输出格式微小错误），但整体推理逻辑是正确的。MemRL 敏锐地识别出了这些案例的“战略价值”，将它们作为“纠错指南”保留下来。这证明系统具备了从部分失败中提取正确逻辑的高级能力，也符合人类从失败中学习的认知原理。

3. 理论保证的稳定性：告别灾难性遗忘 (Stability Guarantee)

持续学习最怕“捡了芝麻丢西瓜”。在长期训练动态 (Figure 9) 中，作者们揭示了一个残酷的现象：启发式方法（如 MemP）往往出现CSR（历史最佳）与当前准确率的脱节。这意味着新的探索无意中“覆盖”了旧的成功策略，导致了灾难性遗忘。

相比之下，MemRL 展现了更加一致的Synchronized Growth (同步增长)。这源于 MemRL 背后收敛稳定性的理论保障，这也是MemRL与大多自进化智能体的核心区别：

· 蒙特卡洛式建模的收敛性 (Monte Carlo Style Modeling)：基于原文 Eq. 8 的建模，作者们在原文Section 4.5中给出了相应的理论分析，确保了算法的收敛稳定性。

· 变分下界约束 (Variational Lower Bound)：不同于启发式排序可能出现的随机漂移，MemRL会推动策略去攀登“期望奖励的变分下界”。

结论：这从理论层面锁定了性能的单调不减 (Non-decreasing)，确保每一次更新都是在夯实地基，而非拆东墙补西墙。从这个实验中我们也能得到一个有价值的启发：在这个Agent爆发的时代，很多时候并不需要理论保障，仅通过直觉搭个“Agentic Pipeline”也能观察到显著的性能提升（如图中蓝色线条），那我们为什么要去研究理论呢，通过这张图，或许能窥见一部份答案。

4. 数据洞察：从数据集的语义空间到记忆泛化

在实验的最后，作者们通过Figure 11探讨了一个根本性问题：“长得像”是否意味着“更有用”？作者们的核心发现是：数据集内的相似度（Intra-dataset Similarity）与 Memory Gain（记忆带来的性能提升）呈现出显著的正相关性。

基于这一发现，作者们进一步解析了 MemRL 的收益来源，将其归纳为两种截然不同的模式：

1.Positive Transfer (正向迁移)：在ALFWorld这类具有高相似度的任务中，MemRL 充分利用相似性快速复用历史上的不同问题的最优策略，从而获得了最大的收益。

2.Runtime Memorization (运行时记忆)：在HLE这类低相似度/跨学科的任务中，虽然题目之间互不相同，但 MemRL 依然获得了+21.6%的显著提升。这得益于其强大的“单题突破”能力——即通过“记住”特定难题的解法来应对复杂场景。

结论：这解释了 MemRL 为什么既能做“举一反三”的通用推手（依靠 Transfer），也能做“博闻强记”的特定领域专家（依靠 Memorization）。

06
结语：迈向终身学习的 Agent

上海交大、西电、上海创智学院与记忆张量团队的这项工作，为 AI 社区提供了一个优雅的范式：我们不需要总是通过昂贵的训练来让模型变强，也不需要针对问题场景去精雕细琢所谓的“agentic pipeline”。

MemRL 证明了，一个冻结的大脑，配合一个不断自我进化的记忆系统，就能实现持续的终身学习（Lifelong Learning）。这或许才是通往 AGI 更经济、更高效的未来之路。

论文信息

· 论文标题：MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 联合团队：上海交通大学、西安电子科技大学、上海创智学院、记忆张量（MemTensor）等

· arXiv 链接：https://arxiv.org/abs/2601.03192

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.