网易首页 > 网易号 > 正文 申请入驻

从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?

0
分享至

来源:市场资讯

(来源:机器之心)


引言:在业内关于智能体自进化的探讨中,记忆系统的相关改进使智能体能够在任务间积累经验、复用推理,从而呈现出持续成长的特征。但是记忆并非自进化的全部,随着研究者在智能体元认知、自我诊断和架构重构等方向有了进一步思考,智能体自进化开启了多路线的探索模式。

目录

01. 当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁?

RL 优化智能体自进化之外,记忆系统带来了哪些新的实践应用突破?从无记忆到工作流记忆,再到 ReasoningBank,智能体记忆系统进化到了哪一步?...

02. 记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向?

IML 能否让智能体真正实现「自我完善」?从 MetaAgent 到 POAD,目前智能体自进化摆脱人类设计的程度有多高?...

当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁?

1、近年来,人工智能领域不仅关注大语言模型的基础能力,也逐步开始探索能够在开放、动态环境中持续执行复杂任务的自进化智能体。

① 这要求 LLM Agent 在拥有较强的感知、推理和规划能力之外,还要具备终身学习和适应的能力,从而能够在真实世界部署中保持稳健性。

2、过去业内对于智能体自进化的探索主要围绕 RL 的相关优化展开,但目前越来越多的工作开始转向工程侧的记忆机制改进,尝试通过高效简易地设计记忆系统来促进智能体将推理转成可复用的记忆。

① 智能体可能在每个新任务中重复过去的错误,存在「经验遗忘」的情况,这限制了其在长期、复杂任务中的泛化能力和可靠性。

② 要实现智能体的自进化,就要让智能体不仅会「思考」,还能记得自己「如何思考」。

3、从记忆系统着手,将瞬时「思考」转化为可累积、可迁移的长期经验,这不仅让智能体会「思考」,还能记得自己「如何思考」。

4、今年 9 月,来自谷歌、UIUC 和耶鲁大学的研究者发表了主题为 ReasoningBank 的相关论文,其中将智能体的「记忆」本质上概括为从过去经验中学习和应用知识的方式,并将其发展进程划分为无记忆智能体(No Memory Agent)、轨迹记忆(Trajectory Memory)和工作流记忆(Workflow Memory)。[2-1]

① 无记忆智能体阶段,智能体在处理每个任务时,都会从一个「空白」状态开始,仅依赖预训练模型中固化的知识和当前任务的上下文信息。这会导致一些重复错误以及任务连贯性的缺失。

② 轨迹记忆阶段则将智能体与环境的完整交互序列,也就是「轨迹」存储下来。当遇到新任务时,系统会检索历史上相似的轨迹,并将其作为上下文信息(In-context Learning)提供给模型。这种机制的局限在于知识抽象层次较低,检索成本随着轨迹数量增加而指数级上升,且难以将经验泛化到结构不同的新任务。

③ 工作流记忆阶段则不再存储原始轨迹,而是从成功的轨迹中提取出可复用的、结构化的操作流程或模板。尽管提高了重复任务的效率,但这种机制的学习信号来源过于单一,无法从失败或低效的尝试中吸取教训,导致在面对环境或任务的微小变化时适应性较弱。

5、这些早期的记忆机制都停留在记录行为或流程的层面,无法实现高层级的知识抽象。针对这一挑战,提出 ReasoningBank 机制的研究者尝试将智能体记忆的抽象层次从「操作记录」和「程序模板」提升到「可泛化推理策略」的高度。[2-2]

6、ReasoningBank 的核心是结构化推理记忆单元(Memory Item)。与存储原始代码或操作日志不同,每个单元用来捕捉深层的战略洞察,通常包含标题、描述和内容三个关键字段。[2-2]

① 这种结构化的方法使得知识更具可读性、可迁移性,且能够跨任务和跨领域复用。

7、ReasoningBank 的运行依赖于一个无需外部监督的闭环学习过程,也就是自我判断反馈回路(Self-Aware Feedback Loop),该过程包括记忆检索、记忆构建和记忆整合机制。[2-2]

8、进一步地,研究者通过记忆感知测试时扩展(Memory-aware Test-Time Scaling, MaTTS)机制,确保了计算资源的增加能够转化为更丰富、更高质量的对比信号(成功的路径与失败的路径之间的差异),从而加速推理策略的提炼和积累。[2-2]

① 传统的测试时扩展(TTS)通常只是增加单次推理的计算量来提高准确性。MaTTS 则利用额外的计算资源来加速和多样化经验的生成(例如进行多路径并行推理,探索更多行动分支)。

② MaTTS 机制采用了经验规模化(Experience Scaling)这一新的 Scaling 维度,这意味着投资于计算资源不再仅仅是为了提高当前任务的稳健性,也可以用于优化 Agent 未来学习的能力。

③ 经测试,MaTTS 在网络浏览和软件工程等基准测试中,相对提高了高达 34.2%的有效性,并减少了 16%的交互步骤。

9、综上所述,ReasoningBank 机制减轻了对基础模型重复微调的成本,也支持更轻量、更快速的智能体适应性进化。

记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向?

1、目前来看,记忆系统的改进是给予 AI 或智能体应用自进化体验的主流路线,但除此之外,业内研究人员从智能体内在的自我识别、外在的工具和策略辅助等机制着手,尝试探索自进化的其他技术路线。...

关注「机器之心PRO会员」,前往「收件箱」查看完整解读


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛总统还嘴硬:不会跪下认错,中方要展现诚意

立陶宛总统还嘴硬:不会跪下认错,中方要展现诚意

扬子晚报
2026-02-21 19:38:11
李琰没想到,面对历史最差,王濛彻底不忍了,喊话滑协痛斥管理层

李琰没想到,面对历史最差,王濛彻底不忍了,喊话滑协痛斥管理层

新时代精神
2026-02-21 19:52:48
美军选在春节挑衅?解放军时刻准备着!

美军选在春节挑衅?解放军时刻准备着!

扬子晚报
2026-02-21 21:34:43
惊艳全球!新机官宣:2月28日,新品发布上市!

惊艳全球!新机官宣:2月28日,新品发布上市!

科技堡垒
2026-02-21 12:05:14
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

何老师呀
2026-02-21 07:14:25
罄!告急!有跨省回上海返程机票高达11560元

罄!告急!有跨省回上海返程机票高达11560元

新民晚报
2026-02-21 12:30:00
1-2大冷门!90分钟绝杀 13.5亿8连胜惨遭终结 榜首位置岌岌可危

1-2大冷门!90分钟绝杀 13.5亿8连胜惨遭终结 榜首位置岌岌可危

狍子歪解体坛
2026-02-22 03:28:22
河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

LULU生活家
2026-02-21 18:01:36
湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

火山詩话
2026-02-21 05:13:01
天助阿森纳:1-1大冷门,英超第3遭英超第15阻击,落后榜首7分

天助阿森纳:1-1大冷门,英超第3遭英超第15阻击,落后榜首7分

侧身凌空斩
2026-02-22 00:55:46
宇树CEO王兴兴:当前机器人技术接近10岁孩子水平,大规模应用或需3至5年,最长不超10年

宇树CEO王兴兴:当前机器人技术接近10岁孩子水平,大规模应用或需3至5年,最长不超10年

大象新闻
2026-02-21 20:44:06
一觉醒来,关税大逆转又逆转

一觉醒来,关税大逆转又逆转

贩财局
2026-02-21 09:44:27
恒大集团创始人许家印的靠山体系

恒大集团创始人许家印的靠山体系

地产微资讯
2026-02-21 18:49:14
7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

极目新闻
2026-02-21 14:31:40
看完天津春晚,心痛又感慨:不是岳云鹏不行了,是相声的舞台没了

看完天津春晚,心痛又感慨:不是岳云鹏不行了,是相声的舞台没了

悠悠说世界
2026-02-21 05:27:45
震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

火山詩话
2026-02-20 08:24:21
为啥我们五次申请CPTPP都失败?原因在于第四条

为啥我们五次申请CPTPP都失败?原因在于第四条

老籣说体育
2026-02-21 12:00:33
1-2!姆巴佩失良机,熊皇破门难救主,皇马遭绝杀,西甲榜首告急

1-2!姆巴佩失良机,熊皇破门难救主,皇马遭绝杀,西甲榜首告急

我的护球最独特
2026-02-22 03:34:56
42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

青眼财经
2026-02-20 23:31:25
2026-02-22 05:31:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2231963文章数 5506关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

艺术
家居
旅游
本地
教育

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

家居要闻

本真栖居 爱暖伴流年

旅游要闻

上海的气韵 | 马上启程来上博,博物馆里过大年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

教育要闻

高考地理中的河流凹凸岸

无障碍浏览 进入关怀版