网易首页 > 网易号 > 正文 申请入驻

「微调已死」再添筹码,谷歌扩展AI自我进化范式,成败双向学习

0
分享至



机器之心报道

编辑:杜伟

这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。

一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!

其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签

如图 1 所示,利用 ReasoningBank 不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。



通过将 ReasoningBank 作为强大的经验学习者,谷歌研究了经验扩展,以建立记忆与测试时扩展之间的强大协同效应。谷歌并不通过增加更多任务来扩展经验的广度,而是通过深入探索每个单一任务来扩展经验的深度。

此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下都进行了应用,通过生成多样的探索来提供对比信号,使 ReasoningBank 能够合成更具普遍性的记忆。

最终,在记忆与测试时扩展之间实现了协同效应:高质量的记忆将扩展引导到更有前景的路径,而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。



论文地址:https://arxiv.org/pdf/2509.25140

对于谷歌开发的这种能实时从自身错误中学习的 AI,网友纷纷看好。



方法概览

下图为 ReasoningBank 整体框架,其中经验被提炼成结构化的记忆项,包含标题、描述和内容。对于每个新任务,智能体从中检索相关项与环境进行互动,并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。



其中,ReasoningBank 包含了以下几个关键组件:

记忆结构。ReasoningBank 中的记忆项是从过去的经验中设计和提炼出的结构化知识单元,它们抽象了低级执行细节,同时保留了可转移的推理模式和策略。每个记忆项包含三个部分:(i) 标题,作为简洁的标识符,总结核心策略或推理模式;(ii) 描述,提供记忆项的简短一句话总结;(iii) 内容,记录从过去经验中提炼出的推理步骤、决策理由或操作见解。提取出的记忆项既具有人类可理解性,又具备机器可用性,有助于高效使用和与智能体的集成。

ReasoningBank 与智能体的集成。配备 ReasoningBank 的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解,避免以前观察到的陷阱,并更稳健地适应未见过的查询。集成过程分为三个步骤:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。

MaTTS:记忆感知的测试时扩展。ReasoningBank 与测试时扩展的直接结合如图 3 (a) 所示,其中更多的轨迹被独立地转换为更多的记忆项。不过,这种基础方法并不理想,因为它没有利用来自同一问题上冗余探索所产生的对比信号,这限制了测试时扩展所带来的性能优势。为此,谷歌提出了 MaTTS,它是测试时扩展与 ReasoningBank 的全新集成。与基础方法不同,MaTTS 刻意从扩展过程中生成的大量成功和失败轨迹中学习,以便更有效地策划记忆。谷歌为 MaTTS 设计了两种互补的实现方式:并行扩展和顺序扩展,如图 3 (b) 和 3 (c) 所示。



并行扩展。在并行设置中,谷歌在检索到的记忆项的指导下,为同一查询生成多个轨迹。通过对不同轨迹进行比较,智能体可以识别一致的推理模式,同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索,从而实现更可靠的记忆策划。

顺序扩展。在顺序扩展中,谷歌在初步完成后,迭代地在单一轨迹内完善推理,遵循自我精炼的原则。在这个过程中,自我精炼中生成的中间笔记也被用作宝贵的记忆信号,因为它们捕捉了推理尝试、修正和见解,这些内容可能不会出现在最终的解决方案中。

实验结果

谷歌在具有挑战性的基准测试上进行了广泛的实验,包括了网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。

表 1、2、3 分别展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的评估结果,表明了在有效性(相对提高高达 34.2%)和效率(减少 16.0% 的交互步骤)上均优于基准方法。







特别地,ReasoningBank 与 MaTTS 的协同效果最好,使其成为基于记忆的经验扩展的关键组成部分。谷歌在 Webarena-Shopping 子集上实验了 MaTTS 与 Gemini-2.5-flash 的结合。默认下,MaTTS 集成了 ReasoningBank,但它也可以使用其他记忆机制。

为了研究整体的扩展效果,谷歌进行了以下基准测试:(i) 没有记忆机制的 MaTTS(MaTTS w/o memory),这代表了没有记忆机制的扩展设置;(ii) 没有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示与扩展因子 k 相关的效果。值得注意的是,k = 1 是没有扩展的设置。

结果如图 4 所示,表明并行扩展和顺序扩展都能提升性能。



更多实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿富汗是这个世界的好老师

阿富汗是这个世界的好老师

名人苟或
2026-02-20 09:01:37
两初中生扶老人被索赔22万案将开庭,律师解读:交警定责并非法院终局依据

两初中生扶老人被索赔22万案将开庭,律师解读:交警定责并非法院终局依据

环球网资讯
2026-02-20 16:07:17
2天夺3金!冬奥会奖牌榜大乱:中国队升7位冲亚洲第1 剩3个夺金点

2天夺3金!冬奥会奖牌榜大乱:中国队升7位冲亚洲第1 剩3个夺金点

侃球熊弟
2026-02-20 06:30:41
斐济群岛发生6.0级地震 震源深度530千米

斐济群岛发生6.0级地震 震源深度530千米

每日经济新闻
2026-02-11 05:50:05
2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

谈史论天地
2026-02-18 17:45:40
冬奥会奇迹!金牌夫妇“诞生”,王心迪徐梦桃2天同项目连获金牌

冬奥会奇迹!金牌夫妇“诞生”,王心迪徐梦桃2天同项目连获金牌

奥拜尔
2026-02-20 21:59:01
27岁女子输液身亡视频曝光,过程太揪心,万千网友看着她痛苦去世

27岁女子输液身亡视频曝光,过程太揪心,万千网友看着她痛苦去世

离离言几许
2026-02-20 14:04:38
突发!集体拉升!变天了?

突发!集体拉升!变天了?

魏家东
2026-02-20 09:28:27
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
超越国界!苏翊鸣激动拥抱日本女选手,感恩日本教练培养

超越国界!苏翊鸣激动拥抱日本女选手,感恩日本教练培养

米修体育
2026-02-20 16:12:13
湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

极目新闻
2026-02-20 15:48:20
大年初五“破五节”,老人说:初五5不吃,不富也安康,5不吃指啥

大年初五“破五节”,老人说:初五5不吃,不富也安康,5不吃指啥

阿龙美食记
2026-02-20 11:39:40
不等了,德国公开喊话中国:美国不靠谱了,下周就访华!

不等了,德国公开喊话中国:美国不靠谱了,下周就访华!

青青子衿
2026-02-20 04:33:45
王心迪为中国赢得米兰冬奥会第四金!空中技巧“桃心夫妇”携手登顶冬奥

王心迪为中国赢得米兰冬奥会第四金!空中技巧“桃心夫妇”携手登顶冬奥

上观新闻
2026-02-20 22:09:04
王心迪空中技巧夺冠!对手抱头,王心迪跪地仰天,教练比1庆祝

王心迪空中技巧夺冠!对手抱头,王心迪跪地仰天,教练比1庆祝

篮球资讯达人
2026-02-20 22:07:07
身价过亿的生活是啥样的?网友:我有个朋友想去你家应聘仆人

身价过亿的生活是啥样的?网友:我有个朋友想去你家应聘仆人

带你感受人间冷暖
2026-02-19 23:43:29
曝动作巨星托尼贾患胆囊癌!近照瘦到不敢认,将于后天到苏州工作

曝动作巨星托尼贾患胆囊癌!近照瘦到不敢认,将于后天到苏州工作

花漾夜雨飘雪
2026-02-20 20:34:51
上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上观新闻
2026-02-20 10:19:09
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
何炅与杨钰莹牵手现身街头,他们太不容易了!

何炅与杨钰莹牵手现身街头,他们太不容易了!

背包旅行
2026-02-20 20:02:17
2026-02-20 23:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12323文章数 142569关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
游戏
手机
本地
公开课

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

桌面陪伴治愈新体验!《仓鼠萌语》亮相Steam新品节,免费试玩今日开启

手机要闻

小米17系列全球发布会定档:2月28日巴塞罗那见

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版