网易首页 > 网易号 > 正文 申请入驻

Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心发布

在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。

当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案 —— 正确的参数格式、有效的 API 用法、甚至是直接可用的替代方案。然而,静态的 Prompt 无法让 Agent 从这些反馈中 “学到教训”,导致它们陷入 “错误循环”:承认失败,却重复同样的动作。

华为诺亚方舟实验室与香港中文大学联合发布的 SCOPE 框架,旨在解决这一问题。


  • 论文:《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》

  • 论文地址:https://arxiv.org/abs/2512.15374

  • 开源地址:https://github.com/JarvisPei/SCOPE

SCOPE 的核心思想是:既然 Agent 会被反复调用,那么它的 Prompt 就可以在执行过程中不断进化。通过从执行轨迹中自动提炼指导规则,SCOPE 让 Agent 能够 "从错误中学习",并将经验固化到 Prompt 中,实现自我进化。



Agent 的两大失败模式

研究团队分析了 GAIA 和 DeepSearch 基准上的 Agent 执行日志,发现了两类典型的失败模式:

第一类是「纠正型失败」(Corrective Failure):当错误发生时,执行轨迹中包含明确的信号(错误消息、堆栈跟踪、有效参数列表),本应指导 Agent 进行修正。然而,静态的 Agent 把这些信息当作泛泛的 “警报”,而不是可操作的反馈。研究者观察到大量案例,Agent 在错误消息明确列出正确用法的情况下仍然误用工具,形成 “错误循环”。更严重的情况下,Agent 甚至会为了继续执行而 “编造数据”。

第二类是「增强型失败」(Enhancement Failure):即使没有明显错误,Agent 也会错过优化机会。比如当搜索结果不理想时,上下文往往暗示可以尝试同义词(如 “base on balls” 与 “walks”),但 Agent 却固守单一关键词策略。这种失败更加隐蔽,但同样影响任务成功率。


这两类失败的根本原因是相同的:静态 Prompt 缺乏从执行反馈中学习的机制。

SCOPE 框架:从执行轨迹中学习


针对上述问题,SCOPE 将上下文管理从手动工程任务转变为自动优化过程。其核心洞察是:Agent 自身的执行轨迹就是最好的学习信号。

SCOPE 框架由四个核心组件构成:

1. 指导规则合成(Guideline Synthesis)

当 Agent 遇到错误或完成子任务时,SCOPE 的生成器(Generator)会分析执行轨迹,合成候选指导规则。这里采用 Best-of-N 策略:生成多个候选规则,然后由选择器(Selector)挑选最佳的一条。

针对不同场景,SCOPE 使用两种合成模式:纠正型合成从错误中提取教训,增强型合成从成功模式中挖掘优化机会。实验表明,增强型规则占所有合成规则的 61%,说明 SCOPE 不仅仅是 “错误修复器”,更是一个主动的优化器。

2. 双流路由机制(Dual-Stream Routing)

合成的规则并非同等对待。SCOPE 引入分类器(Classifier)将规则路由到两个记忆流:

  • 战术记忆(Tactical Memory):存储任务特定的规则,如 “当前数据集的‘Amount’列包含货币符号,计算前需进行清洗”。这些规则仅在当前任务的数据上下文中有效。

  • 战略记忆(Strategic Memory):存储跨任务通用的规则,如 “当 Web 搜索返回结果为空时,尝试泛化搜索关键词而不是重复搜索”。这些规则会持久化保存,应用于未来所有任务。

只有高置信度(阈值设为 0.85)的通用规则才会被提升到战略记忆,避免过拟合到特定任务。

3. 记忆优化(Memory Optimization)

随着规则积累,战略记忆可能包含冗余或冲突的内容。SCOPE 的优化器(Optimizer)会执行三步清理:冲突解决(合并矛盾规则)、冗余剪枝(移除被更通用规则覆盖的具体规则)、整合归并(将相似规则合并为综合性规则)。

4. 视角驱动探索(Perspective-Driven Exploration)

单一进化路径可能收敛到某种策略,在部分任务上表现较好但在其他任务上失效。为了提高策略覆盖,SCOPE 初始化多个并行流,每个流由不同的 "视角" 引导(如效率优先 vs. 周全优先),各自进化出不同的 Prompt。测试时选择最佳结果。

实验结果:HLE 成功率从 14% 提升到 39%

研究团队在三个基准上进行了评估:HLE(2500 道专家级问题)、GAIA 和 DeepSearch。

实验结果表明,SCOPE 在所有基准上都取得了提升:


在 HLE 基准上,SCOPE 将任务成功率从 14.23% 提升到 38.64%。在 GAIA 基准上,成功率从 32.73% 提升到 56.97%。

为了更准确地表达不同组件的贡献,论文中给出了消融实验。如下图所示,指导规则生成器提供 + 4.85% 的初始提升,双流路由贡献 + 3.63%,Best-of-N 选择贡献 + 3.03%,记忆优化贡献 + 1.82%,而视角驱动探索带来 + 10.91% 的提升。


值得注意的是,在知识密集型领域(如生物 / 医学、化学),SCOPE 的提升较为明显:生物 / 医学从 14.9% 提升到 43.2%,化学从 14.1% 提升到 50.3%。这些领域的问题往往涉及复杂的专业概念和严格的推理流程,SCOPE 合成的领域特定规则能够帮助 Agent 更好地理解和遵循这些要求。


Agent 真的在 "听话" 吗?

一个关键问题是:合成的规则是否真正影响了 Agent 的行为?

如下图所示,研究团队观察到了 "语言采纳" 现象:当 SCOPE 合成了 "始终列出所有可能的标签同义词和短语变体" 这一规则后,Agent 后续输出中直接引用了相同的措辞。这表明规则被整合到了 Agent 的决策过程中。此外,行为变化通常在规则合成后几秒内就会发生,展示了单个任务内的实时适应能力。


视角驱动策略多样性

视角驱动探索的设计得到了实验验证。如下图所示,效率流(Efficiency Stream)和周全流(Thoroughness Stream)的总体准确率相近(44.85% vs 46.06%),但两者解决的问题重合度仅为 33.94%,这意味着约 23% 的问题只能被其中一个视角解决。

效率流在 GAIA 的 Level 3 任务上表现更好(26.92% vs 11.54%),说明精简的上下文管理对复杂长程任务更有效;而周全流在 Level 2 任务上更强。全局集成捕获了两种策略的优势。


定性分析显示,面对同一个 HTTP 403 访问拒绝错误,效率流学会 “快速失败”—— 立即升级到搜索 Agent,不再重试;而周全流则学会 “寻找替代来源”—— 尝试 Archive.org 或转录工具。这种二元性让 SCOPE 能够同时处理时间紧迫型和深度检索型任务。


SCOPE 的意义

华为诺亚方舟实验室与香港中文大学联合提出的 SCOPE 框架,通过将执行轨迹作为学习信号、将 Prompt 视为可进化的参数,实现了 Agent 的在线自我优化。

与现有方法相比,SCOPE 具有三个主要特点:

  • 步级别适应(Step-level adaptation):在执行过程中更新 Prompt,允许从任务中途的失败中恢复,而非等到任务结束才学习。

  • 单 Agent 优化(Per-agent optimization):每个 Agent 角色基于自身特定的模式进化 Prompt,而非使用 "一刀切" 的策略库。

  • 主动优化:61% 的规则来自成功模式的增强型合成,而非仅仅修复错误。


SCOPE 的代码已在 GitHub 开源。正如论文所总结的:“与其工程化静态 Prompt,不如让 Agent 在线进化自己的 Prompt。” 这一思路可能为下一代 Agent 系统的设计提供新的方向。

值得一提的是,SCOPE 的开源实现具有较好的实用性:

  • 即插即用:只需在 Agent 执行循环中调用 `on_step_complete ()` 接口,即可为现有 Agent 系统添加自我进化能力,无需修改原有架构。

  • 模型无关:通过统一的适配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商(via LiteLLM),方便开发者使用自己偏好的模型。

  • 轻量部署:核心依赖精简,可通过 `pip install scope-optimizer` 一键安装。

SCOPE 提供了一套完整的实现框架,其核心洞察是:Agent 的执行轨迹本身就是最好的学习素材 —— 关键在于如何将这些经验有效地编码到 Prompt 中。对于希望增强 Agent 系统效能的开发者而言,SCOPE 提供了一个可直接使用的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
脑梗的源头被查出,肥肉没上榜,第1名很多人可能每天都在吃!

脑梗的源头被查出,肥肉没上榜,第1名很多人可能每天都在吃!

全球军事记
2025-11-29 13:46:37
顶流变牛郎?男人中的迈巴赫?

顶流变牛郎?男人中的迈巴赫?

煮娱星球
2026-01-05 16:07:53
你捡过最大的漏是什么?网友: 导师突然得了诺贝尔奖

你捡过最大的漏是什么?网友: 导师突然得了诺贝尔奖

夜深爱杂谈
2026-01-01 00:06:27
笑岔气了!果然断句是中国人一生的宿敌,只能说中国文化博大精深

笑岔气了!果然断句是中国人一生的宿敌,只能说中国文化博大精深

夜深爱杂谈
2025-12-19 16:39:58
潘石屹再次预判楼市,不出意外的话,未来3年楼市将迎来3大走向

潘石屹再次预判楼市,不出意外的话,未来3年楼市将迎来3大走向

小装修
2026-01-06 09:37:06
勇士惜败快船!巴特勒锁死伦纳德,防守拉满,库里+众将打铁!

勇士惜败快船!巴特勒锁死伦纳德,防守拉满,库里+众将打铁!

篮球资讯达人
2026-01-06 13:40:59
新生儿剪脐带时被剪断手指?助产士:因孩子的手突然乱动,家属:已申请医疗事故鉴定

新生儿剪脐带时被剪断手指?助产士:因孩子的手突然乱动,家属:已申请医疗事故鉴定

梅斯医学
2026-01-05 13:21:27
韩国大胆提议:建设首尔至北京高铁,但有一个条件,中方须先答应

韩国大胆提议:建设首尔至北京高铁,但有一个条件,中方须先答应

糖逗在娱乐
2026-01-06 08:10:03
马杜罗被捕24小时后,特朗普宣布向墨西哥宣战!称要么投降要么死

马杜罗被捕24小时后,特朗普宣布向墨西哥宣战!称要么投降要么死

十三级台阶
2026-01-06 07:28:00
2025年,5国被踢出发达国家行列,分别都是谁?

2025年,5国被踢出发达国家行列,分别都是谁?

泠泠说史
2025-10-12 17:40:53
李在明落地北京,没有先和中方官员会面,而是先去了一场座谈会

李在明落地北京,没有先和中方官员会面,而是先去了一场座谈会

铁锤简科
2026-01-06 13:16:43
已经2个月没打比赛!德约科维奇却突然宣布退赛,剑指澳网第11冠

已经2个月没打比赛!德约科维奇却突然宣布退赛,剑指澳网第11冠

体育妞世界
2026-01-06 09:08:05
价格大跳水!暴跌76%!深圳人可以捡漏了......

价格大跳水!暴跌76%!深圳人可以捡漏了......

深圳晚报
2026-01-05 15:00:04
输球不输格局!惨败后王博深情送祝福 CBA争冠四巨头格局已定?

输球不输格局!惨败后王博深情送祝福 CBA争冠四巨头格局已定?

你看球呢
2026-01-06 10:57:25
杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

娱乐领航家
2026-01-04 22:00:03
半推半就接纳,39岁女子乐在其中,她红脸说:今晚再试一回!

半推半就接纳,39岁女子乐在其中,她红脸说:今晚再试一回!

徐侠客有话说
2025-09-10 11:52:21
闫学晶回应质疑:你们能和我比吗?都是酸黄瓜,欠揍的话不要讲

闫学晶回应质疑:你们能和我比吗?都是酸黄瓜,欠揍的话不要讲

阿纂看事
2026-01-03 16:07:39
刚谈川普今年工作安排,他就说搞哥伦比亚可能不错、会搞格陵兰岛

刚谈川普今年工作安排,他就说搞哥伦比亚可能不错、会搞格陵兰岛

邵旭峰域
2026-01-06 11:58:49
美绑架总统坏了规矩,不到48小时,高市顶不住了,求中方缓和关系

美绑架总统坏了规矩,不到48小时,高市顶不住了,求中方缓和关系

生活魔术专家
2026-01-06 12:47:02
“邪修大法”做家务就是快!一分钱不花,家里就窗明几净~

“邪修大法”做家务就是快!一分钱不花,家里就窗明几净~

装修秀
2025-12-19 11:30:03
2026-01-06 14:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1925676文章数 5174关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

头条要闻

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

艺术
家居
数码
公开课
军事航空

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

家居要闻

引光之宅 地下室也有生机

数码要闻

AMD ROCm 7.2首发支持Ryzen AI 400系列,解锁满血AI性能

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版