网易首页 > 网易号 > 正文 申请入驻

Agent 自己学 Skill,到底学得怎么样?CMU 首个系统性基准来了

0
分享至


CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench,把答案拆到了Skill 生成、调用、执行的每一层。

Skill 扩展了 AI Agent 的能力边界,也让“给 Agent 配一本技能手册”的思路受到广泛关注。开发者们开始尝试把自己的经验“蒸馏”为各式各样的 Skill,让 Agent 在执行任务中直接调用。

但热度背后,一个根本矛盾始终存在:高质量 Skill 依赖人类专家手工编写,而真实世界的任务千变万化,任何预先准备好的技能库都很难覆盖所有情况。

于是,越来越多研究者开始把目光转向Skill 的持续学习 (Skill Continual Learning):让 Agent 在执行任务的过程中自动积累 Skill,边干边学,而不是等人来写。

但随之而来的问题是:怎么去衡量不同持续学习方法的好坏?不同方法生成的 Skill 到底好在哪里、差在哪里?现有方法往往在各自的数据集和任务环境中进行验证,缺乏统一评测环境;评估指标也大多停留在任务成功率层面,难以进一步区分失败原因:是 Skill 本身质量的问题,还是 Agent 没有正确调用 Skill?

为回答这些问题,来自 Carnegie Mellon University 和 Amazon AGI 的研究团队提出了SkillLearnBench首个面向 Agent Skill Continual Learning 的系统性评测基准,旨在统一环境下从 Skill 本身质量、Agent 执行轨迹、最终任务结果 三个层面评估不同 Skill Continual Learning 方法的表现。


论文链接:https://arxiv.org/abs/2604.20087

开源代码仓库:https://github.com/cxcscmu/SkillLearnBench

网站:https://cxcscmu.github.io/SkillLearnBench/

01


SkillLearnBench:

首个 Agent Skill Continual Learning 的系统性基准

SkillLearnBench 的任务集围绕一个核心标准构建:这些任务必须真正依赖 Skill,即 Agent 在没有 Skill 的情况下难以稳定完成。每个任务都配有人类编写的 Skill (Human-authored),并包含多个经过改写的实例;这些实例通过改变输入数据、参数、约束条件或任务表述,检验生成的 Skill 是否真正学到了可迁移的任务流程,而不是只对单个样例有效。最终,SkillLearnBench 包含 20 个技能依赖任务、100 个任务实例,覆盖软件工程、信息检索、数据分析等 6 大类别、15 个子领域。同时,每个实例都配有确定性的 verifier,用于判断 Agent 是否真正完成任务。


SkillLearnBench 的另一个关键设计是构建了一套多维度评估框架。研究者认为,一个 Skill 的持续学习方法首先会生成 Skill 文档本身,随后会影响 Agent 的执行轨迹,最终才决定任务结果;如果只看最终准确率,就很难判断方法到底失败在哪一步。因此,SkillLearnBench 将评估拆成三个层面:

1. Skill Quality,即 Skill 本身写得怎么样。研究团队提出了 coverage、executability 和 safety 三个指标去评估生成的 Skill:它是否覆盖了解题所需的关键知识,是否足够完整、前后逻辑一致且可复用,以及是否存在安全风险。

2. Trajectory Analysis,即 Agent 使用 Skill 后的执行轨迹是否合理。这里不仅看 Agent 是否调用了 Skill ,还会分析是否按照正确顺序完成关键操作。

3. Task Outcome,即最终任务是否成功,以及完成任务消耗了多少 token。

02


实验结果

论文在 SkillLearnBench 上评估了四种代表性的 Skill 持续学习方法:

1. One-Shot:单轮生成 Skill,不进行反馈修正。

2. Self Feedback:Agent 先生成 Skill 并尝试任务,再根据自己的执行过程反思和修改 Skill 。

3. Teacher Feedback:引入外部 teacher,根据失败情况给出修改建议,引导 Agent 多轮改进 Skill 。

4.Skill Creator:使用 Anthropic 官方的 skill-creator 引导 Agent 生成 Skill。



主要发现:持续学习方法能够生成有效 Skill,但与人类编写 Skill 仍有明显差距

表 2 中的实验结果显示,所有持续学习方法整体上都优于 no-skill baseline。即便当前自动生成的 Skill 并不完美,它们仍然能够为 Agent 提供一定帮助。

但是,这些方法生成的 Skill 与人类专家编写的 Skill 之间仍存在显著差距。no-skill baseline 的平均准确率约为 10.17%,人类专家编写的 Skill 可达到 74.50%;相比之下,当前自动生成 Skill 的方法大多停留在 27%–31% 左右。也就是说,持续学习方法确实能够提升 Agent 表现,但也只是填补了 no-skill baseline 与人类专家编写 Skill 之间的一部分差距。

其中,Self Feedback 在平均准确率和 token 效率上表现相对最好;Skill Creator 的 Skill 调用率最高,但准确率并不总是最高。这说明一个重要问题:Skill 被频繁调用,并不代表它真的包含了解题所需的核心逻辑。

更强的模型不一定生成更好的 Skill

一个反直觉发现是:更强的 LLM 并不稳定地产生更好的 Skill。较强模型有时会写出更精确但也更“死板”的 Skill。这种 Skill 在当前实例上看似合理,但在任务实例变化后反而容易失效。相比之下,中等规模模型有时能在具体性和泛化性之间取得更好的平衡。

这说明 Skill 生成并不是单纯靠扩大模型规模就能解决的问题。一个好的 Skill 不仅要“说得多、说得细”,还要抓住跨实例稳定存在的核心任务逻辑。

当前 Skill 持续学习方法更适合结构化任务,开放式任务仍是难点

论文还发现, Skill 持续学习方法能带来多少收益,很大程度上取决于任务类型。如表 3 所示,在 Software Engineering 和 Productivity Tools 这类任务中,流程相对清晰、可复用,Skill 可以编码较为稳定的操作步骤,带来的提升更明显。相反,在开放性更强、实例差异更大的任务中,持续学习方法生成的 Skill 可能反而过度约束了Agent。

这也带来一个启示:未来的 Agent Skill 生成方法不能只依赖统一的模板,而需要根据任务类型调整生成 Skill 的粒度、结构和调用方式。


外部反馈比自我反思更能带来改进

在多轮 Skill 演化实验中,Teacher Feedback 和 Self Feedback 呈现出明显差异。如图 4 所示,Self Feedback 在多轮反思后并不总能持续进步,甚至可能出现 recursive drift:Agent 反复修改 Skill,但没有新的外部信息输入,只是重组已有内容,结果逐渐偏离正确执行路径。相反,Teacher Feedback 由于引入了外部指导,能够在多轮中持续补充缺失信息,使 Skill 的 coverage 指标和对应任务表现逐步提升。

因此,有效的 Skill Continual Learning 方法需要引入可靠的外部信号,例如 verifier 反馈、专家反馈,而不是单纯依赖模型自我反思。


03


总结

SkillLearnBench 不只是提出了一个新的 benchmark,也为 Agent Skill 持续学习的研究提供了一个更细粒度的分析框架:从 Skill 生成,到 Skill 调用,再到任务完成,逐层定位瓶颈。它系统性地回答了当前 Agent 研究中的一个关键问题:目前的持续学习方法是否真的能够生成有效 Skill?

答案是:可以,但还远远不够。

SkillLearnBench 的实验结论也为后续研究带来启示:未来的 Skill 生成研究不能只关注 Skill 文档是否写得“丰富”,而要关注两个更关键的问题。

第一,Skill 是否真正捕捉解决任务的核心逻辑。很多失败并不是因为 Skill 格式不规范,或者写得不够长,而是因为它缺少关键计算步骤、参数选择逻辑、验证机制或工具调用细节。

第二,Skill 是否能被 Agent 正确发现、调用并执行。一个好的 Skill 不只是静态文档,也必须能进入 Agent 的实际决策过程,改变执行轨迹,并最终提高任务成功率。

随着 Agent 从一次性任务执行走向长期自主学习,如何让它们从经验中提炼、保存并复用高质量 Skill,将成为构建下一代智能体系统的重要问题。SkillLearnBench 为这一方向提供了首个系统化评测平台,也为后续研究指出了清晰的改进路径。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊媒:伊朗已拒绝美国提出的方案

伊媒:伊朗已拒绝美国提出的方案

新华社
2026-05-11 07:07:03
实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

史政先锋
2026-05-10 21:05:57
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
山西煤老板三小时连杀14人,被捕狂笑:要杀就杀光,我下去陪他们

山西煤老板三小时连杀14人,被捕狂笑:要杀就杀光,我下去陪他们

易玄
2026-05-10 12:45:04
孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

澎湃新闻
2026-05-10 21:38:28
提前锁定下赛季欧战资格,科莫官方:队史首次挺进欧战

提前锁定下赛季欧战资格,科莫官方:队史首次挺进欧战

懂球帝
2026-05-10 23:05:47
中国大学“校史虚构大赛”:谁在争抢“第一”?

中国大学“校史虚构大赛”:谁在争抢“第一”?

深度报
2026-05-09 23:35:25
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
NBA状元联手浓眉!快船2换5赢麻了!年度最佳交易

NBA状元联手浓眉!快船2换5赢麻了!年度最佳交易

篮球教学论坛
2026-05-11 07:51:31
早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

排球黄金眼
2026-05-10 23:34:01
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

社会日日鲜
2026-05-10 09:26:48
马蓉澳洲落魄生活:5000万败光,超市打工不敢见人

马蓉澳洲落魄生活:5000万败光,超市打工不敢见人

流云随风去远方
2026-05-11 01:15:18
安第斯病毒何去何从?张文宏团队解析涉疫邮轮传播链精细拼图

安第斯病毒何去何从?张文宏团队解析涉疫邮轮传播链精细拼图

澎湃新闻
2026-05-10 22:34:13
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

环球网资讯
2026-05-11 07:00:15
2026-05-11 08:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7259文章数 20751关注度
往期回顾 全部

科技要闻

OPPO们永远学不会的年轻化

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
手机
数码
亲子
公开课

旅游要闻

在迪士尼与天文馆之间,上海多了一座“月背基地”

手机要闻

华为官网确认:畅连App「实时对讲」功能将支持部分机型无网使用

数码要闻

1700元缝合怪显卡 SXM2转PCIe暴力改装NVIDIA V100:比RTX 3060还快40%!

亲子要闻

这对劲吗咋还说话了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版