![]()
CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench,把答案拆到了Skill 生成、调用、执行的每一层。
Skill 扩展了 AI Agent 的能力边界,也让“给 Agent 配一本技能手册”的思路受到广泛关注。开发者们开始尝试把自己的经验“蒸馏”为各式各样的 Skill,让 Agent 在执行任务中直接调用。
但热度背后,一个根本矛盾始终存在:高质量 Skill 依赖人类专家手工编写,而真实世界的任务千变万化,任何预先准备好的技能库都很难覆盖所有情况。
于是,越来越多研究者开始把目光转向Skill 的持续学习 (Skill Continual Learning):让 Agent 在执行任务的过程中自动积累 Skill,边干边学,而不是等人来写。
但随之而来的问题是:怎么去衡量不同持续学习方法的好坏?不同方法生成的 Skill 到底好在哪里、差在哪里?现有方法往往在各自的数据集和任务环境中进行验证,缺乏统一评测环境;评估指标也大多停留在任务成功率层面,难以进一步区分失败原因:是 Skill 本身质量的问题,还是 Agent 没有正确调用 Skill?
为回答这些问题,来自 Carnegie Mellon University 和 Amazon AGI 的研究团队提出了SkillLearnBench:首个面向 Agent Skill Continual Learning 的系统性评测基准,旨在统一环境下从 Skill 本身质量、Agent 执行轨迹、最终任务结果 三个层面评估不同 Skill Continual Learning 方法的表现。
![]()
论文链接:https://arxiv.org/abs/2604.20087
开源代码仓库:https://github.com/cxcscmu/SkillLearnBench
网站:https://cxcscmu.github.io/SkillLearnBench/
01
SkillLearnBench:
首个 Agent Skill Continual Learning 的系统性基准
SkillLearnBench 的任务集围绕一个核心标准构建:这些任务必须真正依赖 Skill,即 Agent 在没有 Skill 的情况下难以稳定完成。每个任务都配有人类编写的 Skill (Human-authored),并包含多个经过改写的实例;这些实例通过改变输入数据、参数、约束条件或任务表述,检验生成的 Skill 是否真正学到了可迁移的任务流程,而不是只对单个样例有效。最终,SkillLearnBench 包含 20 个技能依赖任务、100 个任务实例,覆盖软件工程、信息检索、数据分析等 6 大类别、15 个子领域。同时,每个实例都配有确定性的 verifier,用于判断 Agent 是否真正完成任务。
![]()
SkillLearnBench 的另一个关键设计是构建了一套多维度评估框架。研究者认为,一个 Skill 的持续学习方法首先会生成 Skill 文档本身,随后会影响 Agent 的执行轨迹,最终才决定任务结果;如果只看最终准确率,就很难判断方法到底失败在哪一步。因此,SkillLearnBench 将评估拆成三个层面:
1. Skill Quality,即 Skill 本身写得怎么样。研究团队提出了 coverage、executability 和 safety 三个指标去评估生成的 Skill:它是否覆盖了解题所需的关键知识,是否足够完整、前后逻辑一致且可复用,以及是否存在安全风险。
2. Trajectory Analysis,即 Agent 使用 Skill 后的执行轨迹是否合理。这里不仅看 Agent 是否调用了 Skill ,还会分析是否按照正确顺序完成关键操作。
3. Task Outcome,即最终任务是否成功,以及完成任务消耗了多少 token。
02
实验结果
论文在 SkillLearnBench 上评估了四种代表性的 Skill 持续学习方法:
1. One-Shot:单轮生成 Skill,不进行反馈修正。
2. Self Feedback:Agent 先生成 Skill 并尝试任务,再根据自己的执行过程反思和修改 Skill 。
3. Teacher Feedback:引入外部 teacher,根据失败情况给出修改建议,引导 Agent 多轮改进 Skill 。
4.Skill Creator:使用 Anthropic 官方的 skill-creator 引导 Agent 生成 Skill。
![]()
![]()
主要发现:持续学习方法能够生成有效 Skill,但与人类编写 Skill 仍有明显差距
表 2 中的实验结果显示,所有持续学习方法整体上都优于 no-skill baseline。即便当前自动生成的 Skill 并不完美,它们仍然能够为 Agent 提供一定帮助。
但是,这些方法生成的 Skill 与人类专家编写的 Skill 之间仍存在显著差距。no-skill baseline 的平均准确率约为 10.17%,人类专家编写的 Skill 可达到 74.50%;相比之下,当前自动生成 Skill 的方法大多停留在 27%–31% 左右。也就是说,持续学习方法确实能够提升 Agent 表现,但也只是填补了 no-skill baseline 与人类专家编写 Skill 之间的一部分差距。
其中,Self Feedback 在平均准确率和 token 效率上表现相对最好;Skill Creator 的 Skill 调用率最高,但准确率并不总是最高。这说明一个重要问题:Skill 被频繁调用,并不代表它真的包含了解题所需的核心逻辑。
更强的模型不一定生成更好的 Skill
一个反直觉发现是:更强的 LLM 并不稳定地产生更好的 Skill。较强模型有时会写出更精确但也更“死板”的 Skill。这种 Skill 在当前实例上看似合理,但在任务实例变化后反而容易失效。相比之下,中等规模模型有时能在具体性和泛化性之间取得更好的平衡。
这说明 Skill 生成并不是单纯靠扩大模型规模就能解决的问题。一个好的 Skill 不仅要“说得多、说得细”,还要抓住跨实例稳定存在的核心任务逻辑。
当前 Skill 持续学习方法更适合结构化任务,开放式任务仍是难点
论文还发现, Skill 持续学习方法能带来多少收益,很大程度上取决于任务类型。如表 3 所示,在 Software Engineering 和 Productivity Tools 这类任务中,流程相对清晰、可复用,Skill 可以编码较为稳定的操作步骤,带来的提升更明显。相反,在开放性更强、实例差异更大的任务中,持续学习方法生成的 Skill 可能反而过度约束了Agent。
这也带来一个启示:未来的 Agent Skill 生成方法不能只依赖统一的模板,而需要根据任务类型调整生成 Skill 的粒度、结构和调用方式。
![]()
外部反馈比自我反思更能带来改进
在多轮 Skill 演化实验中,Teacher Feedback 和 Self Feedback 呈现出明显差异。如图 4 所示,Self Feedback 在多轮反思后并不总能持续进步,甚至可能出现 recursive drift:Agent 反复修改 Skill,但没有新的外部信息输入,只是重组已有内容,结果逐渐偏离正确执行路径。相反,Teacher Feedback 由于引入了外部指导,能够在多轮中持续补充缺失信息,使 Skill 的 coverage 指标和对应任务表现逐步提升。
因此,有效的 Skill Continual Learning 方法需要引入可靠的外部信号,例如 verifier 反馈、专家反馈,而不是单纯依赖模型自我反思。
![]()
03
总结
SkillLearnBench 不只是提出了一个新的 benchmark,也为 Agent Skill 持续学习的研究提供了一个更细粒度的分析框架:从 Skill 生成,到 Skill 调用,再到任务完成,逐层定位瓶颈。它系统性地回答了当前 Agent 研究中的一个关键问题:目前的持续学习方法是否真的能够生成有效 Skill?
答案是:可以,但还远远不够。
SkillLearnBench 的实验结论也为后续研究带来启示:未来的 Skill 生成研究不能只关注 Skill 文档是否写得“丰富”,而要关注两个更关键的问题。
第一,Skill 是否真正捕捉解决任务的核心逻辑。很多失败并不是因为 Skill 格式不规范,或者写得不够长,而是因为它缺少关键计算步骤、参数选择逻辑、验证机制或工具调用细节。
第二,Skill 是否能被 Agent 正确发现、调用并执行。一个好的 Skill 不只是静态文档,也必须能进入 Agent 的实际决策过程,改变执行轨迹,并最终提高任务成功率。
随着 Agent 从一次性任务执行走向长期自主学习,如何让它们从经验中提炼、保存并复用高质量 Skill,将成为构建下一代智能体系统的重要问题。SkillLearnBench 为这一方向提供了首个系统化评测平台,也为后续研究指出了清晰的改进路径。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.