Agent 自己学 Skill，到底学得怎么样？CMU 首个系统性基准来了|调用|轨迹|新论文|agent

Agent 自己学 Skill，到底学得怎么样？CMU 首个系统性基准来了

2026-05-10 20:29:06　来源: AI科技评论

广东举报

分享至

CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench，把答案拆到了Skill 生成、调用、执行的每一层。

Skill 扩展了 AI Agent 的能力边界，也让“给 Agent 配一本技能手册”的思路受到广泛关注。开发者们开始尝试把自己的经验“蒸馏”为各式各样的 Skill，让 Agent 在执行任务中直接调用。

但热度背后，一个根本矛盾始终存在：高质量 Skill 依赖人类专家手工编写，而真实世界的任务千变万化，任何预先准备好的技能库都很难覆盖所有情况。

于是，越来越多研究者开始把目光转向Skill 的持续学习 (Skill Continual Learning)：让 Agent 在执行任务的过程中自动积累 Skill，边干边学，而不是等人来写。

但随之而来的问题是：怎么去衡量不同持续学习方法的好坏？不同方法生成的 Skill 到底好在哪里、差在哪里？现有方法往往在各自的数据集和任务环境中进行验证，缺乏统一评测环境；评估指标也大多停留在任务成功率层面，难以进一步区分失败原因：是 Skill 本身质量的问题，还是 Agent 没有正确调用 Skill？

为回答这些问题，来自 Carnegie Mellon University 和 Amazon AGI 的研究团队提出了SkillLearnBench：首个面向 Agent Skill Continual Learning 的系统性评测基准，旨在统一环境下从 Skill 本身质量、Agent 执行轨迹、最终任务结果三个层面评估不同 Skill Continual Learning 方法的表现。

论文链接：https://arxiv.org/abs/2604.20087

开源代码仓库：https://github.com/cxcscmu/SkillLearnBench

网站：https://cxcscmu.github.io/SkillLearnBench/

SkillLearnBench:

首个 Agent Skill Continual Learning 的系统性基准

SkillLearnBench 的任务集围绕一个核心标准构建：这些任务必须真正依赖 Skill，即 Agent 在没有 Skill 的情况下难以稳定完成。每个任务都配有人类编写的 Skill （Human-authored），并包含多个经过改写的实例；这些实例通过改变输入数据、参数、约束条件或任务表述，检验生成的 Skill 是否真正学到了可迁移的任务流程，而不是只对单个样例有效。最终，SkillLearnBench 包含 20 个技能依赖任务、100 个任务实例，覆盖软件工程、信息检索、数据分析等 6 大类别、15 个子领域。同时，每个实例都配有确定性的 verifier，用于判断 Agent 是否真正完成任务。

SkillLearnBench 的另一个关键设计是构建了一套多维度评估框架。研究者认为，一个 Skill 的持续学习方法首先会生成 Skill 文档本身，随后会影响 Agent 的执行轨迹，最终才决定任务结果；如果只看最终准确率，就很难判断方法到底失败在哪一步。因此，SkillLearnBench 将评估拆成三个层面：

1. Skill Quality，即 Skill 本身写得怎么样。研究团队提出了 coverage、executability 和 safety 三个指标去评估生成的 Skill：它是否覆盖了解题所需的关键知识，是否足够完整、前后逻辑一致且可复用，以及是否存在安全风险。

2. Trajectory Analysis，即 Agent 使用 Skill 后的执行轨迹是否合理。这里不仅看 Agent 是否调用了 Skill ，还会分析是否按照正确顺序完成关键操作。

3. Task Outcome，即最终任务是否成功，以及完成任务消耗了多少 token。

实验结果

论文在 SkillLearnBench 上评估了四种代表性的 Skill 持续学习方法：

1. One-Shot：单轮生成 Skill，不进行反馈修正。

2. Self Feedback：Agent 先生成 Skill 并尝试任务，再根据自己的执行过程反思和修改 Skill 。

3. Teacher Feedback：引入外部 teacher，根据失败情况给出修改建议，引导 Agent 多轮改进 Skill 。

4.Skill Creator：使用 Anthropic 官方的 skill-creator 引导 Agent 生成 Skill。

主要发现：持续学习方法能够生成有效 Skill，但与人类编写 Skill 仍有明显差距

表 2 中的实验结果显示，所有持续学习方法整体上都优于 no-skill baseline。即便当前自动生成的 Skill 并不完美，它们仍然能够为 Agent 提供一定帮助。

但是，这些方法生成的 Skill 与人类专家编写的 Skill 之间仍存在显著差距。no-skill baseline 的平均准确率约为 10.17%，人类专家编写的 Skill 可达到 74.50%；相比之下，当前自动生成 Skill 的方法大多停留在 27%–31% 左右。也就是说，持续学习方法确实能够提升 Agent 表现，但也只是填补了 no-skill baseline 与人类专家编写 Skill 之间的一部分差距。

其中，Self Feedback 在平均准确率和 token 效率上表现相对最好；Skill Creator 的 Skill 调用率最高，但准确率并不总是最高。这说明一个重要问题：Skill 被频繁调用，并不代表它真的包含了解题所需的核心逻辑。

更强的模型不一定生成更好的 Skill

一个反直觉发现是：更强的 LLM 并不稳定地产生更好的 Skill。较强模型有时会写出更精确但也更“死板”的 Skill。这种 Skill 在当前实例上看似合理，但在任务实例变化后反而容易失效。相比之下，中等规模模型有时能在具体性和泛化性之间取得更好的平衡。

这说明 Skill 生成并不是单纯靠扩大模型规模就能解决的问题。一个好的 Skill 不仅要“说得多、说得细”，还要抓住跨实例稳定存在的核心任务逻辑。

当前 Skill 持续学习方法更适合结构化任务，开放式任务仍是难点

论文还发现， Skill 持续学习方法能带来多少收益，很大程度上取决于任务类型。如表 3 所示，在 Software Engineering 和 Productivity Tools 这类任务中，流程相对清晰、可复用，Skill 可以编码较为稳定的操作步骤，带来的提升更明显。相反，在开放性更强、实例差异更大的任务中，持续学习方法生成的 Skill 可能反而过度约束了Agent。

这也带来一个启示：未来的 Agent Skill 生成方法不能只依赖统一的模板，而需要根据任务类型调整生成 Skill 的粒度、结构和调用方式。

外部反馈比自我反思更能带来改进

在多轮 Skill 演化实验中，Teacher Feedback 和 Self Feedback 呈现出明显差异。如图 4 所示，Self Feedback 在多轮反思后并不总能持续进步，甚至可能出现 recursive drift：Agent 反复修改 Skill，但没有新的外部信息输入，只是重组已有内容，结果逐渐偏离正确执行路径。相反，Teacher Feedback 由于引入了外部指导，能够在多轮中持续补充缺失信息，使 Skill 的 coverage 指标和对应任务表现逐步提升。

因此，有效的 Skill Continual Learning 方法需要引入可靠的外部信号，例如 verifier 反馈、专家反馈，而不是单纯依赖模型自我反思。

总结

SkillLearnBench 不只是提出了一个新的 benchmark，也为 Agent Skill 持续学习的研究提供了一个更细粒度的分析框架：从 Skill 生成，到 Skill 调用，再到任务完成，逐层定位瓶颈。它系统性地回答了当前 Agent 研究中的一个关键问题：目前的持续学习方法是否真的能够生成有效 Skill？

答案是：可以，但还远远不够。

SkillLearnBench 的实验结论也为后续研究带来启示：未来的 Skill 生成研究不能只关注 Skill 文档是否写得“丰富”，而要关注两个更关键的问题。

第一，Skill 是否真正捕捉解决任务的核心逻辑。很多失败并不是因为 Skill 格式不规范，或者写得不够长，而是因为它缺少关键计算步骤、参数选择逻辑、验证机制或工具调用细节。

第二，Skill 是否能被 Agent 正确发现、调用并执行。一个好的 Skill 不只是静态文档，也必须能进入 Agent 的实际决策过程，改变执行轨迹，并最终提高任务成功率。

随着 Agent 从一次性任务执行走向长期自主学习，如何让它们从经验中提炼、保存并复用高质量 Skill，将成为构建下一代智能体系统的重要问题。SkillLearnBench 为这一方向提供了首个系统化评测平台，也为后续研究指出了清晰的改进路径。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.