据《The Register》报道,授人以鱼不如授人以渔,对 AI 智能体而言也是同理:教会它如何搜集信息,它就能自己持续获取数据;但如果让它完全自主摸索,结果往往只会更糟。
AI 智能体是一类机器学习模型(例如 Claude Opus 4.6),它们可通过 CLI 控制层(例如 Claude Code)调用其他软件,并以迭代循环的方式运行。这类智能体可被指派处理各类任务,其中一些可能并不在其训练数据覆盖范围内。
当缺乏相应训练时,我们可以为智能体赋予新的“技能”——这些技能本质上是补充的参考资料,用于让智能体具备特定领域的能力。此处所说的“技能”,包括指令、元数据,以及智能体加载用于获取程序性知识的脚本、模板等其他资源。
![]()
例如,我们可以通过一项技能指导 AI 智能体如何处理 PDF 文件,这项技能包含 Markdown 文本、代码、依赖库以及相关 API 参考资料。尽管智能体从训练数据中可能已掌握一定处理方法,但只有在更具体的指导下,它的表现才会更出色。
但近期一项名为《SkillsBench:基准测试智能体技能在多任务中的表现效果》的研究表明:要求智能体自主生成这类技能,结果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。
至少对于大语言模型(LLM)在推理阶段而言确实如此——也就是训练完成后的实际使用阶段,而非训练过程本身。
![]()
全新标杆
某些机器学习形式(如深度学习)的应用方式,可使神经网络模型在电子游戏等特定领域任务中不断提升性能。
AI 智能体呈现爆发式增长——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,这推动了用于增强智能体能力的各类技能快速发展,技能库如雨后春笋般不断涌现。
而鉴于 OpenClaw 智能体已在 Moltbook 自动化社区网络中实现相互学习,如今早已到了该评估它们学习效果究竟如何的时候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。
![]()
迄今为止,尚无统一方法来检验这些技能是否能兑现其承诺。为此,一支由40名计算机科学家组成的团队着手开发了一套基准测试,用以评估智能体技能在推理过程中如何提升性能。
该团队成员来自亚马逊、BenchFlow、字节跳动、富士康、Zennity等企业,以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、牛津大学等多所高校。
这项研究由智能体评测初创公司BenchFlow的创始人李祥一(音译)牵头,研究团队开发了名为SkillsBench的测试,并在上述预印本论文中阐述了相关研究成果。
![]()
研究人员针对7种智能体模型配置、84项任务、共7308条执行轨迹展开了分析——每条轨迹代表一个智能体在特定技能条件下尝试解决单个任务的过程。
团队测试了三种条件:无技能、人工精选技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。
使用人工设计的精选技能的智能体,其任务完成率平均比无技能智能体高出16.2%,不过数据波动较大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。
![]()
研究中列举了一个洪水风险分析任务的例子:不具备技能的智能体未采用合适的统计方法,通过率仅为2.9%;
而在配备精选技能后——即指导智能体使用皮尔逊Ⅲ型概率分布、遵循美国地质调查局标准方法,并明确调用SciPy函数与参数解读等细节——其任务通过率提升至80%。
从具体知识领域来看,医疗健康领域(提升51.9个百分点)和制造业领域(提升41.9个百分点)的人工定制技能对AI智能体帮助最大,而数学(提升6.0个百分点)和软件工程(提升4.5个百分点)相关技能带来的提升较小。
![]()
研究作者解释道,这是因为需要专业知识的领域在训练数据中占比通常偏低,因此由人类为这些领域的智能体补充技能是合理有效的。
并且在补充技能时,少即是多:只包含少量(2–3个)模块的技能,效果远优于大量数据堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。
这一点同样适用于模型规模——经过人工整理的技能能让小模型在任务完成率上越级表现(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。
![]()
配备技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表现优于无技能的 Haiku 4.5(11%),也优于无技能的 Claude Opus 4.5(22%)。
当研究人员让智能体自学技能时,要求它们:
- 分析任务需求、领域知识和所需API;
- 编写 1–5 个模块化技能文档来解决任务;
- 将每个技能保存为 Markdown 文件;
- 再利用生成的参考资料完成任务。
![]()
结果是:尝试自学的智能体,表现反而比完全不尝试自学的更差(Agents that tried this did worse than if they hadn't tried at all)。
至少就目前而言,人工智能革命无法完全自动化——机器仍需要人类导师为其指引正确方向。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.