网易首页 > 网易号 > 正文 申请入驻

研究发现:AI 智能体无法自学新技能,只有人类才能教会它们技能

0
分享至

据《The Register》报道,授人以鱼不如授人以渔,对 AI 智能体而言也是同理:教会它如何搜集信息,它就能自己持续获取数据;但如果让它完全自主摸索,结果往往只会更糟。

AI 智能体是一类机器学习模型(例如 Claude Opus 4.6),它们可通过 CLI 控制层(例如 Claude Code)调用其他软件,并以迭代循环的方式运行。这类智能体可被指派处理各类任务,其中一些可能并不在其训练数据覆盖范围内。

当缺乏相应训练时,我们可以为智能体赋予新的“技能”——这些技能本质上是补充的参考资料,用于让智能体具备特定领域的能力。此处所说的“技能”,包括指令、元数据,以及智能体加载用于获取程序性知识的脚本、模板等其他资源。



例如,我们可以通过一项技能指导 AI 智能体如何处理 PDF 文件,这项技能包含 Markdown 文本、代码、依赖库以及相关 API 参考资料。尽管智能体从训练数据中可能已掌握一定处理方法,但只有在更具体的指导下,它的表现才会更出色。

但近期一项名为《SkillsBench:基准测试智能体技能在多任务中的表现效果》的研究表明:要求智能体自主生成这类技能,结果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。

至少对于大语言模型(LLM)在推理阶段而言确实如此——也就是训练完成后的实际使用阶段,而非训练过程本身。



全新标杆

某些机器学习形式(如深度学习)的应用方式,可使神经网络模型在电子游戏等特定领域任务中不断提升性能。

AI 智能体呈现爆发式增长——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,这推动了用于增强智能体能力的各类技能快速发展,技能库如雨后春笋般不断涌现。

而鉴于 OpenClaw 智能体已在 Moltbook 自动化社区网络中实现相互学习,如今早已到了该评估它们学习效果究竟如何的时候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。



迄今为止,尚无统一方法来检验这些技能是否能兑现其承诺。为此,一支由40名计算机科学家组成的团队着手开发了一套基准测试,用以评估智能体技能在推理过程中如何提升性能。

该团队成员来自亚马逊、BenchFlow、字节跳动、富士康、Zennity等企业,以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、牛津大学等多所高校。

这项研究由智能体评测初创公司BenchFlow的创始人李祥一(音译)牵头,研究团队开发了名为SkillsBench的测试,并在上述预印本论文中阐述了相关研究成果。



研究人员针对7种智能体模型配置、84项任务、共7308条执行轨迹展开了分析——每条轨迹代表一个智能体在特定技能条件下尝试解决单个任务的过程。

团队测试了三种条件:无技能、人工精选技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。

使用人工设计的精选技能的智能体,其任务完成率平均比无技能智能体高出16.2%,不过数据波动较大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。



研究中列举了一个洪水风险分析任务的例子:不具备技能的智能体未采用合适的统计方法,通过率仅为2.9%

而在配备精选技能后——即指导智能体使用皮尔逊Ⅲ型概率分布、遵循美国地质调查局标准方法,并明确调用SciPy函数与参数解读等细节——其任务通过率提升至80%。

从具体知识领域来看,医疗健康领域(提升51.9个百分点)和制造业领域(提升41.9个百分点)的人工定制技能对AI智能体帮助最大,而数学(提升6.0个百分点)和软件工程(提升4.5个百分点)相关技能带来的提升较小。



研究作者解释道,这是因为需要专业知识的领域在训练数据中占比通常偏低,因此由人类为这些领域的智能体补充技能是合理有效的。

并且在补充技能时,少即是多:只包含少量(2–3个)模块的技能,效果远优于大量数据堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。

这一点同样适用于模型规模——经过人工整理的技能能让小模型在任务完成率上越级表现(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。



配备技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表现优于无技能的 Haiku 4.5(11%),也优于无技能的 Claude Opus 4.5(22%)。

当研究人员让智能体自学技能时,要求它们:

- 分析任务需求、领域知识和所需API;

- 编写 1–5 个模块化技能文档来解决任务;

- 将每个技能保存为 Markdown 文件;

- 再利用生成的参考资料完成任务。



结果是:尝试自学的智能体,表现反而比完全不尝试自学的更差(Agents that tried this did worse than if they hadn't tried at all)。

至少就目前而言,人工智能革命无法完全自动化——机器仍需要人类导师为其指引正确方向。

声明:取材网络,谨慎辨别

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌军反攻收复超300平方公里,匈斯两国切断对乌克兰柴油供应

乌军反攻收复超300平方公里,匈斯两国切断对乌克兰柴油供应

史政先锋
2026-02-19 17:53:08
让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

火山詩话
2026-02-20 15:43:13
1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

叹为观止易
2026-02-20 13:32:06
“谷歌天团”反击AI泡沫质疑:这是工业革命,但速度快10倍、规模大10倍

“谷歌天团”反击AI泡沫质疑:这是工业革命,但速度快10倍、规模大10倍

华尔街见闻官方
2026-02-21 08:29:16
春节看《惊蛰无声》《镖人》《飞驰人生3》,被这部大片气到无语

春节看《惊蛰无声》《镖人》《飞驰人生3》,被这部大片气到无语

头号电影院
2026-02-21 08:25:01
听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

达文西看世界
2026-02-15 20:25:40
2026年春节过去几天了,发现农村的3个怪现象,几乎村村都有!

2026年春节过去几天了,发现农村的3个怪现象,几乎村村都有!

农夫也疯狂
2026-02-19 08:22:41
上海高校排名大幅洗牌:同济17,上纽大95与上应大接近立信

上海高校排名大幅洗牌:同济17,上纽大95与上应大接近立信

辉哥说动漫
2026-02-20 20:47:37
AI破解乌鸦语言后确认:这就是地球上的另一波文明

AI破解乌鸦语言后确认:这就是地球上的另一波文明

自说自话的总裁
2026-02-13 17:24:54
天差地别!李琰5届夺金封神,张晶短道创历史最差,官媒点出事实

天差地别!李琰5届夺金封神,张晶短道创历史最差,官媒点出事实

十点街球体育
2026-02-20 09:24:24
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

愿你余生安好嘴角带笑
2026-01-28 20:28:13
50个社媒成瘾而死去的孩子照片摆在法院门口,扎克伯格进去受审的那一刻,全美父母都在看…

50个社媒成瘾而死去的孩子照片摆在法院门口,扎克伯格进去受审的那一刻,全美父母都在看…

英国那些事儿
2026-02-19 23:18:11
大连万达名将春节小聚,李明+孙继海归队,2人随国足参加过世界杯

大连万达名将春节小聚,李明+孙继海归队,2人随国足参加过世界杯

晚池
2026-02-20 20:25:21
巴萨主席候选人:我们联系了凯恩的团队,他正是巴萨所需球员

巴萨主席候选人:我们联系了凯恩的团队,他正是巴萨所需球员

懂球帝
2026-02-21 03:37:09
这就是赤裸裸的现实!越来越多央国企员工已经成了周末夫妻?

这就是赤裸裸的现实!越来越多央国企员工已经成了周末夫妻?

娱乐圈见解说
2026-02-20 10:11:21
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
印度挺不住了,急切“从中国进口”

印度挺不住了,急切“从中国进口”

都市快报橙柿互动
2026-02-21 00:09:07
女子婚礼穿低胸婚纱引热议,全程用纸巾遮挡,网友:太尴尬了!

女子婚礼穿低胸婚纱引热议,全程用纸巾遮挡,网友:太尴尬了!

流云随风去远方
2026-02-12 17:40:44
A股:股民要系好安全带了,从节后2月24日起,股市或将再次历史重演!

A股:股民要系好安全带了,从节后2月24日起,股市或将再次历史重演!

股市皆大事
2026-02-20 19:25:51
一个令人惊讶的现象:今年过年同学聚会消失了

一个令人惊讶的现象:今年过年同学聚会消失了

新国学文化
2026-02-19 18:58:25
2026-02-21 08:51:00
谈点世
谈点世
说说国内国外,聊聊世间百态。
2932文章数 4382关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
亲子
教育
游戏
家居

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

那些你不知道的育儿小知识!网友:不要随便把孩子的东西送人!

教育要闻

为什么说要学好英语

小岛工作室技术官解释为何一直使用Decima引擎

家居要闻

本真栖居 爱暖伴流年

无障碍浏览 进入关怀版