网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI智能体仍需人类指导才能有效执行任务

2026-02-25 17:34:04　来源: 至顶头条

北京举报

0

分享至

AI智能体需要技能——具体的程序性知识——才能很好地执行任务，但新研究表明它们无法自我学习这些技能。

研究人员开发了一个名为SkillsBench的新基准测试，评估智能体AI在11个领域84项任务中的表现，涵盖医疗保健、制造业、网络安全和软件工程等领域。研究人员在三种条件下测试每项任务：无技能（智能体仅接收指令）、有策划技能（提供目录、代码片段和资源帮助）以及自生成技能（智能体无技能但被提示开发技能）。

典型任务包括对npm依赖项进行安全审计以发现漏洞，或分析癌细胞系数据中的差异蛋白表达。

最佳表现来自具有策划技能的智能体，其平均得分比无技能智能体高16.2个百分点，表明AI仍然离不开人类干预。即便如此，在84项任务中的16项中，人类指导对结果产生了负面影响。

不同行业领域的表现差异很大，策划技能对医疗保健任务影响最大，但对软件工程影响较小。

被要求生成自己技能的智能体没有表现出性能提升，显示AI仍需要一些人类提示才能完成工作。

Q&A

Q1：什么是SkillsBench基准测试？

A：SkillsBench是研究人员开发的一个新基准测试，用于评估智能体AI在11个领域84项任务中的表现，涵盖医疗保健、制造业、网络安全和软件工程等领域。它通过三种不同条件测试智能体的技能表现。

Q2：AI智能体能否自己学习技能？

A：研究表明AI智能体无法自我学习技能。被要求生成自己技能的智能体没有表现出性能提升，显示AI仍需要人类提示和指导才能有效完成工作，不能完全独立运作。

Q3：人类指导对AI智能体的效果如何？

A：具有人类策划技能的智能体平均得分比无技能智能体高16.2个百分点，表明人类指导总体上是有效的。但在84项任务中的16项中，人类指导对结果产生了负面影响，且不同行业领域效果差异很大。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

重塑软件工程：从Vibe Coding走向Spec Coding

钛媒体APP 2026-02-11 09:37:53
67 跟贴 67
大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
1 跟贴 1

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心Pro 2025-10-15 16:05:02
0 跟贴 0

人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
18 跟贴 18
最懂AI风险的人，被AI收拾了.... Meta的AI总监邮箱被AI清空，最后只能拔网线

英国那些事儿 2026-02-26 23:25:53
0 跟贴 0

Agent竞争推演：谁会赢，谁会死？

虎嗅APP 2026-02-26 22:39:10
0 跟贴 0

华为祭出AI编程利器，集成智谱、DeepSeek，同任务Tokens暴降30%

智东西 2026-02-26 17:53:23
71 跟贴 71
中国AI调用量超美国 4款大模型霸榜前5

每日经济新闻 2026-02-26 19:33:22
68 跟贴 68

华为重磅发布！代码“神器”来了！

每日经济新闻 2026-02-26 20:25:06
4 跟贴 4
机器人租赁热度升温日租价降至千元

澎湃新闻 2026-02-26 20:36:27
66 跟贴 66
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
灵巧手作为独立执行平台，实现工业与家庭场景应用

量子位 2025-12-11 03:38:13
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
OpenAI CEO山姆奥特曼：机器人战争并不令人恐惧，真正令人恐惧的是...

知了3C 2026-02-24 23:46:19
0 跟贴 0
新蔡供电公司：开展网络专项学习筑牢复工复产安全防线

大象新闻 2026-02-26 17:41:05
0 跟贴 0
手机出现这8个信号，说明你已经被监听！一旦出现请立刻关机

大小关物语 2026-02-24 00:58:12
0 跟贴 0
【荷兰】黑客组织因为收不到赎金在暗网上公布部分荷兰数据

一网荷兰 2026-02-27 00:07:26
0 跟贴 0
法网恢恢，疏而不漏！

海棠未眠a 2026-02-26 03:32:17
0 跟贴 0
基准10年期日本国债期货早盘下跌0.24点

每日经济新闻 2026-02-26 08:06:06
0 跟贴 0
以网信事业高质量发展新成效助力实现“十五五”良好开局！市委网信委会议举行

上观新闻 2026-02-26 18:49:05
0 跟贴 0
微信被老板监视，打工人如何排查风险？

每日经济新闻 2025-12-25 19:02:08
0 跟贴 0
火爆海外的中国科技，老外大为震撼中国科技正在定义未来！

胡莱克修斯 2026-02-25 04:19:33
0 跟贴 0
萌娃帮家长运玉米，一天工程半天干完，新脑子果然好使！

呆酱爱搞笑 2026-02-25 15:14:12
0 跟贴 0
顶级杀手执行任务，只是嘴角微动，就能用竹签杀死人

南瓜观影 2026-02-22 09:19:20
1 跟贴 1
中国驻符拉迪沃斯托克总领馆：18-65岁在俄长期居留男性须同意在俄军事单位等至少服役1年

闪电新闻 2026-02-26 12:56:09
49519 跟贴 49519
沃尔沃的工程机械为什么能够畅销全球，单一个认知打败了多少企

搞笑壮汉夫妻 2026-02-24 07:34:23
0 跟贴 0
罕见场面！我国一款隐秘武器出口交付，智能对空榴弹首次精准击中

一饮山河 2026-02-24 16:23:14
0 跟贴 0
中国新疆三峡工程正式完工，曾被各国拼命反对的工程！

无妨 2026-02-26 03:32:03
0 跟贴 0
英伟达财报创纪录，老黄定调智能体拐点：算力就是印钞机

新智元 2026-02-26 19:27:59
1 跟贴 1
87比80客场战胜日本，中国男篮世预赛上演半场逆转好戏

澎湃新闻 2026-02-26 20:18:35
456 跟贴 456
DeepSeek连更GitHub，华尔街回想起被支配的恐惧

量子位 2026-02-25 09:55:04
0 跟贴 0
默茨：中方要订120架空客飞机这一趟来得值

澎湃新闻 2026-02-26 14:38:56
139 跟贴 139
智能锁就是这么智能

阿娇侃剧 2026-02-25 09:04:02
1 跟贴 1
语音控制“关掉阅读灯”却关掉大灯，命令开灯系统回复“暂时还不会”，车主凌晨高速上撞护栏！领克致歉：已推优化方案

每日经济新闻 2026-02-26 23:53:07
2 跟贴 2
佛山顺德一4A景区灰塑被人拿下，官方通报

南方都市报 2026-02-26 12:58:14
437 跟贴 437
斯坦福氛围编程课火了！用AI搞定软件开发全流程

量子位 2026-02-25 09:55:05
0 跟贴 0
DeepSeek推理分裂出多重人格，越社交越聪明

量子位 2026-02-04 03:32:03
0 跟贴 0

2019年，美国亿万富豪挑战90天内用100元赚100万，过程如人生缩影

2019年，美国亿万富豪挑战90天内用100元赚100万，过程如人生缩影

墨说古今

2025-12-18 22:29:35

特斯拉中国再推“变相降价”策略：全系享7年低息，Model 3月供仅1759元

特斯拉中国再推“变相降价”策略：全系享7年低息，Model 3月供仅1759元

TechWeb

2026-02-26 15:40:04

好消息，雄鹿队主帅暗示字母哥即将伤愈复出

好消息，雄鹿队主帅暗示字母哥即将伤愈复出

好火子

2026-02-27 00:05:45

大结局，普京终于不再留手！

深度报

2026-02-25 21:03:00

即将涨价！店门口排队排疯了！有人称“早买早赚钱”，不少人抓紧最后时间来抢购……

即将涨价！店门口排队排疯了！有人称“早买早赚钱”，不少人抓紧最后时间来抢购……

上海黄浦

2026-02-25 20:35:57

国家终于出手了！不仅是李梓萌被牵连，就连全红婵张文宏也没逃过

国家终于出手了！不仅是李梓萌被牵连，就连全红婵张文宏也没逃过

达西伍红

2025-12-25 20:20:58

我们熟悉的她早已离世，29岁与男友坠机而亡，双双殒命大海之中

我们熟悉的她早已离世，29岁与男友坠机而亡，双双殒命大海之中

往史过眼云烟

2026-02-15 17:28:03

赵继伟：中场休息时郭导告诉我们勇敢地去出手、进攻

赵继伟：中场休息时郭导告诉我们勇敢地去出手、进攻

懂球帝

2026-02-26 22:39:46

艾滋病新增130万！很多人中招很冤枉！在外“5不碰”一定要记死

艾滋病新增130万！很多人中招很冤枉！在外“5不碰”一定要记死

今朝牛马

2025-12-31 19:31:04

我国或将成为全球，乃至人类历史上，第一个“电力王国”

我国或将成为全球，乃至人类历史上，第一个“电力王国”

森罗万象视频

2026-02-25 17:37:08

16球4助攻！曝尤文图斯有望签奥斯梅恩，年薪2100万欧成最大障碍

16球4助攻！曝尤文图斯有望签奥斯梅恩，年薪2100万欧成最大障碍

夏侯看英超

2026-02-27 02:25:43

再也不小瞧“空气炸锅”了！果然，只要思路打开，就好用到离谱

再也不小瞧“空气炸锅”了！果然，只要思路打开，就好用到离谱

美家指南

2026-02-24 15:48:11

细菌超500亿，快丢掉！很多福建人天天用，舍不得换！消毒也没用

细菌超500亿，快丢掉！很多福建人天天用，舍不得换！消毒也没用

福建卫生报

2026-02-24 18:49:20

中俄东北虎数量差距断崖：俄罗斯700只，中国的数量令人意外！

中俄东北虎数量差距断崖：俄罗斯700只，中国的数量令人意外！

又是美好的日子

2026-02-21 04:01:54

一场赤裸裸的生殖竞赛史，超乎你敢想的“性”！

一场赤裸裸的生殖竞赛史，超乎你敢想的“性”！

历史大学堂

2026-02-04 11:23:36

贵州3市最新人事任免信息

黄河新闻网吕梁

2026-02-26 10:38:18

吴京没想到，《镖人》上映遇冷，还是王宝强聪明，拍摄华人黑帮

吴京没想到，《镖人》上映遇冷，还是王宝强聪明，拍摄华人黑帮

小蒨喜欢解说

2026-02-25 23:02:41

收到中国送来的制裁清单，高市早苗开始劝中国冷静了？

收到中国送来的制裁清单，高市早苗开始劝中国冷静了？

闻香阁

2026-02-25 22:50:48

一个县，三百人，全靠潜规则过日子

一个县，三百人，全靠潜规则过日子

老鹰哥

2026-02-25 16:46:45

孙颖莎好心举动却遭裁判黄牌！真相大白后！WTT连夜发文盛赞她格局大

孙颖莎好心举动却遭裁判黄牌！真相大白后！WTT连夜发文盛赞她格局大

好乒乓

2026-02-26 16:28:37

记录和推动数字化创新

16338文章数 49692关注度

往期回顾全部

科技要闻

单季营收681亿净利429亿！英伟达再次炸裂

头条要闻

美国政府对外交官下令：开始行动

头条要闻

美国政府对外交官下令：开始行动

体育要闻

从排球少女到冰壶女神，她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利，不惑于内外

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

数码

手机

游戏

艺术

旅游要闻

京城灯会点亮文旅融合新画卷

数码要闻

传魅族手机业务3月退出历史舞台车机业务独立运营

手机要闻

三星Galaxy S26系列正式发布：影像全面升级，搭载防窥屏幕

穿不起内衣的啥子国王，是怎么从妮姬表情包之王变成底层逻辑的？

艺术要闻

莫妮卡、麦当娜……这个法国女人拍遍了全世界的性感女神！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版