网易首页 > 网易号 > 正文 申请入驻

微软这篇论文扎心:3步拆解让AI技能从"开卷考"变"闭卷考"

0
分享至

一个被喂了答案的AI,和一个真正会查资料的AI,差距有多大?Liu等人2026年的新研究给出了量化答案——当测试环境从"理想温室"搬进"野生丛林",技能调用率断崖下跌。

理想测试正在制造幻觉

现有基准测试SKILLSBENCH有个隐蔽的bug:它给AI的技能库,精准得像作弊小抄。找USGS洪水数据?技能文件里直接塞了API名称、数据源URL、检测代码片段。这不是让AI"学会用工具",这是把饭嚼碎了喂到嘴边。

研究者把这种测试比作开卷考试——考生带的是整理好的笔记,而非真去图书馆翻书。更麻烦的是,这类测试无法区分:AI是真的掌握了技能检索能力,还是只是擅长做文本匹配。

三层剥离实验:从温室到荒野

论文设计了三阶难度,逐层拆除安全网。

第一层拆"精准匹配"。不再给任务定制技能,而是从通用技能库中随机抽取子集。AI必须在50个无关技能里,捞出真正能用的那几个。技能召回率(recall)立刻成为核心指标——找不找得到,比用不用得好更重要。

第二层拆"上下文提示"。技能文件不再随任务打包送达,需要AI主动从外部存储检索。这一步模拟真实开发场景:工程师不会把整本手册贴进聊天框,AI也得学会自己翻文档。

第三层最狠:连技能描述都模糊化。不再写"用于获取USGS水位数据",而是改成"水文数据查询接口"。AI必须理解语义关联,而非做关键词匹配。

野生环境下的真实表现

实验结果暴露了残酷差距。在理想设置下,主流模型的技能调用准确率普遍超过80%;进入三层剥离后的野生环境,部分模型跌至40%以下。最致命的瓶颈出现在第一层:当技能库规模扩大10倍,召回率下降幅度远超预期。

研究者发现,当前模型的技能选择策略过于依赖表面文本相似度。面对"分析河流流量趋势"这类需求,模型能精准匹配带"USGS"字样的技能;但若技能描述改为"联邦地质调查局公开数据源",同一能力瞬间失联。

一个细节值得玩味:Claude系列在三层测试中表现相对稳定,而部分开源模型的性能曲线近乎垂直下滑。这暗示技能泛化能力可能与训练时的工具调用数据质量强相关,而非单纯 scaling law 的副产品。

给技能生态建设者的冷思考

论文的隐含质问直指行业现状:我们到底在优化什么?是让AI在 curated 环境里表演正确,还是让它在混乱的真实世界存活?

SKILLSBENCH的原始设计并非恶意,但它确实掩盖了一个关键变量——技能发现(skill discovery)与技能执行(skill execution)是两种能力。前者在真实场景中的权重,可能被系统性低估了。

研究者建议新的评估维度:技能库噪声容忍度、语义漂移鲁棒性、以及"有效技能密度"——即在给定任务下,技能库中真正有用的技能占比。当这个密度从100%(理想测试)降至5%(真实代码库),模型的行为模式会发生质变。

如果你正在构建AI编程助手,这篇论文的测试框架可以直接复刻。把你的技能库随机打乱,去掉任务相关的提示词,再看AI还能不能干活——这个简单的"压力测试",可能比跑一百个标准基准更有信息量。

最后一个问题留给你:当你的用户第20次问同一个问题时,你的AI是在重复调用那个被验证过的技能,还是在技能库里重新迷路?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不打了!MVP附加赛报销!全联盟最贵的毒药合同

不打了!MVP附加赛报销!全联盟最贵的毒药合同

篮球实战宝典
2026-04-14 15:30:22
国际米兰夺得第20冠,超越AC米兰,米兰城格局悄然改变

国际米兰夺得第20冠,超越AC米兰,米兰城格局悄然改变

林子说事
2026-04-14 20:56:45
全网炸翻!中方硬刚美军封锁霍尔木兹海峡,摊牌捍卫航行自由。

全网炸翻!中方硬刚美军封锁霍尔木兹海峡,摊牌捍卫航行自由。

荆楚寰宇文枢
2026-04-14 23:33:56
贾浅浅被查,拼爹失败!

贾浅浅被查,拼爹失败!

新浪财经
2026-04-14 15:56:51
马竞vs巴萨半场数据:控球率35%-65%,射门6-7,射正1-6

马竞vs巴萨半场数据:控球率35%-65%,射门6-7,射正1-6

懂球帝
2026-04-15 04:15:34
春天使劲吃,钙比黄豆高2倍,钾比苹果高3倍,中老年人要常吃

春天使劲吃,钙比黄豆高2倍,钾比苹果高3倍,中老年人要常吃

阿龙美食记
2026-04-12 14:51:46
疑似科大讯飞中奖者发文:我就是那个中奖人,再见江湖

疑似科大讯飞中奖者发文:我就是那个中奖人,再见江湖

三言科技
2026-04-14 06:19:04
足坛惨案!弗林蓬生涯上升期不幸离世,加纳足球圈陷入巨大震动

足坛惨案!弗林蓬生涯上升期不幸离世,加纳足球圈陷入巨大震动

誮惜颜a
2026-04-14 21:12:50
故事:辽宁小伙认50岁女教师当干妈,每周去其家中补课酿成悲剧

故事:辽宁小伙认50岁女教师当干妈,每周去其家中补课酿成悲剧

诡谲怪谈
2025-01-22 17:35:57
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
灵魂拷问:地铁安检,什么时候废除?

灵魂拷问:地铁安检,什么时候废除?

十柱
2026-04-14 18:23:57
女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

闪电新闻
2026-04-14 09:57:14
OpenClaw热潮退去,原是闹剧一场

OpenClaw热潮退去,原是闹剧一场

烽火瞭望者
2026-04-14 06:13:59
金融圈突发!涉嫌严重违纪违法,姚玉平被查

金融圈突发!涉嫌严重违纪违法,姚玉平被查

中国基金报
2026-04-14 19:05:24
疯狂特赦!特朗普这操作把全美看傻了

疯狂特赦!特朗普这操作把全美看傻了

李荣茂
2026-04-14 18:59:59
外媒:巴基斯坦购40架歼-35战机,单价8000万美元

外媒:巴基斯坦购40架歼-35战机,单价8000万美元

无人倾听无人倾听
2026-04-14 10:38:21
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
3月,拖后腿!我国外贸顺差,不再是高增长,而是暴跌50%以上

3月,拖后腿!我国外贸顺差,不再是高增长,而是暴跌50%以上

南生今世说
2026-04-14 11:01:52
补蛋白就是增命!多吃8种好吸收的高蛋白食物,让你老了自己走路

补蛋白就是增命!多吃8种好吸收的高蛋白食物,让你老了自己走路

美食店主
2026-03-21 07:29:20
特朗普称与伊朗会谈“可能未来两天内”在巴基斯坦举行

特朗普称与伊朗会谈“可能未来两天内”在巴基斯坦举行

财联社
2026-04-14 23:30:22
2026-04-15 05:19:00
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
1373文章数 9关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

以色列开出与伊朗停战先决条件

头条要闻

以色列开出与伊朗停战先决条件

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

艺术
游戏
教育
房产
公开课

艺术要闻

她的水彩画竟让亿万男人倾倒,你绝对想不到!

系好安全带!原作者确认《地铁2039》将比前作更黑暗

教育要闻

他们眼里的光被点燃!中华中学首届南大班学习成果汇报

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版