网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI 推理露真容：WebDetective无泄题测试，顶尖模型仅56 分

2025-10-31 14:58:55　来源: DATAVIEW

浙江举报

0

分享至

一、侦探破案隐喻：AI 推理的真实困境

“找出凯恩・科恩斯的父亲是谁？”

如果有人告诉你 “先找他哥哥，再找哥哥的继母，最后找继母的丈夫”，这案子堪称送分题。但要是没有任何提示，你得自己琢磨查谁、问谁、走哪条线索 —— 这才是 AI 真正面临的考验。

2025 年 10 月，阿里通义实验室等机构的研究揭开了一个残酷真相：我们一直用 “泄题” 的试卷考 AI，导致严重高估了它的推理能力。更关键的是，他们推出了首个 “无提示” 测试系统 WebDetective（代码已开源），一考之下，25 个顶尖 AI 原形毕露。

二、传统测试的 “泄题” 套路：AI 一直在 “做弊”？

就像考核侦探却提前给线索，当前 AI 测试的 “泄题” 分两种：

路径提示：问题直接给出推理步骤，比如问 “凯恩的哥哥的继母的丈夫是谁”。AI 只需按图索骥，根本不用想 “从哪开始查”。
规范提示：用一堆特征画 “身份指纹”，比如 “找 5AA 电台的前足球运动员主持人，妻子是 2007 年工党候选人”。AI 只需匹配特征，本质是 “填数独” 而非推理。

更糟的是，传统评估只看 “对不对”，不管 “怎么答的”。就像侦探猜中答案、查错步骤、直接放弃，都算 “失败”—— 根本分不清 AI 是找不到线索、不会拼线索，还是瞎猜。

三、WebDetective：给 AI 出的 “真考题”

为了考出真实水平，WebDetective 设计了两大杀招：

1. 只给问题，不给提示

直接问 “凯恩的父亲是谁”，没有任何步骤指引。就像警长扔下案子就走，侦探全靠自己摸索。

2. 打造 “密室逃脱” 式测试环境

怕 AI 走捷径（比如直接搜到凯恩父子同框新闻），研究团队建了个 “受控维基百科”：

凯恩的页面只写着 “有个哥哥查德”
查德的页面只写着 “继母是妮可”
妮可的页面才写着 “丈夫格雷厄姆”

就像密室逃脱，必须拿到前一扇门的钥匙才能进下一扇，AI 想跳过步骤根本不可能。同时，系统还能追踪 AI 的每步操作，精准定位失败原因。

3. 医生式诊断框架

不再只看 “对错”，而是拆分评估：

知识获取：找到关键线索了吗？（像侦探收集到证物没）
答案生成：有线索能拼出真相吗？没线索会说 “不知道” 吗？（像侦探会分析证物、懂不懂认输）

四、给 AI 配 “办案工具”：EvidenceLoop 的尝试

研究团队没只挑问题，还做了个 “AI 办案助手” EvidenceLoop，核心是三个设计：

侦探团队协作：3 个 AI 分头查线索，汇总后再深入，避免漏线索或信息过载；
证物编号系统：线索存成 “证据 #042”，摘要 + 编号既省空间又能随时调原证；
实时审核机制：AI 答完必须标证据，专人（验证 AI）查 “线索对不对、能不能拼出答案”，有漏洞就补查。

这套系统准确率达 25%，虽不如顶尖模型，但指明了方向。不过也暴露了 AI 的新问题：会 “过早放弃”、记不住之前的线索、反复查同一页面浪费精力。

五、真相：我们可能高估了 AI 的进步

这项研究最值钱的不是分数，而是搞懂了 AI “哪里不行”：

不是 AI 没进步，是之前的测试太水 —— 就像用开卷考成绩当智商分；
当前技术下，AI 要么推理强但爱瞎猜，要么靠谱但不顶尖，二者难兼顾；
AI 缺 “工作记忆”，记不住推理过程中的线索，这得从模型架构上改。

就像侦探得懂收集、分析、判断分寸，真正的 AI 推理也得会找线索、拼线索、知边界。现在看来，这条路还长着呢。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

美国高官谈对委行动：主宰世界的是实力、武力与权力

看看新闻Knews 2026-01-08 11:01:03
15823 跟贴 15823
歼-35开启新年第一飞媒体揭秘试飞机为何是"绿皮机"

央视新闻 2026-01-08 09:21:10
7377 跟贴 7377

上海男篮又要破纪录了？

新民晚报 2026-01-08 10:10:34
496 跟贴 496

河南三兄弟连续11年给家乡老人发放救助金，村支书：每人每月发300元到1000元，累计发了600多万元，有老人已经领了七八万元

极目新闻 2026-01-07 21:22:09
2100 跟贴 2100
黄鹤楼景区应修北门？建议来了

极目新闻 2026-01-06 10:23:04
819 跟贴 819

微信辟谣网传新规则

界面新闻 2026-01-08 14:53:45
2007 跟贴 2007

阿里：加大投入淘宝闪购以达到市场绝对第一

第一财经资讯 2026-01-08 13:44:51
1437 跟贴 1437
商务部回应审查Meta收购Manus

财联社 2026-01-08 15:20:32
1128 跟贴 1128

国内多条航线机票价格“大跳水” 1折机票来了

环球网资讯 2026-01-08 11:26:53
1062 跟贴 1062
每斤4.47万元！查干湖冬捕38斤“头鱼”拍出1699999元高价，将在直播间抽奖免费送网友

极目新闻 2026-01-08 13:22:08
654 跟贴 654
全球用户大面积中招：鼠标突然就“坏了”！不少人按到“手抽筋”，重装卸载也不管用，罗技回应

每日经济新闻 2026-01-08 20:15:12
56 跟贴 56
两部门：做好职工基本医疗保险个人账户跨省共济工作

界面新闻 2026-01-09 08:03:43
31 跟贴 31
十专业全国职校第一毕业生年均就业率超97%

南方都市报 2026-01-09 07:06:20
1 跟贴 1
容器像猪食槽的火锅火了老板：老石头改造，猪没用过

封面新闻 2026-01-08 15:17:05
93 跟贴 93
双手拎满“家乡味”，父亲坐3小时大巴车跨省给儿子庆生

澎湃新闻 2026-01-09 08:34:28
1 跟贴 1
“光明城站买咖啡难商业配套几乎空白”

南方都市报 2026-01-09 07:06:20
4 跟贴 4
铅酸筑基锂电领衔！骆驼蓄电池双轨构建品质护城河

鲁中晨报 2026-01-08 17:31:34
269 跟贴 269
U23亚洲杯首战中国队无缘开门红这一场平局却让人看到希望

上观新闻 2026-01-09 08:20:06
11 跟贴 11
单亲妈妈柬埔寨寻子一个月无果，19岁小伙疑被16万元转卖，与母亲视频通话时曾按“酒窝”暗示“救我”

极目新闻 2026-01-08 21:08:49
0 跟贴 0
苍天饶过谁！拒唱国歌否认中国籍，俩儿子落户国外，她现状如何？

来科点谱 2026-01-09 08:57:08
0 跟贴 0
广东即将升温，广州重回20℃！新冷空气已“安排”

鲁中晨报 2026-01-09 07:09:23
0 跟贴 0

美军狂追18天，最后一刻抢下俄超级油轮，俄海军终究晚来一步

美军狂追18天，最后一刻抢下俄超级油轮，俄海军终究晚来一步

军机Talk

2026-01-08 10:41:44

放过保时捷，咱换一家抄好不好？

放过保时捷，咱换一家抄好不好？

爱范儿

2026-01-08 18:16:20

太行山采药人发现1943年跳崖八路军遗骸，腰带里缝着党员证

太行山采药人发现1943年跳崖八路军遗骸，腰带里缝着党员证

鹤羽说个事

2026-01-08 11:02:25

天网恢恢！表面是热心公益的华人会长，其实是绑架杀人，无恶不作

天网恢恢！表面是热心公益的华人会长，其实是绑架杀人，无恶不作

不与世俗同

2026-01-08 11:11:38

泡泡玛特马年新品线上开售，众网友提前发起“拼盒”，已有人愿高价收购心仪IP盲盒，记者实测：1分钟内多渠道显示已售罄

泡泡玛特马年新品线上开售，众网友提前发起“拼盒”，已有人愿高价收购心仪IP盲盒，记者实测：1分钟内多渠道显示已售罄

极目新闻

2026-01-08 22:40:22

这次不一样了：美国扣押俄国油轮，最受伤的不是俄罗斯

这次不一样了：美国扣押俄国油轮，最受伤的不是俄罗斯

十柱

2026-01-08 12:55:50

白宫“购岛”方案流出：向格陵兰人一次性付款，以说服他们脱离丹麦并可能加入美国，每人或得1万-10万美元

白宫“购岛”方案流出：向格陵兰人一次性付款，以说服他们脱离丹麦并可能加入美国，每人或得1万-10万美元

都市快报橙柿互动

2026-01-09 08:14:32

柯文哲推动“绿白合”？蓝营议员警告：民众党支持者未必跟进

柯文哲推动“绿白合”？蓝营议员警告：民众党支持者未必跟进

海峡导报社

2026-01-09 07:36:14

一名美国公民在拍摄ICE执法，离开时被连开3枪当场击毙，随后街头失控，催泪弹清场...

一名美国公民在拍摄ICE执法，离开时被连开3枪当场击毙，随后街头失控，催泪弹清场...

北美省钱快报

2026-01-08 08:14:39

俄罗斯赤道特遣队撤回国内，美国捕马撕去莫斯科最后一块遮羞布

俄罗斯赤道特遣队撤回国内，美国捕马撕去莫斯科最后一块遮羞布

史政先锋

2026-01-07 19:38:07

上海移动发布声明：已报案！

每日经济新闻

2026-01-08 22:09:05

媒体终于报道伊朗了，但评论却是经过精心筛选的

媒体终于报道伊朗了，但评论却是经过精心筛选的

清书先生

2026-01-08 16:55:15

王大发揭司晓迪老底：倒贴范丞丞，勾搭屈楚萧，是撒谎惯犯

王大发揭司晓迪老底：倒贴范丞丞，勾搭屈楚萧，是撒谎惯犯

娱小北

2026-01-08 15:25:51

出差前我把家里地暖关了，当晚楼下阿姨在群里开骂…

出差前我把家里地暖关了，当晚楼下阿姨在群里开骂…

极品小牛肉

2026-01-05 14:43:53

2299元波司登商务羽绒服充绒量仅86克，网友质疑品牌溢价过高，客服回应

2299元波司登商务羽绒服充绒量仅86克，网友质疑品牌溢价过高，客服回应

极目新闻

2026-01-08 22:29:38

深圳国资委“深夜输血”46亿，这家两千亿巨头的弹药库满了

深圳国资委“深夜输血”46亿，这家两千亿巨头的弹药库满了

商业不许冷

2026-01-08 20:49:13

伊朗安全部队放下武器加入抗议，哈梅内伊倒计时开始

伊朗安全部队放下武器加入抗议，哈梅内伊倒计时开始

移光幻影

2026-01-07 15:18:07

特朗普再次就骚乱事件对伊朗发出威胁

特朗普再次就骚乱事件对伊朗发出威胁

环球网资讯

2026-01-09 06:52:11

队记：这是杨瀚森本赛季打得最好的一场真正做到了能被教练用上

队记：这是杨瀚森本赛季打得最好的一场真正做到了能被教练用上

罗说NBA

2026-01-09 07:36:38

对重伤球员施暴！阿森纳红星遭狂喷：可耻逃红利物浦全队该揍他

对重伤球员施暴！阿森纳红星遭狂喷：可耻逃红利物浦全队该揍他

我爱英超

2026-01-09 07:51:15

时刻讨论和分析世界、行业、AI等热门话题，只提取高价值信息

32文章数 2关注度

往期回顾全部

科技要闻

内存一天一个价，华强北老板们却高兴不起来

头条要闻

男子与女友吵架飙车泄愤撞死1家3口当时讨论鹦鹉学舌

头条要闻

男子与女友吵架飙车泄愤撞死1家3口当时讨论鹦鹉学舌

体育要闻

世乒赛银牌得主，说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播，获观众好评

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

从量变到"智"变吉利在CES打出了五张牌

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

房产

亲子

旅游

军事航空

艺术要闻

毛主席致陈委员信：笔法与结体，谁更难掌握？

房产要闻

豪宅抢疯、刚需捡漏……2025年，一张房票改写了广州市场格局

亲子要闻

外国女星三胎“坐月子”火了！感谢月嫂救命，沉迷月子餐和养生茶

旅游要闻

贵州六盘水：“南国雪乡”引客来

军事要闻

特朗普：已开始从委石油资源中赚钱

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版