网易首页 > 网易号 > 正文 申请入驻

AI 推理露真容:WebDetective无泄题测试,顶尖模型仅56 分

0
分享至

一、侦探破案隐喻:AI 推理的真实困境

“找出凯恩・科恩斯的父亲是谁?”

如果有人告诉你 “先找他哥哥,再找哥哥的继母,最后找继母的丈夫”,这案子堪称送分题。但要是没有任何提示,你得自己琢磨查谁、问谁、走哪条线索 —— 这才是 AI 真正面临的考验。

2025 年 10 月,阿里通义实验室等机构的研究揭开了一个残酷真相:我们一直用 “泄题” 的试卷考 AI,导致严重高估了它的推理能力。更关键的是,他们推出了首个 “无提示” 测试系统 WebDetective(代码已开源),一考之下,25 个顶尖 AI 原形毕露。

二、传统测试的 “泄题” 套路:AI 一直在 “做弊”?

就像考核侦探却提前给线索,当前 AI 测试的 “泄题” 分两种:

  • 路径提示:问题直接给出推理步骤,比如问 “凯恩的哥哥的继母的丈夫是谁”。AI 只需按图索骥,根本不用想 “从哪开始查”。
  • 规范提示:用一堆特征画 “身份指纹”,比如 “找 5AA 电台的前足球运动员主持人,妻子是 2007 年工党候选人”。AI 只需匹配特征,本质是 “填数独” 而非推理。

更糟的是,传统评估只看 “对不对”,不管 “怎么答的”。就像侦探猜中答案、查错步骤、直接放弃,都算 “失败”—— 根本分不清 AI 是找不到线索、不会拼线索,还是瞎猜。

三、WebDetective:给 AI 出的 “真考题”

为了考出真实水平,WebDetective 设计了两大杀招:

1. 只给问题,不给提示

直接问 “凯恩的父亲是谁”,没有任何步骤指引。就像警长扔下案子就走,侦探全靠自己摸索。

2. 打造 “密室逃脱” 式测试环境

怕 AI 走捷径(比如直接搜到凯恩父子同框新闻),研究团队建了个 “受控维基百科”:

  • 凯恩的页面只写着 “有个哥哥查德”
  • 查德的页面只写着 “继母是妮可”
  • 妮可的页面才写着 “丈夫格雷厄姆”

就像密室逃脱,必须拿到前一扇门的钥匙才能进下一扇,AI 想跳过步骤根本不可能。同时,系统还能追踪 AI 的每步操作,精准定位失败原因。

3. 医生式诊断框架

不再只看 “对错”,而是拆分评估:

  • 知识获取:找到关键线索了吗?(像侦探收集到证物没)
  • 答案生成:有线索能拼出真相吗?没线索会说 “不知道” 吗?(像侦探会分析证物、懂不懂认输)



四、给 AI 配 “办案工具”:EvidenceLoop 的尝试

研究团队没只挑问题,还做了个 “AI 办案助手” EvidenceLoop,核心是三个设计:

  1. 侦探团队协作:3 个 AI 分头查线索,汇总后再深入,避免漏线索或信息过载;
  2. 证物编号系统:线索存成 “证据 #042”,摘要 + 编号既省空间又能随时调原证;
  3. 实时审核机制:AI 答完必须标证据,专人(验证 AI)查 “线索对不对、能不能拼出答案”,有漏洞就补查。

这套系统准确率达 25%,虽不如顶尖模型,但指明了方向。不过也暴露了 AI 的新问题:会 “过早放弃”、记不住之前的线索、反复查同一页面浪费精力。

五、真相:我们可能高估了 AI 的进步

这项研究最值钱的不是分数,而是搞懂了 AI “哪里不行”:

  • 不是 AI 没进步,是之前的测试太水 —— 就像用开卷考成绩当智商分;
  • 当前技术下,AI 要么推理强但爱瞎猜,要么靠谱但不顶尖,二者难兼顾;
  • AI 缺 “工作记忆”,记不住推理过程中的线索,这得从模型架构上改。

就像侦探得懂收集、分析、判断分寸,真正的 AI 推理也得会找线索、拼线索、知边界。现在看来,这条路还长着呢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
让党的创新理论入脑入心入魂

让党的创新理论入脑入心入魂

中国教育新闻网
2026-03-04 08:46:12
伊朗方面否认哈梅内伊死亡

伊朗方面否认哈梅内伊死亡

中国网
2026-03-01 07:07:04
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
德黑兰1979:感谢当初匆忙逃离,方有如今群星闪耀

德黑兰1979:感谢当初匆忙逃离,方有如今群星闪耀

黔有虎
2026-03-04 21:00:27
美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

不掉线电波
2026-03-03 15:46:11
接触了北体的男大教练后,我仿佛打开了一个新世界

接触了北体的男大教练后,我仿佛打开了一个新世界

三个妈妈六个娃
2026-03-03 21:07:24
噩耗传来!34岁冠军突发恶疾去世,妻子发声泪目,死因曝光

噩耗传来!34岁冠军突发恶疾去世,妻子发声泪目,死因曝光

秋姐居
2026-03-04 22:05:06
开战4天,中国卫星看到的美以损失情况如何?美国还能坚持多久?

开战4天,中国卫星看到的美以损失情况如何?美国还能坚持多久?

罗富强说
2026-03-04 14:46:02
美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

面包夹知识
2026-03-03 14:54:40
退休后,存款高于“这个数”,你的家庭就很有底气了,说话都硬气

退休后,存款高于“这个数”,你的家庭就很有底气了,说话都硬气

美食格物
2026-03-04 23:23:06
韩国菲律宾惊出一身冷汗:美以伊战争,让反导神器萨德变炸弹磁铁

韩国菲律宾惊出一身冷汗:美以伊战争,让反导神器萨德变炸弹磁铁

触摸史迹
2026-03-04 19:09:08
新华社消息|政府工作报告提出,居民医保人均财政补助标准提高24元

新华社消息|政府工作报告提出,居民医保人均财政补助标准提高24元

新华社
2026-03-05 10:02:25
原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

小徐讲八卦
2026-03-04 13:58:42
【特稿】为收集哈梅内伊情报 以色列“黑”进了德黑兰的交通摄像头

【特稿】为收集哈梅内伊情报 以色列“黑”进了德黑兰的交通摄像头

新华社
2026-03-04 22:59:03
元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

慧翔百科
2026-03-04 09:04:13
核威慑入场!巴基斯坦“最后通牒”,伊朗:动沙特,就是动我!

核威慑入场!巴基斯坦“最后通牒”,伊朗:动沙特,就是动我!

聚焦真实瞬间
2026-03-05 14:40:56
46岁保姆自述:做住家保姆三年,看似轻松,实则是代替妻子的位置

46岁保姆自述:做住家保姆三年,看似轻松,实则是代替妻子的位置

孢木情感
2026-03-05 08:59:41
庞中华现状:和歌唱家妻子很恩爱,81岁精神矍铄,女儿是他的骄傲

庞中华现状:和歌唱家妻子很恩爱,81岁精神矍铄,女儿是他的骄傲

洲洲影视娱评
2026-03-04 13:54:30
香港飞上海航班10分钟骤降7000米!乘客亲述“生死时刻”

香港飞上海航班10分钟骤降7000米!乘客亲述“生死时刻”

听心堂
2026-03-04 16:39:46
不说伊朗了,聊几句现实

不说伊朗了,聊几句现实

林中木白
2026-03-04 16:27:41
2026-03-05 15:51:00
DATAVIEW
DATAVIEW
时刻讨论和分析世界、行业、AI等热门话题,只提取高价值信息
32文章数 2关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

日本政府紧张研判:派自卫队去霍尔木兹海峡

头条要闻

日本政府紧张研判:派自卫队去霍尔木兹海峡

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

小鹏第二代VLA如何破解智驾不敢用的技术困局?

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

奶白柔境 闲卧享时光

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版