网易首页 > 网易号 > 正文 申请入驻

AI 推理露真容:WebDetective无泄题测试,顶尖模型仅56 分

0
分享至

一、侦探破案隐喻:AI 推理的真实困境

“找出凯恩・科恩斯的父亲是谁?”

如果有人告诉你 “先找他哥哥,再找哥哥的继母,最后找继母的丈夫”,这案子堪称送分题。但要是没有任何提示,你得自己琢磨查谁、问谁、走哪条线索 —— 这才是 AI 真正面临的考验。

2025 年 10 月,阿里通义实验室等机构的研究揭开了一个残酷真相:我们一直用 “泄题” 的试卷考 AI,导致严重高估了它的推理能力。更关键的是,他们推出了首个 “无提示” 测试系统 WebDetective(代码已开源),一考之下,25 个顶尖 AI 原形毕露。

二、传统测试的 “泄题” 套路:AI 一直在 “做弊”?

就像考核侦探却提前给线索,当前 AI 测试的 “泄题” 分两种:

  • 路径提示:问题直接给出推理步骤,比如问 “凯恩的哥哥的继母的丈夫是谁”。AI 只需按图索骥,根本不用想 “从哪开始查”。
  • 规范提示:用一堆特征画 “身份指纹”,比如 “找 5AA 电台的前足球运动员主持人,妻子是 2007 年工党候选人”。AI 只需匹配特征,本质是 “填数独” 而非推理。

更糟的是,传统评估只看 “对不对”,不管 “怎么答的”。就像侦探猜中答案、查错步骤、直接放弃,都算 “失败”—— 根本分不清 AI 是找不到线索、不会拼线索,还是瞎猜。

三、WebDetective:给 AI 出的 “真考题”

为了考出真实水平,WebDetective 设计了两大杀招:

1. 只给问题,不给提示

直接问 “凯恩的父亲是谁”,没有任何步骤指引。就像警长扔下案子就走,侦探全靠自己摸索。

2. 打造 “密室逃脱” 式测试环境

怕 AI 走捷径(比如直接搜到凯恩父子同框新闻),研究团队建了个 “受控维基百科”:

  • 凯恩的页面只写着 “有个哥哥查德”
  • 查德的页面只写着 “继母是妮可”
  • 妮可的页面才写着 “丈夫格雷厄姆”

就像密室逃脱,必须拿到前一扇门的钥匙才能进下一扇,AI 想跳过步骤根本不可能。同时,系统还能追踪 AI 的每步操作,精准定位失败原因。

3. 医生式诊断框架

不再只看 “对错”,而是拆分评估:

  • 知识获取:找到关键线索了吗?(像侦探收集到证物没)
  • 答案生成:有线索能拼出真相吗?没线索会说 “不知道” 吗?(像侦探会分析证物、懂不懂认输)



四、给 AI 配 “办案工具”:EvidenceLoop 的尝试

研究团队没只挑问题,还做了个 “AI 办案助手” EvidenceLoop,核心是三个设计:

  1. 侦探团队协作:3 个 AI 分头查线索,汇总后再深入,避免漏线索或信息过载;
  2. 证物编号系统:线索存成 “证据 #042”,摘要 + 编号既省空间又能随时调原证;
  3. 实时审核机制:AI 答完必须标证据,专人(验证 AI)查 “线索对不对、能不能拼出答案”,有漏洞就补查。

这套系统准确率达 25%,虽不如顶尖模型,但指明了方向。不过也暴露了 AI 的新问题:会 “过早放弃”、记不住之前的线索、反复查同一页面浪费精力。

五、真相:我们可能高估了 AI 的进步

这项研究最值钱的不是分数,而是搞懂了 AI “哪里不行”:

  • 不是 AI 没进步,是之前的测试太水 —— 就像用开卷考成绩当智商分;
  • 当前技术下,AI 要么推理强但爱瞎猜,要么靠谱但不顶尖,二者难兼顾;
  • AI 缺 “工作记忆”,记不住推理过程中的线索,这得从模型架构上改。

就像侦探得懂收集、分析、判断分寸,真正的 AI 推理也得会找线索、拼线索、知边界。现在看来,这条路还长着呢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她为儿子息影,却在丈夫肝癌去世后,从主持人到演员,靠演技出圈

她为儿子息影,却在丈夫肝癌去世后,从主持人到演员,靠演技出圈

以茶带书
2026-04-25 15:05:16
美国车企:看不懂中国人,把价值50万的激光雷达,当白菜来卖

美国车企:看不懂中国人,把价值50万的激光雷达,当白菜来卖

潋滟晴方DAY
2026-04-25 15:52:56
霍汶希力挺张敬轩仅6天后续:英皇全艺人遭集体抵制 态度一边倒

霍汶希力挺张敬轩仅6天后续:英皇全艺人遭集体抵制 态度一边倒

观察鉴娱
2026-04-23 12:01:07
美媒再发警告:趁着特朗普犯错,中国已悄悄成为头号强国

美媒再发警告:趁着特朗普犯错,中国已悄悄成为头号强国

百态中的情感起伏
2026-04-25 14:59:17
昨天下午共和新路一辆SUV烧毁

昨天下午共和新路一辆SUV烧毁

上观新闻
2026-04-25 08:32:34
小米推出“米家洗衣机滚筒12Kg超薄嵌入”,首发价1399元

小米推出“米家洗衣机滚筒12Kg超薄嵌入”,首发价1399元

IT之家
2026-04-24 16:27:53
砸下400亿开战!徐明联手本拉登家族,硬刚中石油,千亿帝国崩塌

砸下400亿开战!徐明联手本拉登家族,硬刚中石油,千亿帝国崩塌

爱看剧的阿峰
2026-04-19 17:40:52
赵明也来造车,放话“干翻特斯拉”,车圈彻底乱了

赵明也来造车,放话“干翻特斯拉”,车圈彻底乱了

老特有话说
2026-04-19 15:12:39
“居民投诉水井坊酒糟味刺鼻,让人恶心头晕”,当地回应

“居民投诉水井坊酒糟味刺鼻,让人恶心头晕”,当地回应

澎湃新闻
2026-04-25 11:54:02
首个石油储备完全枯竭国家出现,比菲律宾惨,还有三个国家很危险

首个石油储备完全枯竭国家出现,比菲律宾惨,还有三个国家很危险

混沌录
2026-04-24 21:02:11
今夜,利好!涨疯了

今夜,利好!涨疯了

中国基金报
2026-04-25 00:19:32
伊朗国防部说伊朗已生产逾千种武器装备

伊朗国防部说伊朗已生产逾千种武器装备

界面新闻
2026-04-25 09:35:27
德普前妻隐居欧洲迎双胞胎!单亲妈妈带3娃新照引热议,有人猜生父是她前任马斯克?

德普前妻隐居欧洲迎双胞胎!单亲妈妈带3娃新照引热议,有人猜生父是她前任马斯克?

英国报姐
2026-04-24 20:39:48
就差1秒!特朗普欲发射核武器,军方强行拦截,拒绝为总统扣扳机

就差1秒!特朗普欲发射核武器,军方强行拦截,拒绝为总统扣扳机

江山此夜季
2026-04-25 16:32:35
欧盟宣布最大的第20轮对俄制裁!完全禁止俄石油海上运输

欧盟宣布最大的第20轮对俄制裁!完全禁止俄石油海上运输

项鹏飞
2026-04-24 12:34:28
为啥摩托车违章很少被拍?根本不是侥幸,一文讲透

为啥摩托车违章很少被拍?根本不是侥幸,一文讲透

健身狂人
2026-04-24 12:19:01
ASML公司CEO:中国芯片落后世界8年,因为他们已经8年没有获得我们的EUV光刻机

ASML公司CEO:中国芯片落后世界8年,因为他们已经8年没有获得我们的EUV光刻机

芯火相承
2026-04-23 17:33:03
真假难辨!阿尔瓦雷斯巴萨传闻两极反转,1亿豪赌背后藏西甲变局

真假难辨!阿尔瓦雷斯巴萨传闻两极反转,1亿豪赌背后藏西甲变局

落夜足球
2026-04-25 17:25:28
教育部突发新规!9月1日起取消户籍限制,农村娃、打工娃迎来福音

教育部突发新规!9月1日起取消户籍限制,农村娃、打工娃迎来福音

今朝牛马
2026-04-24 23:04:01
要求全队统一吃早餐!请假还得拍吃饭照!麦基拒绝参加!

要求全队统一吃早餐!请假还得拍吃饭照!麦基拒绝参加!

篮球大图
2026-04-24 20:24:54
2026-04-25 18:11:00
DATAVIEW
DATAVIEW
时刻讨论和分析世界、行业、AI等热门话题,只提取高价值信息
32文章数 2关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

伊朗最高领袖一条腿截肢面部严重烧伤 通信方式披露

头条要闻

伊朗最高领袖一条腿截肢面部严重烧伤 通信方式披露

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

本地
艺术
手机
数码
教育

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

艺术要闻

美国发现一部《十七帖》!这字还原真实的王羲之笔法,放大10倍仍无瑕疵

手机要闻

一加Ace 6至尊版手机规格汇总,4月28日发布

数码要闻

英伟达适配DeepSeek-V4 AI模型,开箱性能超150 tokens/sec/user

教育要闻

秀我中国|当大学生之前,先来村小当“小先生”

无障碍浏览 进入关怀版