一、侦探破案隐喻:AI 推理的真实困境
“找出凯恩・科恩斯的父亲是谁?”
如果有人告诉你 “先找他哥哥,再找哥哥的继母,最后找继母的丈夫”,这案子堪称送分题。但要是没有任何提示,你得自己琢磨查谁、问谁、走哪条线索 —— 这才是 AI 真正面临的考验。
2025 年 10 月,阿里通义实验室等机构的研究揭开了一个残酷真相:我们一直用 “泄题” 的试卷考 AI,导致严重高估了它的推理能力。更关键的是,他们推出了首个 “无提示” 测试系统 WebDetective(代码已开源),一考之下,25 个顶尖 AI 原形毕露。
二、传统测试的 “泄题” 套路:AI 一直在 “做弊”?
就像考核侦探却提前给线索,当前 AI 测试的 “泄题” 分两种:
- 路径提示:问题直接给出推理步骤,比如问 “凯恩的哥哥的继母的丈夫是谁”。AI 只需按图索骥,根本不用想 “从哪开始查”。
- 规范提示:用一堆特征画 “身份指纹”,比如 “找 5AA 电台的前足球运动员主持人,妻子是 2007 年工党候选人”。AI 只需匹配特征,本质是 “填数独” 而非推理。
更糟的是,传统评估只看 “对不对”,不管 “怎么答的”。就像侦探猜中答案、查错步骤、直接放弃,都算 “失败”—— 根本分不清 AI 是找不到线索、不会拼线索,还是瞎猜。
三、WebDetective:给 AI 出的 “真考题”
为了考出真实水平,WebDetective 设计了两大杀招:
1. 只给问题,不给提示
直接问 “凯恩的父亲是谁”,没有任何步骤指引。就像警长扔下案子就走,侦探全靠自己摸索。
2. 打造 “密室逃脱” 式测试环境
怕 AI 走捷径(比如直接搜到凯恩父子同框新闻),研究团队建了个 “受控维基百科”:
- 凯恩的页面只写着 “有个哥哥查德”
- 查德的页面只写着 “继母是妮可”
- 妮可的页面才写着 “丈夫格雷厄姆”
就像密室逃脱,必须拿到前一扇门的钥匙才能进下一扇,AI 想跳过步骤根本不可能。同时,系统还能追踪 AI 的每步操作,精准定位失败原因。
3. 医生式诊断框架
不再只看 “对错”,而是拆分评估:
- 知识获取:找到关键线索了吗?(像侦探收集到证物没)
- 答案生成:有线索能拼出真相吗?没线索会说 “不知道” 吗?(像侦探会分析证物、懂不懂认输)
![]()
四、给 AI 配 “办案工具”:EvidenceLoop 的尝试
研究团队没只挑问题,还做了个 “AI 办案助手” EvidenceLoop,核心是三个设计:
- 侦探团队协作:3 个 AI 分头查线索,汇总后再深入,避免漏线索或信息过载;
- 证物编号系统:线索存成 “证据 #042”,摘要 + 编号既省空间又能随时调原证;
- 实时审核机制:AI 答完必须标证据,专人(验证 AI)查 “线索对不对、能不能拼出答案”,有漏洞就补查。
这套系统准确率达 25%,虽不如顶尖模型,但指明了方向。不过也暴露了 AI 的新问题:会 “过早放弃”、记不住之前的线索、反复查同一页面浪费精力。
五、真相:我们可能高估了 AI 的进步
这项研究最值钱的不是分数,而是搞懂了 AI “哪里不行”:
- 不是 AI 没进步,是之前的测试太水 —— 就像用开卷考成绩当智商分;
- 当前技术下,AI 要么推理强但爱瞎猜,要么靠谱但不顶尖,二者难兼顾;
- AI 缺 “工作记忆”,记不住推理过程中的线索,这得从模型架构上改。
就像侦探得懂收集、分析、判断分寸,真正的 AI 推理也得会找线索、拼线索、知边界。现在看来,这条路还长着呢。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.