ARC-AGI-2刚把o3的得分从85%打到5.5%,Greg Brockman就跳出来提新方案。这位OpenAI联创在X上发文,说想要一个「黑箱版」ARC-AGI-X——找家靠谱机构搭基准测试,拉外部专家把关,但题目和题型永远保密。
这想法听着像高考命题组的操作。Brockman的逻辑是:公开题库等于开卷考,模型可以针对性刷题;要是题目藏死,才能真正测出泛化能力。换句话说,他想把AI测评从「应试」拉回「实战」。
「他们永远不披露题目,甚至不透露挑战的性质」——这是Brockman原话里的核心。没题型、没样例、没备考范围,相当于让AI上战场前连敌人在哪都不知道。
但黑箱测试也有硬伤。不公开意味着无法复现,第三方怎么验证结果?Brockman没提这茬。ARC Prize基金会那边也没接话,他们刚花三个月把o3测崩,现在正忙着修评分标准。
有意思的是,Brockman自己就在造AGI。OpenAI的o3正是ARC-AGI-2的最大受害者,从「接近人类水平」一夜跌回「勉强及格」。这时候喊黑箱,难免被猜是在找新战场——毕竟公开赛道已经卷不动了。
一位参与过ARC-AGI-1的研究员私下吐槽:「要是连题型都不说,我们怎么知道测的是推理还是运气?」这问题Brockman没回答。他那条推文发完再没更新,评论区倒是吵了三百多条。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.