网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI联创喊话：ARC-AGI-X该搞黑箱测试

2026-03-27 00:32:27　来源: 碳基打工人

北京举报

0

分享至

ARC-AGI-2刚把o3的得分从85%打到5.5%，Greg Brockman就跳出来提新方案。这位OpenAI联创在X上发文，说想要一个「黑箱版」ARC-AGI-X——找家靠谱机构搭基准测试，拉外部专家把关，但题目和题型永远保密。

这想法听着像高考命题组的操作。Brockman的逻辑是：公开题库等于开卷考，模型可以针对性刷题；要是题目藏死，才能真正测出泛化能力。换句话说，他想把AI测评从「应试」拉回「实战」。

「他们永远不披露题目，甚至不透露挑战的性质」——这是Brockman原话里的核心。没题型、没样例、没备考范围，相当于让AI上战场前连敌人在哪都不知道。

但黑箱测试也有硬伤。不公开意味着无法复现，第三方怎么验证结果？Brockman没提这茬。ARC Prize基金会那边也没接话，他们刚花三个月把o3测崩，现在正忙着修评分标准。

有意思的是，Brockman自己就在造AGI。OpenAI的o3正是ARC-AGI-2的最大受害者，从「接近人类水平」一夜跌回「勉强及格」。这时候喊黑箱，难免被猜是在找新战场——毕竟公开赛道已经卷不动了。

一位参与过ARC-AGI-1的研究员私下吐槽：「要是连题型都不说，我们怎么知道测的是推理还是运气？」这问题Brockman没回答。他那条推文发完再没更新，评论区倒是吵了三百多条。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

张雪说要革掉一些不上进的人

点时新闻 2026-04-07 14:50:35
86 跟贴 86
毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体 2026-04-05 08:48:13
2610 跟贴 2610

“祖先给的特权”，河南网友称祖坟在景区祭祖免票，景区回应：没过检票口，一般是附近住户的祖坟

大风新闻 2026-04-06 15:06:12
2008 跟贴 2008

农民养老金专题座谈会在京召开专家建议提高高龄农民基础养老金

中国青年报 2026-04-07 19:52:06
106 跟贴 106
美媒：“无法无天的世界代价高昂”

参考消息 2026-04-07 16:50:06
69 跟贴 69

赵心童创“三冠”新纪录，英媒直呼：其统治力“令对手胆寒”

环球网资讯 2026-04-07 06:56:17
137 跟贴 137

业内人士谈上海二手房大幅跳价：此时涨价，未必是最优解

中国能源网 2026-04-07 11:47:05
337 跟贴 337
北约陷77年来最严重危机之际吕特"急救式"访美

上观新闻 2026-04-07 22:40:06
49 跟贴 49

广州外卖骑手去年平均薪酬15万，快递员、货车司机收入下降

南方都市报 2026-04-07 18:12:09
476 跟贴 476
上海一公园内，游客爬上樱花树拍照，结果整棵树倒下！网友：不堪重妇！

上观新闻 2026-04-07 16:33:38
132 跟贴 132
8个月的小狗高度近视，主人花800元给它配了副眼镜，主人：之前它吃饭要趴地上找大半天#小狗近视 #萌

开屏新闻客户端 2026-04-07 16:14:33
104 跟贴 104
社保基金会：坚决拥护党中央决定

新京报 2026-04-07 21:41:14
12 跟贴 12
下个小长假，不是“五一”？！

最江阴 2026-04-07 11:07:24
349 跟贴 349
中国3月外汇储备33421.23亿美元

界面新闻 2026-04-07 16:08:50
466 跟贴 466
家国永念｜一个有希望的民族不能没有英雄

国际在线 2026-04-07 10:18:15
731 跟贴 731
28年26场访谈，余华《我只要写作，就是回家》出新版

澎湃新闻 2026-04-07 08:26:28
60 跟贴 60
监控系统出现漏洞，300多人被带走？海康威视回应

每日经济新闻 2026-04-07 15:06:19
1 跟贴 1
张雪公布自己设计的跨界踏板车设计图，最新回应：正在制作踏板摩托，这款踏板偏运动越野风格，售价可能比传统的贵一点

鲁中晨报 2026-04-07 17:13:05
0 跟贴 0
纳指收涨0.1% 博通涨超6%

每日经济新闻 2026-04-08 05:08:04
0 跟贴 0
安徽六岁女童嫌疑犯的社交账号，让人越看心里越发毛，家有两娃

魔都姐姐杂谈 2026-04-08 05:08:34
0 跟贴 0

邱彪有麻烦了！剩7场比赛，对手全是狠角色，媒体人：能赢3场算赚

邱彪有麻烦了！剩7场比赛，对手全是狠角色，媒体人：能赢3场算赚

金山话体育

2026-04-07 09:54:48

张本美和夺冠，三十多年前何智丽的回旋镖打回中国乒乓球队

张本美和夺冠，三十多年前何智丽的回旋镖打回中国乒乓球队

罗纳尔说个球

2026-03-17 21:33:29

新款萤火虫上市售价7.98万元起内外焕新动力全面提升

新款萤火虫上市售价7.98万元起内外焕新动力全面提升

第壹新车

2026-04-07 20:19:12

从8.3飙到9.6，这是国产真·神剧

从8.3飙到9.6，这是国产真·神剧

独立鱼

2026-04-07 21:09:03

8700 万镑！曼联锁定边路新杀器，实力碾压姆贝莫

8700 万镑！曼联锁定边路新杀器，实力碾压姆贝莫

奶盖熊本熊

2026-04-08 04:52:55

疯三总奖金高达2.26亿美元！NCAA真的令中国联赛汗颜？

疯三总奖金高达2.26亿美元！NCAA真的令中国联赛汗颜？

田先生篮球

2026-04-06 23:02:37

浙江新增一所985大学，全国都在限制，浙江为什么突围？

浙江新增一所985大学，全国都在限制，浙江为什么突围？

高等教育数字局

2026-04-07 12:25:12

随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

侧身凌空斩

2026-04-07 06:04:43

伊朗民众组成人链保护发电厂和桥梁

伊朗民众组成人链保护发电厂和桥梁

21世纪经济报道

2026-04-07 23:38:05

为什么WTO很少被提起了？中国入世谈判花了15年，如今几乎被架空

为什么WTO很少被提起了？中国入世谈判花了15年，如今几乎被架空

古史青云啊

2026-04-07 14:52:09

中国的“性萧条”时代，正式到来了

中国的“性萧条”时代，正式到来了

律法刑道

2025-12-15 08:28:58

为什么没人联合打以色列，答案很简单：不是没人想打，是没人敢打

为什么没人联合打以色列，答案很简单：不是没人想打，是没人敢打

墨印斋

2026-04-07 13:47:02

陈丽华去世后，富华已完成交接，迟重瑞的晚年也成关注点

陈丽华去世后，富华已完成交接，迟重瑞的晚年也成关注点

白浅娱乐聊

2026-04-07 22:32:15

你的亲戚能坏到啥地步？网友：只要你有道理，千万别怕，发疯到底

你的亲戚能坏到啥地步？网友：只要你有道理，千万别怕，发疯到底

带你感受人间冷暖

2026-04-08 00:40:03

为何中年女性出轨不开房了，反而喜欢选择这些地点呢？

为何中年女性出轨不开房了，反而喜欢选择这些地点呢？

思絮

2026-03-20 12:18:19

偶像，约基奇赛后主动找到杨瀚森拥抱致意

偶像，约基奇赛后主动找到杨瀚森拥抱致意

懂球帝

2026-04-07 12:58:11

2020年，长沙女子癌症晚期，争夺女儿40万学费，直言：我只想活着

2020年，长沙女子癌症晚期，争夺女儿40万学费，直言：我只想活着

大鱼简科

2026-04-06 11:33:07

王濛当面怼倪萍，这一句“我不吃这套”让多少人破防了

王濛当面怼倪萍，这一句“我不吃这套”让多少人破防了

情感大头说说

2026-04-07 16:52:00

航天从不是赌局！NASA拿4人生命赶进度，反观中国，行稳致远才是王道

航天从不是赌局！NASA拿4人生命赶进度，反观中国，行稳致远才是王道

Thurman在昆明

2026-04-06 01:26:13

可爱教主，真润啊！

贵圈真乱

2026-04-07 12:25:06

碳基打工人

坐标北京，靠咖啡续命，靠小红书下饭的普通人类。

960文章数 6关注度

往期回顾全部

科技要闻

满嘴谎言！OpenAI奥特曼黑料大起底

头条要闻

特朗普：伊朗人愿为自由承受轰炸

头条要闻

特朗普：伊朗人愿为自由承受轰炸

体育要闻

阿韦洛亚：诺伊尔是本场最佳；我们会带着必胜的信念前往德国

娱乐要闻

女首富陈丽华离世被曝生前已分好遗产

财经要闻

10万亿财政转移支付，被谁拿走了？

汽车要闻

不止是大极狐首款MPV问道V9静态体验

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

手机

时尚

健康

艺术

旅游要闻

废弃“老北京景观”能否随意搬回家

手机要闻

骁龙8 Elite Gen6再次曝光：5.3GHz+LPE协处理器，友商没法接招！

120元和120分钟，哪个更奢侈？

干细胞抗衰4大误区,90%的人都中招

艺术要闻

李苦禅这简简几笔，能让你欢快一整天

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版