网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

2025-03-25 12:17:06　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子英智

【新智元导读】AI界「智商大考」ARC-AGI-2重磅出炉了！一个人类用5分钟轻松解开的谜题，却让最顶尖LLM全线崩盘得分挂零，o3更是从曾经76%暴跌至4%。它正式宣告，人类还未实现AGI。

时隔6年，ARC-AGI-2正式推出！

一大早，Keras之父François Chollet官宣了全新迭代后的ARC-AGI-2，再次拉高了AI「大考」的难度。

这些对人类再简单不过的题目，LLM最先败北，先上结果：

基础大模型（GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ），全部得0分。

CoT推理模型（Claude Thinking、R1、o3-mini），得分也不过4%。

相较之下，2024年ARC Prize冠军模型（53.5%）却在新版本考试中，成绩仅剩3.5%。

OpenAI的o3-low模型也从75.7%骤降至4%。而且，每项任务成本效率也是o3-low和o1-pro最高，达到200美金。

相反，在ARC-AGI-2里的每个任务，都至少有两名人类能在两次尝试内成功解决。

ARC-AGI-2的出世，证明了「人类尚未实现AGI」！

现场400人实测，普通人无训练能拿下60%准确率，10人小组能达到100%

初代ARC-AGI（2019年），曾在去年揭示了AI重大转变，LLM从「纯记忆」向「测试时推理」的进化。

许多之前一眼就看透的问题，在ARC-AGI-2中，至少需要几分钟的深思熟虑——人类测试者平均需要5分钟才能解题。

最新ARC-AGI-2，恰恰暴露了当前AI三大短板：符号解释、组合推理、上下文规则应用。

这些皆需要LLM在测试时，展现真正的适应能力，具备灵活应对新问题的「流体智力」，而不是靠预训练数据「硬背」过关。

值得一提的是，2025年ARC奖本周将在Kaggle平台上线，总奖金高达100万美元。

今年的竞赛在去年基础上再加码，计算资源翻倍，旨在推动开源项目发展，助力打造能战胜ARC-AGI-2的系统。

AI「大考」难度进阶，AGI梦碎？

其他AI基准测试，基本都聚焦于测试「博士以上水平」的技能，来考察超越人类的能力或专业知识。

但ARC-AGI关注的是对人类相对容易，对AI却困难重重的任务。

这样一来，就能精准定位那些不会因为规模扩大就自动消失的能力差距。

ARC奖将此融入对AGI的衡量标准：对人类容易、对AI困难的任务之间的差距，即「人机差距」。

当这个差距变为零，也就是不存在能难倒AI的任务时，我们就实现了AGI。

要弥补这些能力差距，需要全新的见解和思路。ARC-AGI不只是衡量AGI的进展，更重要的是激励研究人员探索新思路。

AI系统在不少特定领域（如围棋、图像识别）已超越人类。但这些只是狭隘、专门的能力。

「人机差距」揭示了AGI所欠缺的部分：高效获取新技能的能力。

ARC-AGI-2登场，基础LLM挂零

今日正式发布的ARC-AGI-2基准测试，在对人类难度不变的前提下，极大提高了对AI的难度挑战。

在一项有400人参与的对照研究中，ARC-AGI-2的每个任务，都至少有两名参与者能在两次或更少的尝试内解决。

这和给AI设定的规则一致，每个任务AI都有两次尝试机会。

与ARC-AGI-1类似，ARC-AGI-2采用「两次尝试通过（pass@2）」的评估体系，因为部分任务存在显著的模糊性，需要两次猜测来消除歧义，同时也用于排查数据集中可能无意出现的模糊或错误之处。

经过人类测试，相较于ARC-AGI-1，作者对ARC-AGI-2任务质量更具信心。

以下是ARC-AGI-2的官方更新内容：

所有评估集（公开、半私有、私有）的任务数量从100个增加至120个。
剔除了评估集中易受暴力搜索破解的任务，即2020年原始Kaggle竞赛中已被解决的所有任务。
开展人类测试，以校准评估集难度，确保任务独立同分布，并验证至少有两名人类可在两次尝试内解决任务，这与对AI的要求一致。
根据研究成果，设计了新任务来挑战AI推理系统，涵盖符号解释、组合推理、上下文规则等多个方面。

2019年推出的ARC-AGI-1，主要是为了挑战深度学习，尤其是防止模型单纯「记忆」训练数据集。

ARC-AGI包含一个训练数据集和多个评估集，其中私有评估集用于2024年ARC奖竞赛。训练集的作用是让模型学习解决评估集中任务所需的核心知识。

为了完成评估集中的任务，AI必须展现出适应全新任务的能力。

打个比方，训练集就像是教你认识小学算术符号，而评估集则要求用这些符号知识去解代数方程。你不能靠死记硬背得出答案，必须把知识灵活运用到新问题上。

ARC-AGI-2对AI的要求更高，要想战胜它，必须具备高度的适应性和高效性。

下面是ARC-AGI-2的示例任务，满足两个条件：一是至少有两名人类能在两次尝试内解决；二是所有前沿AI推理系统都无法解决。

符号解释

前沿AI推理系统在处理需要赋予符号超出视觉模式意义的任务时，表现欠佳。

系统能进行对称性检查、镜像、变换，甚至识别连接元素，但就是无法理解符号本身的语义。

组合推理
AI推理系统在处理需要同时应用多个规则，或者应用相互关联规则的任务时，困难重重。

相反，要是任务只有一两条全局规则，这些系统就能发现并运用规则。

上下文规则应用
AI推理系统在面对需根据上下文灵活应用规则的任务时，也会陷入困境。

它们往往只关注表面模式，无法理解背后的选择原则。

两人组队拿满分，o3仅4%

ARC-AGI-2由以下数据集构成：

校准指的是这些任务具有独立同分布（IDD）特性。理论上，在公开、半私有和私有评估集上，未出现过拟合情况的分数应具有直接可比性。

为收集相关数据，在严格受控的环境下，对400多位人类进行了测试。

接下来几周，公开任务的人类可解性数据将与ARC-AGI-2论文一同发布。

对所有公开的AI系统重新评估，ARC-AGI-2起始分数如下：

带*的分数，是根据目前收集到的部分结果，还有o1-pro的定价估算出来的。完整结果一出来，马上会公布。

所有分数均按照「两次尝试通过（pass@2）」标准，且基于半私有评估集得出（ARC-AGI-1人类小组和ARChitects除外，分别基于公开评估集和私有评估集）。

人类小组的效率计算基于115-150美元的到场费用，外加解决每个任务奖励5美元。

对成本进行了优化以提升到场率（实际到场率为注册人数的70%）。尽管人类智能成本效率的极限可能在每个任务2-5美元区间，但基于实际收集的数据，报告中每个任务17美元。

等OpenAI o3 low/high的API开放，将对其正式版本进行测试。

用从ARC-AGI-1转到ARC-AGI-2的任务进行预估，o3-low得分约为4%，如果计算量特别大（每个任务数千美元），o3-high得分有望达到15-20%。

智能并非仅是能力

从现在开始，所有ARC-AGI的报告都将附带一项效率指标。

首先选择成本作为指标，因为在对比人类与AI性能时，成本具有最直接的可比性。

智能并非仅是解决问题和获取高分的能力。获取和运用这些能力的效率，是智能的关键要素。

核心问题不仅在于「AI能否掌握解决任务的技能？」，更在于「以怎样的效率或成本来掌握？」

前沿AI系统在ARC-AGI-1与ARC-AGI-2上的得分

仅靠规模远远不够

在资源与搜索时间不受限的情况下，暴力搜索最终能够解决ARC-AGI问题。

但这绝非真正的智能。智能在于高效地找到解决方案，而非盲目穷举。

关注效率是ARC-AGI的核心原则。

明确量化智能的成本，要求解决方案不仅展示能力，更要展现对资源的高效利用，这才是AGI的本质。

全新的ARC-AGI排行榜页面将从分数和成本两个维度同步呈现。

截至2025年3月24日，ARC-AGI新排行榜同时展示分数与效率

本周竞赛盛大开启！

随着ARC-AGI-2的发布，2025年ARC Prize重磅回归！竞赛将于3月至11月期间在Kaggle平台举办。

竞赛设有12.5万美元的保底进展奖，以及高达70万美元的大奖，团队得分超过85%即可解锁！

此外，还有17.5万美元的奖项待后续公布细则。

Kaggle竞赛规则禁止使用互联网API，每次提交仅可使用约50美元的计算资源。

为获取获奖资格，参赛者需在竞赛结束时开源解决方案。

去年的竞赛成果斐然，超过1500支团队踊跃参与，产出了40篇极具影响力的研究论文。

获奖研究人员提出的创新理念已在AI行业得到广泛应用。

参考资料：

https://x.com/arcprize/status/1904269307284230593

https://x.com/fchollet/status/1904265979192086882

https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

义乌9.42平方米商铺拍出1700万元，仅含使用权且只能经营饰品，商城：位置好人流量高

极目新闻 2026-07-01 18:30:15
18411 跟贴 18411
广西17岁少年清晨5点起床拔花生，拔到一半发现错拔别人家的地，发帖求助却被疯狂点赞，当事人：对方没有怪我，还说要请我吃饭

大象新闻 2026-07-01 22:46:58
4055 跟贴 4055

上海一百万豪车停在地库竟被"蚂蚁搬家式”拆光卖了

大风新闻 2026-07-01 15:38:10
1863 跟贴 1863

7月1日起，江苏最低生活保障标准上调！

环球网 2026-07-02 10:47:00
30 跟贴 30
开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1827 跟贴 1827

点球绝杀比利时3-2塞内加尔晋级16强

央视新闻客户端 2026-07-02 06:54:57
1428 跟贴 1428

媒体：乌军更能打了掌握"有效打法"跟俄打得有来有回

中国新闻周刊 2026-07-01 22:57:06
3741 跟贴 3741
心有不满？谢尔基赛后拒绝与法国队主帅德尚握手豪言要“横扫所有对手”的他4战仅出场55分钟

红星新闻 2026-07-01 13:38:12
489 跟贴 489

罕见！广州中心城区，发现多枚完整恐龙蛋化石

南方都市报 2026-07-01 19:51:34
673 跟贴 673
今年我国首个台风来了

界面新闻 2026-07-01 16:45:31
421 跟贴 421
詹姆斯结束8年湖人队生涯，潜在下家曝光；美国体育评论员：他离开不是因为钱，而是感到不被尊重

鲁中晨报 2026-07-01 14:30:03
1048 跟贴 1048
王毅同美国国务卿鲁比奥通电话

新华社 2026-07-01 22:15:02
90 跟贴 90
泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

北京日报客户端 2026-07-02 08:55:17
4927 跟贴 4927
欧洲持续高温推升空调销售激增40倍，买到空调的留学生赞叹“还是祖国服务牛”

极目新闻 2026-06-30 19:09:06
352 跟贴 352
杨子家族28亿套现的清算开始了？

中国能源网 2026-07-02 10:22:26
37 跟贴 37
美贸易代表：美国决定不续签美墨加协定

极目新闻 2026-07-02 00:26:37
352 跟贴 352
湖南一地试点：小学入学可直升高中

澎湃新闻 2026-07-01 13:54:06
375 跟贴 375
河北一景区山顶矿泉水售价1元被赞“良心”，景区：成本价远高于1元售价，没想过靠卖水赚钱

都市快报橙柿互动 2026-07-02 04:17:54
42 跟贴 42
“西安一商场发生人员坠楼”，官方通报：情况属实，坠亡者为某商户负责人

极目新闻 2026-07-02 11:58:33
0 跟贴 0
“圆梦”国产大飞机，C919大型客机工程项目获上海科技进步特等奖

澎湃新闻 2026-07-02 09:48:32
5 跟贴 5
国内首家！中国东航宣布宽体机航班上网全免费

澎湃新闻 2026-07-02 10:34:09
10 跟贴 10
【智启京彩•E路消谣】2026年北京市网络辟谣优秀作品征集活动公告

今日辟谣 2026-07-02 10:45:44
0 跟贴 0
男子导航搜“移动营业厅”到店却无法补卡，经查系山寨店，自营、合作、山寨如何区分？

潇湘晨报 2026-07-02 11:56:13
0 跟贴 0
男子出门洗葱，差点回不了家！近期警惕

新浪财经 2026-07-02 11:59:24
0 跟贴 0

河北邢台童泰高中通报“学生参加高尔夫球选修课时意外受伤”

河北邢台童泰高中通报“学生参加高尔夫球选修课时意外受伤”

界面新闻

2026-07-02 10:17:30

网红程序员靠AI写歌2个月赚18万，自曝炒股1年亏130万，本人回应：不要幻想靠做自媒体一夜暴富

网红程序员靠AI写歌2个月赚18万，自曝炒股1年亏130万，本人回应：不要幻想靠做自媒体一夜暴富

大风新闻

2026-07-01 20:00:21

俄乌伤亡情况，中方一清二楚，当着全世界的面，给两国送两句忠告

俄乌伤亡情况，中方一清二楚，当着全世界的面，给两国送两句忠告

通鉴史智

2026-07-02 11:31:50

兄弟篮球无了！Shams：大瓦格纳2年1900万美元签约篮网

兄弟篮球无了！Shams：大瓦格纳2年1900万美元签约篮网

懂球帝

2026-07-01 23:33:09

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

夜深爱杂谈

2026-02-21 21:37:02

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

帝哥说史

2026-06-02 21:40:03

网友笃定她家黑狗是金毛，大家都不信，直到她晒出这张照片……没毛病，是金毛！

网友笃定她家黑狗是金毛，大家都不信，直到她晒出这张照片……没毛病，是金毛！

爱宠物

2026-06-30 01:01:40

表面老艺术家，私下贪财又好色，这几位晚节不保一点都不冤

表面老艺术家，私下贪财又好色，这几位晚节不保一点都不冤

梦史

2026-06-20 17:12:58

“四时不开窗，家人才健康”，今天才知道：这4个时间不能开窗！

“四时不开窗，家人才健康”，今天才知道：这4个时间不能开窗！

三农老历

2026-07-01 01:28:08

赵嘉仁离队后！广厦超市开张，朱俊龙布朗被疯抢，广东要胡金秋？

赵嘉仁离队后！广厦超市开张，朱俊龙布朗被疯抢，广东要胡金秋？

绯雨儿

2026-07-01 14:34:24

马斯克力挺遭欧洲封杀的电影：好莱坞不希望你看到

马斯克力挺遭欧洲封杀的电影：好莱坞不希望你看到

移光幻影

2026-06-30 08:31:30

霍震霆回应霍启山与娜然结婚传闻

霍震霆回应霍启山与娜然结婚传闻

书台小事

2026-07-01 23:09:21

四渡赤水打的是国民党，电影《四渡》居然要和日本IP作战

四渡赤水打的是国民党，电影《四渡》居然要和日本IP作战

凡知

2026-07-02 05:14:46

智谱用10万块华为昇腾芯片训出最强开源模型

智谱用10万块华为昇腾芯片训出最强开源模型

码上闲叙

2026-07-01 02:31:16

为什么身强力壮的黑人不擅长打仗？还沦为奴隶，理由其实很简单

为什么身强力壮的黑人不擅长打仗？还沦为奴隶，理由其实很简单

掠影后有感

2026-07-01 09:55:42

离谱！湖人梭哈组三巨头吃掉4.75亿薪资，未来7年已无首轮可交易

离谱！湖人梭哈组三巨头吃掉4.75亿薪资，未来7年已无首轮可交易

新杀猪的秀才

2026-07-02 00:02:14

大陆对扣渔民事件强硬回应，四大反制措施已启动

大陆对扣渔民事件强硬回应，四大反制措施已启动

李侽在北漂

2026-06-30 13:41:02

一身功勋章，半生大乌龙：浙江女神探聂海芬的人生沉浮…

一身功勋章，半生大乌龙：浙江女神探聂海芬的人生沉浮…

趣味萌宠的日常

2026-07-01 17:11:44

广东男篮休赛期速递！李炎哲基本敲定广东，徐杰特训遭遇拉伤，杜润旺报告恢复情况

广东男篮休赛期速递！李炎哲基本敲定广东，徐杰特训遭遇拉伤，杜润旺报告恢复情况

凯丰侃球

2026-07-02 10:20:53

挪威举国庆祝 “测震仪出现明显波动”！时隔28年再度杀入16强，“有哈兰德，但不只有哈兰德”

挪威举国庆祝 “测震仪出现明显波动”！时隔28年再度杀入16强，“有哈兰德，但不只有哈兰德”

澎湃新闻

2026-07-01 14:05:56

AI产业主平台领航智能+时代

15586文章数 66943关注度

往期回顾全部

科技要闻

可灵AI上市前夜，快手想给它融30亿美元

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

体育要闻

世界杯硬核球迷，把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家：澜沧巨亏八马停"蹄"

汽车要闻

比亚迪26款海鸥，不到7万配激光雷达，官方还包赔？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

家居

教育

房产

军事航空

数码要闻

苹果预计于2027年春季推出新款11英寸和13英寸iPad Pro

家居要闻

传奇筑日常诗

教育要闻

“没钱就别生我”，这都什么心理

房产要闻

海南楼市新政：公积金最高可贷192万！

军事要闻

万斯：美伊间接会谈进展顺利

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版