网易首页 > 网易号 > 正文 申请入驻

GPT-5在ARC-AGI-3上翻车:1%得分背后

0
分享至


2025年,当GPT-5和Claude在ARC-AGI-2上还能拿到24%的时候,没人想到下一代基准会把所有大模型打回个位数。3月25日,ARC-AGI-3正式上线,预览结果让行业集体沉默:前沿大语言模型得分低于1%,而一个用CNN(卷积神经网络,一种经典图像识别架构)加简单图搜索的方案,拿下了12.58%。

人类基准是100%。

这不是难度升级,是游戏规则重写。ARC-AGI-3彻底抛弃了静态网格谜题,把AI扔进没有说明书、没有胜利条件、甚至没有"你在玩什么"提示的交互环境里。64×64的彩色格子,16种颜色,agent能做的就是移动、点击、重置——然后自己琢磨该干嘛。

François Chollet(基准设计者)等了7年,终于把"通用人工智能"的试金石从纸笔考试改成了荒野求生。

从"解谜"到"生存":ARC的三次变形

2019年Chollet发布初代ARC时,设计哲学很直白:人类能秒懂的抽象推理,AI为什么不行?ARC-AGI-1给出输入输出网格对,系统要推断变换规则。比如输入是三个竖排的点,输出变成横排,规律是"旋转90度"。

这套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+,Chollet承认"ARC-1已饱和"。2024年底的ARC-AGI-2加入组合推理——符号解释、上下文规则应用、多规则交互——直接把最高分压到24%。

ARC-AGI-3的跳跃更 radical(激进):150多个手工设计的环境,1000多个关卡,每个游戏8-10关渐进解锁新机制。预览中的三个样本足以说明跨度:ls20要求边导航边变换符号,ft09要在重叠网格间匹配模式,vc33则需要调节"体积"高度来命中目标。

评分标准也换了。不再是简单的通过/失败,而是动作效率——AI用了多少步,对比人类基线。100%意味着全程和人类一样精练,不多走一步冤枉路。

大模型在这里暴露的短板,和它们在ARC-AGI-2里栽的跟头完全不同。

为什么GPT-5会低于1%?

预览期的12份提交里,8份在私有游戏上测试。前三名全是非LLM方案。这个分布本身就很说明问题。

榜首StochasticGoose来自Tufa Labs的Dries Smit,架构简单到近乎朴素:CNN做动作预测,稀疏奖励(只有通关信号),帧转储到内存做离线训练,哈希表去重。没有预训练知识,没有世界模型,没有链式推理——就是看图、试错、记住什么管用。

对比之下,GPT-5和Claude的架构假设了"有文本可读"。它们的训练数据里,任务通常附带明确指令。ARC-AGI-3的关卡设计刻意消除了这个假设:agent看到的只有像素变化,听到的只有沉默。

Chollet在发布说明里点明了四个被测试的新能力:探索(主动收集信息)、建模(构建可泛化的世界模型)、目标设定(无指令下识别目的)、规划与执行(带修正的战略行动)。这四项恰好都是当前LLM的盲区——它们擅长在已知规则内优化,而非在未知环境中发现规则。

低于1%不是偶然失误,是架构层面的错配。就像把象棋冠军扔进没有棋盘的密室逃脱,他读过的所有棋谱都帮不上忙。


12%的CNN意味着什么

StochasticGoose的成绩值得拆解。CNN在2012年ImageNet夺冠后,已经被Transformer压制多年,在AI叙事里早就是"上一代技术"。但ARC-AGI-3的预览结果说明:在特定约束下,经典架构可能比巨型语言模型更懂"从零开始"。

关键在"稀疏奖励"和"状态去重"。大模型的强化学习通常依赖密集反馈(每一步都有评分),而ARC-AGI-3只在通关时给信号。StochasticGoose用哈希表记录"来过这里"避免循环,用帧存储实现离线学习——这些技巧不新,但组合起来恰好契合环境特性。

12.58%距离人类还很远,但它证明了一件事:规模不是唯一解。当前SOTA(state-of-the-art,某领域最优)大模型在这个基准上可能严重 overfit(过拟合)了"有说明书的世界"。

比赛奖金池超过200万美元,分三个赛道。官方Kaggle leaderboard目前还是空白——正式提交窗口刚打开。

200万美元赌什么

ARC-AGI-3的奖金结构本身就在引导研究方向。三个赛道分别对应不同资源约束:公开赛道允许任意计算,受限赛道有成本上限,人类赛道要求实时交互。这种设计明显在防范"用算力 brute-force(暴力破解)"的老路。

Chollet的长期主张是:AGI需要"高效学习新技能的能力",而非"预装大量技能"。ARC-AGI-1的失败在于被预训练知识覆盖,ARC-AGI-2开始强调组合泛化,ARC-AGI-3直接把"先验知识"清零——每个游戏都是全新物理规则,agent必须现场重建因果模型。

这和当前 industry's bet(行业押注)存在张力。OpenAI、Anthropic、Google的路径依赖预训练 scaling law(规模定律):更多数据、更多参数、更多计算。ARC-AGI-3的预览结果暗示,这条路的边际效益可能在特定类型的智能上趋近于零。

但也不必急于宣布LLM死刑。预览样本有限,12份提交里的8份私有测试可能隐藏了未公开的LLM方案。更重要的是,ARC-AGI-3的设计者本人就是LLM的批评者——Chollet多次公开质疑"预测下一个token"能否通向AGI。基准的偏见性需要纳入考量。

游戏化基准的连锁反应

ARC-AGI-3的环境设计明显借鉴了游戏AI测试传统。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II,都证明了强化学习在封闭游戏环境中的潜力。但那些项目有明确目标(赢比赛)、已知规则(游戏说明书)、可定义奖励(得分/胜负)。

ARC-AGI-3的 radical(激进)之处在于连这些都要agent自己发现。这更接近发展心理学里的"婴儿探索"——没有任务清单,通过互动建构对世界的理解。

150多个手工环境的设计成本不菲。每个游戏8-10关的渐进难度,确保agent不能靠单一策略通关。评分效率而非二元成功,惩罚"乱拳打死老师傅"的暴力尝试。这些设计选择把测试焦点从"知识储备"转向"学习速度"。

对AI安全研究,这种基准也有特殊价值。对齐问题的一个核心担忧是:AI在训练环境表现良好,但在分布外场景失效。ARC-AGI-3每个游戏都是分布外,强制测试泛化能力的下限。

开发者预览的隐藏信息


30天预览期的12份提交,样本量小但结构清晰。前三名非LLM,中间层混合方案,LLM垫底。这种分布和ARC-AGI-2形成镜像——当时LLM还能靠提示工程和思维链拿到可观分数。

一个可能的解释:ARC-AGI-3的"无文本"设计直接废除了LLM的核心优势。当环境不输出自然语言描述时,预训练的语言知识成为负担而非资产。agent需要处理的是像素级因果推断,这和token级预测是完全不同的计算图。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限,而ARC-AGI-3的关卡可能需要数十步探索。显式存储"已访问状态"避免了重复探索,这种工程技巧在资源受限时可能比端到端学习更可靠。

预览结果还暴露了一个评估盲区:当前没有标准化的"人类效率"测量。100%基准如何建立?多少人类测试者?什么背景?这些细节会影响分数的可比性。Chollet团队需要尽快公开方法论,否则12.58%的解读会有歧义。

行业叙事的分叉点

GPT-5低于1%的消息,和同期发布的其他"大模型遇挫"新闻形成共振。但需要区分两种失败:一种是能力边界被触及,另一种是能力错配被暴露。ARC-AGI-3更像是后者。

没有证据表明LLM在可预见的未来无法适应这类环境。多模态融合、世界模型预训练、神经符号混合架构——技术选项还很多。但预览结果确实提出了一个尖锐问题:当前 industry's trillion-dollar bet(行业数万亿美元押注)是否过度集中于单一架构?

CNN的12%是一个锚点。它说明在特定约束下,"小"方案可以击败"大"方案。这和2012年AlexNet颠覆传统计算机视觉的叙事形成有趣对照——当年是神经网络击败手工特征,今天是手工工程击败巨型神经网络。

历史不会简单重复,但技术范式的摇摆值得警惕。如果ARC-AGI-3的后续结果持续显示非LLM优势,可能会触发研究资源的重新分配。至少,它给了"反scaling law"阵营一个有力的数据点。

下一步看什么

Kaggle leaderboard的首次更新将是关键指标。如果LLM方案迅速追上或超越CNN基准,说明预览期的低分是暂时调试问题。如果差距持续,可能引发更深层的架构反思。

另一个观察点是获奖方案的公开细节。200万美元奖金会吸引顶级团队,他们的技术报告可能比分数本身更有信息量。特别是"受限赛道"的胜出者——在计算成本约束下获胜,直接回应了AGI可行性的核心争议。

Chollet本人承诺持续更新环境库,防止过拟合。这种动态基准的设计,借鉴了网络安全领域的CTF(夺旗赛)模式:攻击者(AI研究者)和防御者(基准设计者)持续博弈。长期有效性取决于更新频率和社区参与度。

最后,人类基准的测量细节需要关注。100%是理论上限,但实际人类表现分布如何?新手和专家的效率差距多大?这些基线数据会显著影响AI进度的解读。

3月25日,ARC-AGI-3上线当天,一个用CNN和哈希表的方案暂时领先。这个画面有点像2016年AlphaGo击败李世石前的序章——当时也没人相信神经网络能在围棋上超越人类。但区别在于,这次领先的不是更庞大的模型,而是更精瘦的架构。

如果三个月后的leaderboard上,GPT-6或Claude 4依然低于10%,我们可能需要重新问一个问题:通往AGI的路,是不是在某个岔口走错了方向?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金溥聪深夜发声明“正面宣战” 剑指郑丽文 国民党内斗公开化

金溥聪深夜发声明“正面宣战” 剑指郑丽文 国民党内斗公开化

观星赏月
2026-03-28 12:11:40
刘晓庆自爆“家丑大瓜”:最想她死的,竟然是亲外甥……

刘晓庆自爆“家丑大瓜”:最想她死的,竟然是亲外甥……

桌子的生活观
2026-03-27 12:35:54
马英九按下暂停键,连战或已经出手,被踢出局的金溥聪彻底不装了

马英九按下暂停键,连战或已经出手,被踢出局的金溥聪彻底不装了

娱乐小可爱蛙
2026-03-28 12:21:37
关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

枫岭社
2026-03-27 10:49:09
海南停车纠纷后续:女子不幸离世,家属索赔122万,最终赔14.9万

海南停车纠纷后续:女子不幸离世,家属索赔122万,最终赔14.9万

观察鉴娱
2026-03-28 09:25:48
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

小舟谈历史
2026-03-28 04:42:18
广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

后仰大风车
2026-03-28 07:10:11
央视主持人集体大哭,朱迅流泪康辉掩面痛哭,真相是什么?

央视主持人集体大哭,朱迅流泪康辉掩面痛哭,真相是什么?

落雪听梅a
2026-03-28 09:14:37
刘晓庆亲妹反击了!揭没养老金领 痛心姊姊晚年被「榨干骨髓」

刘晓庆亲妹反击了!揭没养老金领 痛心姊姊晚年被「榨干骨髓」

ETtoday星光云
2026-03-27 10:38:07
张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

薛定谔的BUG
2026-03-28 12:04:50
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

财经老庄
2026-03-27 18:40:20
张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

十九妹
2026-03-28 10:07:30
韩媒:日本已不再是世界五大出口国之一!

韩媒:日本已不再是世界五大出口国之一!

达文西看世界
2026-03-28 11:21:12
邓华进餐厅吃饭,有上将漠视转身走开,许世友:老邓,咱们喝一杯

邓华进餐厅吃饭,有上将漠视转身走开,许世友:老邓,咱们喝一杯

芳芳历史烩
2026-03-27 17:55:19
登场20战15胜!哈登29分钟17+14早早打卡 前队友:历史最佳之一

登场20战15胜!哈登29分钟17+14早早打卡 前队友:历史最佳之一

颜小白的篮球梦
2026-03-28 09:57:45
陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

八怪娱
2026-03-27 13:32:01
张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

眼光很亮
2026-03-27 16:04:09
特朗普称霍尔木兹为特朗普海峡

特朗普称霍尔木兹为特朗普海峡

界面新闻
2026-03-28 09:36:19
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
2026-03-28 15:04:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
353文章数 0关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

游戏
教育
家居
亲子
房产

网曝超级马力欧新作延期,《塞尔达传说:时之笛》将推重制版

教育要闻

健康学校怎么建?今晚19点35分,《教育纵深》聚焦山东如何深入落实“健康第一”

家居要闻

曲线华尔兹 现代简约

亲子要闻

为什么说人这辈子一定要生个孩子?

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

无障碍浏览 进入关怀版