GPT-5在ARC-AGI-3上翻车：1%得分背后|基准|哈希表|arc|agi|预训练

GPT-5在ARC-AGI-3上翻车：1%得分背后

2026-03-26 14:25:14　来源: 闪存猎手

北京举报

分享至

2025年，当GPT-5和Claude在ARC-AGI-2上还能拿到24%的时候，没人想到下一代基准会把所有大模型打回个位数。3月25日，ARC-AGI-3正式上线，预览结果让行业集体沉默：前沿大语言模型得分低于1%，而一个用CNN（卷积神经网络，一种经典图像识别架构）加简单图搜索的方案，拿下了12.58%。

人类基准是100%。

这不是难度升级，是游戏规则重写。ARC-AGI-3彻底抛弃了静态网格谜题，把AI扔进没有说明书、没有胜利条件、甚至没有"你在玩什么"提示的交互环境里。64×64的彩色格子，16种颜色，agent能做的就是移动、点击、重置——然后自己琢磨该干嘛。

François Chollet（基准设计者）等了7年，终于把"通用人工智能"的试金石从纸笔考试改成了荒野求生。

从"解谜"到"生存"：ARC的三次变形

2019年Chollet发布初代ARC时，设计哲学很直白：人类能秒懂的抽象推理，AI为什么不行？ARC-AGI-1给出输入输出网格对，系统要推断变换规则。比如输入是三个竖排的点，输出变成横排，规律是"旋转90度"。

这套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+，Chollet承认"ARC-1已饱和"。2024年底的ARC-AGI-2加入组合推理——符号解释、上下文规则应用、多规则交互——直接把最高分压到24%。

ARC-AGI-3的跳跃更 radical（激进）：150多个手工设计的环境，1000多个关卡，每个游戏8-10关渐进解锁新机制。预览中的三个样本足以说明跨度：ls20要求边导航边变换符号，ft09要在重叠网格间匹配模式，vc33则需要调节"体积"高度来命中目标。

评分标准也换了。不再是简单的通过/失败，而是动作效率——AI用了多少步，对比人类基线。100%意味着全程和人类一样精练，不多走一步冤枉路。

大模型在这里暴露的短板，和它们在ARC-AGI-2里栽的跟头完全不同。

为什么GPT-5会低于1%？

预览期的12份提交里，8份在私有游戏上测试。前三名全是非LLM方案。这个分布本身就很说明问题。

榜首StochasticGoose来自Tufa Labs的Dries Smit，架构简单到近乎朴素：CNN做动作预测，稀疏奖励（只有通关信号），帧转储到内存做离线训练，哈希表去重。没有预训练知识，没有世界模型，没有链式推理——就是看图、试错、记住什么管用。

对比之下，GPT-5和Claude的架构假设了"有文本可读"。它们的训练数据里，任务通常附带明确指令。ARC-AGI-3的关卡设计刻意消除了这个假设：agent看到的只有像素变化，听到的只有沉默。

Chollet在发布说明里点明了四个被测试的新能力：探索（主动收集信息）、建模（构建可泛化的世界模型）、目标设定（无指令下识别目的）、规划与执行（带修正的战略行动）。这四项恰好都是当前LLM的盲区——它们擅长在已知规则内优化，而非在未知环境中发现规则。

低于1%不是偶然失误，是架构层面的错配。就像把象棋冠军扔进没有棋盘的密室逃脱，他读过的所有棋谱都帮不上忙。

12%的CNN意味着什么

StochasticGoose的成绩值得拆解。CNN在2012年ImageNet夺冠后，已经被Transformer压制多年，在AI叙事里早就是"上一代技术"。但ARC-AGI-3的预览结果说明：在特定约束下，经典架构可能比巨型语言模型更懂"从零开始"。

关键在"稀疏奖励"和"状态去重"。大模型的强化学习通常依赖密集反馈（每一步都有评分），而ARC-AGI-3只在通关时给信号。StochasticGoose用哈希表记录"来过这里"避免循环，用帧存储实现离线学习——这些技巧不新，但组合起来恰好契合环境特性。

12.58%距离人类还很远，但它证明了一件事：规模不是唯一解。当前SOTA（state-of-the-art，某领域最优）大模型在这个基准上可能严重 overfit（过拟合）了"有说明书的世界"。

比赛奖金池超过200万美元，分三个赛道。官方Kaggle leaderboard目前还是空白——正式提交窗口刚打开。

200万美元赌什么

ARC-AGI-3的奖金结构本身就在引导研究方向。三个赛道分别对应不同资源约束：公开赛道允许任意计算，受限赛道有成本上限，人类赛道要求实时交互。这种设计明显在防范"用算力 brute-force（暴力破解）"的老路。

Chollet的长期主张是：AGI需要"高效学习新技能的能力"，而非"预装大量技能"。ARC-AGI-1的失败在于被预训练知识覆盖，ARC-AGI-2开始强调组合泛化，ARC-AGI-3直接把"先验知识"清零——每个游戏都是全新物理规则，agent必须现场重建因果模型。

这和当前 industry's bet（行业押注）存在张力。OpenAI、Anthropic、Google的路径依赖预训练 scaling law（规模定律）：更多数据、更多参数、更多计算。ARC-AGI-3的预览结果暗示，这条路的边际效益可能在特定类型的智能上趋近于零。

但也不必急于宣布LLM死刑。预览样本有限，12份提交里的8份私有测试可能隐藏了未公开的LLM方案。更重要的是，ARC-AGI-3的设计者本人就是LLM的批评者——Chollet多次公开质疑"预测下一个token"能否通向AGI。基准的偏见性需要纳入考量。

游戏化基准的连锁反应

ARC-AGI-3的环境设计明显借鉴了游戏AI测试传统。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II，都证明了强化学习在封闭游戏环境中的潜力。但那些项目有明确目标（赢比赛）、已知规则（游戏说明书）、可定义奖励（得分/胜负）。

ARC-AGI-3的 radical（激进）之处在于连这些都要agent自己发现。这更接近发展心理学里的"婴儿探索"——没有任务清单，通过互动建构对世界的理解。

150多个手工环境的设计成本不菲。每个游戏8-10关的渐进难度，确保agent不能靠单一策略通关。评分效率而非二元成功，惩罚"乱拳打死老师傅"的暴力尝试。这些设计选择把测试焦点从"知识储备"转向"学习速度"。

对AI安全研究，这种基准也有特殊价值。对齐问题的一个核心担忧是：AI在训练环境表现良好，但在分布外场景失效。ARC-AGI-3每个游戏都是分布外，强制测试泛化能力的下限。

开发者预览的隐藏信息

30天预览期的12份提交，样本量小但结构清晰。前三名非LLM，中间层混合方案，LLM垫底。这种分布和ARC-AGI-2形成镜像——当时LLM还能靠提示工程和思维链拿到可观分数。

一个可能的解释：ARC-AGI-3的"无文本"设计直接废除了LLM的核心优势。当环境不输出自然语言描述时，预训练的语言知识成为负担而非资产。agent需要处理的是像素级因果推断，这和token级预测是完全不同的计算图。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限，而ARC-AGI-3的关卡可能需要数十步探索。显式存储"已访问状态"避免了重复探索，这种工程技巧在资源受限时可能比端到端学习更可靠。

预览结果还暴露了一个评估盲区：当前没有标准化的"人类效率"测量。100%基准如何建立？多少人类测试者？什么背景？这些细节会影响分数的可比性。Chollet团队需要尽快公开方法论，否则12.58%的解读会有歧义。

行业叙事的分叉点

GPT-5低于1%的消息，和同期发布的其他"大模型遇挫"新闻形成共振。但需要区分两种失败：一种是能力边界被触及，另一种是能力错配被暴露。ARC-AGI-3更像是后者。

没有证据表明LLM在可预见的未来无法适应这类环境。多模态融合、世界模型预训练、神经符号混合架构——技术选项还很多。但预览结果确实提出了一个尖锐问题：当前 industry's trillion-dollar bet（行业数万亿美元押注）是否过度集中于单一架构？

CNN的12%是一个锚点。它说明在特定约束下，"小"方案可以击败"大"方案。这和2012年AlexNet颠覆传统计算机视觉的叙事形成有趣对照——当年是神经网络击败手工特征，今天是手工工程击败巨型神经网络。

历史不会简单重复，但技术范式的摇摆值得警惕。如果ARC-AGI-3的后续结果持续显示非LLM优势，可能会触发研究资源的重新分配。至少，它给了"反scaling law"阵营一个有力的数据点。

下一步看什么

Kaggle leaderboard的首次更新将是关键指标。如果LLM方案迅速追上或超越CNN基准，说明预览期的低分是暂时调试问题。如果差距持续，可能引发更深层的架构反思。

另一个观察点是获奖方案的公开细节。200万美元奖金会吸引顶级团队，他们的技术报告可能比分数本身更有信息量。特别是"受限赛道"的胜出者——在计算成本约束下获胜，直接回应了AGI可行性的核心争议。

Chollet本人承诺持续更新环境库，防止过拟合。这种动态基准的设计，借鉴了网络安全领域的CTF（夺旗赛）模式：攻击者（AI研究者）和防御者（基准设计者）持续博弈。长期有效性取决于更新频率和社区参与度。

最后，人类基准的测量细节需要关注。100%是理论上限，但实际人类表现分布如何？新手和专家的效率差距多大？这些基线数据会显著影响AI进度的解读。

3月25日，ARC-AGI-3上线当天，一个用CNN和哈希表的方案暂时领先。这个画面有点像2016年AlphaGo击败李世石前的序章——当时也没人相信神经网络能在围棋上超越人类。但区别在于，这次领先的不是更庞大的模型，而是更精瘦的架构。

如果三个月后的leaderboard上，GPT-6或Claude 4依然低于10%，我们可能需要重新问一个问题：通往AGI的路，是不是在某个岔口走错了方向？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.