![]()
ARC-AGI-3的结果像一盆冰水浇在AI行业头上。所有前沿大模型得分低于1%,所有人类参与者100%通过。不是"部分人类",不是"经过训练的专家"——是每个尝试这套题的人,无论背景,全部做对。而那些能通过律师考试、写生产级代码的顶尖AI系统,几乎全军覆没。
如果你做AI产品超过两年,此刻心情大概介于"我早说过"和"这对我手头项目到底意味着什么"之间。第二个问题值得深挖。
这不是知识题,是"从零想明白"的能力测试
ARC-AGI的设计初衷就是反套路。它不考 trivia 检索、不写代码、不做文本摘要。测试的是从第一性原理出发的抽象推理:给你几个视觉模式转换的例子,让你自己琢磨出底层规则,再应用到全新场景。
没有先验知识能帮上忙。检索没用,Google搜不到答案。你只能盯着例子,抽象出逻辑,再迁移。
人类觉得这很直觉。我们的大脑每天都在干这个——给小孩看三个从没教过的规则示例,他们能自己泛化。但把同样例子扔给前沿大语言模型(LLM,Large Language Model,大语言模型),它会基于训练数据里半记半忘的模式,自信地给你一个错误答案。
这不是知识缺口。是推理缺口。
LeCun 对此争论已久:下一个词预测(next-token prediction)在某些推理类型上有结构性天花板,堆算力解决不了架构问题。他新公司刚融了10亿美元押注能量基模型(EBM,Energy-Based Model,能量基模型)。EBM 能否规模化另说,但这个观察越来越难以忽视。
规模定律撞上南墙
![]()
每次AI搞砸,标准回应都是:"给更多数据、更多参数、更多算力。"这几乎成了咒语。但这套叙事越来越难维持。
我们已经激进地规模化了多年。每个新模型家族都承诺涌现能力和推理突破。有些承诺兑现了——编程、分析、写作、结构化推理确实大幅提升。但ARC-AGI多年下来几乎没动。
如果架构是瓶颈,你无法通过刷榜或微调绕过去。对生产系统的工程师来说,这有真实后果。
很多团队把最新模型当作人类判断的近似完全替代。系统在简单案例上表现漂亮——而简单案例占流量大头。速度快、成本低,一切都很美好。
直到遇到边缘案例。
边缘案例不会均匀分布。它们往往扎堆在关键决策点:医疗诊断的模糊影像、金融风控的异常交易、内容审核的讽刺语境。这些地方,模型自信地给出错误答案,而系统没有机制识别"这次我可能不行"。
ARC-AGI-3的残酷在于,它全是边缘案例。每个问题都是模型从未见过的规则,没有训练分布可以依赖。结果暴露了一个被规模叙事掩盖的真相:当前架构在真正需要"从零思考"的场景下,表现并不比随机猜测好多少。
产品经理的实用 checklist
这并不意味着大模型没用。但意味着需要重新设计人机协作的边界。
![]()
第一,区分"检索型"和"推理型"任务。如果答案存在于训练数据且模式稳定,模型大概率能干好。如果需要跨领域迁移或处理全新规则,保留人类在回路(Human-in-the-loop,人机协同中保留人类决策环节)。
第二,警惕"自信的错误"。ARC-AGI-3里模型错得毫不犹豫。生产系统需要校准机制——不是事后解释,而是实时置信度评估,并在阈值以下自动转人工。
第三,把"人类水平"定义得更窄。别被通用人工智能(AGI,Artificial General Intelligence,通用人工智能)叙事带偏。在特定、可验证的子任务上设定基准,比追求模糊的全能更务实。
第四,关注架构创新,不只是规模。LeCun 的EBM、神经符号混合、世界模型——这些路线风险高,但如果当前架构真有天花板,提前布局比被动跟随更安全。
最后,测试集要包含"反训练分布"案例。ARC-AGI的价值在于它故意避开模型见过的模式。你的评估集是否也有这个设计?
行业正在分化
ARC-AGI-3发布后,社区反应很有意思。一派继续押注规模,认为1%只是暂时的,GPT-5或Gemini 3会打破瓶颈。另一派开始认真讨论架构替代方案,投资流向也从纯算力扩展到新型训练范式。
这种分化本身就有信息量。如果所有人都相信规模定律继续有效,就不会有人掏钱给高风险替代路线。10亿美元流向EBM,说明聪明钱在 hedging。
对一线从业者,最务实的态度是:把当前模型当作"强大的模式匹配器",而非"通用推理引擎"。在模式匹配能覆盖的场景大胆用,在需要真正抽象推理的地方,设计好 fallback 机制。
这不是悲观,是精确。知道边界在哪,比假装没有边界更能做出好产品。
ARC-AGI的出题人 François Chollet 说过一句话:「我们不是在测试AI知不知道答案,是在测试它能不能自己发现规则。」
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.