OpenAI这次栽了：ARC-AGI-3测出0%通过率|推理|agi|arc|人工智能

OpenAI这次栽了：ARC-AGI-3测出0%通过率

2026-03-30 11:14:07　来源: 摸鱼算法

北京举报

分享至

ARC-AGI-3的结果像一盆冰水浇在AI行业头上。所有前沿大模型得分低于1%，所有人类参与者100%通过。不是"部分人类"，不是"经过训练的专家"——是每个尝试这套题的人，无论背景，全部做对。而那些能通过律师考试、写生产级代码的顶尖AI系统，几乎全军覆没。

如果你做AI产品超过两年，此刻心情大概介于"我早说过"和"这对我手头项目到底意味着什么"之间。第二个问题值得深挖。

这不是知识题，是"从零想明白"的能力测试

ARC-AGI的设计初衷就是反套路。它不考 trivia 检索、不写代码、不做文本摘要。测试的是从第一性原理出发的抽象推理：给你几个视觉模式转换的例子，让你自己琢磨出底层规则，再应用到全新场景。

没有先验知识能帮上忙。检索没用，Google搜不到答案。你只能盯着例子，抽象出逻辑，再迁移。

人类觉得这很直觉。我们的大脑每天都在干这个——给小孩看三个从没教过的规则示例，他们能自己泛化。但把同样例子扔给前沿大语言模型（LLM，Large Language Model，大语言模型），它会基于训练数据里半记半忘的模式，自信地给你一个错误答案。

这不是知识缺口。是推理缺口。

LeCun 对此争论已久：下一个词预测（next-token prediction）在某些推理类型上有结构性天花板，堆算力解决不了架构问题。他新公司刚融了10亿美元押注能量基模型（EBM，Energy-Based Model，能量基模型）。EBM 能否规模化另说，但这个观察越来越难以忽视。

规模定律撞上南墙

每次AI搞砸，标准回应都是："给更多数据、更多参数、更多算力。"这几乎成了咒语。但这套叙事越来越难维持。

我们已经激进地规模化了多年。每个新模型家族都承诺涌现能力和推理突破。有些承诺兑现了——编程、分析、写作、结构化推理确实大幅提升。但ARC-AGI多年下来几乎没动。

如果架构是瓶颈，你无法通过刷榜或微调绕过去。对生产系统的工程师来说，这有真实后果。

很多团队把最新模型当作人类判断的近似完全替代。系统在简单案例上表现漂亮——而简单案例占流量大头。速度快、成本低，一切都很美好。

直到遇到边缘案例。

边缘案例不会均匀分布。它们往往扎堆在关键决策点：医疗诊断的模糊影像、金融风控的异常交易、内容审核的讽刺语境。这些地方，模型自信地给出错误答案，而系统没有机制识别"这次我可能不行"。

ARC-AGI-3的残酷在于，它全是边缘案例。每个问题都是模型从未见过的规则，没有训练分布可以依赖。结果暴露了一个被规模叙事掩盖的真相：当前架构在真正需要"从零思考"的场景下，表现并不比随机猜测好多少。

产品经理的实用 checklist

这并不意味着大模型没用。但意味着需要重新设计人机协作的边界。

第一，区分"检索型"和"推理型"任务。如果答案存在于训练数据且模式稳定，模型大概率能干好。如果需要跨领域迁移或处理全新规则，保留人类在回路（Human-in-the-loop，人机协同中保留人类决策环节）。

第二，警惕"自信的错误"。ARC-AGI-3里模型错得毫不犹豫。生产系统需要校准机制——不是事后解释，而是实时置信度评估，并在阈值以下自动转人工。

第三，把"人类水平"定义得更窄。别被通用人工智能（AGI，Artificial General Intelligence，通用人工智能）叙事带偏。在特定、可验证的子任务上设定基准，比追求模糊的全能更务实。

第四，关注架构创新，不只是规模。LeCun 的EBM、神经符号混合、世界模型——这些路线风险高，但如果当前架构真有天花板，提前布局比被动跟随更安全。

最后，测试集要包含"反训练分布"案例。ARC-AGI的价值在于它故意避开模型见过的模式。你的评估集是否也有这个设计？

行业正在分化

ARC-AGI-3发布后，社区反应很有意思。一派继续押注规模，认为1%只是暂时的，GPT-5或Gemini 3会打破瓶颈。另一派开始认真讨论架构替代方案，投资流向也从纯算力扩展到新型训练范式。

这种分化本身就有信息量。如果所有人都相信规模定律继续有效，就不会有人掏钱给高风险替代路线。10亿美元流向EBM，说明聪明钱在 hedging。

对一线从业者，最务实的态度是：把当前模型当作"强大的模式匹配器"，而非"通用推理引擎"。在模式匹配能覆盖的场景大胆用，在需要真正抽象推理的地方，设计好 fallback 机制。

这不是悲观，是精确。知道边界在哪，比假装没有边界更能做出好产品。

ARC-AGI的出题人 François Chollet 说过一句话：「我们不是在测试AI知不知道答案，是在测试它能不能自己发现规则。」

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

OpenAI这次栽了：ARC-AGI-3测出0%通过率

这不是知识题，是"从零想明白"的能力测试

规模定律撞上南墙

产品经理的实用 checklist

行业正在分化

尚未正式宣发，国行苹果AI半夜"意外闪现"

美方：伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

美方：伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

县城修车工，用20年成为世界冠军

丝芭传媒举报鞠婧祎：瞒报收入竟达85%

高薪内推藏陷阱!"招转培"骗局盯上求职者

腾势Z9GT到底GT在哪？

态度原创

14亿！电竞巨头出手，海棠湾“超级运动综合体”来了！

干细胞抗衰4大误区,90%的人都中招

别让生病拖垮成绩！春季流感+超短学期，聪明家长都在这样追进度

新婚爱巢 甜蜜情趣拉满

妈妈们的人生，不该只有一个选项

新婚爱巢甜蜜情趣拉满