网易首页 > 网易号 > 正文 申请入驻

OpenAI这次栽了:ARC-AGI-3测出0%通过率

0
分享至


ARC-AGI-3的结果像一盆冰水浇在AI行业头上。所有前沿大模型得分低于1%,所有人类参与者100%通过。不是"部分人类",不是"经过训练的专家"——是每个尝试这套题的人,无论背景,全部做对。而那些能通过律师考试、写生产级代码的顶尖AI系统,几乎全军覆没。

如果你做AI产品超过两年,此刻心情大概介于"我早说过"和"这对我手头项目到底意味着什么"之间。第二个问题值得深挖。

这不是知识题,是"从零想明白"的能力测试

ARC-AGI的设计初衷就是反套路。它不考 trivia 检索、不写代码、不做文本摘要。测试的是从第一性原理出发的抽象推理:给你几个视觉模式转换的例子,让你自己琢磨出底层规则,再应用到全新场景。

没有先验知识能帮上忙。检索没用,Google搜不到答案。你只能盯着例子,抽象出逻辑,再迁移。

人类觉得这很直觉。我们的大脑每天都在干这个——给小孩看三个从没教过的规则示例,他们能自己泛化。但把同样例子扔给前沿大语言模型(LLM,Large Language Model,大语言模型),它会基于训练数据里半记半忘的模式,自信地给你一个错误答案。

这不是知识缺口。是推理缺口。

LeCun 对此争论已久:下一个词预测(next-token prediction)在某些推理类型上有结构性天花板,堆算力解决不了架构问题。他新公司刚融了10亿美元押注能量基模型(EBM,Energy-Based Model,能量基模型)。EBM 能否规模化另说,但这个观察越来越难以忽视。

规模定律撞上南墙


每次AI搞砸,标准回应都是:"给更多数据、更多参数、更多算力。"这几乎成了咒语。但这套叙事越来越难维持。

我们已经激进地规模化了多年。每个新模型家族都承诺涌现能力和推理突破。有些承诺兑现了——编程、分析、写作、结构化推理确实大幅提升。但ARC-AGI多年下来几乎没动。

如果架构是瓶颈,你无法通过刷榜或微调绕过去。对生产系统的工程师来说,这有真实后果。

很多团队把最新模型当作人类判断的近似完全替代。系统在简单案例上表现漂亮——而简单案例占流量大头。速度快、成本低,一切都很美好。

直到遇到边缘案例。

边缘案例不会均匀分布。它们往往扎堆在关键决策点:医疗诊断的模糊影像、金融风控的异常交易、内容审核的讽刺语境。这些地方,模型自信地给出错误答案,而系统没有机制识别"这次我可能不行"。

ARC-AGI-3的残酷在于,它全是边缘案例。每个问题都是模型从未见过的规则,没有训练分布可以依赖。结果暴露了一个被规模叙事掩盖的真相:当前架构在真正需要"从零思考"的场景下,表现并不比随机猜测好多少。

产品经理的实用 checklist

这并不意味着大模型没用。但意味着需要重新设计人机协作的边界。


第一,区分"检索型"和"推理型"任务。如果答案存在于训练数据且模式稳定,模型大概率能干好。如果需要跨领域迁移或处理全新规则,保留人类在回路(Human-in-the-loop,人机协同中保留人类决策环节)。

第二,警惕"自信的错误"。ARC-AGI-3里模型错得毫不犹豫。生产系统需要校准机制——不是事后解释,而是实时置信度评估,并在阈值以下自动转人工。

第三,把"人类水平"定义得更窄。别被通用人工智能(AGI,Artificial General Intelligence,通用人工智能)叙事带偏。在特定、可验证的子任务上设定基准,比追求模糊的全能更务实。

第四,关注架构创新,不只是规模。LeCun 的EBM、神经符号混合、世界模型——这些路线风险高,但如果当前架构真有天花板,提前布局比被动跟随更安全。

最后,测试集要包含"反训练分布"案例。ARC-AGI的价值在于它故意避开模型见过的模式。你的评估集是否也有这个设计?

行业正在分化

ARC-AGI-3发布后,社区反应很有意思。一派继续押注规模,认为1%只是暂时的,GPT-5或Gemini 3会打破瓶颈。另一派开始认真讨论架构替代方案,投资流向也从纯算力扩展到新型训练范式。

这种分化本身就有信息量。如果所有人都相信规模定律继续有效,就不会有人掏钱给高风险替代路线。10亿美元流向EBM,说明聪明钱在 hedging。

对一线从业者,最务实的态度是:把当前模型当作"强大的模式匹配器",而非"通用推理引擎"。在模式匹配能覆盖的场景大胆用,在需要真正抽象推理的地方,设计好 fallback 机制。

这不是悲观,是精确。知道边界在哪,比假装没有边界更能做出好产品。

ARC-AGI的出题人 François Chollet 说过一句话:「我们不是在测试AI知不知道答案,是在测试它能不能自己发现规则。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对阵喀麦隆,6名参加U23亚洲杯的U23国脚代表国足首发

对阵喀麦隆,6名参加U23亚洲杯的U23国脚代表国足首发

懂球帝
2026-03-31 13:23:46
深圳一主干道突发路面下沉,当晚引发大堵车,最新进展

深圳一主干道突发路面下沉,当晚引发大堵车,最新进展

南方都市报
2026-03-30 20:08:05
断崖式下跌!专家:将持续降价!

断崖式下跌!专家:将持续降价!

珠海发布
2026-03-30 22:12:10
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
德转列国足vs喀麦隆数据:喀麦隆身价1.974亿欧,为国足16倍

德转列国足vs喀麦隆数据:喀麦隆身价1.974亿欧,为国足16倍

懂球帝
2026-03-31 09:41:13
武汉警方通报一起持刀伤人案:嫌疑人已被控制,4名伤者已全部送医救治

武汉警方通报一起持刀伤人案:嫌疑人已被控制,4名伤者已全部送医救治

环球网资讯
2026-03-31 11:58:09
香港演员郑雷去世,曾饰演陈真对手佐藤霸川·金庸剧裘千仞木高峰

香港演员郑雷去世,曾饰演陈真对手佐藤霸川·金庸剧裘千仞木高峰

情感大头说说
2026-03-30 11:46:34
这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

阿废冷眼观察所
2026-03-30 11:58:46
稳了,西部第十,勇士来了

稳了,西部第十,勇士来了

体育新角度
2026-03-31 14:30:56
初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

捣蛋窝
2026-03-30 21:09:36
退休党员注意!党费就按这个标准,别乱交、别多交

退休党员注意!党费就按这个标准,别乱交、别多交

娱乐的硬糖吖
2026-03-29 18:01:00
动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

魔法污A
2026-03-30 11:35:33
上海28岁天才股神直言:炒股多年来只做两种股票,挣得怀疑人生!

上海28岁天才股神直言:炒股多年来只做两种股票,挣得怀疑人生!

股经纵横谈
2026-03-29 22:00:50
向李荣浩道歉不到24小时,单依纯再迎3大噩耗,个个戳她心窝

向李荣浩道歉不到24小时,单依纯再迎3大噩耗,个个戳她心窝

叨唠
2026-03-31 01:14:13
爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

流史岁月
2026-02-28 10:00:49
对心脏最好的肉,不是牛肉也不是猪肉,常吃血管干净,心跳稳

对心脏最好的肉,不是牛肉也不是猪肉,常吃血管干净,心跳稳

王晓爱体彩
2026-03-31 13:58:08
CCTV5直播国足vs喀麦隆:身价1248万PK1.97亿 邵佳一练反击战

CCTV5直播国足vs喀麦隆:身价1248万PK1.97亿 邵佳一练反击战

智道足球
2026-03-31 07:42:22
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
存款搬家并未发生,中国银行高管:大部分到期定期存款仍然留存,重定价利好息差水平

存款搬家并未发生,中国银行高管:大部分到期定期存款仍然留存,重定价利好息差水平

财联社
2026-03-30 19:20:05
等不到日本道歉,中方推第3波制裁,日大使喊对话,毛宁斩钉截铁

等不到日本道歉,中方推第3波制裁,日大使喊对话,毛宁斩钉截铁

古史青云啊
2026-03-31 12:10:03
2026-03-31 15:16:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
516文章数 3关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

房产
健康
教育
家居
时尚

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

干细胞抗衰4大误区,90%的人都中招

教育要闻

别让生病拖垮成绩!春季流感+超短学期,聪明家长都在这样追进度

家居要闻

新婚爱巢 甜蜜情趣拉满

妈妈们的人生,不该只有一个选项

无障碍浏览 进入关怀版