网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭

2025-09-15 18:01:12　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧

【新智元导读】顶级大模型在AAI提出的FormulaOne基准集体翻车：三层难度递进，GPT-5进阶题仅约4%正确，最深层零分；Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题，贴近路径规划等现实优化，旨在衡量超越竞赛编程的算法推理深度。

奥特曼在GPT-5的发布会上曾说过一个结论。

「以后每个人的兜里都有一个博士级AI随时随地的提供建议」。

GPT-5的发布后也被全球的疯狂实测，API使用量暴增。

当然，有些讨论重点关注的是「还我GPT-4o」这种情绪化的能力方面。

但重点是，奥特曼一直强调，GPT-5有「博士级」推理能力。

这事儿，真的靠谱吗？

这不，一个叫FormulaOne的硬核测试，就让世界上这些最顶级的模型「现了原形」。

FormulaOne题目分三关，一关比一关难。

论文地址:https://arxiv.org/pdf/2507.13337

结果呢？有点扎心了。

基础题，AI们还算顶得住，正确率还可以，唯一一个GPT-5能接近50%。

可到了进阶题，画风突变。

就算是GPT-5，也只做对了4%。其他模型更是惨不忍睹。

至于最难的「最深层问题」部分？所有模型，全军覆没。直接交了白卷，全部零分。

FormulaOne测试基准给自己取名字叫做：超越竞赛编程的算法推理深度测量。

这是由一家名为AAI的公司出品的，他们的官网是：doubleai.com。

公司是由Mobileye联合创始人、希伯来大学教授Amnon Shashua发起的科研向AI创业公司，2023年8月在耶路撒冷成立，长期「半隐身」。

Amnon Shashua曾于2020年荣获丹·大卫奖（Dan David Prize）人工智能领域的获奖者，并于2022年被汽车名人堂（Automotive Hall of Fame）评为移动创新者。

1999年，Shashua联合创立了Mobileye，该公司于2014年成为以色列历史上规模最大的IPO。

2017年，公司被Intel以153亿美元收购。

2022年，公司再次于纳斯达克证券交易所上市。

AI必须硬核

现在的AI离真正的专家，到底还有多远？

真正的专家，那可是要解决硬核难题的，他们是推动科学边界的人。

所以，得给AI上点真正的强度了。

目前的基准测试往往无法完整描绘出人工智能理解的深度。

尽管最近取得了一些显著成就，例如OpenAI在CodeForces上获得了2724的评分，或是在国际信息学奥林匹克竞赛中获得金牌。

但这些成绩仍然掩盖了一个令人清醒的现实：为这些竞赛磨炼出的技能，并不能涵盖解决大规模现实世界研究问题所需的全部推理能力。

例如优化全球供应链、管理大规模电网、设计具有弹性的网络基础设施等任务要困难多个数量级，它们所需的算法洞察力远远超出了典型竞技编程的范畴。

FormulaOne包含220个新颖的、基于图的动态编程问题。这些问题分为三个类别，从适中的难度到研究级别的难度不等。

FormulaOne是一个处于图论、逻辑和算法交叉点的基准测试，完全在前沿模型的训练分布范围内。

这些问题极具挑战性，需要一系列推理步骤，涉及拓扑和几何洞察、数学知识、组合考虑、精确实现等。

FormulaOne具有三个关键特性。

第一，它具有商业价值，与实际的大规模优化问题相关，例如路径规划、调度和网络设计中出现的问题。
第二，它生成自图上的单一二阶（Monadic Second-Order，MSO）逻辑这一高度表达的框架，为大规模自动问题生成铺平了道路——非常适合构建强化学习（RL）环境。
第三，许多问题与理论计算机科学的前沿以及其中的核心猜想密切相关，例如强指数时间假设（Strong Exponential Time Hypothesis，SETH）。

为什么模型在「deepest」（最深层）任务上会出现概念崩溃，即使它们在算法编程竞赛中达到了超越人类顶尖选手的水平？

「deepest」层级的问题需要非常深入的推理能力，而这是现有模型根本无法做到的。

FormulaOne可能需要一种定性不同的方法，正通过一个实时排行榜和评估框架与社区分享它。

FormulaOne中的问题都很简洁，仅由一两句话组成，任何本科生都能理解，但解决这些问题却需要创造力和深入的推理。

虽然这些问题通常很容易描述，但它们的解决方案远非显而易见。这一大类问题的可解性由一个Courcelle提出的算法元定理所保证，该定理大致表述为：

对于每个足够树状的图，任何可在一种表达能力强的形式逻辑——单子二阶（MSO）逻辑中定义的问题，都可以通过一个动态规划算法来求解，该算法的运行时间与图的阶数成线性关系。

FormulaOne中的问题源自一个单一的无限族：图上的单阶二阶（MSO）逻辑。

简单来说，这些问题就是图上的自然动态规划问题。

虽然许多问题在一般情况下是NP难的，但在「树状」图上它们变得易于处理。

在这种情况下，这些问题可以通过一种线性时间的动态规划算法来解决——该算法在一个称为「bags」的小图窗口上进行操作。

「包」是使用一种称为树分解的结构，它将图的顶点组织成一系列重叠的集合，这些集合本身以树的形式排列。

然后，算法可以遍历这个包（bag）树，使用动态规划逐块解决该问题。

此过程包括设计一个「状态」，用以概括包中部分解决方案的所有必要信息，并定义当顶点被引入、遗忘或包被合并时，该状态如何转换。

「最深层」级别问题难在哪里

那么，是什么让「最深层」级别的难度远高于「浅层」级别呢？换句话说，如何解释前沿模型在这些问题上的崩溃？

是因为数据不足吗？还是因为在动态规划方面的专业知识水平较低？

不，前沿模型最近在算法编程竞赛和奥林匹克竞赛中已经达到了顶尖人类水平，而动态规划（DP）正是这类竞赛中的关键技术之一。

相反，像CodeForces中的竞赛题目通常是这样构建的：一个人想出一个非常巧妙的技巧（或者可能两个），然后围绕这个技巧设计一个问题。

一旦参赛者理解了这个技巧，通常很快就能写出一个简短的解决方案。对于「浅层」阶段来说，情况某种程度上也是如此。

相比之下，现实世界的问题，以及「更深」和「最深」阶段的问题，通常涉及多个不确定的步骤，并且没有任何简单的捷径可循。

设计一个正确且高效的动态规划程序很难。

关键在于每个包所存储的信息——「状态」。

状态设计既是一门艺术，也是一门科学。

状态必须足够丰富，以便在我们从一个包过渡到下一个包时能够进行更新，但同时又必须足够简洁，以确保计算上的可行性。

模型倾向于急切地过度承诺；做出过早且不可逆的决策，而这些决策的无效性往往要到很久之后才会显现出来。

随着不确定性的增加，这种情况会变得更加明显。

事实上，这仅仅是模型所犯的一系列分类错误之一。

为了帮助理解模型的优势与不足，每个FormulaOne问题都由一系列标签进行标注，代表其核心思想。

那么要突破这个新基准需要什么？

虽然GPT-5在「更深」层级上显示出一些进展迹象，但这种进展非常有限，而在「最深」层级上则完全没有进展。

这可能可以解释为一种「信号缺失」，因为在「最深」层级的问题中存在太多不确定点和需要做出的决策，要让所有这些都正确对齐变得异常困难——以至于传统的训练技术都失效了。

参考资料：

https://x.com/shai_s_shwartz/status/1955968602978320727

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

机器之心Pro 2025-11-10 15:03:07
0 跟贴 0
失衡的乌托邦：Meta的开源AI路线是如何遭遇滑铁卢的

钛媒体APP 2025-11-12 15:31:58
0 跟贴 0

科股早知道：AI编程有望成为B端最先崛起的AI应用

钛媒体APP 2025-11-12 08:06:27
0 跟贴 0

波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
11 跟贴 11
MIT破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

DeepTech深科技 2025-11-11 18:54:31
0 跟贴 0

95后“AI才女”罗福莉，宣布加入小米！曾被雷军千万元年薪挖角，是DeepSeek关键开发者！她出身农村普通家庭，“是家族骄傲”

每日经济新闻 2025-11-12 16:02:11
0 跟贴 0

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0
VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂画外音

机器之心Pro 2025-11-11 16:04:32
0 跟贴 0

李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
机器狗被锯腿也能继续走，Skild Brain估值45亿美元

量子位 2025-09-27 17:49:32
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
扎克伯格承诺捐款超2000亿美元，加大AI投入，誓要攻克所有疾病

生物世界 2025-11-12 17:06:16
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
GPT五代同堂答题，初代成网友白月光

机器之心Pro 2025-08-20 16:13:28
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
B站UP主一人创作AI摇滚孙悟空，黑神话制作人冯骥安利

量子位 2025-11-12 15:13:30
0 跟贴 0
AI重塑人机交互方式，下一代终端如何变革？

量子位 2025-09-24 20:17:01
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
雷军挖来前DeepSeek大将！大模型团队40人合影曝光，疑进军具身智能

智东西 2025-11-12 15:45:12
1 跟贴 1
MeshCoder：大语言模型驱动，点云到可编辑结构化物体代码的革新

机器之心Pro 2025-11-10 15:28:58
0 跟贴 0
罗福莉C位亮相小米，离职DeepSeek后首次官宣

量子位 2025-11-12 16:16:00
0 跟贴 0
当AI学会作弊：比坏更可怕的是坏还聪明

机器之心Pro 2025-08-29 18:45:31
0 跟贴 0
蚂蚁国际开源AI预测大模型超90%预测准确率+60%成本降幅

华尔街见闻官方 2025-11-12 16:45:51
0 跟贴 0
外国人在中国旅行，第一次体验酒店机器人服务，小心中透露着惊奇

风靡笑家 2025-11-11 18:21:34
1 跟贴 1
GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
15 跟贴 15
厉害了！金华这波“别人家的孩子”，横扫各大奖项！

浙中在线 2025-11-11 18:17:23
0 跟贴 0
上海震旦学院教师不当言论，校方火速启动调查程序，回应速度超给

嘻哈搞笑局 2025-11-11 00:00:00
28 跟贴 28
K2 Thinking再炸场，杨植麟凌晨回答了21个问题

36氪 2025-11-11 18:31:07
0 跟贴 0
NeurIPS唯一满分论文曝光，来自清华上交

量子位 2025-11-11 17:06:37
1 跟贴 1
奥特曼谈马斯克：我曾视他为英雄，如今不再说话

量子位 2025-09-16 04:14:37
1 跟贴 1
SOTA对话生成模型FireRedTTS-2来了3

机器之心Pro 2025-09-15 11:20:27
0 跟贴 0
人人都应该学学逻辑三段论

肖瑜看世界 2025-11-11 16:33:30
742 跟贴 742
10个Agent一键组队：并行智能体协作，端到端交付从24h缩减到4h！

新智元 2025-10-04 13:15:17
0 跟贴 0
10岁高考566分，被夸“中国陶哲轩”，24年后现状咋让家长沉默？

体育小柚 2025-11-10 18:46:09
0 跟贴 0

闹大！央媒撕下高市早苗遮羞布：没见过这么“不想干的”首相

闹大！央媒撕下高市早苗遮羞布：没见过这么“不想干的”首相

丁丁鲤史纪

2025-11-12 15:37:01

官方：津门虎球员陈哲宣因辱骂裁判员，停赛5场罚款5万

官方：津门虎球员陈哲宣因辱骂裁判员，停赛5场罚款5万

懂球帝

2025-11-12 17:09:29

离世爱猫托梦已投胎，主人发帖寻新主人，与“转世”小猫奇迹重逢

离世爱猫托梦已投胎，主人发帖寻新主人，与“转世”小猫奇迹重逢

Magic宠物社

2025-11-09 21:35:04

他与叶剑英之女离婚后，76岁再娶小37岁爱徒为妻，84岁喜当爸

他与叶剑英之女离婚后，76岁再娶小37岁爱徒为妻，84岁喜当爸

百年人物志

2024-07-02 11:08:20

五个“更加注重” 推动海洋强国建设走深走实

五个“更加注重” 推动海洋强国建设走深走实

人民资讯

2025-11-11 09:24:12

穿白制服的空姐

喜欢历史的阿繁

2025-10-22 07:37:49

现役五大“低薪高能”球员：威少第3，榜首白菜价打成MVP

现役五大“低薪高能”球员：威少第3，榜首白菜价打成MVP

林子说事

2025-11-12 15:26:27

《四喜》直到被丈夫卷走积蓄，许知夏才知，母亲认回妹妹的真相

《四喜》直到被丈夫卷走积蓄，许知夏才知，母亲认回妹妹的真相

观察鉴娱

2025-11-12 08:55:20

生死兄弟5：小航接到电话

金昔说故事

2025-11-12 13:36:50

河南省纪委监委：文海周涉嫌严重违纪违法

河南省纪委监委：文海周涉嫌严重违纪违法

鲁中晨报

2025-11-11 18:31:02

烟台市莱山区人大常委会原党组书记、主任王远杰严重违纪违法被开除党籍

烟台市莱山区人大常委会原党组书记、主任王远杰严重违纪违法被开除党籍

鲁中晨报

2025-11-12 16:23:02

我爸来我家住了五天，老公挂着臭脸，父亲走后落下的东西让我泪奔

我爸来我家住了五天，老公挂着臭脸，父亲走后落下的东西让我泪奔

黄家湖的忧伤

2025-09-26 16:58:43

曝中国篮协出面也留不住！余嘉豪连夜飞回西班牙，广东男篮迎利好

曝中国篮协出面也留不住！余嘉豪连夜飞回西班牙，广东男篮迎利好

老缰科普

2025-11-12 15:31:20

准备退役了！世界杯最后一舞，40岁C罗亲口承认，冲击1000球神迹

准备退役了！世界杯最后一舞，40岁C罗亲口承认，冲击1000球神迹

乌龙球OwnGoal

2025-11-12 10:33:49

翩翩起舞的小姐姐，黑色瑜伽裤一穿身材好到犯规，时尚感直接拉满

翩翩起舞的小姐姐，黑色瑜伽裤一穿身材好到犯规，时尚感直接拉满

小乔古装汉服

2025-11-01 18:52:37

4位党派成员拟任湖北市州领导班子副职

4位党派成员拟任湖北市州领导班子副职

前沿天地

2025-11-12 11:37:49

彻底爆了！A股再次跳水！没戏了？

彻底爆了！A股再次跳水！没戏了？

龙行天下虎

2025-11-12 10:03:09

送走两个5000万球星，现在靠单核打进西部前八！联盟最强三分大队

送走两个5000万球星，现在靠单核打进西部前八！联盟最强三分大队

你的篮球频道

2025-11-12 09:57:41

中国有权在日本驻军，高市早苗闯了大祸，日方意识到大事不妙！

中国有权在日本驻军，高市早苗闯了大祸，日方意识到大事不妙！

荷兰豆爱健康

2025-11-12 12:42:25

老人“黄金体重”已公布！不是110斤，越接近这个数身体越健康

老人“黄金体重”已公布！不是110斤，越接近这个数身体越健康

白宸侃片

2025-11-12 14:12:28

AI产业主平台领航智能+时代

13849文章数 66244关注度

往期回顾全部

科技要闻

Meta"宫斗"持续，AI教父杨立昆被"气"走了

头条要闻

"大客户"租两豪车后人间蒸发车行找到车后一看天塌了

头条要闻

"大客户"租两豪车后人间蒸发车行找到车后一看天塌了

体育要闻

太阳三连胜&活塞东部第一哪个更想不到

娱乐要闻

再王珞丹和白百何明白两人"差别"在哪

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

7座皆独立座椅/新增5座版体验第三代吉利豪越L

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

亲子

艺术

公开课

旅游要闻

家门口的新佛山丨沿着彩虹河堤，“穿越”岭南文化精致小城

教育要闻

教育部重磅部署为教师减负，这次能带来彻底好转吗？ “除了畜牧局，都在使唤我们”，教育部重磅部署为教师...

亲子要闻

爸爸说今天让孩子们自制披萨

艺术要闻

毛主席珍贵签名照曝光，鲜为人知的历史瞬间！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版