网易首页 > 网易号 > 正文 申请入驻

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭

0
分享至


新智元报道

编辑:定慧

【新智元导读】顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。

奥特曼在GPT-5的发布会上曾说过一个结论。

「以后每个人的兜里都有一个博士级AI随时随地的提供建议」。

GPT-5的发布后也被全球的疯狂实测,API使用量暴增。

当然,有些讨论重点关注的是「还我GPT-4o」这种情绪化的能力方面。

但重点是,奥特曼一直强调,GPT-5有「博士级」推理能力。

这事儿,真的靠谱吗?


这不,一个叫FormulaOne的硬核测试,就让世界上这些最顶级的模型「现了原形」。

FormulaOne题目分三关,一关比一关难。


论文地址:https://arxiv.org/pdf/2507.13337

结果呢?有点扎心了。

基础题,AI们还算顶得住,正确率还可以,唯一一个GPT-5能接近50%。

可到了进阶题,画风突变。

就算是GPT-5,也只做对了4%。其他模型更是惨不忍睹。

至于最难的「最深层问题」部分?所有模型,全军覆没。直接交了白卷,全部零分。


FormulaOne测试基准给自己取名字叫做:超越竞赛编程的算法推理深度测量。

这是由一家名为AAI的公司出品的,他们的官网是:doubleai.com。


公司是由Mobileye联合创始人、希伯来大学教授Amnon Shashua发起的科研向AI创业公司,2023年8月在耶路撒冷成立,长期「半隐身」。


Amnon Shashua曾于2020年荣获丹·大卫奖(Dan David Prize)人工智能领域的获奖者,并于2022年被汽车名人堂(Automotive Hall of Fame)评为移动创新者。

1999年,Shashua联合创立了Mobileye,该公司于2014年成为以色列历史上规模最大的IPO。

2017年,公司被Intel以153亿美元收购。

2022年,公司再次于纳斯达克证券交易所上市。

AI必须硬核

现在的AI离真正的专家,到底还有多远?

真正的专家,那可是要解决硬核难题的,他们是推动科学边界的人。

所以,得给AI上点真正的强度了。

目前的基准测试往往无法完整描绘出人工智能理解的深度。

尽管最近取得了一些显著成就,例如OpenAI在CodeForces上获得了2724的评分,或是在国际信息学奥林匹克竞赛中获得金牌。

但这些成绩仍然掩盖了一个令人清醒的现实:为这些竞赛磨炼出的技能,并不能涵盖解决大规模现实世界研究问题所需的全部推理能力。

例如优化全球供应链、管理大规模电网、设计具有弹性的网络基础设施等任务要困难多个数量级,它们所需的算法洞察力远远超出了典型竞技编程的范畴。

FormulaOne包含220个新颖的、基于图的动态编程问题。这些问题分为三个类别,从适中的难度到研究级别的难度不等。


FormulaOne是一个处于图论、逻辑和算法交叉点的基准测试,完全在前沿模型的训练分布范围内。

这些问题极具挑战性,需要一系列推理步骤,涉及拓扑和几何洞察、数学知识、组合考虑、精确实现等。

FormulaOne具有三个关键特性。

  • 第一,它具有商业价值,与实际的大规模优化问题相关,例如路径规划、调度和网络设计中出现的问题。

  • 第二,它生成自图上的单一二阶(Monadic Second-Order,MSO)逻辑这一高度表达的框架,为大规模自动问题生成铺平了道路——非常适合构建强化学习(RL)环境

  • 第三,许多问题与理论计算机科学的前沿以及其中的核心猜想密切相关,例如强指数时间假设(Strong Exponential Time Hypothesis,SETH)。

为什么模型在「deepest」(最深层)任务上会出现概念崩溃,即使它们在算法编程竞赛中达到了超越人类顶尖选手的水平?

「deepest」层级的问题需要非常深入的推理能力,而这是现有模型根本无法做到的。

FormulaOne可能需要一种定性不同的方法,正通过一个实时排行榜评估框架与社区分享它。


FormulaOne中的问题都很简洁,仅由一两句话组成,任何本科生都能理解,但解决这些问题却需要创造力和深入的推理。




虽然这些问题通常很容易描述,但它们的解决方案远非显而易见。这一大类问题的可解性由一个Courcelle提出的算法元定理所保证,该定理大致表述为:

对于每个足够树状的图,任何可在一种表达能力强的形式逻辑——单子二阶(MSO)逻辑中定义的问题,都可以通过一个动态规划算法来求解,该算法的运行时间与图的阶数成线性关系。

FormulaOne中的问题源自一个单一的无限族:图上的单阶二阶(MSO)逻辑。

简单来说,这些问题就是图上的自然动态规划问题。

虽然许多问题在一般情况下是NP难的,但在「树状」图上它们变得易于处理。

在这种情况下,这些问题可以通过一种线性时间的动态规划算法来解决——该算法在一个称为「bags」的小图窗口上进行操作。



「包」是使用一种称为树分解的结构,它将图的顶点组织成一系列重叠的集合,这些集合本身以树的形式排列。

然后,算法可以遍历这个包(bag)树,使用动态规划逐块解决该问题。

此过程包括设计一个「状态」,用以概括包中部分解决方案的所有必要信息,并定义当顶点被引入、遗忘或包被合并时,该状态如何转换。

「最深层」级别问题难在哪里

那么,是什么让「最深层」级别的难度远高于「浅层」级别呢?换句话说,如何解释前沿模型在这些问题上的崩溃?

是因为数据不足吗?还是因为在动态规划方面的专业知识水平较低?

不,前沿模型最近在算法编程竞赛和奥林匹克竞赛中已经达到了顶尖人类水平,而动态规划(DP)正是这类竞赛中的关键技术之一。

相反,像CodeForces中的竞赛题目通常是这样构建的:一个人想出一个非常巧妙的技巧(或者可能两个),然后围绕这个技巧设计一个问题。

一旦参赛者理解了这个技巧,通常很快就能写出一个简短的解决方案。对于「浅层」阶段来说,情况某种程度上也是如此。

相比之下,现实世界的问题,以及「更深」和「最深」阶段的问题,通常涉及多个不确定的步骤,并且没有任何简单的捷径可循。

设计一个正确且高效的动态规划程序很难。

关键在于每个包所存储的信息——「状态」

状态设计既是一门艺术,也是一门科学。

状态必须足够丰富,以便在我们从一个包过渡到下一个包时能够进行更新,但同时又必须足够简洁,以确保计算上的可行性。

模型倾向于急切地过度承诺;做出过早且不可逆的决策,而这些决策的无效性往往要到很久之后才会显现出来。

随着不确定性的增加,这种情况会变得更加明显。

事实上,这仅仅是模型所犯的一系列分类错误之一。

为了帮助理解模型的优势与不足,每个FormulaOne问题都由一系列标签进行标注,代表其核心思想。


那么要突破这个新基准需要什么?

虽然GPT-5在「更深」层级上显示出一些进展迹象,但这种进展非常有限,而在「最深」层级上则完全没有进展。

这可能可以解释为一种「信号缺失」,因为在「最深」层级的问题中存在太多不确定点和需要做出的决策,要让所有这些都正确对齐变得异常困难——以至于传统的训练技术都失效了。

参考资料:

https://x.com/shai_s_shwartz/status/1955968602978320727

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
午后异动!002077,1分钟涨停!

午后异动!002077,1分钟涨停!

证券时报
2025-11-12 18:07:05
水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

跨境派Pro
2025-11-10 14:38:56
送走两个5000万球星,现在靠单核打进西部前八!联盟最强三分大队

送走两个5000万球星,现在靠单核打进西部前八!联盟最强三分大队

你的篮球频道
2025-11-12 09:57:41
星巴克放中文歌曲遭消费者吐槽:感觉像是县城奶茶店

星巴克放中文歌曲遭消费者吐槽:感觉像是县城奶茶店

映射生活的身影
2025-11-11 23:35:00
中国为什么不能支持哈马斯,历史上的血仇总要留下警惕

中国为什么不能支持哈马斯,历史上的血仇总要留下警惕

大国纪录
2025-10-11 11:37:02
相当于20个三峡大坝?外媒已经发现,中国悄悄在沙漠里干了件大事

相当于20个三峡大坝?外媒已经发现,中国悄悄在沙漠里干了件大事

毒sir财经
2025-11-11 20:31:06
意外!兵强马壮的上海队为何会爆冷输广东,蒯纪闻赛后说出原因

意外!兵强马壮的上海队为何会爆冷输广东,蒯纪闻赛后说出原因

懂个球
2025-11-11 23:45:01
英超榜首有变数!阿森纳7天对阵热刺+切尔西,曼城有望反超

英超榜首有变数!阿森纳7天对阵热刺+切尔西,曼城有望反超

体育知多少
2025-11-12 10:24:41
打破姚明纪录!黄蜂34号秀成本届最大捡漏:命中率超八成太离谱

打破姚明纪录!黄蜂34号秀成本届最大捡漏:命中率超八成太离谱

罗说NBA
2025-11-12 07:56:43
江苏男子暴打93岁母亲后续: 对话内容曝光,网友炸锅

江苏男子暴打93岁母亲后续: 对话内容曝光,网友炸锅

恪守原则和底线
2025-11-12 08:53:26
高市硬刚到底,要将中国高官驱逐出境?中方以牙还牙,日本破防了

高市硬刚到底,要将中国高官驱逐出境?中方以牙还牙,日本破防了

时时有聊
2025-11-11 14:34:52
王晶的爆料,没给大S留一丝体面,一坏习惯可能成英年早逝的原因

王晶的爆料,没给大S留一丝体面,一坏习惯可能成英年早逝的原因

东方不败然多多
2025-10-28 07:08:38
英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

每日经济新闻
2025-11-12 06:26:06
被没收150亿美元,在美国翻大跟头后,洪森父子又转向中国

被没收150亿美元,在美国翻大跟头后,洪森父子又转向中国

刘振起观点
2025-11-12 08:50:29
全运会网球首金决出!商竣程领衔,北京队2-1险胜夺男团冠军

全运会网球首金决出!商竣程领衔,北京队2-1险胜夺男团冠军

全景体育V
2025-11-12 15:50:50
脑机接口新突破,46只核心概念股集体狂欢

脑机接口新突破,46只核心概念股集体狂欢

览富财经网
2025-11-12 17:44:10
王毅最新照令人心疼:人明显老了,谁能接替他成为下一任外长?

王毅最新照令人心疼:人明显老了,谁能接替他成为下一任外长?

男女那点事儿儿
2025-11-11 15:24:28
雷军神话崩塌?小米股价暴跌,这场资本围猎才刚刚开始

雷军神话崩塌?小米股价暴跌,这场资本围猎才刚刚开始

流苏晚晴
2025-11-12 19:10:34
被俄影响上百年的蒙古国,突然选择“脱俄入中”,究竟有何目的?

被俄影响上百年的蒙古国,突然选择“脱俄入中”,究竟有何目的?

超人强动物俱乐部
2025-11-12 15:56:33
赵露思生日音乐会造型封神!又纯又欲氛围感拉满

赵露思生日音乐会造型封神!又纯又欲氛围感拉满

述家娱记
2025-11-09 19:00:42
2025-11-12 21:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

健康
教育
亲子
旅游
军事航空

血液科专家揭秘白血病七大误区

教育要闻

江西财经大学2026届保研487人,软件工程60人

亲子要闻

秋冬咳嗽难受?这1止咳绝招,比吃药管用!

旅游要闻

中国有约丨走进《黑神话:悟空》取景地双林寺

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版