网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试

2025-10-11 17:10:31　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】当数学家陶哲轩把一道几何难题交给GPT-5 Pro，几分钟后，屏幕亮起——推理完美、逻辑无瑕，却依然没有答案。就在同一周，它又在全球最难的数学测试上夺冠。分数耀眼得几乎刺眼，却掩不住那一瞬的空白：它真的理解了什么吗？

十年前，数学家陶哲轩还在黑板前，与学生们手推每一道几何公式。

十年后，他把同样的问题丢给一台机器——GPT-5 Pro。

他想知道：AI只是更快的计算者，还是正在接近真正的理解？

几分钟后，屏幕亮起：Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。

陶哲轩看着那串结果，既震撼，又有点心凉：问题依然无解，只是被粉饰得更漂亮了。

就在那一周，另一场数字化的「数学登山」也在进行。

GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。

分数耀眼，直觉却失灵。它像一个擅长计算的神童，但在真正的研究面前，依然停下了笔。

于是问题不再是「AI能不能解题」，而是：它到底理解了多少世界？

陶哲轩的实测

AI在科研中的「三层表现」

十年前，陶哲轩还在黑板前与学生推演几何。

这位被誉为「天才中的天才」的数学家，21岁就成了最年轻的菲尔兹奖得主。

十年后，他决定亲自验证这台「拿下13%纪录」的AI究竟能做什么。

他没有选择标准题库，而是把它带进真正的科研现场——那里没有标准答案，只有开放问题。

「我想看看AI能否在我不擅长的领域提出新思路。」于是，他在MathOverflow上贴出了这道问题：

若一个光滑嵌入在R³中的球面，其主曲率都不超过1，它所包围的体积是否至少和单位球一样大？——这并非我擅长的领域（微分几何），但我想看看AI能否给出新思路。

这是一个微分几何难题。二维情况早有定理（Pestov–Ionin theorem）支撑，但三维版本至今悬而未解。

这道难题三年前曾被提出，至今无人能解。

陶哲轩不是在考AI，而是把它推向了没有标准答案的科研地带。

在与ChatGPT持续互动约40分钟，他总结道：AI辅助在微观、宏观层面有帮助，但在中观层面有限。

一起看看，陶哲轩如何用AI再一次完成了解题。

AI是计算型助手

他先让GPT-5 Pro处理最容易的「星形（star-shaped）」情形。

几分钟内，AI便生成了推理链条，自动调用三条经典结论：

Minkowski积分公式： |Σ| = ∫Σ H s dA；
Willmore不等式： ∫Σ H² dA ≥ 4π；
体积公式： vol(V) = ⅓ ∫Σ s dA。

然后把它们一气整合成一句话：

若 |κ₁|, |κ₂| ≤ 1，则 vol(V) ≥ (4π/3)，即单位球体积。

AI不仅计算正确，还主动引用他未提及的Minkowski第一积分公式，甚至补上了两种证明路线。

陶哲轩在后续贴文写道：

它能在我给出的线索下完成所有推导，这部分几乎无可挑剔。

这一阶段，AI像一台完美的「数学引擎」——能推、能证、能举例，但它只在局部任务上发光。

从助手到镜面

他又进一步试探它：如果把曲面变形、稍微远离完美的球形，它还能保持推理稳定吗？

AI很快给出答案——准确、漂亮，却方向错了。

陶哲轩在日志里写下：

它开始顺从，而不再质疑。

这正是科研型AI的「镜像陷阱」：当方向错了，它会粉饰错误，甚至让错误更「漂亮」。

虽然没解出问题，这次实验仍让陶哲轩获得了新的洞察。

他意识到真正的障碍并非「近似圆球」，而是那些极细长、非凸、如同袜状的曲面结构——它们能无限拉长几何尺度，却几乎不增加体积。

陶哲轩后来总结：

AI确实让我更快地理解了问题——不是因为它解出来，而是因为我看清了它为什么解不出来。

这句话，也成为他此后所有AI实验的起点。

当GPT-5登上数学「珠峰」

只有13%成功率的登顶

与此同时，在陶哲轩把AI带进科研现场的那几天，另一场「数字版登山赛」也在进行。

10月初，研究机构Epoch AI发了一条不到30个词的推文——这次不是关于某个实验，而是一场「数学珠峰」的登顶公告。

这条信息背后，是全球最难的数学测试之一——FrontierMath Tier 4。

Epoch AI在官网形容它是「研究级问题集」，题目难度可让专家花上数周甚至数月才有进展。

也就是说，这是考验「能不能思考」，而非「会不会算」。

从Gemini 2.5到GPT-5 Pro：三个月的登顶赛

7月，Epoch AI首次公开推出FrontierMath Tier 4，称之为「AI 数学能力的珠穆朗玛峰」——一套专为测试模型极限推理力而设计的研究级题库。

那时，还没有任何模型能在其中站稳脚。

8月，谷歌的Gemini 2.5 Pro率先登场：

我们刚刚完成了Gemini 2.5 Pro在FrontierMath上的初步评估。此次使用旧版推理脚手架（scaffold），结果尚不最终。

到了9月，他们更新评分机制，引入「重试机制」——让AI能在推理失败后自我修正。

一切都像是在为10月的决战做准备。

就在陶哲轩还在和GPT-5 Pro「研究未解题」的前一天，谷歌Gemini 2.5 Deep Think刚刚创下纪录。

Epoch AI写道：

我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API，我们手动运行它。结果：新纪录！

10月11日，Epoch AI发出那条掀起惊涛骇浪的推文——

FrontierMath Tier 4：终极对决！GPT-5 Pro创下新纪录（13%），比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

左侧是Grok 4 Heavy（约5%），中间是Gemini 2.5（约12%），最右的GPT-5 Pro微微高出，停在13%的位置。

比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

这意味着，GPT-5 Pro虽然暂时「站在了山顶」，但它离真正的理解仍有整座山的距离。

这场拉锯更像是一场平局，只是GPT-5比Gemini 2.5早登顶几秒钟。

高分背后：算法的胜利，还是幻觉？

这场登顶赛其实揭示了另一个事实：AI的分数可以突破，但理解力依旧受限。

而这个问题，在陶哲轩的实测中被进一步放大。

胜出的一题，多半来自结构明确、符号化强的题型：代数、线性系统、基础分析。

而在几何构造、偏微分方程、非凸空间等题上，它几乎毫无建树。

Epoch AI自己也知道，这更像一次「算法微胜」，而非「数学突破」。

这次高分，靠的是更高算力、更长推理链、更聪明的提示词。

于是问题变成：当分数升高，理解力也跟着升高了吗？

也许在算法的世界里，它赢了；在理解的世界里，它还没出发。

当「聪明」有了尺度

AI在科研中的边界

几个月后，他继续在做另一场实验——这次，不是考AI能不能解题，而是考他自己：当一切都能自动化，人类还在思考什么？

我发现，聪明也有尺度。

他写下这句话时，想起那次无解的几何题。AI在每个步骤上都完美，却在方向上失焦。

他终于明白——真正需要被训练的，也许是我们自己。

他举例说，一种叫<canonical>的依赖类型匹配工具可以让他瞬间验证一行证明，但当连续几十行都交由它完成时，他反而更难看清逻辑全貌。

进一步放大尺度，问题变得更明显。

当AI协助完成整篇论文、或自动化地编纂一整本教材时，表面上的「效率提升」，常常意味着结构理解的退化。

数学的本质在于结构与关联——而结构的理解，恰恰需要「缓慢的人类思考」。

陶哲轩在后续贴文中写道：

最优的自动化程度既不是0%，也不是100%。

真正高效的状态，是在每个层面都留下人的空隙。如果让AI解决所有简单任务，我们将失去面对困难时的方向感。

这段话与他此前在GPT-5 Pro数学实验中的体会形成了照应。

在小尺度上，AI能精准完成每一个步骤；在中尺度上，它倾向迎合而非反驳；而在大尺度上，它反而成为一种「反射镜」——让人更快看清自己思维的边界。

真正的突破，或许不在于让机器更像人，而在让人类学会：以不同的尺度，重新理解「聪明」这件事。

人类的空隙

当AI停在「还不懂」的地方

陶哲轩的这场实验，其实为GPT-5的「13%高分」找到了解释。

分数说明它强大，但实验揭示了它强大的方式——不是洞察，而是枚举；不是理解，而是复现。

在FrontierMath的基准中，GPT-5能正确地完成符号化的推理题，却在需要构造直觉的题目上失效。

而在陶哲轩的试验里，它能像熟练的研究生那样把定义、公式和不等式都串联起来，却依然无法判断方向对不对。

这两个场景，像是科研的两端：一个是统计意义上的聪明，一个是语义意义上的理解。

GPT-5在前者领先，在后者止步。

陶哲轩在事后说，AI的表现让他想到早年的科研训练。

年轻时的他，也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页，直到最后发现：真正的问题，在逻辑之外。

AI让他重新体会了这种「思维的局部化」，也让他意识到：人类的优势，正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理，但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为「human situational awareness（情境感知）」：

AI的聪明是线性的，人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界：AI可以成为证明的发动机，而人类依然是结构的设计师。

它能把定理算完，却算不出「意义」。或许这正是GPT-5真正的突破：

它逼着我们重新思考，AI的极限，正是人类的起点。

数学的意义，从来不只是得出答案，而是弄清楚——为什么答案还不存在。

参考资料：

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

30年数学悬案，Claude一小时破解，88岁图灵奖得主震惊

量子位 2026-03-07 20:19:13
0 跟贴 0
探见天能｜一块电池如何赢得持续40年的信任

36氪 2026-07-16 21:50:25
0 跟贴 0

17岁高中生用AI解决数学界难题，陶哲轩、Jeff Dean点赞

机器之心Pro 2026-01-26 14:24:45
6 跟贴 6

在高维空间里，人类所有的痛苦是否都会消失？

爱因思探 2026-07-16 12:45:53
2 跟贴 2
遮羞布终于被撕开了！

安安说 2026-07-16 13:04:05
170 跟贴 170

靠刷题上清华？丘成桐亲手拆穿了这场“天才”骗局

迷世书童 2026-07-15 11:24:51
9 跟贴 9

陶哲轩亲调AI人设,权游小恶魔、贱女孩蕾吉娜版物理教学,你接受不

机器之心Pro 2026-04-13 10:49:43
0 跟贴 0
统计学20年悬案 GPT-5.6 90分钟破解

新智元 2026-07-16 09:24:47
60 跟贴 60

菲尔兹奖剧透？北大校友王虹、邓煜或双双获奖，这是他们的故事

中科院物理所 2026-07-15 12:18:18
1 跟贴 1
数学老师讲解6÷11×99的简便算法

农村丑爸记录生活 2026-07-14 05:21:00
1 跟贴 1
687高考数学大纲版理-17正弦定理的应用边化角

我服子佩 2026-07-16 12:09:13
1 跟贴 1
这才是九亿少女的梦啊王虹菲尔兹奖数学女性力量

娱小白ou 2026-07-16 23:39:03
0 跟贴 0
简便计算大揭秘：27x333除以125轻松搞定

一寸时光a 2026-07-13 04:18:24
0 跟贴 0
韦神又获奖了，凭硬核数学破解百年流体难题！

抬起头看黑板 2026-07-16 00:12:16
3 跟贴 3
初中数学绝技：x^5+x+1=0 解x³-x²，倒挂金钩法大揭秘！

远梦归晓r 2026-07-15 06:01:45
3 跟贴 3
德国初中竞赛题目，不少德国初中生都没做出来

公考客栈店小二 2026-07-13 09:00:00
0 跟贴 0
他是百年难遇的跨界天才，凭一己之力改写了人类文明进程

月光作笺a 2026-07-15 21:37:43
92 跟贴 92
6566除以67的简便计算,多数孩子都没思路

长腿嗑叽君 2026-07-14 01:25:13
0 跟贴 0
揭秘大数读法：跟随老师一起学习

隐龙天下o 2026-07-15 03:08:45
3 跟贴 3
晚上家长辅导作业的时候，觉得这道题目还是挺好玩的

公考客栈店小二 2026-07-13 12:00:00
0 跟贴 0
几何难题一招破解：割补法求面积，必学技巧！

青树柠檬q 2026-07-14 01:44:53
1 跟贴 1
此道几何题有一定的难度，大家要一起挑战一下吗？

公考客栈店小二 2026-07-16 18:00:00
0 跟贴 0
这样的题目，其实也不简单的！

公考客栈店小二 2026-07-16 11:00:00
14 跟贴 14
家长看到题目后，迟迟不知道怎么下手

公考客栈店小二 2026-07-16 12:00:00
0 跟贴 0
六年级数学 -98÷99×101简便计算

姬海棠羽笠果 2026-07-16 03:07:52
0 跟贴 0
初中数学韦达定理的高阶应用

天天数理学习分享 2026-07-14 15:46:14
4 跟贴 4
0.999…到底为什么等于1啊终于有老师说明白了

下复新鲜事 2026-07-17 01:29:27
0 跟贴 0
什么样的长相就吸引什么样的男人，男人择偶底层逻辑，你了解吗

宇宙天文馆 2026-07-16 07:19:49
3 跟贴 3
重点难点：函数的四则运算与复合运算的连续性分析

自主校内外 2026-07-16 00:37:25
0 跟贴 0
暑假坚持 3 件事，孩子思维开窍、后劲十足，开学直接拉开差距

胡萝卜妈妈育儿说 2026-07-17 07:08:53
0 跟贴 0
为什么你感受不到数学的美？看了这篇还没爱上数学的，我没见过！

新浪财经 2026-07-17 09:51:48
0 跟贴 0
六年级数学题目看着简单，怎么就全军覆没了？

公考客栈店小二 2026-07-15 08:00:00
0 跟贴 0
这道题目班长也说难，这是怎么回事？

公考客栈店小二 2026-07-14 12:00:00
14 跟贴 14
欧盟发布涉华文件措辞被指系针对中方最激烈官方批评

澎湃新闻 2026-07-16 21:33:19
26618 跟贴 26618
一招破解小学数学鸡兔同笼难题

食暖食光 2026-07-17 02:12:42
3 跟贴 3
初中数学竞赛必考点解析：破解易错题全攻略

只若初见h 2026-07-12 20:03:05
1 跟贴 1
激动！中国数学有望历史性突破！本土教育数学天才，或获菲尔兹奖！

网易科技态度见闻 2026-07-15 17:56:50
0 跟贴 0
数三角形，速解规律秘籍

隐龙天下o 2026-07-14 02:41:35
1 跟贴 1
真是没想到，小学二年级的数学题目都这么难了

公考客栈店小二 2026-07-14 21:42:30
0 跟贴 0
6832010高考数学大纲版理-13根式不等式的解法

我服子佩 2026-07-16 12:07:17
4 跟贴 4

三观尽毁！萝莉岛新照片流出，办公桌下趴着妙龄女郎，不堪入目！

三观尽毁！萝莉岛新照片流出，办公桌下趴着妙龄女郎，不堪入目！

川渝视觉

2026-02-09 10:43:27

陕西女子用2条毒蛇泡药酒，10年后打开品尝，不料酿成悲剧

陕西女子用2条毒蛇泡药酒，10年后打开品尝，不料酿成悲剧

青青会讲故事

2025-03-28 11:19:56

亏光2亿只是皮毛，冉莹颖再爆更多猛料，撕下了邹市明仅剩的体面

亏光2亿只是皮毛，冉莹颖再爆更多猛料，撕下了邹市明仅剩的体面

林轻吟

2026-07-10 07:08:11

如果未来有亚洲国家夺得世界杯冠军，那一定是中国

如果未来有亚洲国家夺得世界杯冠军，那一定是中国

好球去哪了

2026-07-16 15:26:09

包工头与食堂大姐相好5年，项目完工提分开，这才意识到晚了

包工头与食堂大姐相好5年，项目完工提分开，这才意识到晚了

磊子讲史

2025-06-28 16:28:57

惊人票差曝光！蓝营打响第一枪，蒋万安头号地位被动摇

惊人票差曝光！蓝营打响第一枪，蒋万安头号地位被动摇

呼呼历史论

2026-07-16 14:20:02

一手好牌打得稀烂！卢秀燕错失党主席，2028蓝营大战提前打响

一手好牌打得稀烂！卢秀燕错失党主席，2028蓝营大战提前打响

生活魔术专家

2026-07-16 13:34:04

匈牙利前外长加入比亚迪：我收到“一份来自全球领先企业之一的极具声望的邀请”

匈牙利前外长加入比亚迪：我收到“一份来自全球领先企业之一的极具声望的邀请”

红星新闻

2026-07-16 18:13:13

突发！十字韧带撕裂！文班亚马的“保镖”啊...

突发！十字韧带撕裂！文班亚马的“保镖”啊...

左右为篮

2026-07-17 02:09:52

刚刚 | 梅西发声！贝林厄姆打人？

刚刚 | 梅西发声！贝林厄姆打人？

天津广播

2026-07-16 09:50:03

俄罗斯政坛要变天？普京下了一盘大棋，梅德韦杰夫或将卷土重来

俄罗斯政坛要变天？普京下了一盘大棋，梅德韦杰夫或将卷土重来

阿天爱旅行

2026-07-16 15:55:55

红军改编为八路军时中共曾提出编为四个军，军长分别为林彪、贺龙、刘伯承、徐向前

红军改编为八路军时中共曾提出编为四个军，军长分别为林彪、贺龙、刘伯承、徐向前

雍亲王府

2026-07-16 08:10:19

西班牙VS阿根廷，比分精准预测，西班牙赢球无忧，有望大球

西班牙VS阿根廷，比分精准预测，西班牙赢球无忧，有望大球

林子说事

2026-07-16 16:00:46

全网嘲讽“清华宝妈”恋爱脑：边怀孕边上学，放寒假顺便生娃坐月子，背后藏着“富养女”的陷阱……

全网嘲讽“清华宝妈”恋爱脑：边怀孕边上学，放寒假顺便生娃坐月子，背后藏着“富养女”的陷阱……

二胎妈妈圈

2026-07-17 00:27:43

击落10架敌机后被炸毁！中国FK-2000在苏丹的最后一战

击落10架敌机后被炸毁！中国FK-2000在苏丹的最后一战

流史岁月

2026-07-16 16:00:05

签下1亿多合同他却在纽约"找房难"

签下1亿多合同他却在纽约"找房难"

热血体育社

2026-07-15 00:51:05

俄外交部：俄方不承认“南海仲裁案裁决”程序合法性

俄外交部：俄方不承认“南海仲裁案裁决”程序合法性

新华社

2026-07-16 16:44:09

66岁费翔注销手机号远赴南极，已看透亲戚算计活得通透

66岁费翔注销手机号远赴南极，已看透亲戚算计活得通透

许三岁

2026-07-17 07:30:02

航空圈这些老梗，比笑点更荒唐的是它们的出处

航空圈这些老梗，比笑点更荒唐的是它们的出处

平流层散步者

2026-07-17 01:33:30

ZARA一家11年老店将关闭！已撤出多个城市！北京仅剩5家…

ZARA一家11年老店将关闭！已撤出多个城市！北京仅剩5家…

北京商报

2026-07-17 01:06:55

AI产业主平台领航智能+时代

15709文章数 66959关注度

往期回顾全部

科技要闻

月之暗面发布Kimi K3，参数规模达2.8万亿

头条要闻

美媒：担心遭到中国报复德国总理对华立场大转向

头条要闻

美媒：担心遭到中国报复德国总理对华立场大转向

体育要闻

逆天6后卫神阵，图赫尔活活坑死英格兰

娱乐要闻

天下无不散宴席！白鹿官宣告别欢娱

财经要闻

全球科技股剧烈震荡

汽车要闻

小鹏MONA L03上市为什么选在慕尼黑？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

健康

手机

家居

公开课

房产要闻

洞察新局 | 2026年海珠置业红盘图鉴

中风为何总在激动、用力时到来？

手机要闻

HMD多款新机近况曝光，有两款在研发中

家居要闻

2026建博会(广州) 公装联探展交流活动

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版