网易首页 > 网易号 > 正文 申请入驻

陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试

0
分享至


新智元报道

编辑:倾倾

【新智元导读】当数学家陶哲轩把一道几何难题交给GPT-5 Pro,几分钟后,屏幕亮起——推理完美、逻辑无瑕,却依然没有答案。就在同一周,它又在全球最难的数学测试上夺冠。 分数耀眼得几乎刺眼,却掩不住那一瞬的空白:它真的理解了什么吗?

十年前,数学家陶哲轩还在黑板前,与学生们手推每一道几何公式。

十年后,他把同样的问题丢给一台机器——GPT-5 Pro。

他想知道:AI只是更快的计算者,还是正在接近真正的理解?

几分钟后,屏幕亮起:Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。

陶哲轩看着那串结果,既震撼,又有点心凉:问题依然无解,只是被粉饰得更漂亮了。

就在那一周,另一场数字化的「数学登山」也在进行。

GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。

分数耀眼,直觉却失灵。它像一个擅长计算的神童,但在真正的研究面前,依然停下了笔。

于是问题不再是「AI能不能解题」,而是:它到底理解了多少世界?

陶哲轩的实测

AI在科研中的「三层表现」

十年前,陶哲轩还在黑板前与学生推演几何。

这位被誉为「天才中的天才」的数学家,21岁就成了最年轻的菲尔兹奖得主。

十年后,他决定亲自验证这台「拿下13%纪录」的AI究竟能做什么。

他没有选择标准题库,而是把它带进真正的科研现场——那里没有标准答案,只有开放问题。


「我想看看AI能否在我不擅长的领域提出新思路。」于是,他在MathOverflow上贴出了这道问题:

若一个光滑嵌入在R³中的球面,其主曲率都不超过1,它所包围的体积是否至少和单位球一样大?——这并非我擅长的领域(微分几何),但我想看看AI能否给出新思路。

这是一个微分几何难题。二维情况早有定理(Pestov–Ionin theorem)支撑,但三维版本至今悬而未解。

这道难题三年前曾被提出,至今无人能解。


陶哲轩不是在考AI,而是把它推向了没有标准答案的科研地带。

在与ChatGPT持续互动约40分钟,他总结道:AI辅助在微观、宏观层面有帮助,但在中观层面有限。


一起看看,陶哲轩如何用AI再一次完成了解题。

AI是计算型助手

他先让GPT-5 Pro处理最容易的「星形(star-shaped)」情形。

几分钟内,AI便生成了推理链条,自动调用三条经典结论:

  • Minkowski积分公式: |Σ| = ∫Σ H s dA;

  • Willmore不等式: ∫Σ H² dA ≥ 4π;

  • 体积公式: vol(V) = ⅓ ∫Σ s dA。

然后把它们一气整合成一句话:

若 |κ₁|, |κ₂| ≤ 1,则 vol(V) ≥ (4π/3),即单位球体积。

AI不仅计算正确,还主动引用他未提及的Minkowski第一积分公式,甚至补上了两种证明路线。

陶哲轩在后续贴文写道:

它能在我给出的线索下完成所有推导,这部分几乎无可挑剔。

这一阶段,AI像一台完美的「数学引擎」——能推、能证、能举例,但它只在局部任务上发光。

从助手到镜面

他又进一步试探它:如果把曲面变形、稍微远离完美的球形,它还能保持推理稳定吗?

AI很快给出答案——准确、漂亮,却方向错了。

陶哲轩在日志里写下:

它开始顺从,而不再质疑。

这正是科研型AI的「镜像陷阱」:当方向错了,它会粉饰错误,甚至让错误更「漂亮」。

虽然没解出问题,这次实验仍让陶哲轩获得了新的洞察。

他意识到真正的障碍并非「近似圆球」,而是那些极细长、非凸、如同袜状的曲面结构——它们能无限拉长几何尺度,却几乎不增加体积。

陶哲轩后来总结:

AI确实让我更快地理解了问题——不是因为它解出来,而是因为我看清了它为什么解不出来。

这句话,也成为他此后所有AI实验的起点。

当GPT-5登上数学「珠峰」

只有13%成功率的登顶

与此同时,在陶哲轩把AI带进科研现场的那几天,另一场「数字版登山赛」也在进行。

10月初,研究机构Epoch AI发了一条不到30个词的推文——这次不是关于某个实验,而是一场「数学珠峰」的登顶公告。


这条信息背后,是全球最难的数学测试之一——FrontierMath Tier 4

Epoch AI在官网形容它是「研究级问题集」,题目难度可让专家花上数周甚至数月才有进展。

也就是说,这是考验「能不能思考」,而非「会不会算」。

从Gemini 2.5到GPT-5 Pro:三个月的登顶赛

7月,Epoch AI首次公开推出FrontierMath Tier 4,称之为「AI 数学能力的珠穆朗玛峰」——一套专为测试模型极限推理力而设计的研究级题库。

那时,还没有任何模型能在其中站稳脚。


8月,谷歌的Gemini 2.5 Pro率先登场:

我们刚刚完成了Gemini 2.5 Pro在FrontierMath上的初步评估。此次使用旧版推理脚手架(scaffold),结果尚不最终。


到了9月,他们更新评分机制,引入「重试机制」——让AI能在推理失败后自我修正。

一切都像是在为10月的决战做准备。


就在陶哲轩还在和GPT-5 Pro「研究未解题」的前一天,谷歌Gemini 2.5 Deep Think刚刚创下纪录。

Epoch AI写道:

我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API,我们手动运行它。结果:新纪录!


10月11日,Epoch AI发出那条掀起惊涛骇浪的推文——

FrontierMath Tier 4:终极对决!GPT-5 Pro创下新纪录(13%),比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。


左侧是Grok 4 Heavy(约5%),中间是Gemini 2.5(约12%),最右的GPT-5 Pro微微高出,停在13%的位置。

比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。

这意味着,GPT-5 Pro虽然暂时「站在了山顶」,但它离真正的理解仍有整座山的距离。

这场拉锯更像是一场平局,只是GPT-5比Gemini 2.5早登顶几秒钟。


高分背后:算法的胜利,还是幻觉?

这场登顶赛其实揭示了另一个事实:AI的分数可以突破,但理解力依旧受限。

而这个问题,在陶哲轩的实测中被进一步放大。

胜出的一题,多半来自结构明确、符号化强的题型:代数、线性系统、基础分析。

而在几何构造、偏微分方程、非凸空间等题上,它几乎毫无建树。

Epoch AI自己也知道,这更像一次「算法微胜」,而非「数学突破」。

这次高分,靠的是更高算力、更长推理链、更聪明的提示词。

于是问题变成:当分数升高,理解力也跟着升高了吗?

也许在算法的世界里,它赢了;在理解的世界里,它还没出发。

当「聪明」有了尺度

AI在科研中的边界

几个月后,他继续在做另一场实验——这次,不是考AI能不能解题,而是考他自己:当一切都能自动化,人类还在思考什么?

我发现,聪明也有尺度。

他写下这句话时,想起那次无解的几何题。AI在每个步骤上都完美,却在方向上失焦。

他终于明白——真正需要被训练的,也许是我们自己。

他举例说,一种叫<canonical>的依赖类型匹配工具可以让他瞬间验证一行证明,但当连续几十行都交由它完成时,他反而更难看清逻辑全貌。

进一步放大尺度,问题变得更明显。

当AI协助完成整篇论文、或自动化地编纂一整本教材时,表面上的「效率提升」,常常意味着结构理解的退化。

数学的本质在于结构与关联——而结构的理解,恰恰需要「缓慢的人类思考」。


陶哲轩在后续贴文中写道:

最优的自动化程度既不是0%,也不是100%。

真正高效的状态,是在每个层面都留下人的空隙。如果让AI解决所有简单任务,我们将失去面对困难时的方向感。


这段话与他此前在GPT-5 Pro数学实验中的体会形成了照应。

在小尺度上,AI能精准完成每一个步骤;在中尺度上,它倾向迎合而非反驳;而在大尺度上,它反而成为一种「反射镜」——让人更快看清自己思维的边界。

真正的突破,或许不在于让机器更像人,而在让人类学会:以不同的尺度,重新理解「聪明」这件事。

人类的空隙

当AI停在「还不懂」的地方

陶哲轩的这场实验,其实为GPT-5的「13%高分」找到了解释。

分数说明它强大,但实验揭示了它强大的方式——不是洞察,而是枚举;不是理解,而是复现。

在FrontierMath的基准中,GPT-5能正确地完成符号化的推理题,却在需要构造直觉的题目上失效。

而在陶哲轩的试验里,它能像熟练的研究生那样把定义、公式和不等式都串联起来,却依然无法判断方向对不对。

这两个场景,像是科研的两端:一个是统计意义上的聪明,一个是语义意义上的理解。

GPT-5在前者领先,在后者止步。


陶哲轩在事后说,AI的表现让他想到早年的科研训练。

年轻时的他,也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页,直到最后发现:真正的问题,在逻辑之外。

AI让他重新体会了这种「思维的局部化」,也让他意识到:人类的优势,正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理,但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为「human situational awareness(情境感知)」:

AI的聪明是线性的,人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界:AI可以成为证明的发动机,而人类依然是结构的设计师。

它能把定理算完,却算不出「意义」。或许这正是GPT-5真正的突破:

它逼着我们重新思考,AI的极限,正是人类的起点。

数学的意义,从来不只是得出答案,而是弄清楚——为什么答案还不存在。

参考资料:

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续两场送温暖,勇士又在投资梦想呢?杨瀚森迈入新阶段!

连续两场送温暖,勇士又在投资梦想呢?杨瀚森迈入新阶段!

北青网-北京青年报
2025-11-02 18:59:41
“会打扮”和“不会打扮”的女人:差别有多大?看这些对比就知道

“会打扮”和“不会打扮”的女人:差别有多大?看这些对比就知道

白宸侃片
2025-11-01 11:04:21
亲家来旅游,让我买10瓶好酒订五星房,我咬牙应下,结账时泪流了

亲家来旅游,让我买10瓶好酒订五星房,我咬牙应下,结账时泪流了

媛来这样
2025-10-30 10:38:16
88年,潜伏42年的中共地下党员从台湾秘密返回,6年后被组织发现

88年,潜伏42年的中共地下党员从台湾秘密返回,6年后被组织发现

红色先驱
2025-10-27 18:18:06
冒充职业球员?皇马18岁天才90分钟5数据挂零 被批:有阿隆索裸照

冒充职业球员?皇马18岁天才90分钟5数据挂零 被批:有阿隆索裸照

风过乡
2025-11-02 07:37:18
章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

柠檬有娱乐
2025-11-01 14:25:10
2025年末,财神特别眷顾的三个星座,事业暴涨,财运势不可挡

2025年末,财神特别眷顾的三个星座,事业暴涨,财运势不可挡

小晴星座说
2025-11-02 18:39:12
陈涛:很遗憾没从自己手中保级,但结局还好不辱使命

陈涛:很遗憾没从自己手中保级,但结局还好不辱使命

懂球帝
2025-11-01 22:25:12
中方刚买美大豆,美代表却翻脸,将继续对华调查,外交部斩钉截铁

中方刚买美大豆,美代表却翻脸,将继续对华调查,外交部斩钉截铁

青橘罐头
2025-11-02 09:18:36
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
全面复盘“四渡赤水”:不是蒋介石不会打仗,实在是毛主席太厉害

全面复盘“四渡赤水”:不是蒋介石不会打仗,实在是毛主席太厉害

鹤羽说个事
2025-10-30 15:55:32
李兆会的18年复仇路

李兆会的18年复仇路

诗意世界
2025-10-10 14:09:20
CCTV5直播法国冠军赛决赛!11月2日赛程公布+国乒奖金翻倍

CCTV5直播法国冠军赛决赛!11月2日赛程公布+国乒奖金翻倍

好乒乓
2025-11-02 14:36:00
意外!贝尼特斯曾点名看好的三位中国新星,如今一个都没踢出来

意外!贝尼特斯曾点名看好的三位中国新星,如今一个都没踢出来

金风说
2025-11-02 17:11:26
带小三孕检碰到原配后续:女生长的很漂亮,男子涉嫌事实重婚罪

带小三孕检碰到原配后续:女生长的很漂亮,男子涉嫌事实重婚罪

鋭娱之乐
2025-11-01 12:46:10
南方省份一小区的三网宽带光箱,打开后惊呆了…

南方省份一小区的三网宽带光箱,打开后惊呆了…

通信老柳
2025-10-31 07:58:00
台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

扶苏聊历史
2025-10-30 13:39:37
带小三孕检遇原配后续:小三戴金镯穿名牌,丈夫让原配向小三学习

带小三孕检遇原配后续:小三戴金镯穿名牌,丈夫让原配向小三学习

温读史
2025-11-01 18:54:36
反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

火山诗话
2025-11-02 10:11:42
诬陷女老师“媚男”的女大学生,朋友圈被扒了!

诬陷女老师“媚男”的女大学生,朋友圈被扒了!

麦杰逊
2025-10-31 12:32:43
2025-11-02 19:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13769文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
房产
本地
公开课
军事航空

艺术要闻

她被誉为东方梦露,年过半百依然迷倒众生

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版