网易首页 > 网易号 > 正文 申请入驻

陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试

0
分享至


新智元报道

编辑:倾倾

【新智元导读】当数学家陶哲轩把一道几何难题交给GPT-5 Pro,几分钟后,屏幕亮起——推理完美、逻辑无瑕,却依然没有答案。就在同一周,它又在全球最难的数学测试上夺冠。 分数耀眼得几乎刺眼,却掩不住那一瞬的空白:它真的理解了什么吗?

十年前,数学家陶哲轩还在黑板前,与学生们手推每一道几何公式。

十年后,他把同样的问题丢给一台机器——GPT-5 Pro。

他想知道:AI只是更快的计算者,还是正在接近真正的理解?

几分钟后,屏幕亮起:Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。

陶哲轩看着那串结果,既震撼,又有点心凉:问题依然无解,只是被粉饰得更漂亮了。

就在那一周,另一场数字化的「数学登山」也在进行。

GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。

分数耀眼,直觉却失灵。它像一个擅长计算的神童,但在真正的研究面前,依然停下了笔。

于是问题不再是「AI能不能解题」,而是:它到底理解了多少世界?

陶哲轩的实测

AI在科研中的「三层表现」

十年前,陶哲轩还在黑板前与学生推演几何。

这位被誉为「天才中的天才」的数学家,21岁就成了最年轻的菲尔兹奖得主。

十年后,他决定亲自验证这台「拿下13%纪录」的AI究竟能做什么。

他没有选择标准题库,而是把它带进真正的科研现场——那里没有标准答案,只有开放问题。


「我想看看AI能否在我不擅长的领域提出新思路。」于是,他在MathOverflow上贴出了这道问题:

若一个光滑嵌入在R³中的球面,其主曲率都不超过1,它所包围的体积是否至少和单位球一样大?——这并非我擅长的领域(微分几何),但我想看看AI能否给出新思路。

这是一个微分几何难题。二维情况早有定理(Pestov–Ionin theorem)支撑,但三维版本至今悬而未解。

这道难题三年前曾被提出,至今无人能解。


陶哲轩不是在考AI,而是把它推向了没有标准答案的科研地带。

在与ChatGPT持续互动约40分钟,他总结道:AI辅助在微观、宏观层面有帮助,但在中观层面有限。


一起看看,陶哲轩如何用AI再一次完成了解题。

AI是计算型助手

他先让GPT-5 Pro处理最容易的「星形(star-shaped)」情形。

几分钟内,AI便生成了推理链条,自动调用三条经典结论:

  • Minkowski积分公式: |Σ| = ∫Σ H s dA;

  • Willmore不等式: ∫Σ H² dA ≥ 4π;

  • 体积公式: vol(V) = ⅓ ∫Σ s dA。

然后把它们一气整合成一句话:

若 |κ₁|, |κ₂| ≤ 1,则 vol(V) ≥ (4π/3),即单位球体积。

AI不仅计算正确,还主动引用他未提及的Minkowski第一积分公式,甚至补上了两种证明路线。

陶哲轩在后续贴文写道:

它能在我给出的线索下完成所有推导,这部分几乎无可挑剔。

这一阶段,AI像一台完美的「数学引擎」——能推、能证、能举例,但它只在局部任务上发光。

从助手到镜面

他又进一步试探它:如果把曲面变形、稍微远离完美的球形,它还能保持推理稳定吗?

AI很快给出答案——准确、漂亮,却方向错了。

陶哲轩在日志里写下:

它开始顺从,而不再质疑。

这正是科研型AI的「镜像陷阱」:当方向错了,它会粉饰错误,甚至让错误更「漂亮」。

虽然没解出问题,这次实验仍让陶哲轩获得了新的洞察。

他意识到真正的障碍并非「近似圆球」,而是那些极细长、非凸、如同袜状的曲面结构——它们能无限拉长几何尺度,却几乎不增加体积。

陶哲轩后来总结:

AI确实让我更快地理解了问题——不是因为它解出来,而是因为我看清了它为什么解不出来。

这句话,也成为他此后所有AI实验的起点。

当GPT-5登上数学「珠峰」

只有13%成功率的登顶

与此同时,在陶哲轩把AI带进科研现场的那几天,另一场「数字版登山赛」也在进行。

10月初,研究机构Epoch AI发了一条不到30个词的推文——这次不是关于某个实验,而是一场「数学珠峰」的登顶公告。


这条信息背后,是全球最难的数学测试之一——FrontierMath Tier 4

Epoch AI在官网形容它是「研究级问题集」,题目难度可让专家花上数周甚至数月才有进展。

也就是说,这是考验「能不能思考」,而非「会不会算」。

从Gemini 2.5到GPT-5 Pro:三个月的登顶赛

7月,Epoch AI首次公开推出FrontierMath Tier 4,称之为「AI 数学能力的珠穆朗玛峰」——一套专为测试模型极限推理力而设计的研究级题库。

那时,还没有任何模型能在其中站稳脚。


8月,谷歌的Gemini 2.5 Pro率先登场:

我们刚刚完成了Gemini 2.5 Pro在FrontierMath上的初步评估。此次使用旧版推理脚手架(scaffold),结果尚不最终。


到了9月,他们更新评分机制,引入「重试机制」——让AI能在推理失败后自我修正。

一切都像是在为10月的决战做准备。


就在陶哲轩还在和GPT-5 Pro「研究未解题」的前一天,谷歌Gemini 2.5 Deep Think刚刚创下纪录。

Epoch AI写道:

我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API,我们手动运行它。结果:新纪录!


10月11日,Epoch AI发出那条掀起惊涛骇浪的推文——

FrontierMath Tier 4:终极对决!GPT-5 Pro创下新纪录(13%),比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。


左侧是Grok 4 Heavy(约5%),中间是Gemini 2.5(约12%),最右的GPT-5 Pro微微高出,停在13%的位置。

比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。

这意味着,GPT-5 Pro虽然暂时「站在了山顶」,但它离真正的理解仍有整座山的距离。

这场拉锯更像是一场平局,只是GPT-5比Gemini 2.5早登顶几秒钟。


高分背后:算法的胜利,还是幻觉?

这场登顶赛其实揭示了另一个事实:AI的分数可以突破,但理解力依旧受限。

而这个问题,在陶哲轩的实测中被进一步放大。

胜出的一题,多半来自结构明确、符号化强的题型:代数、线性系统、基础分析。

而在几何构造、偏微分方程、非凸空间等题上,它几乎毫无建树。

Epoch AI自己也知道,这更像一次「算法微胜」,而非「数学突破」。

这次高分,靠的是更高算力、更长推理链、更聪明的提示词。

于是问题变成:当分数升高,理解力也跟着升高了吗?

也许在算法的世界里,它赢了;在理解的世界里,它还没出发。

当「聪明」有了尺度

AI在科研中的边界

几个月后,他继续在做另一场实验——这次,不是考AI能不能解题,而是考他自己:当一切都能自动化,人类还在思考什么?

我发现,聪明也有尺度。

他写下这句话时,想起那次无解的几何题。AI在每个步骤上都完美,却在方向上失焦。

他终于明白——真正需要被训练的,也许是我们自己。

他举例说,一种叫<canonical>的依赖类型匹配工具可以让他瞬间验证一行证明,但当连续几十行都交由它完成时,他反而更难看清逻辑全貌。

进一步放大尺度,问题变得更明显。

当AI协助完成整篇论文、或自动化地编纂一整本教材时,表面上的「效率提升」,常常意味着结构理解的退化。

数学的本质在于结构与关联——而结构的理解,恰恰需要「缓慢的人类思考」。


陶哲轩在后续贴文中写道:

最优的自动化程度既不是0%,也不是100%。

真正高效的状态,是在每个层面都留下人的空隙。如果让AI解决所有简单任务,我们将失去面对困难时的方向感。


这段话与他此前在GPT-5 Pro数学实验中的体会形成了照应。

在小尺度上,AI能精准完成每一个步骤;在中尺度上,它倾向迎合而非反驳;而在大尺度上,它反而成为一种「反射镜」——让人更快看清自己思维的边界。

真正的突破,或许不在于让机器更像人,而在让人类学会:以不同的尺度,重新理解「聪明」这件事。

人类的空隙

当AI停在「还不懂」的地方

陶哲轩的这场实验,其实为GPT-5的「13%高分」找到了解释。

分数说明它强大,但实验揭示了它强大的方式——不是洞察,而是枚举;不是理解,而是复现。

在FrontierMath的基准中,GPT-5能正确地完成符号化的推理题,却在需要构造直觉的题目上失效。

而在陶哲轩的试验里,它能像熟练的研究生那样把定义、公式和不等式都串联起来,却依然无法判断方向对不对。

这两个场景,像是科研的两端:一个是统计意义上的聪明,一个是语义意义上的理解。

GPT-5在前者领先,在后者止步。


陶哲轩在事后说,AI的表现让他想到早年的科研训练。

年轻时的他,也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页,直到最后发现:真正的问题,在逻辑之外。

AI让他重新体会了这种「思维的局部化」,也让他意识到:人类的优势,正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理,但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为「human situational awareness(情境感知)」:

AI的聪明是线性的,人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界:AI可以成为证明的发动机,而人类依然是结构的设计师。

它能把定理算完,却算不出「意义」。或许这正是GPT-5真正的突破:

它逼着我们重新思考,AI的极限,正是人类的起点。

数学的意义,从来不只是得出答案,而是弄清楚——为什么答案还不存在。

参考资料:

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
克格勃的悲哀:偷到的西方技术,却是压垮苏联的最后一根稻草

克格勃的悲哀:偷到的西方技术,却是压垮苏联的最后一根稻草

吕醿极限手工
2026-02-21 07:47:57
父母能有多阴阳怪气?网友:我对象嘴巴大,我爸叫人家鲶鱼。

父母能有多阴阳怪气?网友:我对象嘴巴大,我爸叫人家鲶鱼。

另子维爱读史
2026-02-20 22:04:27
智驾洗牌,“五大”要统一江湖了吗?

智驾洗牌,“五大”要统一江湖了吗?

经济观察报
2026-02-20 21:57:17
第30胜!希罗复出24分热火31分大胜老鹰 杰伦16+16+11

第30胜!希罗复出24分热火31分大胜老鹰 杰伦16+16+11

醉卧浮生
2026-02-21 10:46:55
隋文静韩聪正式退役:19年冰上携手落幕

隋文静韩聪正式退役:19年冰上携手落幕

宝哥精彩赛事
2026-02-21 15:19:52
你喝了34年的汇源,可能要变山寨货了。。。

你喝了34年的汇源,可能要变山寨货了。。。

差评XPIN
2026-01-17 00:14:19
太豪了!海哈金喜回川过年,山上别墅院子大到能跑步,这才是底气

太豪了!海哈金喜回川过年,山上别墅院子大到能跑步,这才是底气

小娱乐悠悠
2026-02-21 09:01:41
布伦特福德近10轮拿20分,同期领先阿森纳、曼城、曼联英超第1

布伦特福德近10轮拿20分,同期领先阿森纳、曼城、曼联英超第1

懂球帝
2026-02-21 16:21:53
从星链落地到全面改革,被低估的越南正在惊人“逆袭”

从星链落地到全面改革,被低估的越南正在惊人“逆袭”

凤眼论
2026-02-19 09:08:18
DeepSeek推荐:一个家庭越来越富有的七个习惯

DeepSeek推荐:一个家庭越来越富有的七个习惯

洞见
2026-02-06 09:43:30
明星组团三亚过年,章子怡给赵本山拜年,金晨佟丽娅董璇3人聚会

明星组团三亚过年,章子怡给赵本山拜年,金晨佟丽娅董璇3人聚会

星河不入我
2026-02-21 16:04:48
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
全球为何无人敢仿造歼-20?大国军工背后的硬核真相

全球为何无人敢仿造歼-20?大国军工背后的硬核真相

Ck的蜜糖
2026-02-21 15:53:03
只等福特号就位,美以总兵力堪比海湾战争,誓要致伊朗于死地

只等福特号就位,美以总兵力堪比海湾战争,誓要致伊朗于死地

咣当地球
2026-02-21 15:23:34
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
倪萍:父亲到死我都没喊他一声“爸”,母亲的仇恨教育刻骨铭心

倪萍:父亲到死我都没喊他一声“爸”,母亲的仇恨教育刻骨铭心

白面书誏
2025-11-22 17:18:59
湖南益阳27岁女子扁桃体发炎输液后休克去世,丈夫称错过黄金救援4分钟,医院:诊疗符合规范,支付11万元赔偿,但拒绝家属探视遗体

湖南益阳27岁女子扁桃体发炎输液后休克去世,丈夫称错过黄金救援4分钟,医院:诊疗符合规范,支付11万元赔偿,但拒绝家属探视遗体

大风新闻
2026-02-21 13:48:11
亚洲飞人刘翔现状:43岁环游世界,不工作不缺钱花,二婚坚持丁克

亚洲飞人刘翔现状:43岁环游世界,不工作不缺钱花,二婚坚持丁克

不写散文诗
2026-02-19 23:59:12
广东男篮开工,杜锋朱芳雨发派红包,四外援归队崔永熙参加合练

广东男篮开工,杜锋朱芳雨发派红包,四外援归队崔永熙参加合练

中国篮坛快讯
2026-02-21 16:10:04
2026-02-21 16:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14564文章数 66632关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

在贝加尔湖遇难的3名中国游客身份已确认:系一家人

头条要闻

在贝加尔湖遇难的3名中国游客身份已确认:系一家人

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

艺术
本地
时尚
教育
公开课

艺术要闻

史洪生油画作品

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

2026纽约秋冬时装周,在春天开启美的新故事!

教育要闻

新春走基层 | 慢飞天使捏出 “年的形状”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版