网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

数学界无视「30年漏洞」，GPT-5一眼看穿！陶哲轩：AI科研革命开始了

2025-11-05 17:08:45　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】星星之火，可以燎原！证明的尊严在于可验证；这一次，GPT-5让数学证据落在了代码里。

一雪前耻，ChatGPT为OpenAI「正名」！

被Hassabis吐槽太尴尬之后，GPT-5真启发了新的数学结论。

OpenAI的科学家Sebastien Bubeck高调宣扬GPT-5破解了十道Erdős难题。

但被指出GPT并非解决了Erdős问题，而是找到了已经解决这些问题的文献。

之后，他删除了推文并表示自己并非有意误导。

Yann LeCun斥之为「自食其果」：OpenAI被他们自己的GPTards所害。

之后，他在LinkedIn上的发帖，明显低调多了：

现在，事情来了反转——

Sebastien Bubeck被「冤枉」了，AI的确在加速科学进步。

反转

ChatGPT为OpenAI「正名」

昨天，这个故事来了一个反转——

普林斯顿大学数学博士Boris Alexeev（下图左）和俄亥俄州立大学副教授Dustin G. Mixon（下图右）发现，悬赏1000美元的707号Erdős问题，在被提出前30年，就已经被解决了。

论文地址：https://borisalexeev.com/pdf/erdos707.pdf

事情有些离谱，堪称数学家的「虚空索敌」——

答案比问题早30年，但直到前不久，外界还普遍以为问题没有被解决！

目前，707号Erdős问题已被标注为「Disproved」（被证伪）。

传送门：https://www.erdosproblems.com/go_to/707

这次，Sebastien Bubeck扳回一局，发推表示：

看来文献检索，终究不是件简单的事。

潜台词是说，GPT-5过去找到的10个已有解答，并非易事。

但后面的更精彩。

ChatGPT辅助数学证明，陶哲轩点赞

两位数学家也怀疑结果，于是决定用GPT5在Lean中生成形式化证明。最后，居然成功了！

注意⚠️：ChatGPT和Lean被列入了合作者，但论文内容中还是作者「手搓」。

不过，人类在这个过程中可没少花功夫，需要不断给GPT5提供反馈，完善形式化论证。

在「Erdős的难题」网站上，近期涌现了不少成功案例，研究者利用大语言模型在现有文献中找到了埃尔德什问题的解法。

值得一提的是，用AI找到Erdős问题的「已有答案」，

陶哲轩也注意到了这次新证明，认为这是计算机辅助证明的有趣例子。

在研究过程中，两位数学家确信Lean能帮助验证已有论文的真伪，但当时既不熟悉Lean，又觉得其操作界面不够友好。

然而由于ChatGPT能编写Lean代码，他们决定通过氛围编程（vibe coding）方式形式化整个证明。

这个过程耗时约一周，体验颇为煎熬，但最终意外成功了——

形式系统中，ChatGPT严格证明了Erdős猜想的否命题。

最终生成的证明超过6000行代码，包含26个定义、169个引理和4个定理（最终的反例验证部分）。在普通笔记本电脑上，代码验证耗时不足半分钟。

经过数轮往复的互动后，Boris和Dustin认为，如果大语言模型的接口能与Lean深度整合，并针对这种交互方式进行适当微调，许多问题都会大大缓解。

即使是少量的针对性优化，也足以让这种「人机协作证明」的体验更加流畅、自然。

陶哲轩高度认可这次AI辅助证明。他表示，这是在研究论文中负责任地使用LLM输出的罕见用例之一：

重要的是，没有任何LLM生成的输出被直接放入正文（除了为了说明目的引用LLM生成的 Lean 代码片段外）；

相反，这种输出仅用于完全可验证的上下文中（在本例中，用于生成可由 Lean进行类型检查的代码）。

不过，陶哲轩强调：「Lean形式化只是对人类证明的补充，并不能取而代之。」

此外，他几乎可以预见会有一些夸张的报道——「这回LLM真解决了一个Erdős问题！」

—— 但事实远比这复杂微妙。要得出任何结论，都需要先把来龙去脉仔细梳理清楚。

GPT-5推动研究，端倪初现

加州大学欧文分校数学教授Paata Ivanisvili，也把ChatGPT列为论文合作者。

新论文由数学教授Paata Ivanisvili、2022届中科大本科校友Xinyuan Xie (谢新元)合作，ChatGPT是第一作者。

这一探索起源于两人请GPT-5 Pro在公开的未解问题（下文）中寻找反例。

链接：https://simons.berkeley.edu/sites/default/files/openprobsmerged.pdf

标题：Real Analysis in Computer Science：A collection of Open Problems

经过若干数值实验后，它提出了一个关于带擦除的非交互相关蒸馏问题（Non-Interactive Correlation Distillation, NICD with erasures）的反例：

一个定义在5比特上的布尔函数，在擦除参数p=0.40时，其 E∣f(z)∣值严格大于 5比特多数函数（majority function）的对应值。

他们记录了这一发现并验证全部计算过程。

这一结果与线性阈值函数中关于「Majority is Least Stable」的经典反例，形成了呼应：即便AI只是将已知的反例模式应用于新场景并加以验证，其贡献依然值得肯定。

传送门：https://arxiv.org/abs/1703.07657

这是理论计算机科学中AI的「星星之火」：以往大语言模型（LLMs）多用于文献检索或数值辅助，而此次则真正生成了一个具体、有限且可验证的反例。

此外，UCLA的数学教授Ernest Ryu，借助GPT-5 Pro解决了一个凸优化领域的开放问题。

尽管模型约有80%的证明尝试是错误的，却提出了多条新颖思路。

GPT-5 Pro的具体贡献：

给出了最终可行的证明思路与论证框架
通过快速排除无效路线，大幅加速了探索进程

这项工作耗时约12小时，分3天完成。事后，Ernest Ryu回想起来，这个证明其实非常简单。

ChatGPT生成的证明的关键步骤：

可以上下滚动的图片

Ernest Ryu总结了他自己的贡献：

筛选出不正确的论点，并积累一系列正确的事实。
识别有前景的新推理思路，并引导 ChatGPT 进一步探索这些思路
认识到何时某个策略已被充分探索，并决定何时转向其他方向。

他还将继续开发这个项目，并将结果发表在专业的优化理论期刊上，并分享更新和未来的部分。

被吐槽的OpenAI科学家Sebastien Bubeck，也复现了类似的场景——

GPT-5可以证明有趣的数学结论。

不过，人类实际上抢先了gpt-5 一步:-)。另一位作者完全填补了差距，证明了新的界限。

GPT-5提出的证明：

GPT-5已经提出了多个具有研究价值的新想法。不仅如此，它实际上自己想出了大部分提示词：

传送门：https://github.com/Dicklesworthstone/model_guided_research

AI辅助研究大门，正在打开。

或许，历史铭记的不是那句「太尴尬了」，而是那行悄无声息通过编译的qed。

参考资料：

https://x.com/SebastienBubeck/status/1980804267524116569

https://x.com/PI010101/status/1981014478969033156

https://borisalexeev.com/pdf/erdos707.pdf

https://mathstodon.xyz/@tao/115416211466664814

https://x.com/slow_developer/status/1980990021248160009

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
15 跟贴 15
Qwen3-Max思考版上线，集成代码解释器攻坚复杂数学

DeepTech深科技 2025-11-04 17:45:57
2 跟贴 2

陶哲轩，用AI爆改科研范式

新智元 2025-11-05 17:09:23
0 跟贴 0

34岁女数学家王虹，斩获两项数学大奖，此前韦东奕都来听她讲课

调侃国际观点 2025-11-05 18:19:58
2 跟贴 2
美术生晒自己画的万能球形，不同搭配就能变成不同物体，网友：美术界出了个百变cos

鹤壁焦点 2025-11-03 19:17:33
0 跟贴 0

72岁送垃圾爷爷的数学手稿引关注

封面新闻 2025-11-03 16:39:12
0 跟贴 0

韦达定理构方程，实在是太巧妙啦！

大鹏老师讲数学 2025-11-03 05:17:00
0 跟贴 0
四年级奥数，一个数都没有，很多人直接放弃

郎老师趣味数学课堂 2025-11-05 19:02:32
0 跟贴 0

小升初几何题：连结OE看看是否一目了然

公考客栈店小二 2025-11-04 14:30:00
1 跟贴 1
学霸都不会做，老师：整体思想要尽早掌握

郎老师趣味数学课堂 2025-11-04 08:58:38
0 跟贴 0
男子通过模型讲解自建房结构，“圈梁构造柱楼板马牙槎”，网友：楼板才是砖混结构的灵魂

鹤壁焦点 2025-11-03 16:34:57
365 跟贴 365
这对于小学生来说，还是有一定的难度的，你认为呢

公考客栈店小二 2025-11-03 23:24:44
7 跟贴 7
在半圆中，C和D是三等分点，求阴影面积

公考客栈店小二 2025-11-05 08:00:00
0 跟贴 0
16 岁北大“神童”王虹弃数学，转投地球与空间科学学院，终用 127 页论文证百年猜想

流年拾光 2025-11-05 19:57:23
2 跟贴 2
有同学说太难了，可有同学说so easy！你认为呢

公考客栈店小二 2025-11-05 10:45:00
0 跟贴 0
扇形为半径4cm ，求阴影部分的面积

公考客栈店小二 2025-11-04 18:00:00
0 跟贴 0
两个正方形的边长分别是 7和9，求阴影部分的面积差

公考客栈店小二 2025-11-03 14:00:00
0 跟贴 0
中考数学，有人说数大不好算，学霸却只用了30秒

郎老师趣味数学课堂 2025-11-04 08:55:21
0 跟贴 0
正方形面积是20cm ²，求阴影部分的面积

公考客栈店小二 2025-11-05 10:00:00
0 跟贴 0
看似无从下手，如果连接C E，根据蝴蝶定理就能轻松搞定

公考客栈店小二 2025-11-03 08:26:00
0 跟贴 0
高中数学基本不等式求分式最小值，如何求解此题？

三乐大掌柜 2025-11-04 14:35:52
5 跟贴 5
那些改变世界的科学家有哪些？

名人堂典客 2025-11-05 18:00:00
3 跟贴 3
正方体切去长方体后，剩下的体积和表面积各是多少？

公考客栈店小二 2025-11-04 10:00:00
0 跟贴 0
考试结束后，有同学说太难了，无从下手

公考客栈店小二 2025-11-02 10:00:00
1 跟贴 1
高一数学基础题目利用基本不等式求3x+2y的最小值

三乐大掌柜 2025-11-03 13:52:41
6 跟贴 6
作文难哭了！数学80分悬了？海淀期中统考，这类孩子成为大赢家！

京城教育圈 2025-11-05 21:46:17
6 跟贴 6
两半圆如图摆放，半径分别是3和2，求阴影部分面积

公考客栈店小二 2025-11-05 16:00:00
0 跟贴 0
有的说太难了，可有的说看到题就会秒出答案！你认为难吗

公考客栈店小二 2025-11-05 10:30:00
0 跟贴 0
题目只给了一个数字8，这道算式谜题难倒了很多学霸

公考客栈店小二 2025-11-02 22:14:34
5 跟贴 5
爸爸辅导儿子写数学作业，自己先懵了，妈妈在一旁狂笑不止

星视频 2025-11-04 10:59:10
0 跟贴 0
加拿大留学计算机专业，数学难题不设限，如何轻松应对？

守你如初p 2025-11-05 04:41:14
1 跟贴 1
开题报告很重要，听我给你耍一套～

正儿八经的陈老师 2025-11-05 10:38:28
0 跟贴 0
记住这些关键词！选择题多考10分！

胜利老师讲一消 2025-11-05 13:46:03
1 跟贴 1
72岁送垃圾爷爷的数学手稿引关注，他生活清贫却用毕生心血钻研数学，网红数学博主“汤匙”：手稿里有竞赛

封面新闻 2025-11-03 14:33:40
0 跟贴 0
小学数学讲题小美女【10】

讲题课堂 2025-11-05 13:12:07
3 跟贴 3
我家是如何学高思数学的？这份攻略帮你打通任督二脉！

萌芽研究所BUD 2025-11-05 22:04:43
0 跟贴 0
这道题直接运用反比例函数的这个重要属性，利用双曲线定义直接秒

数学高分老曹 2025-11-05 17:05:26
1 跟贴 1
1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8617 跟贴 8617
佐赫兰·马姆达尼成为美国纽约市史上首位印度裔市长

央视新闻客户端 2025-11-05 11:23:28
9158 跟贴 9158
乌克兰公布“罕见”作战画面！外媒：乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯 2025-11-05 16:09:59
6845 跟贴 6845

欧冠积分榜形势：拜仁阿森纳全胜，巴黎皇马遭首败，意甲陷危机

欧冠积分榜形势：拜仁阿森纳全胜，巴黎皇马遭首败，意甲陷危机

懂球帝

2025-11-05 06:37:14

哈马斯：以色列向地道灌混凝土困我们的战士，严重违反协议

哈马斯：以色列向地道灌混凝土困我们的战士，严重违反协议

桂系007

2025-11-04 22:41:12

NBA传闻：若范弗利特仍缺阵，灰熊正考虑交易莫兰特，火箭加入？

NBA传闻：若范弗利特仍缺阵，灰熊正考虑交易莫兰特，火箭加入？

好火子

2025-11-06 02:15:20

中央宣讲团成员，已赴多个省份

政知新媒体

2025-11-05 22:42:32

心情郁闷时就去瞅瞅李湘的评论区，我简直快要笑疯了。

心情郁闷时就去瞅瞅李湘的评论区，我简直快要笑疯了。

陈意小可爱

2025-10-21 01:04:16

内线都快被打爆了，结果快船依然不愿意给首轮秀多些出场时间？

内线都快被打爆了，结果快船依然不愿意给首轮秀多些出场时间？

稻谷与小麦

2025-11-06 02:12:25

四川首次迎来“春秋假”，家长却发长文阻挠：双职工家庭吃不消了

四川首次迎来“春秋假”，家长却发长文阻挠：双职工家庭吃不消了

熙熙说教

2025-11-05 21:17:49

还没完了！赵鸿刚对手给所有武林大师下战书，中国武协或出面干预

还没完了！赵鸿刚对手给所有武林大师下战书，中国武协或出面干预

杨华评论

2025-11-05 23:59:12

比肩阿德和埃托奥，劳塔罗本赛季出战的三场欧冠比赛均有进球

比肩阿德和埃托奥，劳塔罗本赛季出战的三场欧冠比赛均有进球

懂球帝

2025-11-06 05:26:52

湖南某三甲医院美女眼科主任与副院长的瓜

湖南某三甲医院美女眼科主任与副院长的瓜

笔杆论道

2025-11-05 22:02:55

全都“反水”了！美、韩芯片巨头集体行动，外媒：限制将反转

全都“反水”了！美、韩芯片巨头集体行动，外媒：限制将反转

科普100克克

2025-11-03 23:36:41

千万不要在网上买“这4样”东西，水太深了，看完真后怕！

千万不要在网上买“这4样”东西，水太深了，看完真后怕！

装修秀

2025-10-28 11:55:03

返回台湾！“馆长”强烈安利记者去大陆玩

返回台湾！“馆长”强烈安利记者去大陆玩

看看新闻Knews

2025-11-06 01:04:03

年轻人不买账，中年人喝不起！茅台跌破1600，终于承认只是瓶酒？

年轻人不买账，中年人喝不起！茅台跌破1600，终于承认只是瓶酒？

金融八卦女

2025-11-05 13:57:48

要超就超美国，电磁弹射版攻击-11亮相？中国隐身无人机航母走在世界前列

要超就超美国，电磁弹射版攻击-11亮相？中国隐身无人机航母走在世界前列

Ck的蜜糖

2025-11-06 00:13:30

震惊！赖清德对解放军攻台保持沉默，郑丽文一语引发国际热议

震惊！赖清德对解放军攻台保持沉默，郑丽文一语引发国际热议

Ck的蜜糖

2025-11-06 02:25:48

baby叶珂双双哭晕！黄晓明跟女制片人贴脸拥抱，坐大腿亲密照来了

baby叶珂双双哭晕！黄晓明跟女制片人贴脸拥抱，坐大腿亲密照来了

八星人

2025-11-05 15:32:27

美专家：当美军第一波导弹干掉中国航母或两栖舰后，希望中国退让

美专家：当美军第一波导弹干掉中国航母或两栖舰后，希望中国退让

阵匠

2025-08-02 09:16:14

立冬吃饺子，别管多忙，记得：2馅不吃、4事不做，别犯忌讳

立冬吃饺子，别管多忙，记得：2馅不吃、4事不做，别犯忌讳

阿龙美食记

2025-11-04 11:50:20

A股：刚刚，两部门重磅宣布，政策暖意托底，周四将迎大级别变化

A股：刚刚，两部门重磅宣布，政策暖意托底，周四将迎大级别变化

云鹏叙事

2025-11-06 00:00:03

AI产业主平台领航智能+时代

13794文章数 66238关注度

往期回顾全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

美国肯塔基州州长：本州进入紧急状态

头条要闻

美国肯塔基州州长：本州进入紧急状态

体育要闻

赢下皇马，会是利物浦的转折点吗？

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国中央金融办发声

汽车要闻

智己LS9入局"9系"混战全尺寸SUV市场迎来新变量

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

数码

艺术

公开课

军事航空

本地新闻

这届干饭人，已经把博物馆吃成了食堂

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

艺术要闻

Michal Lukasiewicz：木刻般的绘画

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美国“福特”号航母驶往加勒比海

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版