网易首页 > 网易号 > 正文 申请入驻

菲尔兹奖得主用AI解出博士级数学题,然后他开始为博士生们发愁了

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心编辑部

今天,剑桥大学数学教授、菲尔兹奖得主 Timothy Gowers 的一个帖子吸引了很多关注。

他在帖子里说,自己最近也加入了用 AI 解决数学开放问题的行列。他把 Melvyn Nathanson 提出的一些问题输入给了 GPT-5.5 Pro,结果模型给出了答案。


更重要的是,在 Gowers 看来,GPT-5.5 Pro 给出的结果完全可以作为一篇博士论文的合理章节。整个过程只花了几个小时,而且 Gowers 提供的提示几乎没有任何数学内容。


Gowers 指出,这件事引发了一系列关于数学研究未来的深刻问题,尤其是对博士生的影响最为紧迫。他在博客中分享了一些思考,但坦言自己并没有完整的答案。不过,如果 AI 在数学上的进步继续以当前速度发展 —— 他预计会如此 —— 那么数学界很快就会面临一场危机。数学系有责任照顾自己的学生,应该紧急为此做好准备。


这个帖子迅速引发热议,大家讨论的焦点是 AI 是否会彻底改变数学研究范式、博士培养模式,以及人类数学家未来的角色。

GPT-5.5 Pro 解决了什么问题?

我们首先看看这篇博客写了什么。


Gowers 在博客开头坦言,他对大型语言模型数学能力的评估,已经被迫一次次向上修正。而这一次,是幅度最大的一次。

事情的起因很简单。数学家 Melvyn Nathanson 曾在一篇论文中提出了一批关于整数集合的开放问题 —— 简单来说,这些问题都在探讨:当你把一组整数以某种方式相加时,结果的集合会有多大、形态如何?这类问题在数学上属于「加法数论」的范畴。Nathanson 本人以眼光独到著称,他关注的问题往往会在数年后变得极为热门。

Gowers 选了其中几个,输入给 GPT-5.5 Pro,然后等待。

模型思考了约 17 分钟,给出了一个构造方案,解决了其中一个关于集合「跨度」的问题,并将前人结果中一个指数级的界改进为多项式级 —— 在数学上,这意味着从「几乎不可用」变为「接近最优」。Gowers 随后让模型把论证整理成一篇标准数学预印本的格式,模型又花了两分多钟完成。

接下来,Gowers 把问题推向了更深处。他将一位 MIT 学生 Isaac Rajagopal 此前发表的研究成果告诉模型,并问它能否在此基础上进一步改进。GPT-5.5 Pro 再次给出了肯定的回答:它不仅改进了 Rajagopal 的结果,还在关键步骤中引入了一个此前从未有人用过的数学构造思路。

Rajagopal 本人看过之后,评价这个想法「相当聪明,完全原创」,并补充说,这是他自己「可能需要苦思一两周才能想到的东西」。整个过程,GPT-5.5 Pro 用了不到两个小时。

Gowers 强调,在这整个过程中,他自己几乎没有提供任何实质性的数学引导 —— 他只是在问问题,而不是在给答案。

这件事意味着什么?

Gowers 在博客中花了相当篇幅讨论这件事的意义,语气坦率,甚至有些沉重。

首先是一个悬而未决的实际问题:这个结果该怎么处理?

如果是人类数学家得出同样的结论,它毫无疑问可以发表在学术期刊上。但现在,没有人需要署名,也没有人需要「credit」。Gowers 提到,arXiv 目前不接受 AI 生成的内容,而投递期刊似乎也没有意义。他的建议是,或许应该建立一个专门收录 AI 产出数学结果的平台,并由人类数学家负责核实其正确性 —— 但具体怎么做,他也没有答案。

更深的问题,是关于博士培养的。

长期以来,数学导师帮助学生「入门」的一个常见方式,是给他们找一些看起来有希望、难度适中的开放问题 —— 不太简单,但也不至于让人绝望。解决这样一个问题,能给新生研究者带来巨大的信心,证明自己有能力做真正的数学研究。

但现在,这条路几乎被堵死了。如果 AI 能在几小时内解决「难度适中」的开放问题,那这类问题就不再适合用来训练人类新手了。Gowers 的判断是:数学研究的门槛,已经悄悄抬高了一截。

他同时也给出了两点保留意见,试图避免过于悲观。

其一,博士生本身也可以使用 AI。未来的数学研究,或许不再是「人类能否独立证明 AI 证不了的东西」,而是「人类能否借助 AI,共同解决任何一方单独都无法解决的问题」。Gowers 自己近期也在做这样的尝试,他发现 AI 确实能提供有价值的贡献,尽管还没有出现真正「改变游戏规则」的时刻。

其二,这一切是否适用于所有数学分支,他并不确定。组合数学(也就是这次涉及的领域)以「问题导向」为主,AI 擅长从一个具体问题出发,向前或向后推理。但在另一些数学领域,研究更像是「从一组想法出发,看看能走到哪里」—— 这需要判断哪些观察有趣、哪些方向值得追究,而这种审美式的判断力,AI 是否具备,目前仍是未知数。

那么,做数学研究还有意义吗?

对于那些正在考虑攻读数学博士的人,Gowers 给出了一个诚实但并不令人完全安心的回答。

他认为,「通过解决难题让自己的名字永远与某个定理联系在一起」的时代,可能已经接近尾声 —— 不只是对普通研究者,对所有人都如此。他举了一个思想实验:如果一位数学家与 AI 长时间合作,AI 完成了所有技术工作并贡献了核心想法,这位数学家只是起到了引导和提问的作用 —— 我们会把这看作这位数学家的重大成就吗?Gowers 的回答是:不会。

但他并不认为钻研数学因此变得毫无价值。恰恰相反,他的判断是:那些自己真正解决过难题的人,将在与 AI 协作时展现出明显的优势 —— 就像真正懂编程的人比不懂的人更擅长使用 AI 写代码,真正懂算术的人更容易发现计算器给出的答案是否有问题。数学训练所带来的思维能力,是高度可迁移的。

「你可能不会得到与上一代研究者相同的回报,」他写道,「但你很有可能因此为即将到来的世界做好充分准备。」

最后,他以一句话结尾,语气平静,但分量不轻:「一个从明年开始读博的学生,最早也要到 2029 年才能毕业。我的判断是,到那时,从事数学研究意味着什么,将已经发生了难以辨认的变化。」

DeepMind:为人机协作的数学时代做好准备

正如 Gowers 所说,未来的数学研究必然是人与 AI 的有效协作。那这种协作如何进行?谷歌 DeepMind 刚刚发布的一项研究给出了一个框架。

5 月 7 日,DeepMind 发布了一篇题为「AI Co-Mathematician: Accelerating Mathematicians with Agentic AI」的论文,介绍了他们专门为数学研究设计的一套智能体工作台。它想解答的核心问题是:如果 AI 做数学已经是既成事实,那我们该怎么把它做成一套系统?


论文链接:https://arxiv.org/pdf/2605.06651v1

论文首先指出了一个常被忽视的事实:数学研究发表出来的,几乎全是打磨精良的严格证明,但数学家的日常工作早已被广泛认识到包含大量隐藏在幕后的活动。在最终的形式化结论之下,是一个深度探索的过程:初始直觉被检验,反例被发现,核心定义和证明经历一轮又一轮的否定与修正。简单说,论文里看到的数学,和数学家实际经历的数学,是两回事。

那 AI 在这方面做得怎么样?DeepMind 给出的判断是:局部很强,整体缺位。近年来,AI 已经沿着几条路径快速渗透进数学领域:有专门做自主推理的系统,有通过反复进化搜索发现新算法和新结构的系统,有深度整合进数学证明验证流程的系统,还有直接内置在聊天界面里、让普通数学家随手就能调用的强大推理模型。这些工具各有所长,但 DeepMind 认为,它们拼在一起仍然缺少一块。

这块缺失的,是一套真正贴合数学家日常工作方式的协作流程。数学家的日常,很少是一次次孤立的提问和解答。更多时候,他们在处理不确定性,在散落各处的文献里寻找线索,反复起草和修改半成品,并在数天乃至数周里追踪一条不断分叉、随时可能走进死胡同的思路链。但现有的 AI 工具对此几乎无能为力 —— 聊天窗口关掉就失忆,专门的推理引擎又只管自己那一亩三分地。研究者不得不亲自充当「粘合剂」,手动把对话记录、证明工具和计算脚本串联起来。

DeepMind 在论文中把这个局面和程序员的处境做了对比。程序员已经有了 Claude Code、OpenAI Codex 这样的 AI 编程助手,之所以好用,是因为软件工程本身就有一套现成的协作范式:需求文档让智能体可以长时间自主工作而不偏轨,自动化测试随时验证结果,版本控制完整记录项目的每一步演变。而数学家的日常工作中,几乎没有任何类似的流程被自动化。数学家还在刀耕火种,程序员已经有了流水线。

AI Co-Mathematician 想做的,正是给数学补上这套基础设施。它基于最新的 Gemini 模型,提供一个持续运转的项目空间。在这个空间里,一个总协调智能体负责把复杂任务拆解、分派给多条同时推进的工作流,数学家可以随时介入、调整方向,而不必守在旁边等系统把所有事情跑完再说。

更重要的是它的定位野心。这套系统并不打算取代现有的各类 AI 数学工具,而是为它们提供一个统一的「调度层」—— 让 AlphaProof、AlphaEvolve 这些各有专长的引擎,都能在数学家主导的研究流程中被按需调用。

这套系统具体是怎么工作的?

论文里有一个具体的演示案例,读起来很直观。


一位数学家想研究一个几何开放问题,于是打开 AI Co-Mathematician,上传了一篇相关论文,输入了一句话,大体意思是:我想看看能不能证明这篇论文里某个变体问题的上界。

普通的聊天 AI 收到这句话,多半会立刻开始「解题」。但这套系统没有。总协调智能体先开启了一段对话,扮演「讨论伙伴」的角色,追问道:经典问题的下界已经被证明是精确的,但另外两个变体的上界仍然悬而未决 —— 你想聚焦其中一个,还是两个都做?你是想证明某个特定的下界是精确的,还是只要建立任何一个严格的上界就够?

这个细节,代表了整套系统背后的一个核心判断:在数学研究里,把问题问对,比解决问题更重要。系统不急着给答案,而是先帮数学家想清楚自己究竟在问什么。

问题确认之后,系统才开始分头行动 —— 文献梳理、构建计算框架、执行搜索,三条工作流同时推进。在这个过程中,数学家不需要盯着屏幕等结果,可以随时通过对话界面介入、调整方向。这种协作也是双向的:如果某条工作流陷入僵局,系统会主动向数学家发出警报,明确说明卡在了哪里,并请求人类的帮助。



论文还特别提到了一个设计细节,乍看不起眼,但其实颇为关键:系统会完整保留所有走不通的路径,而不是悄悄清除、重新开始。它把每一次失败的探索都作为项目历史的一部分永久保存,供人类和 AI 共同参考,以便从失败出发制定新的策略。这背后的逻辑很朴素:在数学研究里,知道哪条路是死路,本身就是一种知识。

此外,系统对 AI 的局限性保持着相当的警惕。数学研究要求极高的严谨性,一个有缺陷的引理或一个捏造的文献引用,足以动摇整篇论文。系统的架构被设计为围绕「不确定性」来运转:追踪每一个论断如何演变或被质疑,通过持续的审查、数值模拟和文献核查来验证结论,并在工作文件中以高亮和批注的形式,向数学家明确标出哪些地方尚存争议、需要人工核实。

在早期测试中,这套系统已经帮助研究者解决了一些开放问题,找到了新的研究方向,并发现了一些被忽视的文献线索。在硬性基准测试上,它在 FrontierMath Tier 4—— 一个专门针对前沿数学难题设计的高难度测试集 —— 上达到了 48% 的得分,是目前所有 AI 系统中的最高分。

当然,这套系统目前仍处于小范围发布阶段,距离大规模投入使用还有一段距离。但它所代表的方向已经足够清晰:AI 介入数学研究,不再只是偶尔答对一道难题,而是开始尝试嵌入整个研究流程本身。

数学界一向以慢著称。一个猜想可以悬置一百年,一篇论文可以打磨十年。但眼下这场变化的速度,已经不允许用数学的时间尺度来应对了。

就像陶哲轩所说,AI 正在让数学进入「工业化」时代,未来会出现一种规模化生产数学成果的全新方式,与传统手工式研究并行共存。这一天来得比所有人预想的都要快 —— 而眼下这一周发生的事情,不过是它露出地面的冰山一角。

参考链接:https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

芳芳历史烩
2026-05-10 04:21:10
随着曼联0-0,富勒姆0-1、布莱顿3-0,英超最新积分榜出炉

随着曼联0-0,富勒姆0-1、布莱顿3-0,英超最新积分榜出炉

侧身凌空斩
2026-05-10 00:05:39
晚清最惨绞肉战:七位顶级提督殒命 左宗棠为何三日不眠不食?

晚清最惨绞肉战:七位顶级提督殒命 左宗棠为何三日不眠不食?

掠影后有感
2026-05-10 10:43:55
爷爷把5套安置房全给叔叔,父亲没说话,等爷爷70大寿时众人傻眼

爷爷把5套安置房全给叔叔,父亲没说话,等爷爷70大寿时众人傻眼

青青会讲故事
2025-04-21 14:09:37
星铉:汉坦病毒最新进展-多国扩散,全球各国如临大敌

星铉:汉坦病毒最新进展-多国扩散,全球各国如临大敌

星铉
2026-05-09 11:42:41
F-勒布伦:王楚钦总是压我一头,这确实有点让人懊恼

F-勒布伦:王楚钦总是压我一头,这确实有点让人懊恼

懂球帝
2026-05-10 10:57:05
兄弟新婚分享老婆照片结果婚纱太紧火出圈,兄弟你这真不拿我们当外人哈哈

兄弟新婚分享老婆照片结果婚纱太紧火出圈,兄弟你这真不拿我们当外人哈哈

经典段子
2026-05-09 22:38:57
蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

芳芳历史烩
2026-05-04 01:43:43
解读麦克斯韦方程组,人类历史最美最伟大的公式

解读麦克斯韦方程组,人类历史最美最伟大的公式

宇宙时空
2026-05-09 18:34:04
190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

北纬的咖啡豆
2026-05-10 09:37:00
林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

史海孤雁
2026-05-07 18:01:13
郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

极目新闻
2026-05-10 13:03:22
敢说!基恩怒批阿森纳昔日天才:他是世界上最被高估的球员

敢说!基恩怒批阿森纳昔日天才:他是世界上最被高估的球员

一隅非生
2026-05-10 03:36:46
广西最黑暗的历史:南宁被越南围城42天,5.8万人惨遭越军杀害

广西最黑暗的历史:南宁被越南围城42天,5.8万人惨遭越军杀害

环球情报员
2026-05-09 23:21:41
肖磊:俄罗斯为什么必须要“阅兵”

肖磊:俄罗斯为什么必须要“阅兵”

肖磊看世界
2026-05-09 16:04:41
美国急眼了:从南海败退到死磕伊朗,中国崛起才是总剧本

美国急眼了:从南海败退到死磕伊朗,中国崛起才是总剧本

纪史行者
2026-05-10 09:05:05
升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

老猫观点
2026-05-09 18:44:54
西方军事专家曾说:不同于其他大国,中国是全世界最完美超级大国

西方军事专家曾说:不同于其他大国,中国是全世界最完美超级大国

沧海一书客
2026-05-10 13:27:48
北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

环球网资讯
2026-05-09 17:05:08
三年亏光183亿!周鸿祎的造车梦,为何成了一地鸡毛?

三年亏光183亿!周鸿祎的造车梦,为何成了一地鸡毛?

芳华青年
2026-05-08 10:53:34
2026-05-10 15:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3161250文章数 7289关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
时尚
亲子
艺术
军事航空

《影之刃零》PS5实体版预售引热议 玩家担心偷跑

今年最好看的衬衫竟然是它?太减龄了!

亲子要闻

小叔子比老公小28岁,整天就知道粘着我

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版