网易首页 > 网易号 > 正文 申请入驻

陶哲轩弟子打造数学AI解决30年数学问题,为何数学家们说不算数?

0
分享至

近日,券商巨头 Robinhood 首席执行官弗拉德·特涅夫(Vlad Tenev)在社交媒体上发布了一条推文:“我们正处于数学领域深刻变革的风口浪尖。氛围证明(Vibe proving)的时代已经到来。”

他宣布,自己创办的人工智能公司 Harmonic 开发的 Aristotle 模型完全自主地解决了埃尔德什问题(Erdős Problem)124 号,这个数论猜想自 1995 年在学术期刊《Acta Arithmetica》上首次提出以来,已经悬而未决近三十年。

不到 24 小时后,埃尔德什问题网站的维护者托马斯·布鲁姆(Thomas Bloom)也发表了一系列评论。“这是一个很好的证明,完全由人工智能从形式化陈述出发、无人工干预生成,然后在 Lean 中形式化,这本身已经令人印象深刻,”布鲁姆写道,“事后来看,解决方案相当简单,使得这个问题处于数学竞赛题的水平。埃尔德什提出这个问题时有两个不同的版本。人工智能解决的是更简单的那个。”

埃尔德什问题 124 号问的是:给定一组整数 d₁, d₂, ..., dₖ,如果它们满足∑1/(dᵢ-1)≥1,那么是否所有足够大的整数都可以表示为一种特殊形式的和——每一项都是某个 dᵢ 的幂次,且该幂次在 dᵢ进制下只包含数字 0 和 1?在 1995 年的原始论文中,伯尔(Burr)、埃尔德什、格雷厄姆(Graham)和李文卿(Wen-Ching Li)明确排除了 1 的幂次,并附加了一个必要的最大公约数条件。但埃尔德什本人在后来的论文中重新表述这个问题时,却允许包含 1,并省略了最大公约数条件。Aristotle 解决的是后者。

“如果这样的简单方法有效,那么伯尔、埃尔德什、格雷厄姆和李这样的联合智慧肯定早就发现了,”布鲁姆写道。通常情况下,这会让他怀疑证明中存在被忽视的微妙之处,但由于证明已经在 Lean 证明助手中形式化,也就是说每一步推理都经过了机器验证,“显然它确实有效!”

证明该问题的普林斯顿大学数学博士鲍里斯·阿列克谢耶夫(Boris Alexeev)在讨论区详细描述了 Aristotle 的工作过程。他使用的是一个测试版本,具有增强的推理能力和自然语言界面。Aristotle 花费了 6 小时生成证明,而 Lean 的类型检查只用了 1 分钟。

值得一提的是,Aristotle 完全是从形式化陈述出发工作的,期间没有任何人工干预。只是阿列克谢耶夫发现并修正了形式化猜想项目中的一个打字错误——注释写的是“≥1”,而 Lean 代码却是“=1”。最终,Aristotle 证明了三个不同版本的问题。

Aristotle 的证明的确展现出一种令人意外的简洁美。一位名为 tsaf 的用户在讨论区用几行文字概述了核心思路:将所有 dᵢ 的幂次按升序排列形成序列 (aₙ)。例如,如果 d₁=2 且 d₂=3,序列就是 1, 1, 2, 3, 4, 8, 9, 16, 27, ...。

证明的关键是表明 aₙ₊₁-1 ≤ a₁+...+aₙ。如果这个不等式成立,那么通过归纳法,可以用前 n 项的子序列和来填“满”从 1 到 a₁+...+aₙ 的所有整数,而这个范围恰好足以覆盖 aₙ₊₁。

而关键就在于对 a₁+...+aₙ 这个总和的处理。将它改写为 ∑(dᵢ^(eᵢ,ₙ)-1)/(dᵢ-1),其中 eᵢ,ₙ 是 dᵢ 在前 n 项中尚未出现的第一个指数。根据构造,aₙ₊₁ 恰好等于 mini(dᵢ^(eᵢ,ₙ))。由于问题假设 ∑1/(dᵢ-1)≥1,而 dᵢ^(eᵢ,ₙ)≥1,通过仔细计算就能验证所需的不等式。整个论证就是这几步推理,在 Lean 中的形式化证明也相对紧凑。

特涅夫的导师、菲尔兹奖得主陶哲轩也在讨论区出现了。他做了一个有趣的实验:将这个问题(简化版本)提供给谷歌的 Gemini Deepthink,并提示使用布朗准则(一个在加法组合学中常用的工具)。Gemini 宣称布朗准则不太可能强大到足以解决这个问题。

检查其推理过程后,陶哲轩发现这是一个“相当体面的错误”。Gemini 注意到,如果取 d₁=3,在 3^k 和 3^(k+1) 之间可能无限次地不存在任何其他 dᵢ的幂次,使得连续元素之间的比率可能高达 3。布朗准则通常需要连续元素的平均比率不超过 2,因此 Gemini 从启发式角度认为这种方法不太可能奏效。

“这实际上不是一个糟糕的分析,”陶哲轩评论道,“只是恰好所有小于 3^k 的其他幂次的累积和(勉强)足以克服 3 的间隙并最终到达 3^(k+1)。我会将这类错误归类为人类专家在这个问题上也可能犯的错误。”

他还指出,这种分析也暗示了为什么该问题的更强版本更加困难——在不允许 1 的情况下,序列的结构会发生根本变化,上述简洁的论证将不再适用。

陶哲轩进一步用庞梅朗斯(Pomerance)的观察来解释问题的微妙之处:通过丢番图逼近论可以证明,对于有限集合,条件 ∑1/(a-1)≥1 是必要的。但当这个和恰好等于 1 时,问题变得极其微妙,至少需要贝克定理(Baker's theorem)这样的深刻结果来防止不同底数的幂次聚集得太近,从而产生潜在的反例。

萨格勒布大学理学院数学系教授韦科·科瓦奇(Vjeko Kovac)也提供了另一个视角。他指出,在他与陶哲轩此前发表的一篇论文中的定理 2.3 可以被视为这个问题的连续参数变体,基本证明思路(排序序列、验证条件、考虑与每个参数相关的第一个出现项等)是相同的。

“我提到这一点并非要贬低 Aristotle 和阿列克谢耶夫的证明,恰恰相反,它非常漂亮,”科瓦奇写道,“我的观点是,基本思想在许多地方重复出现;人类常常未能意识到它们适用于不同的环境,而机器没有这个问题!我记得以前见过这个问题并简短地思考过它。我承认,我当时没有注意到这个联系,而现在对我来说却相当明显。”

科瓦奇的这段话也说明,Aristotle 找到的证明并非某种前所未有的创新技术,而是将已经存在于数学文献中的基本思想应用到了这个具体问题上。陶哲轩的实验进一步印证了这一点。

当他让 ChatGPT Pro 处理同样的问题时,该工具直接从埃尔德什问题网站上检索到了 Aristotle 的证明和 tsaf 的总结,并将其改写成人类可读的形式。陶哲轩注意到,可能存在关闭网络搜索的选项来测试工具独立解决问题的能力,但他没有探索这一点。

布鲁姆也提出了类似的疑问。他表示不会感到惊讶如果这个已解决的问题实际上曾出现在某个数学竞赛中,这样它可能已经是训练数据的一部分。在数学竞赛中,参赛者通常被告知一个简短优雅的解法是存在的——这正是 Aristotle 面对的情况。

问题在于,当四位数学家在 1995 年提出这个猜想时,他们并不知道是否存在这样的简单解法,而这种不确定性才是数学研究的常态。至于这个问题为何 30 年都没被解决,大概只是因为没有人真的认真尝试去解决它。

因此,就目前来看,Aristotle 确实能够在形式化的框架内探索证明空间,找到满足逻辑要求的推理链条。但这种能力更接近于在已知的数学工具箱中寻找合适的组合,而非发明全新的证明技术或提出原创的数学洞察。当基本思想已经在文献的某个角落存在时,人工智能展现出了发现和应用它们的能力;但当需要真正的概念突破时,情况可能会大不相同。

布鲁姆最终决定保持埃尔德什问题 124 号的“开放”状态,在主要陈述中保留最大公约数条件,并在备注中说明简化版本已被解决。阿列克谢耶夫对此表示同意:“Aristotle 解决了这个问题的‘一个’版本,但不是‘那个’版本。”这个微妙的区分,或许正是理解人工智能当前数学能力的关键。

参考资料:

1.https://x.com/vladtenev/status/1994922827208663383

2.https://x.com/thomasfbloom/status/1995094668879462466

3.https://www.erdosproblems.com/forum/thread/124

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯4球1助!维尼修斯狂舞:3连斩本届第1人 内马尔鼓掌

世界杯4球1助!维尼修斯狂舞:3连斩本届第1人 内马尔鼓掌

叶青足球世界
2026-06-25 07:07:20
“日本驻华大使多次请求与中方会面,均未成功”

“日本驻华大使多次请求与中方会面,均未成功”

观察者网
2026-06-24 14:56:07
德媒:英国重返欧盟或将改变世界

德媒:英国重返欧盟或将改变世界

参考消息
2026-06-24 12:22:09
谁能想到,专门收割中国人的东南亚电诈头目,竟是侨商同胞!

谁能想到,专门收割中国人的东南亚电诈头目,竟是侨商同胞!

君笙的拂兮
2026-06-23 23:16:15
东南大学、西安交通大学、复旦大学、南京大学、兰州大学、华南理工大学、同济大学、南开大学、山东大学等,宣布扩招

东南大学、西安交通大学、复旦大学、南京大学、兰州大学、华南理工大学、同济大学、南开大学、山东大学等,宣布扩招

政知新媒体
2026-06-23 11:14:07
"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

探源历史
2026-06-04 09:50:59
杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

咣当地球
2026-06-23 15:59:08
昆明街头印度人索要免费餐,直接举着手机问“能请我们吃饭吗”?

昆明街头印度人索要免费餐,直接举着手机问“能请我们吃饭吗”?

原广工业
2026-06-25 01:31:10
94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

新浪财经
2026-06-24 02:28:33
15岁警卫员护卫毛主席走完长征,当了官,再见面主席说:官不小嘛

15岁警卫员护卫毛主席走完长征,当了官,再见面主席说:官不小嘛

芊芊子吟
2026-06-25 06:15:06
哥伦比亚1-0刚果金,反超葡萄牙出线!世界杯32强定7席,5队出局

哥伦比亚1-0刚果金,反超葡萄牙出线!世界杯32强定7席,5队出局

小火箭爱体育
2026-06-24 12:01:43
郑丽文6月23日说出一番让大陆网友目瞪口呆的话

郑丽文6月23日说出一番让大陆网友目瞪口呆的话

小马姨
2026-06-24 08:30:10
里夫斯4年1.85亿续约湖人:落选秀最大合同+队史第二 含球员选项

里夫斯4年1.85亿续约湖人:落选秀最大合同+队史第二 含球员选项

醉卧浮生
2026-06-25 00:00:29
立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

暮色史观
2026-06-25 05:50:29
冯小刚说没有导演想给观众添堵,截止今日电影累计票房7211万元

冯小刚说没有导演想给观众添堵,截止今日电影累计票房7211万元

韩小娱
2026-06-24 17:17:54
曼联签楚阿梅尼重现曙光?曝皇马可能考虑报价,但7500万绝对不够

曼联签楚阿梅尼重现曙光?曝皇马可能考虑报价,但7500万绝对不够

罗米的曼联博客
2026-06-25 07:09:03
详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

篮球小烟花
2026-06-25 08:10:03
6分不一定能出线?世界杯K组-L组末轮形势分析

6分不一定能出线?世界杯K组-L组末轮形势分析

世界BALL
2026-06-24 14:18:08
初中孩子掉队的顺序,没想到挺准的!

初中孩子掉队的顺序,没想到挺准的!

好爸育儿
2026-05-10 17:15:47
卢卡申科突然宣布长期离境!把大权交给总理,白俄罗斯要变天了?

卢卡申科突然宣布长期离境!把大权交给总理,白俄罗斯要变天了?

霁寒飘雪
2026-06-24 19:37:33
2026-06-25 08:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16876文章数 515050关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

美光,业绩、指引炸裂

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

本地
健康
手机
公开课
军事航空

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

神经内科专家破解中风十大谣言

手机要闻

iQOO 新机现身 Geekbench,天玑9500芯片加持

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版