网易首页 > 网易号 > 正文 申请入驻

一个问题几百美元,DeepMind智能体一次搞定了9个Erdős问题

0
分享至



机器之心编辑部

又有 9 个埃尔德什(Erdős)问题被 AI 解决了,这次是 DeepMind 团队实现的。

上周日,大模型科研领域再次传来里程碑事件:DeepMind 的大模型在一次「测试」中,直接解决了 9 个开放的 Erdős 问题。这次 AI 不仅自动解题,还进行了自动验证,随后其解法通过了人工审查。这次研究是数学界和 AI 界已知的首次针对开放式研究级数学问题进行的大规模形式化证明搜索评估。

现在,AI 不再只是在做奥数题了,现在它们已称得上是正经的「科研人员」。



  • 论文:Advancing Mathematics Research with AI-Driven Formal Proof Search
  • 论文链接:https://arxiv.org/abs/2605.22763v1

最近一段时间,大语言模型(LLM)在数学推理方面展现出了卓越的能力,但其固有的不稳定性限制了其在数学研究中的实际应用价值。一种缓解该问题的方法是利用 LLM 生成基于 Lean 等语言的正式证明。DeepMind 对该方法解决「开放性问题」的能力进行了首次大规模评估,其智能体自主解决了 353 个 Erdős 开放性问题中的 9 个,且解决每个问题的成本仅为数百美元;此外,它还证明了 OEIS 数据库中 492 个猜想中的 44 个,目前正被应用于组合学、优化理论、图论、代数几何及量子光学等领域的研究中。

这些研究发现不仅充分展示了人工智能辅助正式证明搜索技术的强大潜力,同时也为实现此类能力的智能体架构设计提供了重要的启示。

「Erdős 问题」通常不是指某一道单一的数学题,而是指由 20 世纪最具影响力的匈牙利数学家保罗·埃尔德什(Paul Erdős)一生中提出的大量数学问题与猜想。他留下了数百个经典的数学难题,主要集中在数论、组合数学和几何等领域。

现代组合学与数论的许多分支,正是在尝试解决这些问题的过程中建立起来的。从素数间隙到偏差理论,可以说这些问题塑造了整个学科领域。

那么,DeepMind 的 AI 是如何破解这些问题的?

方法

DeepMind 此次推出的框架名为AlphaProof Nexus。它的核心逻辑是:将大模型天马行空的「创造力」与 Lean 编译器绝对严谨的「判别力」结合起来。



配备 AlphaProof 的智能体的输入/输出示例(应用于 Erdős #125 问题)。

在这个框架下,人类数学家只需输入一个带有占位符(把证明部分留空,写上 sorry 占位符,即待证明部分)的代码草图,并用特殊的标记(如 EVOLVE-BLOCK 或 EVOLVE-VALUE)圈出范围,告诉 AI 哪些地方可以动,接下来就让智能体接管后续工作。解决问题的宏观战略规划、微观逻辑推导、引理创建甚至参数微调,全部交由 AI 闭环自主完成。

研究团队设计了两种核心的智能体架构,而这两种架构的对比,揭示了当前 AI 发展的一个重要趋势:

  • 基础智能体:思考 - 尝试循环

这是一种简约的架构。系统启动多个无共享状态的子智能体独立运行。每个子智能体内部是一个多轮交互循环:底层模型(Gemini 3.1 Pro)通过「思考链」推理,调用搜索和替换工具修改代码草图。每次修改后,Lean 编译器会立即进行验证;如果报错,模型就利用报错信息进行自我反思和修正,不断循环,直到所有证明漏洞被填补。

  • 全功能智能体:引入 AlphaProof

除了上述的基础循环,研究人员还引入了受 AlphaEvolve 启发的多智能体演化算法。他们让另一个大模型(Gemini 3.0 Flash)充当「裁判」,对生成的证明草图进行清晰度、合理性和新颖性的 Elo 评分,从而引导系统在庞大的可能性库中进行优胜劣汰的采样。此外,该架构还能调用专门针对奥数级别问题进行过强化学习训练的 AlphaProof 作为辅助求解工具。



全功能 AlphaProof Nexus 智能体的设计。

直觉上,全功能智能体应该全面碾压基础架构。但事后分析显示,极其简单的「基础智能体」同样成功解出了所有 9 道埃尔德什难题。研究团队明确指出,随着底层大模型(如 Gemini 3.1 Pro)自身智能密度的不断跃升,简单的智能体交互循环正在展现出惊人的效能。这预示着,在绝对客观的编译器反馈锚定下,工业界可能会逐渐从构建高度特化、复杂的训练系统,转向直接利用通用大模型的原生推理能力。

哪 9 个 Erdős 问题?



问题 12 (i) —— 避免整除的密集整数集(1970 年提出)

该问题探讨是否存在一个包含无穷多个正整数的集合,在这个集合中,没有任何一个数字可以整除另外两个更大数字的和。同时,这个集合在整个正整数范围内还要保持足够的「密集度」(满足特定的下密度下限)。AI 通过巧妙融合中国剩余定理与避免特定算术级数的构造法,给出了肯定的证明。

问题 12 (ii) —— 避免整除的更高密度极限(1970 年提出)

这是上一题的加强版,要求构造的集合在满足「不整除」条件的同时,拥有逼近极限的超高密度。AI 运用 Behrend 风格的构造法,在极其苛刻的约束下找到了满足条件的无穷集合,从而一举终结了这两个长达半个多世纪的悬案。

问题 125 —— 不同进制数字集合的加和密度(1996 年提出)

想象两个特殊的数字集合:一个只用 0 和 1 构成的三进制数字组成,另一个只用 0 和 1 构成的四进制数字组成。将这两个集合里的数字两两相加形成一个新集合,这个新集合的数字分布频率(下密度)是否大于零?AI 利用丢番图逼近原理,证明了随着数字规模的扩大,其分布密度会不断被稀释,最终严格证明其下密度为零。

问题 138(变体)—— 颜色与数列的间隔极限(1981 年提出)

这个问题与范德瓦尔登数有关,它描述的是在对连续整数进行染色时,为了保证一定能找到同色的等差数列,所需整数序列的最小长度。AI 采用贪心染色扩展算法结合局部矛盾分析,证明了随着等差数列长度要求的增加,这些范德瓦尔登数之间的间隔会趋于无穷大。

问题 152 —— 西顿集中的孤立点(1994 年提出)

西顿集是一种特殊的数字集合,其中任意两对数字的和都不相等。问题探讨当这种集合足够大时,其两两相加得到的新集合中,是否包含大量的「孤立点」(即该数字的相邻数字不在该集合中)。AI 通过对内部点、偏移邻居等进行细致的边界分析,给出了证明。

问题 741 (i) —— 集合拆分后的加和密度(1994 年提出)

如果一个集合与自身相加产生的新集合在自然数中占据了可观的比例(具备正的上密度),那么我们能否把原来的集合一分为二,使得这两半各自与自身相加产生的新集合,依然都能占据可观的比例?AI 给出了肯定的答案。

问题 741 (ii) —— 集合拆分与间隙界限(1994 年提出)

与上一题相关,AI 证明了存在一种极其特殊的「二阶基」集合,这种集合包含了一种「禁区」结构。无论你如何将它一分为二,这两个子集各自相加生成的新集合中,至少有一个必定会出现无限扩大的数字断层(无法保持有界间隙)。

问题 846 —— 平面点集的几何悖论(1992 年提出)

这是一个关于平面几何的奇妙问题。AI 证明了存在这样一种无限扩展的平面点集:你从中任意挑出有限个点,总能发现其中有很大一部分是不共线的(即没有三个点在同一条直线上)。然而,整个无限集合却无论如何也无法被拆分成有限个「绝对没有三点共线」的子集。

问题 26(延伸变体)—— 整数倍数密度的极值(1995 年提出)

这探讨了整数倍数在自然数系中的分布规律。AI 通过精妙的迭代构造(利用不断增加的素数序列),证明了存在一种特定的正整数序列,当你把这个序列中的所有数字都加上任意一个相同的正整数偏移量后,这些新数字生成的所有倍数,其在自然数中的占比永远会被严格限制在一个上限(小于四分之三)之下。

在 DeepMind 的实践中,大模型在不同问题上的计算开销差异巨大,绝大多数问题的平均成本在几十美元到几百美元之间,最「便宜」的问题仅需 7.5-15 美元。

看起来也没比 AI 写代码贵太多?

我们知道,上个星期 OpenAI 刚刚宣布使用内部通用推理模型推翻了数学界近 80 年的「平面单位距离猜想」(Erdős Unit Distance Problem),再加上此次 DeepMind 提交的成果,一系列进步标志着大模型的能力和应用范式正在发生改变。

现在 AI 能够解决的问题,已是真正的数学开放性未知领域,它们面对人类数学家也没有探索完成的「无人区」,正在自主创造新知识。

科学发现的速度正在快速走向指数化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

映射生活的身影
2026-05-26 15:56:12
大润发创始人今日去世

大润发创始人今日去世

中国基金报
2026-05-26 18:02:51
山西矿难3天,荒唐的一幕发生,央媒发声,原因太令人愤怒

山西矿难3天,荒唐的一幕发生,央媒发声,原因太令人愤怒

每一次点击
2026-05-26 07:54:25
思域中国20年:为什么“视觉运动”越泛滥,思域的逻辑越成立

思域中国20年:为什么“视觉运动”越泛滥,思域的逻辑越成立

汽车商业评论
2026-05-15 13:50:12
五个副省级城市政府主要领导调整,“70后”杜旭亮任杭州市代市长

五个副省级城市政府主要领导调整,“70后”杜旭亮任杭州市代市长

上观新闻
2026-05-26 10:21:18
法国不愧是革命老区,谈及特朗普访华时,大儒辩经金句频出!

法国不愧是革命老区,谈及特朗普访华时,大儒辩经金句频出!

大又元
2026-05-26 11:54:33
黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

爆角追踪
2026-05-26 09:37:26
韬定律掀的是台积电们的桌子

韬定律掀的是台积电们的桌子

智远同学
2026-05-25 21:23:45
俄威胁称准备对基辅发动大规模袭击,将会威胁到外国外交官,中方是否会自基辅撤离外交官?外交部:呼吁当事各方共同推动局势尽快降温

俄威胁称准备对基辅发动大规模袭击,将会威胁到外国外交官,中方是否会自基辅撤离外交官?外交部:呼吁当事各方共同推动局势尽快降温

极目新闻
2026-05-26 15:46:13
“想停火?先签协议” 特朗普打起新算盘

“想停火?先签协议” 特朗普打起新算盘

上游新闻
2026-05-26 14:19:02
盒马“贵妃粉耳”翻车!粉木耳配上女性剪影,网友怒批:低俗擦边

盒马“贵妃粉耳”翻车!粉木耳配上女性剪影,网友怒批:低俗擦边

乌娱子酱
2026-05-26 16:31:28
胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

映射生活的身影
2026-05-26 02:07:09
武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

李晚书
2026-05-26 12:04:16
里克尔梅:已敲定两名国际顶级球星,我当选他们就会加盟皇马

里克尔梅:已敲定两名国际顶级球星,我当选他们就会加盟皇马

懂球帝
2026-05-26 03:53:07
国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

智谷趋势
2026-05-20 17:04:05
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
高峰没料到,20年前狠心抛弃的儿子,如今成为母亲那英最大的骄傲

高峰没料到,20年前狠心抛弃的儿子,如今成为母亲那英最大的骄傲

长宁区追梦影视文化传播中心
2026-05-26 13:59:57
突发:伊朗发生大规模爆炸

突发:伊朗发生大规模爆炸

扬子晚报
2026-05-26 07:46:02
由戴耳环的女支书,想到戴耳钉的李局长!

由戴耳环的女支书,想到戴耳钉的李局长!

仕道
2026-05-26 15:04:15
未来几年最清醒的活法:改变习惯,改变心态,改变系统

未来几年最清醒的活法:改变习惯,改变心态,改变系统

洞见
2026-05-25 09:41:56
2026-05-26 19:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13087文章数 142653关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
健康
游戏
房产
公开课

数码要闻

乔思伯推出ZE-120/240/360系列联体风扇,39-119元

外泌体抗衰,什么时候能用上?

《马拉松》主演谈玩家批评 为何大家希望游戏失败

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版