网易首页 > 网易号 > 正文 申请入驻

陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解

0
分享至

陶哲轩又来安利AlphaEvolve了。

在与DeepMind高级工程师Bogdan Georgiev等人合著的新论文中,陶哲轩称其为数学发现的有力新工具


具体来说,他们用AlphaEvolve研究了67个数学问题,涵盖组合数学、几何、数学分析与数论等多个领域。


结果发现,AlphaEvolve在可扩展性、鲁棒性、可解释性方面均优于传统工具。

更关键的是,AlphaEvolve已经可以自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果。

AI自主发现新数学构造

AlphaEvolve在67个问题的测试中,不仅复现了众多已知最优解,更在多个方面展现了其独特的发现能力。

一个关键的成就是AlphaEvolve能够自主发现人类未曾一窥的新数学构造

例如在处理Nikodym集问题时,系统生成的初步构造虽然尚未达到最优,但它为人类研究者提供了“一个极好的人类直觉跳板” 。


基于AI提供的结构,研究人员通过人工简化和直觉推演,最终找到了一个更优的构造,改进了已知的上界,这一人机协作的成果将作为一篇独立的数学论文发表。


同样地,在算术Kakeya猜想中,AlphaEvolve也发挥了类似作用。


系统不仅将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表。


这种启发人类研究的能力,与AlphaEvolve输出结果的可解释性紧密相关。

系统在大多数情况下生成的是结构清晰的程序代码,而非难以理解的黑盒结果,这使得人类专家可以方便地分析、归纳其发现的模式,并提炼出通用的数学公式。

积木堆叠问题便是这一特性的绝佳体现。


在该问题中,系统最初生成了一个逻辑正确的递归程序来计算积木的放置。在随后的演化中,系统内部的LLM分析了这段代码的逻辑,并自主将其重构为一个更简洁、高效的显式程序。

这个最终程序清晰地揭示了最优解与谐波数(harmonic numbers)之间的数学关系,这与人类已知的理论公式完全一致,展示了系统从复杂解法中提炼数学本质的能力。


除了方案的清晰性,AlphaEvolve在不同类型的问题设置下也表现出了强大的鲁棒性。

它能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数。

比如这里有一个最小三角形密度问题。


研究人员最初设计了一个朴素的评分函数,但系统很快利用了该问题空间的非凸性,通过“欺骗”评分函数获得了超越理论最优的不可能分数。


为了解决这个问题,研究人员设计了一个更鲁棒的新评分函数,该函数基于问题的利普希茨连续性(Lipschitz type bounds)构造。

在切换到这个更复杂的连续评分函数后,AlphaEvolve不再受局部陷阱的迷惑,迅速收敛到了已知的、正确的理论最优解。


并且AlphaEvolve具备了出色的泛化能力,来看IMO 2025的第6题。


研究人员只在输入n为完全平方数时才对系统进行评分。这种“信息限制”反而迫使AlphaEvolve去寻找这些稀疏实例背后的共同结构模式,而不是对每个n进行“过拟合”。


最终,系统成功发现并输出了在所有完全平方数n上均达到最优的通用构造,展现出了归纳能力。


在实际应用中,AlphaEvolve的效率极高,仅需少量高质量提示即可驱动。论文指出,来自领域专家的提示(expert guidance)往往能显著提升最终构造的质量,表明系统对人类输入具有高度的敏感性。

同时,该系统在架构上支持并行化,允许研究人员在多个问题实例或同一问题的不同参数设置上同时运行探索,并能自动迁移成功的搜索策略,这在处理多参数的几何类问题时尤其高效。

AlphaEvolve工作模式

AlphaEvolve并非一个单一流程的系统,而是通过不同“工作模式”适应不同类型的数学问题探索任务。

该系统主要在两种不同的模式下运行——“搜索模式”(search mode)和“泛化模式”(generalizer mode)。

“搜索模式”是系统最常用的模式,其目标是高效地发现最优的数学构造,而不必关心构造过程是否具有可解释性或普适性。在这种模式下,AlphaEvolve演化的不是直接生成构造的程序,而是演化用于搜索构造的程序。

每一个被演化的程序本身就是一个“搜索启发式算法”(search heuristic)。

评估器会给予这些启发式算法一个固定的时间预算,算法的得分取决于它在此预算内能找到的最佳构造的质量。

这种方式解决了LLM调用(缓慢且昂贵)与传统局部搜索(快速且廉价)之间的速度差异——一次缓慢的LLM调用用于生成一个高效的搜索策略,该策略随后可以触发大规模的廉价计算,自主探索数百万个候选构造。

系统演化的是一系列“改进器”(improver)函数,它们动态地适应搜索进程,早期可能偏好进行广泛探索的启发式算法,而当接近最优解时,则会演化出更精细的、针对特定问题进行优化的算法。


“泛化模式”则更具挑战性 。

其目标是让AlphaEvolve编写一个能够解决任意给定参数n的问题的通用程序 。系统的评估方式是考察该程序在一系列不同n值上的综合表现。

这种模式的期望是,通过让系统观察自己在小规模n上找到的最优解,它能够自主“发现模式”,并将其归纳推广为一个适用于所有n的通用公式或算法 。


总之,AlphaEvolve展示了AI引导的演化搜索如何补充人类的直觉,为数学研究提供了一个强大的新范式。

论文地址:
https://arxiv.org/abs/2511.02864

文章来源:量子位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拟并购行业独角兽!800亿市值光伏龙头,明起停牌

拟并购行业独角兽!800亿市值光伏龙头,明起停牌

每日经济新闻
2026-02-24 23:04:06
贝加尔湖惨案只报“救出一人”,本质就是护着俄罗斯的脸面

贝加尔湖惨案只报“救出一人”,本质就是护着俄罗斯的脸面

壹家言
2026-02-25 16:11:34
央视重磅官宣:歼16单机双锁两架F-22,外军隐身战机吓得再不敢来

央视重磅官宣:歼16单机双锁两架F-22,外军隐身战机吓得再不敢来

52赫兹实验室
2026-02-23 12:43:04
光线传媒20CM跌停:来源于《飞驰人生3》的营收约为4300万元至5300万元

光线传媒20CM跌停:来源于《飞驰人生3》的营收约为4300万元至5300万元

澎湃新闻
2026-02-24 22:08:26
“反向过年”爆火,一线城市谁最旺?

“反向过年”爆火,一线城市谁最旺?

时代周报
2026-02-24 21:35:13
比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

上观新闻
2026-02-25 15:37:09
历史最大误读!千古只此一人,做成六百年没人做到的事

历史最大误读!千古只此一人,做成六百年没人做到的事

毛豆论道
2026-02-24 23:15:02
试管男婴出生右脚缺4根脚趾,31岁产妇号啕大哭,家属称大排畸未拍到右脚照片,当地卫健委已介入调查

试管男婴出生右脚缺4根脚趾,31岁产妇号啕大哭,家属称大排畸未拍到右脚照片,当地卫健委已介入调查

极目新闻
2026-02-25 21:04:20
突发!香港一女警头部中枪身亡,多名亲友到场痛哭!港警重案组跟进,港警一哥周一鸣亲到观塘警署了解事件!

突发!香港一女警头部中枪身亡,多名亲友到场痛哭!港警重案组跟进,港警一哥周一鸣亲到观塘警署了解事件!

澳门月刊
2026-02-25 13:31:47
全网好奇,谷爱凌嘴里咬的东西是啥?

全网好奇,谷爱凌嘴里咬的东西是啥?

有意思报告
2026-02-25 12:25:30
广东1岁男童大年初七家门口走失,当地回应:在报警人家附近的鱼塘中发现该儿童,已无生命体征,相关工作正在进行中

广东1岁男童大年初七家门口走失,当地回应:在报警人家附近的鱼塘中发现该儿童,已无生命体征,相关工作正在进行中

大风新闻
2026-02-25 21:35:04
恒大到底如何亏出八千亿的?终于搞懂了!许家印不跑是有原因的!

恒大到底如何亏出八千亿的?终于搞懂了!许家印不跑是有原因的!

历史伟人录
2026-02-25 18:17:16
平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

英军眼
2026-02-25 10:53:41
比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

社会酱
2026-02-25 16:46:40
重庆一女子随家人爬山深夜失联,10天后遗体被找到!家属回应“女子曾光脚走在前面,登顶后神情恐惧”

重庆一女子随家人爬山深夜失联,10天后遗体被找到!家属回应“女子曾光脚走在前面,登顶后神情恐惧”

封面新闻
2026-02-25 16:37:09
60岁继父搂腰亲吻10岁女童最新进展:涉事老年男子短视频平台账号被禁止关注,内容无法查看

60岁继父搂腰亲吻10岁女童最新进展:涉事老年男子短视频平台账号被禁止关注,内容无法查看

大风新闻
2026-02-25 21:35:03
洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

百态人间
2026-02-25 15:33:21
不要了!再见胡明轩!中国男篮公布12人名单

不要了!再见胡明轩!中国男篮公布12人名单

篮球实战宝典
2026-02-25 19:31:33
网友偶遇《天天向上》主持人钱枫,颈部线条消失,身材胖到200斤

网友偶遇《天天向上》主持人钱枫,颈部线条消失,身材胖到200斤

师维
2026-02-25 19:43:51
铁路部门回应“半夜候补成功1700元车票作废”报道

铁路部门回应“半夜候补成功1700元车票作废”报道

大象新闻
2026-02-25 18:17:03
2026-02-25 23:15:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5374文章数 64616关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

艺术
本地
游戏
健康
公开课

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

本地新闻

津南好·四时总相宜

玩家拿首份工资预购《生化9》!功勋制作人亲自回复

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版