网易首页 > 网易号 > 正文 申请入驻

陶哲轩力推AlphaEvolve:多个难题中超越人类最优解

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

陶哲轩又来安利AlphaEvolve了。

在与DeepMind高级工程师Bogdan Georgiev等人合著的新论文中,陶哲轩称其为数学发现的有力新工具。



具体来说,他们用AlphaEvolve研究了67个数学问题,涵盖组合数学、几何、数学分析与数论等多个领域。



结果发现,AlphaEvolve在可扩展性、鲁棒性、可解释性方面均优于传统工具。

更关键的是,AlphaEvolve已经可以自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果。

AI自主发现新数学构造

AlphaEvolve在67个问题的测试中,不仅复现了众多已知最优解,更在多个方面展现了其独特的发现能力。

一个关键的成就是AlphaEvolve能够自主发现人类未曾一窥的新数学构造。

例如在处理Nikodym集问题时,系统生成的初步构造虽然尚未达到最优,但它为人类研究者提供了“一个极好的人类直觉跳板” 。



基于AI提供的结构,研究人员通过人工简化和直觉推演,最终找到了一个更优的构造,改进了已知的上界,这一人机协作的成果将作为一篇独立的数学论文发表。



同样地,在算术Kakeya猜想中,AlphaEvolve也发挥了类似作用。



系统不仅将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表。



这种启发人类研究的能力,与AlphaEvolve输出结果的可解释性紧密相关。

系统在大多数情况下生成的是结构清晰的程序代码,而非难以理解的黑盒结果,这使得人类专家可以方便地分析、归纳其发现的模式,并提炼出通用的数学公式。

积木堆叠问题便是这一特性的绝佳体现。



在该问题中,系统最初生成了一个逻辑正确的递归程序来计算积木的放置。在随后的演化中,系统内部的LLM分析了这段代码的逻辑,并自主将其重构为一个更简洁、高效的显式程序。

这个最终程序清晰地揭示了最优解与谐波数(harmonic numbers)之间的数学关系,这与人类已知的理论公式完全一致,展示了系统从复杂解法中提炼数学本质的能力。



除了方案的清晰性,AlphaEvolve在不同类型的问题设置下也表现出了强大的鲁棒性。

它能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数。

比如这里有一个最小三角形密度问题。



研究人员最初设计了一个朴素的评分函数,但系统很快利用了该问题空间的非凸性,通过“欺骗”评分函数获得了超越理论最优的不可能分数。



为了解决这个问题,研究人员设计了一个更鲁棒的新评分函数,该函数基于问题的利普希茨连续性(Lipschitz type bounds)构造。

在切换到这个更复杂的连续评分函数后,AlphaEvolve不再受局部陷阱的迷惑,迅速收敛到了已知的、正确的理论最优解。



并且AlphaEvolve具备了出色的泛化能力,来看IMO 2025的第6题。



研究人员只在输入n为完全平方数时才对系统进行评分。这种“信息限制”反而迫使AlphaEvolve去寻找这些稀疏实例背后的共同结构模式,而不是对每个n进行“过拟合”。



最终,系统成功发现并输出了在所有完全平方数n上均达到最优的通用构造,展现出了归纳能力。



在实际应用中,AlphaEvolve的效率极高,仅需少量高质量提示即可驱动。论文指出,来自领域专家的提示(expert guidance)往往能显著提升最终构造的质量,表明系统对人类输入具有高度的敏感性。

同时,该系统在架构上支持并行化,允许研究人员在多个问题实例或同一问题的不同参数设置上同时运行探索,并能自动迁移成功的搜索策略,这在处理多参数的几何类问题时尤其高效。

AlphaEvolve工作模式

AlphaEvolve并非一个单一流程的系统,而是通过不同“工作模式”适应不同类型的数学问题探索任务。

该系统主要在两种不同的模式下运行——“搜索模式”(search mode)和“泛化模式”(generalizer mode)。

“搜索模式”是系统最常用的模式,其目标是高效地发现最优的数学构造,而不必关心构造过程是否具有可解释性或普适性。在这种模式下,AlphaEvolve演化的不是直接生成构造的程序,而是演化用于搜索构造的程序。

每一个被演化的程序本身就是一个“搜索启发式算法”(search heuristic)。

评估器会给予这些启发式算法一个固定的时间预算,算法的得分取决于它在此预算内能找到的最佳构造的质量。

这种方式解决了LLM调用(缓慢且昂贵)与传统局部搜索(快速且廉价)之间的速度差异——一次缓慢的LLM调用用于生成一个高效的搜索策略,该策略随后可以触发大规模的廉价计算,自主探索数百万个候选构造。

系统演化的是一系列“改进器”(improver)函数,它们动态地适应搜索进程,早期可能偏好进行广泛探索的启发式算法,而当接近最优解时,则会演化出更精细的、针对特定问题进行优化的算法。



“泛化模式”则更具挑战性 。

其目标是让AlphaEvolve编写一个能够解决任意给定参数n的问题的通用程序 。系统的评估方式是考察该程序在一系列不同n值上的综合表现。

这种模式的期望是,通过让系统观察自己在小规模n上找到的最优解,它能够自主“发现模式”,并将其归纳推广为一个适用于所有n的通用公式或算法 。



总之,AlphaEvolve展示了AI引导的演化搜索如何补充人类的直觉,为数学研究提供了一个强大的新范式。

论文地址:
https://arxiv.org/abs/2511.02864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
翁帆新住所曝光:家里还挂着杨振宁103岁的生日横幅

翁帆新住所曝光:家里还挂着杨振宁103岁的生日横幅

金牌娱乐
2025-11-07 10:48:32
张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

银河史记
2025-10-01 14:52:35
咖啡再次被关注!医生发现:动脉硬化患者常喝咖啡,或有5个变化

咖啡再次被关注!医生发现:动脉硬化患者常喝咖啡,或有5个变化

剑道万古似长夜
2025-11-07 09:59:30
北约称弹药产量已不低于俄罗斯!欧盟:将停止向俄公民发放多次入境签证!佩斯科夫:俄美仍对元首会晤有兴趣

北约称弹药产量已不低于俄罗斯!欧盟:将停止向俄公民发放多次入境签证!佩斯科夫:俄美仍对元首会晤有兴趣

每日经济新闻
2025-11-07 23:15:10
正式离队,郭士强发声,官宣决定,出发美国,篮协看懂了

正式离队,郭士强发声,官宣决定,出发美国,篮协看懂了

乐聊球
2025-11-07 09:07:21
她是马斯克的白月光:美的无可挑剔,生理性喜欢!上头不是没原因

她是马斯克的白月光:美的无可挑剔,生理性喜欢!上头不是没原因

牛牛叨史
2025-11-06 15:48:40
3-1,英超第9击退荷甲第3,避免欧协2连败,27岁萨尔无敌双响炮

3-1,英超第9击退荷甲第3,避免欧协2连败,27岁萨尔无敌双响炮

凌空倒钩
2025-11-07 06:27:41
“凭啥只给弟弟钱?”女儿控诉偏心,母亲一句话收获数万网友点赞

“凭啥只给弟弟钱?”女儿控诉偏心,母亲一句话收获数万网友点赞

妍妍教育日记
2025-11-07 18:12:59
得不到就亲手毁掉!荷兰让安世无晶圆可用,中方启动最强护盘措施

得不到就亲手毁掉!荷兰让安世无晶圆可用,中方启动最强护盘措施

云上乌托邦
2025-11-06 16:03:25
F1巴西站冲刺排位赛:诺里斯杆位,安东内利P2,汉密尔顿P11

F1巴西站冲刺排位赛:诺里斯杆位,安东内利P2,汉密尔顿P11

懂球帝
2025-11-08 03:32:30
我代表公司和同学签1.2亿大单,同学说他被裁员,我:合同不签了

我代表公司和同学签1.2亿大单,同学说他被裁员,我:合同不签了

秋风专栏
2025-11-04 16:22:01
这3样东西是自己的福报,不能借给别人,第3个是被借运的关键物品

这3样东西是自己的福报,不能借给别人,第3个是被借运的关键物品

糖逗在娱乐
2025-11-05 05:41:42
特朗普:中国有一个就够了,谁要是让纽约变成另一个,我绝不允许

特朗普:中国有一个就够了,谁要是让纽约变成另一个,我绝不允许

现代小青青慕慕
2025-11-08 00:23:00
退休老人11月领养老金,这4件事比工资到账还重要!忽略影响待遇

退休老人11月领养老金,这4件事比工资到账还重要!忽略影响待遇

石辰搞笑日常
2025-11-07 15:09:54
南海坠机后,美军再开3枪,逼中方上审判台?解放军已加速增兵

南海坠机后,美军再开3枪,逼中方上审判台?解放军已加速增兵

大白话瞰世界
2025-11-07 15:30:19
国米打响更新换代第一枪,乾坤大挪移无法弥补阵容最大硬伤!

国米打响更新换代第一枪,乾坤大挪移无法弥补阵容最大硬伤!

肥强侃球
2025-11-07 22:57:16
这不是迷信!“最怕立冬是雨天”,今日立冬,下雨啥预兆?

这不是迷信!“最怕立冬是雨天”,今日立冬,下雨啥预兆?

智慧生活笔记
2025-11-07 12:19:58
原来她就是邵佳一妻子,怪不得能成为国足主帅,娶一个贤妻旺三代

原来她就是邵佳一妻子,怪不得能成为国足主帅,娶一个贤妻旺三代

素衣读史
2025-11-06 18:17:09
演员王志文:不留骨灰,不设墓地!他的选择引发无数网友深思

演员王志文:不留骨灰,不设墓地!他的选择引发无数网友深思

山河月明史
2025-11-06 18:18:35
老婆自称怀上儿子,丈夫苦笑说出实情:我一年前就已做完结扎手术

老婆自称怀上儿子,丈夫苦笑说出实情:我一年前就已做完结扎手术

晓艾故事汇
2025-11-05 08:19:22
2025-11-08 06:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
11642文章数 176329关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身 庆祝胜利

头条要闻

奥巴马意外现身 庆祝胜利

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

数码
本地
时尚
手机
公开课

数码要闻

受AI热潮推动 全球DRAM内存价格暴涨172% 创下历史新高

本地新闻

这届干饭人,已经把博物馆吃成了食堂

“这条围巾”才是今年的顶流单品,时髦的女人都有它

手机要闻

小米17 Ultra:潜望镜头已清晰!小米17系列:销量已突破200万!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版