网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陶哲轩力推AlphaEvolve：多个难题中超越人类最优解

2025-11-07 17:13:46　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

陶哲轩又来安利AlphaEvolve了。

在与DeepMind高级工程师Bogdan Georgiev等人合著的新论文中，陶哲轩称其为数学发现的有力新工具。

具体来说，他们用AlphaEvolve研究了67个数学问题，涵盖组合数学、几何、数学分析与数论等多个领域。

结果发现，AlphaEvolve在可扩展性、鲁棒性、可解释性方面均优于传统工具。

更关键的是，AlphaEvolve已经可以自主发现新颖的数学构造，并在部分问题上超越人类已有的最优结果。

AI自主发现新数学构造

AlphaEvolve在67个问题的测试中，不仅复现了众多已知最优解，更在多个方面展现了其独特的发现能力。

一个关键的成就是AlphaEvolve能够自主发现人类未曾一窥的新数学构造。

例如在处理Nikodym集问题时，系统生成的初步构造虽然尚未达到最优，但它为人类研究者提供了“一个极好的人类直觉跳板” 。

基于AI提供的结构，研究人员通过人工简化和直觉推演，最终找到了一个更优的构造，改进了已知的上界，这一人机协作的成果将作为一篇独立的数学论文发表。

同样地，在算术Kakeya猜想中，AlphaEvolve也发挥了类似作用。

系统不仅将一个已知的下界从1.61226提升至1.668，其构造的解（形态上类似于离散高斯分布）还启发人类数学家建立了新的渐近关系，相关成果也即将发表。

这种启发人类研究的能力，与AlphaEvolve输出结果的可解释性紧密相关。

系统在大多数情况下生成的是结构清晰的程序代码，而非难以理解的黑盒结果，这使得人类专家可以方便地分析、归纳其发现的模式，并提炼出通用的数学公式。

积木堆叠问题便是这一特性的绝佳体现。

在该问题中，系统最初生成了一个逻辑正确的递归程序来计算积木的放置。在随后的演化中，系统内部的LLM分析了这段代码的逻辑，并自主将其重构为一个更简洁、高效的显式程序。

这个最终程序清晰地揭示了最优解与谐波数（harmonic numbers）之间的数学关系，这与人类已知的理论公式完全一致，展示了系统从复杂解法中提炼数学本质的能力。

除了方案的清晰性，AlphaEvolve在不同类型的问题设置下也表现出了强大的鲁棒性。

它能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数。

比如这里有一个最小三角形密度问题。

研究人员最初设计了一个朴素的评分函数，但系统很快利用了该问题空间的非凸性，通过“欺骗”评分函数获得了超越理论最优的不可能分数。

为了解决这个问题，研究人员设计了一个更鲁棒的新评分函数，该函数基于问题的利普希茨连续性（Lipschitz type bounds）构造。

在切换到这个更复杂的连续评分函数后，AlphaEvolve不再受局部陷阱的迷惑，迅速收敛到了已知的、正确的理论最优解。

并且AlphaEvolve具备了出色的泛化能力，来看IMO 2025的第6题。

研究人员只在输入n为完全平方数时才对系统进行评分。这种“信息限制”反而迫使AlphaEvolve去寻找这些稀疏实例背后的共同结构模式，而不是对每个n进行“过拟合”。

最终，系统成功发现并输出了在所有完全平方数n上均达到最优的通用构造，展现出了归纳能力。

在实际应用中，AlphaEvolve的效率极高，仅需少量高质量提示即可驱动。论文指出，来自领域专家的提示（expert guidance）往往能显著提升最终构造的质量，表明系统对人类输入具有高度的敏感性。

同时，该系统在架构上支持并行化，允许研究人员在多个问题实例或同一问题的不同参数设置上同时运行探索，并能自动迁移成功的搜索策略，这在处理多参数的几何类问题时尤其高效。

AlphaEvolve工作模式

AlphaEvolve并非一个单一流程的系统，而是通过不同“工作模式”适应不同类型的数学问题探索任务。

该系统主要在两种不同的模式下运行——“搜索模式”（search mode）和“泛化模式”（generalizer mode）。

“搜索模式”是系统最常用的模式，其目标是高效地发现最优的数学构造，而不必关心构造过程是否具有可解释性或普适性。在这种模式下，AlphaEvolve演化的不是直接生成构造的程序，而是演化用于搜索构造的程序。

每一个被演化的程序本身就是一个“搜索启发式算法”（search heuristic）。

评估器会给予这些启发式算法一个固定的时间预算，算法的得分取决于它在此预算内能找到的最佳构造的质量。

这种方式解决了LLM调用（缓慢且昂贵）与传统局部搜索（快速且廉价）之间的速度差异——一次缓慢的LLM调用用于生成一个高效的搜索策略，该策略随后可以触发大规模的廉价计算，自主探索数百万个候选构造。

系统演化的是一系列“改进器”（improver）函数，它们动态地适应搜索进程，早期可能偏好进行广泛探索的启发式算法，而当接近最优解时，则会演化出更精细的、针对特定问题进行优化的算法。

“泛化模式”则更具挑战性。

其目标是让AlphaEvolve编写一个能够解决任意给定参数n的问题的通用程序。系统的评估方式是考察该程序在一系列不同n值上的综合表现。

这种模式的期望是，通过让系统观察自己在小规模n上找到的最优解，它能够自主“发现模式”，并将其归纳推广为一个适用于所有n的通用公式或算法。

总之，AlphaEvolve展示了AI引导的演化搜索如何补充人类的直觉，为数学研究提供了一个强大的新范式。

论文地址：
https://arxiv.org/abs/2511.02864

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

17岁高中生用AI解决数学界难题，陶哲轩、Jeff Dean点赞

机器之心Pro 2026-01-26 14:24:45
6 跟贴 6
不更新参数就能强化学习！翁家翌新范式：决策只需AI写个.py文件

量子位 2026-05-09 16:05:57
0 跟贴 0

陶哲轩亲调AI人设,权游小恶魔、贱女孩蕾吉娜版物理教学,你接受不

机器之心Pro 2026-04-13 10:49:43
0 跟贴 0

AI 批量造 App，也在批量埋雷

钛媒体APP 2026-06-27 10:05:13
16 跟贴 16
豆包和千问，亲手关掉了自己吹了两年的风口

钛媒体APP 2026-07-06 11:16:20
2 跟贴 2

人形机器人正式进入“消费纪元”

华商韬略 2026-07-06 11:03:06
0 跟贴 0

你究竟是玩家，还是被计算的“数据”？

虎嗅APP 2026-04-14 01:00:26
11 跟贴 11
“不确定性”的终极集约：从神学盲盒到算法猎场

钛媒体APP 2026-04-13 14:53:50
0 跟贴 0

报名末班车（26.07.08-09.05）：2026暑假第五期 AI智能体/运筹优化求解器/L

新浪财经 2026-07-06 05:42:44
0 跟贴 0
已知半圆的直径是12，求图中阴影部分面积是多少？

公考客栈店小二 2026-07-03 12:00:00
0 跟贴 0
周末来做题，但太难了

公考客栈店小二 2026-07-03 06:00:00
0 跟贴 0
小升初选拔赛，我们一起来挑战！

公考客栈店小二 2026-07-03 16:00:00
14 跟贴 14
不会求阴影面积？拉窗帘模型来教你！

奥数轻松学 2026-07-03 15:38:10
14 跟贴 14
国外人模仿中国舞狮，国人没勇气看下去，公式正确答案错误

疯狂星期四笑料馆 2026-07-04 15:45:15
1 跟贴 1
很多孩子一做就错

干饭大王 2026-07-03 02:38:08
11 跟贴 11
男子外出工作1个月没喂鱼，鱼缸里的鱼直接瘦脱相

荔枝新闻 2026-07-06 01:16:04
13 跟贴 13
解方程，一道复杂的根式方程，看看高手怎样突破

智慧的小老虎 2026-07-01 20:18:11
0 跟贴 0
初中数学不定方程代数式求值

天天数理学习分享 2026-07-03 11:24:49
3 跟贴 3
小伙写代码做了个穿越时空的软件，还真就一秒一秒的穿啊？网友：好奇 VIP付费之后会咋样？

河南都市频道 2026-07-04 10:58:07
14 跟贴 14
不想数错三角形？这个快速方法帮你搞定！

秒懂奥数李菁老师 2026-07-03 15:38:37
5 跟贴 5
冯德莱恩：中欧对话结果必须令人满意否则将进行报复

澎湃新闻 2026-07-05 07:08:04
11606 跟贴 11606
CD➖C＝57，求：C+D=？

公考客栈店小二 2026-07-02 19:00:00
0 跟贴 0
超难数学题难住小伙，他直接变出八根手指

十一影客 2026-07-03 19:42:17
1 跟贴 1
短短15个字，道破语数英高分秘诀，学霸都在偷偷用

哒哒吃不胖 2026-07-03 01:24:41
0 跟贴 0
改变数学史的“无穷大”论文，被指“偷”了别人的成果

DeepTech深科技 2026-02-28 14:28:14
20 跟贴 20
靠猜可不行，很难选出正确答案

智慧的小老虎 2026-07-01 20:06:04
0 跟贴 0
图形推理，学霸如何找出规律呢

公考客栈店小二 2026-07-03 09:00:00
0 跟贴 0
高考炸出一位天才少女！没读过高中却斩获614分，被中科大锁定！

林林先生 2026-07-06 11:08:13
0 跟贴 0
我们的古人，太有智慧啦！

大鹏老师讲数学 2026-07-02 07:43:42
7 跟贴 7
别争了！香农老婆，才是世界上第一个大语言模型

量子位 2026-07-05 21:48:44
0 跟贴 0
2026，量子计算迟到的狂欢：能拿订单、奔赴IPO、市值破百亿

36氪 2026-07-06 10:25:04
0 跟贴 0
我61岁有120万美元，老婆要退休我要再干4年，够不够谁说了算

碳基打工人 2026-07-06 02:55:52
0 跟贴 0
俄国数学天才称：平行线可以相交，被众人嘲讽，死后12年被证实

疯狂的小历史 2026-07-06 11:15:53
1 跟贴 1
TCL回应永乐款菩萨像现其广告：未授权或参与涉事文物展陈

南方都市报 2026-07-05 21:14:13
8811 跟贴 8811
应试教育太强！清华丘班多位学生数学挂科要“退货”，遭家长请愿

东东趣谈 2026-07-06 11:00:25
0 跟贴 0
两江新区金兴小学校举办2025-2026学年度下期数学教研活动

中国网 2026-07-06 10:01:22
0 跟贴 0
陶哲轩提出“哥白尼式智能观”

机器之心Pro 2026-04-13 17:05:36
0 跟贴 0
23岁业余爱好者靠ChatGPT破解60年数学难题

量子位 2026-04-30 10:33:26
0 跟贴 0
数学公式解析盛宴：趣味讲解，轻松掌握！

只若初见h 2026-07-03 00:48:59
1 跟贴 1
7月15日，豆包、千问下线该功能！

济源网 2026-07-05 11:07:47
273 跟贴 273

亚洲唯一不与中国建交的国家，首都距离我国仅45公里，咋回事？

亚洲唯一不与中国建交的国家，首都距离我国仅45公里，咋回事？

抽象派大师

2026-07-03 02:13:20

跟自己的孩子较劲，是一个家庭最大的内耗

跟自己的孩子较劲，是一个家庭最大的内耗

诺妈家有男宝娃

2026-07-03 16:18:24

国际足联暂缓美国队前锋巴洛贡禁赛处罚，挪威队主帅：这是一个糟糕、糟糕、糟糕、糟糕、糟糕的决定

国际足联暂缓美国队前锋巴洛贡禁赛处罚，挪威队主帅：这是一个糟糕、糟糕、糟糕、糟糕、糟糕的决定

环球网资讯

2026-07-06 10:01:14

马爷就是马爷，堪称舆情处置导师！

马爷就是马爷，堪称舆情处置导师！

李万卿

2026-07-06 09:30:27

世界杯梗最多的男人来了！哈兰德浑身长满了笑点

世界杯梗最多的男人来了！哈兰德浑身长满了笑点

广告案例精选

2026-07-04 19:18:25

HWG要翻车？博主：埃德松加盟曼联交易已告吹

HWG要翻车？博主：埃德松加盟曼联交易已告吹

懂球帝

2026-07-06 03:39:06

97%白人占比的阿根廷，为什么永远挤不进欧美“白人圈子”？

97%白人占比的阿根廷，为什么永远挤不进欧美“白人圈子”？

健身狂人

2026-07-05 06:06:40

国家修的路，凭啥不让走？甘肃景区设卡拦车，官方回应：可自驾！

国家修的路，凭啥不让走？甘肃景区设卡拦车，官方回应：可自驾！

观史搜寻着

2026-07-03 11:43:57

队报：FIFA暂缓巴洛贡禁赛打开潘多拉魔盒，再想保持一致性会很难

队报：FIFA暂缓巴洛贡禁赛打开潘多拉魔盒，再想保持一致性会很难

懂球帝

2026-07-06 05:04:06

尴尬！美国建国250周年无人机秀，竟然贴牌，整机全是深圳制造！

尴尬！美国建国250周年无人机秀，竟然贴牌，整机全是深圳制造！

大稻网络科技

2026-07-06 10:35:06

知名感冒药停产冲上热搜！全国销量暴跌55%，网友吵翻

知名感冒药停产冲上热搜！全国销量暴跌55%，网友吵翻

21世纪经济报道

2026-07-04 00:21:21

休赛期至今最赚和最亏签约：马刺火箭低价签顶级拼图，湖人被坑惨

休赛期至今最赚和最亏签约：马刺火箭低价签顶级拼图，湖人被坑惨

你的篮球频道

2026-07-06 07:14:44

一天“吞”掉40亩沙漠？为治沙发明的“吞沙巨兽”，已在甘肃使用

一天“吞”掉40亩沙漠？为治沙发明的“吞沙巨兽”，已在甘肃使用

梦史

2026-07-05 21:06:38

小安切洛蒂：谁罚点球是教练组一致决定的；任何人都可能罚丢

小安切洛蒂：谁罚点球是教练组一致决定的；任何人都可能罚丢

懂球帝

2026-07-06 06:51:10

4连斩轰7球！哈兰德激动落泪，世界杯射手榜乱套了：3人并列第一

4连斩轰7球！哈兰德激动落泪，世界杯射手榜乱套了：3人并列第一

锐评利物浦

2026-07-06 09:34:23

“梅里雪山惊现佛得角门将”冲上热搜，照片系网友去年7月发布于个人社交账号，因沃齐尼亚爆红被翻出；发布者留言：大自然真就这么神奇

“梅里雪山惊现佛得角门将”冲上热搜，照片系网友去年7月发布于个人社交账号，因沃齐尼亚爆红被翻出；发布者留言：大自然真就这么神奇

极目新闻

2026-07-05 20:21:11

这不是愚人节，这就是足球，美国按规则执行，你又能如何？

这不是愚人节，这就是足球，美国按规则执行，你又能如何？

光辉记

2026-07-06 05:53:48

马未都最新发声：如果权威鉴定确认佛像是海口五公祠失窃的坐像，观复博物馆将配合办理移交，护送佛像返乡

马未都最新发声：如果权威鉴定确认佛像是海口五公祠失窃的坐像，观复博物馆将配合办理移交，护送佛像返乡

极目新闻

2026-07-05 21:04:39

李湘王诗龄同框瘦成闪电！这回终于穿对了，15岁气质吊打一众名媛

李湘王诗龄同框瘦成闪电！这回终于穿对了，15岁气质吊打一众名媛

今古深日报

2026-07-04 11:20:28

直线拉升！002979，3连涨停！机器人概念，集体爆发！

直线拉升！002979，3连涨停！机器人概念，集体爆发！

证券时报e公司

2026-07-06 10:22:05

追踪人工智能动态

12898文章数 176510关注度

往期回顾全部

科技要闻

别想用软色情做智能体的跳板

头条要闻

中国7舰横穿日本4大要道日本被指"模拟击沉"辽宁舰

头条要闻

中国7舰横穿日本4大要道日本被指"模拟击沉"辽宁舰

体育要闻

挪威创造历史哈兰德解开发带庆祝

娱乐要闻

全红婵回老家罕见跳舞，不跳水了？

财经要闻

6天赌光2.8亿！赵薇前夫赌桌往事曝光

汽车要闻

纯大5座布局/高速NOA 2026款全新揽巡家用商务全拿捏

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

数码

艺术

军事航空

本地新闻

国内足球之旅？这座小城给你高分答案

旅游要闻

新疆伊犁：万亩薰衣草盛放紫韵花海绘就夏日富民画卷

数码要闻

英特尔上调部分CPU价格：服务器级最高涨上千美元

艺术要闻

伊朗超高层方案惊艳世界，曾获国际大奖！

军事要闻

俄乌冲突再升级康斯坦丁诺夫卡成争夺焦点

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版