56 年无人解开的数学难题，被谷歌的新 AI 突破了|算法|编程|知名企业

56 年无人解开的数学难题，被谷歌的新 AI 突破了

2025-05-15 15:33:12　来源: 极客公园

北京举报

分享至

人类对知识的征途，或许才刚刚开始。

作者｜Li Yuan
编辑｜郑玄

去年，AI 能解出博士级别的数学题，已是轰动一时的大新闻；而今年，能攻克「未解之谜」级别的数学难题的 AI 已经来了。

5 月 15 日，Google DeepMind 发布了全新编程智能体 AlphaEvolve。

不同于传统的编程 Agent，它专注于通用算法的自动发现与持续优化。顾名思义，AlphaEvolve 擅长在「进化」中寻找更优解，它模拟自然选择机制，能在代码中不断迭代、演化出创新算法。

只要问题能用程序表达、结果能用函数评估，AlphaEvolve 就能迭代算法。Google 表示，在组合数学、几何学、数论等超过 50 个未解问题中应用后，AlphaEvolve 在约 20% 的问题上超越了人类现有解法。

DeepMind 研究员 Matej Balog 表示：「AlphaEvolve 在十多个公开的数学问题上取得了突破。但最让我激动的是：它找到了 56 年以来，4x4 复数矩阵乘法算法的首次改进。这个结果，来自它自创的一种复杂搜索算法。」

AlphaEvolve 的价值不仅在数学，它展现出的是一种通用的「算法发现能力」。Balog 表示：「我们对 AlphaEvolve 的应用，还只是触及表层。」

问题能用程序表达、结果能用函数评估，

AlphaEvolve 就能迭代算法

Google DeepMind 表示，AlphaEvolve 能够在多个复杂问题中取得突破，关键在于其背后运作的是一整套自动进化机制，能持续优化算法并提升性能。

从本质上看，AlphaEvolve 解决的是一个通用的黑盒优化问题：maximize h(f)。其中，f 是由大型语言模型生成的程序，h 是衡量该程序质量的评估函数。

在实际流程中，AlphaEvolve 首先通过提示采样器（prompt sampler）组装提示词，引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作：Gemini Flash 以更高速度生成大量候选方案，扩展思路的广度；Gemini Pro 则提供更深入的结构性建议。二者结合，使模型能产出具备实际可行性和算法深度的程序。

生成的程序会被送入自动评估系统，经过验证、运行和打分后，写入程序数据库。数据库中运行着一套进化算法，会从已有程序中挑选表现最好的方案，为下一轮提示提供方向，不断迭代出更优解。

AlphaEvovle 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的，使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。

不过，这里的 h 函数依然由人类研究人员定义，可以是准确率、运行时间，甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务，Google 也可能预设 h。

这也说明了 AlphaEvolve 当前的边界：它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」，仍需人来给出。在需要人类实验才能确定是否优秀的问题上，AlphaEvolve 就无法评估了。

以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例，研究人员设置了一组任务目标，包括达到的最低乘法次数（即张量分解的秩）以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标，引导它在复杂的搜索空间中稳步「爬山」。

AlphaEvolve 从问题定义出发，基于标准的梯度优化流程（包括初始化器、重建损失函数、Adam 优化器等），演化出了一系列高质量的张量分解算法。最终，它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的，是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。

AlphaEvolve 的技术路线可追溯到 DeepMind 早期提出的 FunSearch 系统。FunSearch 同样利用语言模型引导程序进化，曾被用于发现数学结构或在线算法策略。但与之相比，AlphaEvolve 的扩展性显著提升：它可以修改完整程序，处理多个函数、组件、甚至跨语言结构协同优化，而不仅限于 Python 中的单一函数。

这种更高的通用性，使 AlphaEvolve 不再只是一个「智能改函数」的工具，而像是一个可以自主演化大型算法系统的「程序设计伙伴」。

据 DeepMind 披露，AlphaEvolve 已被应用于 50 多个数学难题，涵盖数学分析、几何学、组合数学与数论等领域。大多数实验都能在数小时内完成部署。

在约 75% 的问题中，它成功重新发现了当前的最优解。更令人惊喜的是，在约 20% 的问题中，它给出了比已知方法更好的解法。比如在数学界研究了 300 多年的「接吻数问题」中，AlphaEvolve 构造出由 593 个球体组成的新结构，在 11 维空间中刷新了下界。

除了数学，AlphaEvolve 也已在 Google 内部实际落地应用，解决了计算栈中多个层面的工程问题，包括：为 Borg 系统设计新的调度启发式；优化大语言模型训练时使用的矩阵乘法内核；改写 TPU 芯片中的算术电路；加速 Transformer 注意力机制的执行速度。

这些任务之间跨度极大，但都具备一个共性：问题能用程序表达、结果能用函数评估。只要这两点成立，AlphaEvolve 就可以发挥作用。

更多的智能供给，带来无限的游戏

此次发布来自 Google DeepMind，这一团队曾推出 AlphaGo、AlphaFold 等具有里程碑意义的 AI 系统，在博弈智能与科学发现领域显著扩展了人工智能的能力边界。

AlphaEvolve，与依赖强化学习和自我博弈（如 AlphaGo）的系统不同，是通过语言模型生成大量程序候选，结合自动评估与进化机制，筛选出更优的算法方案。它更像是一种可编排、可扩展的算法构造与发现框架。

相比 AlphaGo 展示的是人工智能如何在规则明确定义的博弈中超越人类，AlphaEvolve 的意义可能更在于：它为研究者提供了一种持续、可扩展的算法生成与优化能力。

算法设计与调优历来是一种高度稀缺的技术能力。算法工程师在就业市场上普遍享有更高的薪酬与职位门槛，足以反映其复杂性与稀缺性。

而现在，只要设定明确的评估方式，AlphaEvolve 就有可能以接近无限的算力和耐心，自动探索并优化算法解法。这意味着，「发现并改进算法」这项曾依赖个体经验的能力，开始从稀缺、手工、不可复制，变为可自动化、可规模化的智能供给。

尤瓦尔·赫拉利曾经有一个比喻，形容 AlphaGo 为人类带来的冲击。

人类一直在围棋星球上探索如何下围棋，不断有人画出路线图，探索围棋星球的样貌。直到 AI 出现，人类才惊觉，自己不过是在围棋星球的一座小岛上原地打转，而真正的星球辽阔无边，未曾涉足的区域远超想象。

而去年到今年，在科研领域，我们也不断地看到 AI 正在做同样的事情。2024 年，AI 相关成果首次同时获得诺贝尔物理学奖与化学奖，而这很有可能成为未来的科研常态。

从某种程度上说，AlphaEvolve 所做的，是以前所未有的速度加快这张科研的「未知地图」的展开。以无限的智能供给，让每个领域都有可能被再探索一遍。

当「能被发现的算法」不再稀缺，人类对知识的征途，或许才刚刚开始。

*头图来源：Google

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待 AlphaEvolve？

马斯克吐槽专利制度：不会起诉友商用我们的专利，那还申请它干嘛。

点赞关注极客公园视频号，

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.