网易首页 > 网易号 > 正文 申请入驻

56 年无人解开的数学难题,被谷歌的新 AI 突破了

0
分享至

人类对知识的征途,或许才刚刚开始。

作者|Li Yuan
编辑|郑玄

去年,AI 能解出博士级别的数学题,已是轰动一时的大新闻;而今年,能攻克「未解之谜」级别的数学难题的 AI 已经来了。

5 月 15 日,Google DeepMind 发布了全新编程智能体 AlphaEvolve。

不同于传统的编程 Agent,它专注于通用算法的自动发现与持续优化。顾名思义,AlphaEvolve 擅长在「进化」中寻找更优解,它模拟自然选择机制,能在代码中不断迭代、演化出创新算法。

只要问题能用程序表达、结果能用函数评估,AlphaEvolve 就能迭代算法。Google 表示,在组合数学、几何学、数论等超过 50 个未解问题中应用后,AlphaEvolve 在约 20% 的问题上超越了人类现有解法。

DeepMind 研究员 Matej Balog 表示:「AlphaEvolve 在十多个公开的数学问题上取得了突破。但最让我激动的是:它找到了 56 年以来,4x4 复数矩阵乘法算法的首次改进。这个结果,来自它自创的一种复杂搜索算法。」

AlphaEvolve 的价值不仅在数学,它展现出的是一种通用的「算法发现能力」。Balog 表示:「我们对 AlphaEvolve 的应用,还只是触及表层。」

01

问题能用程序表达、结果能用函数评估,

AlphaEvolve 就能迭代算法

Google DeepMind 表示,AlphaEvolve 能够在多个复杂问题中取得突破,关键在于其背后运作的是一整套自动进化机制,能持续优化算法并提升性能。

从本质上看,AlphaEvolve 解决的是一个通用的黑盒优化问题:maximize h(f)。其中,f 是由大型语言模型生成的程序,h 是衡量该程序质量的评估函数。

在实际流程中,AlphaEvolve 首先通过提示采样器(prompt sampler)组装提示词,引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作:Gemini Flash 以更高速度生成大量候选方案,扩展思路的广度;Gemini Pro 则提供更深入的结构性建议。二者结合,使模型能产出具备实际可行性和算法深度的程序。

生成的程序会被送入自动评估系统,经过验证、运行和打分后,写入程序数据库。数据库中运行着一套进化算法,会从已有程序中挑选表现最好的方案,为下一轮提示提供方向,不断迭代出更优解。

AlphaEvovle 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的,使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。

不过,这里的 h 函数依然由人类研究人员定义,可以是准确率、运行时间,甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务,Google 也可能预设 h。

这也说明了 AlphaEvolve 当前的边界:它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」,仍需人来给出。在需要人类实验才能确定是否优秀的问题上,AlphaEvolve 就无法评估了。

以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例,研究人员设置了一组任务目标,包括达到的最低乘法次数(即张量分解的秩)以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标,引导它在复杂的搜索空间中稳步「爬山」。

AlphaEvolve 从问题定义出发,基于标准的梯度优化流程(包括初始化器、重建损失函数、Adam 优化器等),演化出了一系列高质量的张量分解算法。最终,它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的,是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。

AlphaEvolve 的技术路线可追溯到 DeepMind 早期提出的 FunSearch 系统。FunSearch 同样利用语言模型引导程序进化,曾被用于发现数学结构或在线算法策略。但与之相比,AlphaEvolve 的扩展性显著提升:它可以修改完整程序,处理多个函数、组件、甚至跨语言结构协同优化,而不仅限于 Python 中的单一函数。

这种更高的通用性,使 AlphaEvolve 不再只是一个「智能改函数」的工具,而像是一个可以自主演化大型算法系统的「程序设计伙伴」。

据 DeepMind 披露,AlphaEvolve 已被应用于 50 多个数学难题,涵盖数学分析、几何学、组合数学与数论等领域。大多数实验都能在数小时内完成部署。

在约 75% 的问题中,它成功重新发现了当前的最优解。更令人惊喜的是,在约 20% 的问题中,它给出了比已知方法更好的解法。比如在数学界研究了 300 多年的「接吻数问题」中,AlphaEvolve 构造出由 593 个球体组成的新结构,在 11 维空间中刷新了下界。

除了数学,AlphaEvolve 也已在 Google 内部实际落地应用,解决了计算栈中多个层面的工程问题,包括:为 Borg 系统设计新的调度启发式;优化大语言模型训练时使用的矩阵乘法内核;改写 TPU 芯片中的算术电路;加速 Transformer 注意力机制的执行速度。

这些任务之间跨度极大,但都具备一个共性:问题能用程序表达、结果能用函数评估。只要这两点成立,AlphaEvolve 就可以发挥作用。

02

更多的智能供给,带来无限的游戏

此次发布来自 Google DeepMind,这一团队曾推出 AlphaGo、AlphaFold 等具有里程碑意义的 AI 系统,在博弈智能与科学发现领域显著扩展了人工智能的能力边界。

AlphaEvolve,与依赖强化学习和自我博弈(如 AlphaGo)的系统不同,是通过语言模型生成大量程序候选,结合自动评估与进化机制,筛选出更优的算法方案。它更像是一种可编排、可扩展的算法构造与发现框架。

相比 AlphaGo 展示的是人工智能如何在规则明确定义的博弈中超越人类,AlphaEvolve 的意义可能更在于:它为研究者提供了一种持续、可扩展的算法生成与优化能力。

算法设计与调优历来是一种高度稀缺的技术能力。算法工程师在就业市场上普遍享有更高的薪酬与职位门槛,足以反映其复杂性与稀缺性。

而现在,只要设定明确的评估方式,AlphaEvolve 就有可能以接近无限的算力和耐心,自动探索并优化算法解法。这意味着,「发现并改进算法」这项曾依赖个体经验的能力,开始从稀缺、手工、不可复制,变为可自动化、可规模化的智能供给。

尤瓦尔·赫拉利曾经有一个比喻,形容 AlphaGo 为人类带来的冲击。

人类一直在围棋星球上探索如何下围棋,不断有人画出路线图,探索围棋星球的样貌。直到 AI 出现,人类才惊觉,自己不过是在围棋星球的一座小岛上原地打转,而真正的星球辽阔无边,未曾涉足的区域远超想象。

而去年到今年,在科研领域,我们也不断地看到 AI 正在做同样的事情。2024 年,AI 相关成果首次同时获得诺贝尔物理学奖与化学奖,而这很有可能成为未来的科研常态。

从某种程度上说,AlphaEvolve 所做的,是以前所未有的速度加快这张科研的「未知地图」的展开。以无限的智能供给,让每个领域都有可能被再探索一遍。

当「能被发现的算法」不再稀缺,人类对知识的征途,或许才刚刚开始。

*头图来源:Google

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 AlphaEvolve

马斯克吐槽专利制度:不会起诉友商用我们的专利,那还申请它干嘛。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
410次开房账单!南航“捷径女”从临时工到副处长,撕开央企遮羞布

410次开房账单!南航“捷径女”从临时工到副处长,撕开央企遮羞布

墨印斋
2025-12-16 19:15:31
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

说历史的老牢
2026-03-25 13:00:26
一场战争彻底将中国打醒!美军作战最毒的是什么?中国用30年明白

一场战争彻底将中国打醒!美军作战最毒的是什么?中国用30年明白

说历史的老牢
2026-03-23 15:32:55
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
15-0,火箭又又又出来搞笑了!

15-0,火箭又又又出来搞笑了!

风子说个球
2026-03-26 14:12:56
35岁后单场50+有多难!强如杜兰特0场,乔丹1场,那库里多少场

35岁后单场50+有多难!强如杜兰特0场,乔丹1场,那库里多少场

越岭寻踪
2026-03-25 13:26:23
75岁刘晓庆发文:这么想我死啊

75岁刘晓庆发文:这么想我死啊

都市快报橙柿互动
2026-03-25 15:21:36
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

路医生健康科普
2026-03-26 11:10:03
海外谈中国:歼-10C进行高强度演习 融入体系作战 发挥更大效能

海外谈中国:歼-10C进行高强度演习 融入体系作战 发挥更大效能

hawk26讲武堂
2026-03-25 13:22:55
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

聚焦风暴来袭
2026-03-26 09:51:50
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

铭记历史呀
2026-03-09 15:28:19
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
马刺7连胜大胜送灰熊正式无缘季后赛 文班19+15+7帽近25战23胜

马刺7连胜大胜送灰熊正式无缘季后赛 文班19+15+7帽近25战23胜

醉卧浮生
2026-03-26 10:22:33
全国最大比亚迪中心落地常州,预计今年5月中旬正式运营

全国最大比亚迪中心落地常州,预计今年5月中旬正式运营

财闻
2026-03-26 12:53:13
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
1950年女地下党被捕,枪毙前高呼:我可以招,但我要见哥哥

1950年女地下党被捕,枪毙前高呼:我可以招,但我要见哥哥

云霄纪史观
2026-03-26 11:04:00
2026-03-26 14:31:00
极客公园
极客公园
让最棒的创新成为头条
11910文章数 78856关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
旅游
数码
手机

本地新闻

春日吃花第三站——广东

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

无障碍浏览 进入关怀版