网易首页 > 网易号 > 正文 申请入驻

刷新世界纪录!神秘学生击败谷歌AlphaEvolve难题最优解,优势仅0.00006442

0
分享至

新智元报道

编辑:定慧

【新智元导读】一名在校生借助AI,在经典的「Circle Packing」数学难题上击败了谷歌顶尖的AlphaEvolve算法,创造了新的世界纪录。

一个还在上学的少年在AI的帮助下,击败了谷歌最先进的技术,创造了新的世界纪录!

当IMO闹剧还在争论,这个少年靠着AI已经在数学问题上逆袭了谷歌最先进的、用于设计高级算法的AlphaEvolve

在「Circle Packing」问题上,这个少年的算法以「0.00006442」的优势超过了谷歌AlphaEvolve,也超过了此前的FICO Xpress创造的纪录。

有必要先介绍下Circle Packing问题是什么,以及谷歌AlphaEvolve到底有多厉害。

Packing Problems,也就是填充问题,可以简单理解为「将多种多边形以最高效率填充到另一个多边形中」

Circle Packing问题则是一种特定情况,在一个给定区域(比如正方形)尽可能紧密地放置若干个互不重叠的圆,使得这些圆的半径和最大,或填充的空间最大。

谷歌的AlphaEvolve发布时曾给出这个问题的最优解。

首先这个问题可以分为两类:

  • 在单位正方形内填充

  • 在总和为4的矩形内填充

第一个问题,给定一个正整数,该问题是在单位正方形内打包个不相交的圆,使它们的半径总和最大

AlphaEvolve找到了两个「新的构造」,给出了当时的最优解。

  • 当=26时,原来的最优解是2.634,AlphaEvolve将其提升到了2.635;见下图(左)。

  • 当=32时,原来的最优解是2.936,AlphaEvolve将其提升到了2.937;见下图(中)。

第二个问题,给定一个正整数,该问题是在周长为4的矩形内打包个不相交的圆,使它们的半径总和最大

AlphaEvolve为=21找到了一种「新的构造」,将原来的最优解从2.364提高到了2.3658;见上图(右)。

AlphaEvolve改进了在不同约束下Circle Packing的已知最优解,创造了当时的世界纪录。

但这个纪录很快就被破了!

一家做信用卡评分的企业

声称超越了AlphaEvolve

在介绍新的纪录前,我们还是要简单回顾下谷歌的AlphaEvolve。

5月14日,谷歌发布了一款由Gemini驱动的编码智能体,看名字就知道,这个新工具可以自行设计算法来求解问题

就像当年AlphaGo之后的AlphaZero,通过「自我博弈」来提升下棋能力,顺便说一句DeepMind对于Alpha和强化学习的执念一直都在。

这种基于LLM,由Gemini驱动的的新工具,能够自行编写算法以解决那些「臭名昭著」的数学难题。

AlphaEvolve编写的Python代码能够为数学问题找到有效的解决方案,并且在某些情况下,这些解决方案优于此前已知的最佳方案。

换句话说,AlphaEvolve在某些长期存在的数学问题上创造了新的纪录。

AlphaEvolve发现过程的扩展视图

AlphaEvolve采用了一种进化方法来发现新算法。

白皮书报告中提到的示例包括改进的矩阵乘法方法以及圆填充问题的新解法。

随后,一家名为FICO的公司试图挑战这个纪录。

FICO(Fair Isaac Corporation)是一个专注于数据分析和决策管理的美国公司,最著名的产品是FICO信用评分,广泛用于信贷行业评估个人的信用风险。

他们想如果把同样的问题交给 FICO Xpress Solver(FICO Xpress优化套件的一部分)会有什么结果。

他们与位于柏林祖斯研究所(ZIB)的MODAL研究园区合作测试了新方法。

结果发现,他们的算法更出色!

在AlphaEvolve报告中的多个基准问题上,FICO Xpress Solver产生了新的最优解,超越了DeepMind此前创下的纪录。

FICO研究了Circle Packing问题的一个版本:

任务是将任意大小的圆放入单位正方形中,以最大化它们半径的总和。

我们现在知道,AlphaEvolve找到了半径总和为2.63586275的解决方案,优于此前最优的2.634。

而FICO Xpress Solver则找到了更优的解,半径总和达到2.63591551

左边是谷歌的构造,右边是FIC的构造,看起来圆形的排布几乎一样,只有半径的细微差别,肉眼很难发现,更别说用人力来穷举了。

对于非单位正方形,FICO声称只需从上个问题的模型中修改五行代码,便能够攻克下一个挑战。

使用FICO Xpress得到的解2.36583237略微改进了AlphaEvolve得到的解2.36583213。

这些结果都可以通过谷歌DeepMind在Google Colab笔记本的验证器进行确认,验证代码如下:

#@title Visualization function
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
defplot_circles(circles: np.ndarray):
"""Plots the circles."""
_, ax = plt.subplots(1, figsize=(7, 7))
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
ax.set_aspect('equal')  # Make axes scaled equally.
Draw unit square boundary.
rect = patches.Rectangle((0, 0), 1, 1, linewidth=1, edgecolor='black', facecolor='none')
ax.add_patch(rect)
Draw the circles.
for circle in circles:
circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5)
ax.add_patch(circ)
plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii')
plt.show()

谷歌还提供了画图代码,代码如下:

#@title Visualization function
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
defplot_circles(circles: np.ndarray):
  """Plots the circles."""
  _, ax = plt.subplots(1, figsize=(7, 7))
  ax.set_xlim(0, 1)
  ax.set_ylim(0, 1)
  ax.set_aspect('equal')  # Make axes scaled equally.
  # Draw unit square boundary.
  rect = patches.Rectangle((0, 0), 1, 1, linewidth=1, edgecolor='black', facecolor='none')
  ax.add_patch(rect)
  # Draw the circles.
  for circle in circles:
    circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5)
    ax.add_patch(circ)
  plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii')
  plt.show()

以下是谷歌在n=26问题中提供的最终圆形数据,感兴趣可以试试。

以上这些问题,都可以归类为全局优化问题

在全局优化中,目标不仅仅是找到一个解决方案,而是要证明该方案是最优解(或提供一个解与最优解之间接近程度的界限)。

谷歌在AlphaEvolve的支持下开发的算法采用了略有不同的方法:它们属于启发式算法,专注于寻找较优解,而非提供解的界限。

AlphaEvolve报告中的大多数问题要么没有约束,要么仅受到轻微约束,例如仅受到简单的变量边界限制。

这使得它们特别适合采用自动训练的启发式搜索方法,因为算法可以自由地探索解空间,而无需处理复杂的约束交互或陷入局部不可行的情况。

这些问题的真正挑战在于其高度非线性且通常非凸的目标函数,这类函数可能产生多个局部最优解

就像谷歌AlphaEvolve的宣传图上的小圆点。

不过FICO声称他们的技术采用的是非生成式AI技术的全局优化,功能要强大得多。

不仅能够处理此类非线性问题,还能够有效应对高度约束的问题,包括具有整数性要求的问题,这类问题的可行解可能极少,并且这些解可能位于搜索空间中狭窄或不连续的区域。

「屠龙」少年

今天X平台上一位名叫Alex的学生,声称他通过一个半月的独自努力,创建的「Tactical Maniac v0.5」打败了谷歌的AlphaEvolve。

这是一个多智能体算法发现框架,从高层次看,该算法通过迭代现有方案来探索创意空间。

Alex公布了他的成果。

在n=26的情况下,他的结果为2.63592717。

并且他声称已经通过谷歌Colab笔记本中的验证器进行了验证,也画出了图形。

作为对比,我们把之前AlphaEvolve的方案和FICO的方案放在一起:

  • AlphaEvolve前:2.634

  • AlphaEvolve:2.63586275(+0.00186275)

  • FICO Xpress:2.63591551(+0.00005276)

  • Alex:2.63592717(+0.00001166,比AlphaEvolve +0.00006442)

从构造上来看,Alex的解决方案完全不同于谷歌和FICO的方案!

这是一种全新的排布方式。

他是怎么做到的?

目前Alex并没有提供类似白皮书的详细求解方法说明。

他声称由于还要求解一些其他问题,因此想保留部分信息作为专有内容。

而他的主页除了标识了自己的UIUC CS专业外,没有更多的信息。

这让他变得十分神秘。

Alex声称他的方法和AlphaEvolve最为相似。

整体而言,Alex的方法使用LLM通过变异代码来探索搜索空间。接下来会进一步微调云云。

在Reddit上已经有人开始催促少年尽快发布白皮书来进行同行评审

所以,Alex的这个结果是否能被学术界认定,依然还是个未知数。

但他在取得成绩的第一时间,迅速在X和Reddit平台来发帖,声称自己超越了谷歌的AlphaEvolve,并在Circle Packing问题上创造了新的世界纪录

但是同时,他又选择不第一时间公开算法原理或者白皮书。

这让人不禁联想到最近两天IMO的「闹剧」。

AI时代的「快与慢」

IMO 2025刚刚结束没有几天,关于AI能否「拿下」金牌的,或者谁是第一家拿下金牌的AI工具,已经爆发了戏剧性的冲突。

公司的总裁Greg也理解发帖来支持这个说法。

据一位IMO内部人士透露,实际上OpenAI并没有和组委会合作,拿下AI金牌不一定真实有效。

最关键的是,他们违背了IMO规定的「公布时间」规则。

为了避免AI公司们抢夺人类学生的风头,IMO评审团要求:在闭幕式结束一周后再公布结果。

然而,OpenAI却在闭幕Party还未结束前,就发布了结果。

他表示,「自己不会评论任何未预先公开测试方法的AI竞赛成绩报告。在缺乏受控测试环境的情况下,AI的数学能力难以准确评估」。

不论最终结果如何,这场闹剧已经证明AI已经深度介入人类研究。

即使是在被誉为「人类智慧最后的堡垒」数学问题上。

Alex宣称战胜谷歌,和OpenAI「抢先」宣布拿下IMO金牌,本质上都是为了抢夺当下「第一个发现者/创造者」的定位。

正如谷歌DeepMind的产品负责人Logan Kilpatrick所说:

真正的AI里程碑是当任何人、在任何地方都能取得重大突破,而不只是斯坦福的博士们。

当一个身处「意料之外」地方的学生,用AI能解决全球性问题的时候,你就知道这项技术真正起作用了。

从谷歌最顶尖的AI实验室,到实力雄厚的FICO优化求解器,再到如今横空出世的Alex,我们见证的已不仅是算法的迭代,更是科研范式的深刻变革。

AI正成为那个最强大的杠杆,它将曾经专属于顶级机构的算力和智慧,普及到每一个拥有创想的个人手中。

让「单枪匹马挑战巨头」从神话变为现实。

然而,正如IMO赛场上的争议所警示的那样,当发现的喜悦被「抢跑」的喧嚣所裹挟,我们更需一份冷静与审慎。

在这个「发现」被无限加速的时代,速度与声明,必须与严谨和验证同行。

Alex的成果是否能最终通过同行评审的严格考验,为这场传奇画上圆满的句号,我们拭目以待。

但可以肯定的是,「游戏的规则」已经被彻底改写!

参考资料:

https://x.com/alexmaxxing/status/1946996263418757567

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不装老好人了?特斯拉,对国产电动车“贴脸开大”,关键没法反驳

不装老好人了?特斯拉,对国产电动车“贴脸开大”,关键没法反驳

小李车评李建红
2026-05-08 08:00:03
又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

火山詩话
2026-05-08 18:00:57
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
吴石被押往刑场,毛人凤严令刽子手:用点射!他决不允许发生奇迹

吴石被押往刑场,毛人凤严令刽子手:用点射!他决不允许发生奇迹

云霄纪史观
2026-05-10 18:47:15
退休数学老教师:如今高中数学,真不是多数孩子能学明白的!

退休数学老教师:如今高中数学,真不是多数孩子能学明白的!

金哥说新能源车
2026-05-10 05:51:23
美媒文章:美国面对的是已然阔步前行的中国

美媒文章:美国面对的是已然阔步前行的中国

参考消息
2026-05-10 15:38:08
体育总局人力中心发文,亲宣陈若琳新身份,恋情传闻早真相大白

体育总局人力中心发文,亲宣陈若琳新身份,恋情传闻早真相大白

汪镛的创业之路
2026-05-09 14:40:02
这么速度?巴将领透露:巴基斯坦今年开始接收40架左右歼-35AE!中国什么态度?

这么速度?巴将领透露:巴基斯坦今年开始接收40架左右歼-35AE!中国什么态度?

军武速递
2026-05-09 19:07:23
今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

农夫也疯狂
2026-05-09 17:41:51
补时遭遇争议点球,青岛西海岸1:1武汉三镇,遭遇7连平 !“我们也不想拿到这么多平局……”

补时遭遇争议点球,青岛西海岸1:1武汉三镇,遭遇7连平 !“我们也不想拿到这么多平局……”

新浪财经
2026-05-10 21:48:32
搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

原来仙女不讲理
2026-05-07 23:09:21
47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

胖松松与瘦二毛
2026-05-06 12:40:53
《爱情没有神话》大结局:孤烟身败名裂,范叔破产,赵兰心被弃,林何和解

《爱情没有神话》大结局:孤烟身败名裂,范叔破产,赵兰心被弃,林何和解

TVB的四小花
2026-05-10 12:01:52
广东队投资人遭萨林杰强制“撤回” 庆祝:赛后拥抱张皓嘉难掩喜悦

广东队投资人遭萨林杰强制“撤回” 庆祝:赛后拥抱张皓嘉难掩喜悦

狼叔评论
2026-05-10 11:54:05
陈翔六点半演员“吴妈”去世!讣告已发,享年68岁,球球留言悼念

陈翔六点半演员“吴妈”去世!讣告已发,享年68岁,球球留言悼念

情感大头说说
2026-05-10 09:32:54
两自媒体编造传播芯片虚假信息遭重罚

两自媒体编造传播芯片虚假信息遭重罚

每日经济新闻
2026-05-09 20:17:46
京粤大战1-1战平!于嘉赛后犀利点评:差距在气质,输赢看硬核!

京粤大战1-1战平!于嘉赛后犀利点评:差距在气质,输赢看硬核!

田先生篮球
2026-05-09 22:37:18
“云南14岁少年杀害同班女同学案”,有新消息

“云南14岁少年杀害同班女同学案”,有新消息

新京报
2026-05-10 14:09:30
伦敦世乒赛女团决赛:孙颖莎两分救主尽显世界第一统治力

伦敦世乒赛女团决赛:孙颖莎两分救主尽显世界第一统治力

老嗮说体育
2026-05-10 21:45:33
5月10日 广东队传来3大消息 张皓嘉被查尿检 奎因或离队 徐昕拒绝

5月10日 广东队传来3大消息 张皓嘉被查尿检 奎因或离队 徐昕拒绝

一家说
2026-05-10 09:49:34
2026-05-10 22:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66857关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
房产
教育
手机
时尚

干细胞能让人“返老还童”吗

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

请教会你的孩子有能力分辨和说不!

手机要闻

联想拯救者手机Y70新一代现身Geekbench

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

无障碍浏览 进入关怀版