网易首页 > 网易号 > 正文 申请入驻

刷新世界纪录!神秘学生击败谷歌AlphaEvolve难题最优解,优势仅0.00006442

0
分享至

新智元报道

编辑:定慧

【新智元导读】一名在校生借助AI,在经典的「Circle Packing」数学难题上击败了谷歌顶尖的AlphaEvolve算法,创造了新的世界纪录。

一个还在上学的少年在AI的帮助下,击败了谷歌最先进的技术,创造了新的世界纪录!

当IMO闹剧还在争论,这个少年靠着AI已经在数学问题上逆袭了谷歌最先进的、用于设计高级算法的AlphaEvolve

在「Circle Packing」问题上,这个少年的算法以「0.00006442」的优势超过了谷歌AlphaEvolve,也超过了此前的FICO Xpress创造的纪录。

有必要先介绍下Circle Packing问题是什么,以及谷歌AlphaEvolve到底有多厉害。

Packing Problems,也就是填充问题,可以简单理解为「将多种多边形以最高效率填充到另一个多边形中」

Circle Packing问题则是一种特定情况,在一个给定区域(比如正方形)尽可能紧密地放置若干个互不重叠的圆,使得这些圆的半径和最大,或填充的空间最大。

谷歌的AlphaEvolve发布时曾给出这个问题的最优解。

首先这个问题可以分为两类:

  • 在单位正方形内填充

  • 在总和为4的矩形内填充

第一个问题,给定一个正整数,该问题是在单位正方形内打包个不相交的圆,使它们的半径总和最大

AlphaEvolve找到了两个「新的构造」,给出了当时的最优解。

  • 当=26时,原来的最优解是2.634,AlphaEvolve将其提升到了2.635;见下图(左)。

  • 当=32时,原来的最优解是2.936,AlphaEvolve将其提升到了2.937;见下图(中)。

第二个问题,给定一个正整数,该问题是在周长为4的矩形内打包个不相交的圆,使它们的半径总和最大

AlphaEvolve为=21找到了一种「新的构造」,将原来的最优解从2.364提高到了2.3658;见上图(右)。

AlphaEvolve改进了在不同约束下Circle Packing的已知最优解,创造了当时的世界纪录。

但这个纪录很快就被破了!

一家做信用卡评分的企业

声称超越了AlphaEvolve

在介绍新的纪录前,我们还是要简单回顾下谷歌的AlphaEvolve。

5月14日,谷歌发布了一款由Gemini驱动的编码智能体,看名字就知道,这个新工具可以自行设计算法来求解问题

就像当年AlphaGo之后的AlphaZero,通过「自我博弈」来提升下棋能力,顺便说一句DeepMind对于Alpha和强化学习的执念一直都在。

这种基于LLM,由Gemini驱动的的新工具,能够自行编写算法以解决那些「臭名昭著」的数学难题。

AlphaEvolve编写的Python代码能够为数学问题找到有效的解决方案,并且在某些情况下,这些解决方案优于此前已知的最佳方案。

换句话说,AlphaEvolve在某些长期存在的数学问题上创造了新的纪录。

AlphaEvolve发现过程的扩展视图

AlphaEvolve采用了一种进化方法来发现新算法。

白皮书报告中提到的示例包括改进的矩阵乘法方法以及圆填充问题的新解法。

随后,一家名为FICO的公司试图挑战这个纪录。

FICO(Fair Isaac Corporation)是一个专注于数据分析和决策管理的美国公司,最著名的产品是FICO信用评分,广泛用于信贷行业评估个人的信用风险。

他们想如果把同样的问题交给 FICO Xpress Solver(FICO Xpress优化套件的一部分)会有什么结果。

他们与位于柏林祖斯研究所(ZIB)的MODAL研究园区合作测试了新方法。

结果发现,他们的算法更出色!

在AlphaEvolve报告中的多个基准问题上,FICO Xpress Solver产生了新的最优解,超越了DeepMind此前创下的纪录。

FICO研究了Circle Packing问题的一个版本:

任务是将任意大小的圆放入单位正方形中,以最大化它们半径的总和。

我们现在知道,AlphaEvolve找到了半径总和为2.63586275的解决方案,优于此前最优的2.634。

而FICO Xpress Solver则找到了更优的解,半径总和达到2.63591551

左边是谷歌的构造,右边是FIC的构造,看起来圆形的排布几乎一样,只有半径的细微差别,肉眼很难发现,更别说用人力来穷举了。

对于非单位正方形,FICO声称只需从上个问题的模型中修改五行代码,便能够攻克下一个挑战。

使用FICO Xpress得到的解2.36583237略微改进了AlphaEvolve得到的解2.36583213。

这些结果都可以通过谷歌DeepMind在Google Colab笔记本的验证器进行确认,验证代码如下:

#@title Visualization function
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
defplot_circles(circles: np.ndarray):
"""Plots the circles."""
_, ax = plt.subplots(1, figsize=(7, 7))
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
ax.set_aspect('equal')  # Make axes scaled equally.
Draw unit square boundary.
rect = patches.Rectangle((0, 0), 1, 1, linewidth=1, edgecolor='black', facecolor='none')
ax.add_patch(rect)
Draw the circles.
for circle in circles:
circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5)
ax.add_patch(circ)
plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii')
plt.show()

谷歌还提供了画图代码,代码如下:

#@title Visualization function
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
defplot_circles(circles: np.ndarray):
  """Plots the circles."""
  _, ax = plt.subplots(1, figsize=(7, 7))
  ax.set_xlim(0, 1)
  ax.set_ylim(0, 1)
  ax.set_aspect('equal')  # Make axes scaled equally.
  # Draw unit square boundary.
  rect = patches.Rectangle((0, 0), 1, 1, linewidth=1, edgecolor='black', facecolor='none')
  ax.add_patch(rect)
  # Draw the circles.
  for circle in circles:
    circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5)
    ax.add_patch(circ)
  plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii')
  plt.show()

以下是谷歌在n=26问题中提供的最终圆形数据,感兴趣可以试试。

以上这些问题,都可以归类为全局优化问题

在全局优化中,目标不仅仅是找到一个解决方案,而是要证明该方案是最优解(或提供一个解与最优解之间接近程度的界限)。

谷歌在AlphaEvolve的支持下开发的算法采用了略有不同的方法:它们属于启发式算法,专注于寻找较优解,而非提供解的界限。

AlphaEvolve报告中的大多数问题要么没有约束,要么仅受到轻微约束,例如仅受到简单的变量边界限制。

这使得它们特别适合采用自动训练的启发式搜索方法,因为算法可以自由地探索解空间,而无需处理复杂的约束交互或陷入局部不可行的情况。

这些问题的真正挑战在于其高度非线性且通常非凸的目标函数,这类函数可能产生多个局部最优解

就像谷歌AlphaEvolve的宣传图上的小圆点。

不过FICO声称他们的技术采用的是非生成式AI技术的全局优化,功能要强大得多。

不仅能够处理此类非线性问题,还能够有效应对高度约束的问题,包括具有整数性要求的问题,这类问题的可行解可能极少,并且这些解可能位于搜索空间中狭窄或不连续的区域。

「屠龙」少年

今天X平台上一位名叫Alex的学生,声称他通过一个半月的独自努力,创建的「Tactical Maniac v0.5」打败了谷歌的AlphaEvolve。

这是一个多智能体算法发现框架,从高层次看,该算法通过迭代现有方案来探索创意空间。

Alex公布了他的成果。

在n=26的情况下,他的结果为2.63592717。

并且他声称已经通过谷歌Colab笔记本中的验证器进行了验证,也画出了图形。

作为对比,我们把之前AlphaEvolve的方案和FICO的方案放在一起:

  • AlphaEvolve前:2.634

  • AlphaEvolve:2.63586275(+0.00186275)

  • FICO Xpress:2.63591551(+0.00005276)

  • Alex:2.63592717(+0.00001166,比AlphaEvolve +0.00006442)

从构造上来看,Alex的解决方案完全不同于谷歌和FICO的方案!

这是一种全新的排布方式。

他是怎么做到的?

目前Alex并没有提供类似白皮书的详细求解方法说明。

他声称由于还要求解一些其他问题,因此想保留部分信息作为专有内容。

而他的主页除了标识了自己的UIUC CS专业外,没有更多的信息。

这让他变得十分神秘。

Alex声称他的方法和AlphaEvolve最为相似。

整体而言,Alex的方法使用LLM通过变异代码来探索搜索空间。接下来会进一步微调云云。

在Reddit上已经有人开始催促少年尽快发布白皮书来进行同行评审

所以,Alex的这个结果是否能被学术界认定,依然还是个未知数。

但他在取得成绩的第一时间,迅速在X和Reddit平台来发帖,声称自己超越了谷歌的AlphaEvolve,并在Circle Packing问题上创造了新的世界纪录

但是同时,他又选择不第一时间公开算法原理或者白皮书。

这让人不禁联想到最近两天IMO的「闹剧」。

AI时代的「快与慢」

IMO 2025刚刚结束没有几天,关于AI能否「拿下」金牌的,或者谁是第一家拿下金牌的AI工具,已经爆发了戏剧性的冲突。

公司的总裁Greg也理解发帖来支持这个说法。

据一位IMO内部人士透露,实际上OpenAI并没有和组委会合作,拿下AI金牌不一定真实有效。

最关键的是,他们违背了IMO规定的「公布时间」规则。

为了避免AI公司们抢夺人类学生的风头,IMO评审团要求:在闭幕式结束一周后再公布结果。

然而,OpenAI却在闭幕Party还未结束前,就发布了结果。

他表示,「自己不会评论任何未预先公开测试方法的AI竞赛成绩报告。在缺乏受控测试环境的情况下,AI的数学能力难以准确评估」。

不论最终结果如何,这场闹剧已经证明AI已经深度介入人类研究。

即使是在被誉为「人类智慧最后的堡垒」数学问题上。

Alex宣称战胜谷歌,和OpenAI「抢先」宣布拿下IMO金牌,本质上都是为了抢夺当下「第一个发现者/创造者」的定位。

正如谷歌DeepMind的产品负责人Logan Kilpatrick所说:

真正的AI里程碑是当任何人、在任何地方都能取得重大突破,而不只是斯坦福的博士们。

当一个身处「意料之外」地方的学生,用AI能解决全球性问题的时候,你就知道这项技术真正起作用了。

从谷歌最顶尖的AI实验室,到实力雄厚的FICO优化求解器,再到如今横空出世的Alex,我们见证的已不仅是算法的迭代,更是科研范式的深刻变革。

AI正成为那个最强大的杠杆,它将曾经专属于顶级机构的算力和智慧,普及到每一个拥有创想的个人手中。

让「单枪匹马挑战巨头」从神话变为现实。

然而,正如IMO赛场上的争议所警示的那样,当发现的喜悦被「抢跑」的喧嚣所裹挟,我们更需一份冷静与审慎。

在这个「发现」被无限加速的时代,速度与声明,必须与严谨和验证同行。

Alex的成果是否能最终通过同行评审的严格考验,为这场传奇画上圆满的句号,我们拭目以待。

但可以肯定的是,「游戏的规则」已经被彻底改写!

参考资料:

https://x.com/alexmaxxing/status/1946996263418757567

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方不再退让!达尔文港风波升级,5亿澳元开启澳方毁约买单路

中方不再退让!达尔文港风波升级,5亿澳元开启澳方毁约买单路

快看张同学
2026-02-03 09:48:46
黄金、白银直线飙涨!特朗普突发!事关关税!

黄金、白银直线飙涨!特朗普突发!事关关税!

证券时报e公司
2026-02-03 07:57:16
外交部:敦促美方严肃认真对待中方关切,要求美国执法部门立即停止错误行径

外交部:敦促美方严肃认真对待中方关切,要求美国执法部门立即停止错误行径

环球网资讯
2026-02-02 15:32:43
雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

快科技
2026-02-02 12:42:07
郑爽张恒家街头互撕!郑爽满头白发疑精神失常,孩子哭到发抖没人管

郑爽张恒家街头互撕!郑爽满头白发疑精神失常,孩子哭到发抖没人管

八卦王者
2026-02-03 10:08:04
晚年的李作鹏每日无酒肉不欢,在审查时要求改善生活,吃肉喝酒?

晚年的李作鹏每日无酒肉不欢,在审查时要求改善生活,吃肉喝酒?

春秋砚
2026-02-02 16:30:07
具俊晔心碎发声「我的熙媛」:下次再见,我们要在一起一辈子

具俊晔心碎发声「我的熙媛」:下次再见,我们要在一起一辈子

ETtoday星光云
2026-02-02 19:34:09
一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

观察宇宙
2026-01-31 20:29:00
伊朗武装部队总参谋长:地区战火将波及美国及其盟友

伊朗武装部队总参谋长:地区战火将波及美国及其盟友

财联社
2026-02-02 15:53:04
新春走基层|独龙江戍边民警带我“出任务”:给文面奶奶拍下“人生照片”

新春走基层|独龙江戍边民警带我“出任务”:给文面奶奶拍下“人生照片”

新华社
2026-02-02 15:34:42
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
大S逝世一周年雕像揭幕,具俊晔设计寄思念,雨中悼念看哭众人

大S逝世一周年雕像揭幕,具俊晔设计寄思念,雨中悼念看哭众人

很哥
2026-02-02 22:36:10
爱泼斯坦的文件正在曝光!塞尔维亚总统武契奇:预计48小时内伊朗将遭到袭击,“或者有其他重大事件发生”

爱泼斯坦的文件正在曝光!塞尔维亚总统武契奇:预计48小时内伊朗将遭到袭击,“或者有其他重大事件发生”

浙江之声
2026-02-02 15:38:46
蔡康永发文缅怀大S,说大S应该被好好疼爱的

蔡康永发文缅怀大S,说大S应该被好好疼爱的

素素娱乐
2026-02-03 07:27:12
中美俄,供养着一大群废物

中美俄,供养着一大群废物

智先生
2026-02-02 21:11:32
江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

扬子晚报
2026-02-02 14:41:49
赵匡胤帐下的五虎大将,都有谁?他们的结局如何,谁混得最好?

赵匡胤帐下的五虎大将,都有谁?他们的结局如何,谁混得最好?

凡人侃史
2026-02-01 23:47:51
大S的两个孩子,不参加妈妈的雕像仪式原因曝光

大S的两个孩子,不参加妈妈的雕像仪式原因曝光

素素娱乐
2026-02-03 12:06:34
哪些人情世故是你长大后才明白的?网友:贵人不可贱用

哪些人情世故是你长大后才明白的?网友:贵人不可贱用

解读热点事件
2026-01-29 04:45:45
发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

刘哥谈体育
2026-01-19 11:46:50
2026-02-03 13:23:03
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14468文章数 66563关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

男子投200万做租赁业务起步即爆单 每周收租金超百万

头条要闻

男子投200万做租赁业务起步即爆单 每周收租金超百万

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

精神病医院骗保内幕调查:住院相当于坐牢

汽车要闻

问界M6官图首发 以年轻化设计叩击25-30万级市场

态度原创

家居
房产
亲子
健康
军事航空

家居要闻

极简木艺术 典雅自在

房产要闻

Bling生活有星光丨千人共聚,全国润邻齐聚海岛春晚

亲子要闻

高敏感儿童是有病吗? 用这样的运动处方:家长从此告别内耗与焦虑

耳石症分类型,症状大不同

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版