网易首页 > 网易号 > 正文 申请入驻

【人工智能】谷歌 DeepMind 的新 AI Agent 比人类更能解决现实世界的问题

0
分享至

AlphaEvolve 使用大型语言模型来寻找超越数据中心管理、芯片设计等领域最佳人造解决方案的新算法。

谷歌 DeepMind 再次运用大型语言模型,探索数学和计算机科学领域长期存在的问题的新解决方案。这一次,该公司证明了其方法不仅可以解决尚未解决的理论难题,还能改进一系列重要的现实世界流程。

Google DeepMind 的新工具 AlphaEvolve 使用 Gemini 2.0 系列大型语言模型 (LLM) 为各种不同的任务生成代码。众所周知,LLM在编码方面表现不稳定。AlphaEvolve 的独特之处在于,它会对 Gemini 的每条建议进行评分,不断剔除不好的,调整好的,这个过程会不断迭代,直到生成最佳算法。在许多情况下,其结果比现有的最佳(人工编写的)解决方案更高效或更准确。

“你可以把它看作是一种超级编码 Agent,”谷歌 DeepMind 副总裁、AI for Science 团队负责人 Pushmeet Kohli 说道。“它不仅仅是提出一段代码或进行一次编辑,它实际上会生成一个可能无人知晓的结果。”

尤其是 AlphaEvolve,它提出了一种改进谷歌用于向其遍布全球数百万台服务器分配任务的软件的方法。谷歌 DeepMind 声称,该公司已在其所有数据中心使用这款新软件一年多,释放了谷歌 0.7% 的总计算资源。这听起来可能不多,但以谷歌的规模来看,这可谓是巨大的进步。

英国华威大学数学家雅各布·穆斯鲍尔对此印象深刻。他表示,AlphaEvolve 寻找能够产生特定解决方案的算法(而非寻找解决方案本身)的方式使其格外强大。“这使得该方法适用于各种各样的问题,”他说道。“人工智能正在成为数学和计算机科学领域不可或缺的工具。”

AlphaEvolve 延续了谷歌 DeepMind 多年来一直致力于的研究方向。其愿景是让人工智能助力人类在数学和科学领域的知识进步。2022 年,谷歌开发了 AlphaTensor 模型,该模型找到了一种更快的矩阵乘法求解方法——这是计算机科学中的一个基本问题——打破了保持了 50 多年的纪录。2023 年,谷歌发布了 AlphaDev 模型,它找到了更快的方法来执行计算机每天执行数万亿次的基本计算。AlphaTensor 和 AlphaDev 都将数学问题转化为一种游戏,然后寻找一系列制胜的策略。

2023年末推出的FunSearch,用能够生成代码的LLM取代了游戏AI。由于LLM可以执行一系列任务,FunSearch可以解决比其前辈更广泛的问题,而前辈们只接受过单一类型游戏的训练。该工具曾被用于破解纯数学中一个著名的未解难题。

AlphaEvolve 是 FunSearch 的下一代版本。它不像 FunSearch 那样,只能用一小段代码来解决特定问题,而是可以生成数百行代码的程序。这使得它能够应用于更广泛的问题。

理论上,AlphaEvolve 可以应用于任何可以用代码描述且有可由计算机评估的解决方案的问题。“算法运行着我们周围的世界,因此其影响是巨大的,”领导算法探索团队的谷歌 DeepMind 研究员 Matej Balog 说道。

适者生存

它的工作原理如下:AlphaEvolve 可以像任何 LLM 一样进行提示。输入问题描述以及任何你想要的额外提示,例如先前的解决方案,AlphaEvolve 就会使用 Gemini 2.0 Flash(谷歌 DeepMind 旗舰 LLM 最小、最快的版本)生成多个代码块来解决问题。

然后,它会获取这些候选解决方案,运行它们以评估其准确性和效率,并根据一系列相关指标进行评分。这些代码是否产生了正确的结果?它的运行速度是否比之前的解决方案更快?等等。

然后,AlphaEvolve 从当前一批解决方案中选取最佳方案,并请求 Gemini 进行改进。有时,AlphaEvolve 会将之前的解决方案重新加入,以防止 Gemini 陷入死胡同。

当遇到瓶颈时,AlphaEvolve 还可以调用 Gemini 2.0 Pro,这是谷歌 DeepMind 最强大的法学硕士 (LLM)。其理念是先用速度更快的 Flash 生成大量解决方案,然后在需要时从速度较慢的 Pro 中添加解决方案。

这些生成、计分和再生的循环一直持续,直到双子座无法想出比已有的更好的东西为止。

数字游戏

该团队在一系列不同的问题上测试了 AlphaEvolve。例如,他们再次研究了矩阵乘法,以比较像 AlphaEvolve 这样的通用工具与专用 AlphaTensor 的性能。矩阵是数字的网格。矩阵乘法是一项基本计算,支撑着从人工智能到计算机图形学等许多应用,但没有人知道最快的计算方法。“这仍然是一个悬而未决的问题,这有点令人难以置信,”Balog 说。

该团队向 AlphaEvolve 提供了问题描述以及一个标准算法示例。该工具不仅生成了新的算法,能够比任何现有方法更快地计算 14 种不同大小的矩阵,还改进了 AlphaTensor 打破两个 4×4 矩阵相乘记录的结果。

AlphaEvolve 对 Gemini 建议的 16,000 个候选集进行了评分,最终找到了最终解决方案,但 Balog 表示,AlphaEvolve 的效率仍然高于 AlphaTensor。AlphaTensor 的解决方案也仅在矩阵由 0 和 1 填充时有效。AlphaEvolve 也能解决其他数字的问题。

奥地利林茨约翰内斯开普勒大学的数学家 Manuel Kauers 对此表示赞同:“矩阵的改进可能具有实际意义。”

巧合的是,考尔斯和一位同事刚刚使用了另一种计算技术,发现了 AlphaEvolve 的一些加速效果。两人上周在网上发表了一篇论文,报告了他们的研究成果。

“很高兴看到我们对矩阵乘法的理解不断进步,”考尔斯说道,“每一项有用的技术都是对这项工作的宝贵贡献。”

现实世界的问题

矩阵乘法只是其中一项突破。谷歌 DeepMind 总共用 AlphaEvolve 测试了 50 多个不同类型的知名数学难题,包括傅里叶分析问题(数据压缩背后的数学原理,对视频流等应用至关重要)、最小重叠问题(数学家保罗·埃尔德什于 1955 年提出的数论开放问题)以及接吻数(艾萨克·牛顿提出的一个问题,在材料科学、化学和密码学领域都有应用)。AlphaEvolve 在 75% 的案例中匹配到了现有的最佳解决方案,并在 20% 的案例中找到了更优的解决方案。

随后,谷歌 DeepMind 将 AlphaEvolve 应用于一些实际问题。除了提出一种更高效的跨数据中心计算资源管理算法外,该工具还找到了降低谷歌专用张量处理单元芯片功耗的方法。

AlphaEvolve 甚至找到了一种加速 Gemini 本身训练的方法,即通过生成一种更有效的算法来管理训练过程中使用的某种类型的计算。

Google DeepMind 计划继续探索其工具的潜在应用。AlphaEvolve 的一个局限性在于,它无法用于需要人工评分的解题,例如需要解释的实验室实验。

穆斯鲍尔还指出,虽然 AlphaEvolve 可能在一系列问题上取得令人印象深刻的新成果,但它却很少提供关于其如何得出这些解决方案的理论见解。这对于提升人类理解力来说是一个缺陷。

即便如此,像 AlphaEvolve 这样的工具注定会改变研究人员的工作方式。“我认为我们还没有完成,”Kohli 说。“就这种方法的威力而言,我们还有很长的路要走。”

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。 如有侵权,请与我们联系。 所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。 投资有风险,入市需谨慎。

注我们,一起探索AWM

2025-05-08

2025-05-06

2025-05-06

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一起吃他汀猝死!医生再三劝告:夏季吃他汀的人,要警惕这5点

又一起吃他汀猝死!医生再三劝告:夏季吃他汀的人,要警惕这5点

路医生健康科普
2026-06-09 15:37:52
离婚真相曝光仅6个月,前妻高调曝光追求者,撕碎猴哥仅剩体面

离婚真相曝光仅6个月,前妻高调曝光追求者,撕碎猴哥仅剩体面

挂肚逍遥心
2026-06-08 08:17:28
东北林业大学副校长刘守新履新中南林业科技大学党委副书记

东北林业大学副校长刘守新履新中南林业科技大学党委副书记

澎湃新闻
2026-06-12 09:02:28
泰国47岁长公主去世,感染支原体细菌引发心肌炎昏迷多年,曾是外界最看好的王位继承人选

泰国47岁长公主去世,感染支原体细菌引发心肌炎昏迷多年,曾是外界最看好的王位继承人选

极目新闻
2026-06-12 10:26:17
公狗剧场男色生意经:一群180男人月入10万,让女人们疯狂买单?

公狗剧场男色生意经:一群180男人月入10万,让女人们疯狂买单?

金融八卦女
2026-06-10 13:46:40
品茶:从苦涩到回甘,是茶也是人生

品茶:从苦涩到回甘,是茶也是人生

疾跑的小蜗牛
2026-06-12 20:59:39
马斯克:特斯拉推送最新版 FSD!

马斯克:特斯拉推送最新版 FSD!

新浪财经
2026-06-12 13:29:14
刚刚!SpaceX上市,马斯克财富飙至11710亿美元,人类出发火星

刚刚!SpaceX上市,马斯克财富飙至11710亿美元,人类出发火星

雷科技
2026-06-13 01:00:05
美取消已签波音大豆订单,188家中企在列

美取消已签波音大豆订单,188家中企在列

老塕是个手艺人
2026-06-09 17:37:28
江大毕业生被“包圆”,苏大学生苦投百份简历,专业壁垒碾压区位红利?

江大毕业生被“包圆”,苏大学生苦投百份简历,专业壁垒碾压区位红利?

牛锅巴小钒
2026-06-12 20:50:17
实锤!那个为找学位证真相举报自己的人,证书实为违规取得

实锤!那个为找学位证真相举报自己的人,证书实为违规取得

听心堂
2026-06-12 21:26:57
固安房价从300万跌到45万,有人停贷,有人开始全款捡漏

固安房价从300万跌到45万,有人停贷,有人开始全款捡漏

科学发掘
2026-06-11 15:20:54
最新带货王出现了!世界杯同款拉布布销量暴涨30倍:599元一个还限购

最新带货王出现了!世界杯同款拉布布销量暴涨30倍:599元一个还限购

快科技
2026-06-12 18:02:46
身材没料还敢脱,42岁谢苗这一身腱子肉,内娱假肌肉男都该学一学

身材没料还敢脱,42岁谢苗这一身腱子肉,内娱假肌肉男都该学一学

八卦南风
2026-06-12 18:52:05
潘虹真敢穿71岁 还这么时髦这么健壮 和76岁斯琴高娃参加活动一幕

潘虹真敢穿71岁 还这么时髦这么健壮 和76岁斯琴高娃参加活动一幕

可乐谈情感
2026-06-13 01:05:02
闹心!奥迪纯电SUV,提车三天“故障频发”!上海车主7个月报修10次,结果更闹心

闹心!奥迪纯电SUV,提车三天“故障频发”!上海车主7个月报修10次,结果更闹心

新民晚报
2026-06-12 19:26:49
高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

梦醉为红颜一笑
2026-06-11 16:03:06
碾压托纳利!曼联 8500 万锁定顶级兽腰,曼城 1.2 亿豪购被完爆

碾压托纳利!曼联 8500 万锁定顶级兽腰,曼城 1.2 亿豪购被完爆

澜归序
2026-06-13 06:51:26
强震过后,菲律宾不急救援,先对中国打出两张牌,中方态度坚决

强震过后,菲律宾不急救援,先对中国打出两张牌,中方态度坚决

莉莉和奶奶
2026-06-13 05:27:34
特朗普又退缩了,特朗普又赢了 | 京酿馆

特朗普又退缩了,特朗普又赢了 | 京酿馆

新京报评论
2026-06-12 13:56:47
2026-06-13 07:19:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

伊美谅解备忘录草案部分内容披露 涉及撤军、战争赔偿等

头条要闻

伊美谅解备忘录草案部分内容披露 涉及撤军、战争赔偿等

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

家居
本地
亲子
房产
公开课

家居要闻

空间微调 移形换境

本地新闻

AK刘彰邂逅河北南大港湿地

亲子要闻

给孩子报个幼儿园还要工资流水?难道这就是传说中的“因财施教”

房产要闻

海南最赚钱行业曝光!最快4年半,海口全款买三房!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版