网易首页 > 网易号 > 正文 申请入驻

DeepMind推出改进芯片设计、解决数学难题Agent,帮助Gemini训练

0
分享至

大型语言模型 (LLM) 功能极其丰富,它们可以汇总文档、生成代码,甚至集思广益,提出新想法。现在,谷歌 DeepMind 扩展了这些功能,使其能够解决数学和现代计算领域中基础且高度复杂的问题。

近日,谷歌 DeepMind 公布了其在自动化算法探索领域的最新进展——AlphaEvolve。该系统融合了大型语言模型的强大代码生成能力与进化算法的迭代优化思想,构成一个能够自主发现并改进复杂算法的 AI 智能体,致力于在通用算法的发现和优化方面取得突破。

AlphaEvolve 利用谷歌的 Gemini 大型语言模型家族(包括Gemini Flash 和 Gemini Pro)为各种不同的任务生成和改进代码。其核心在于其创新的“进化”方法:它不仅仅是单次生成代码,而是通过一个迭代循环,不断对 Gemini 生成的算法进行测试、评估、筛选和优化。表现不佳的方案被剔除,有潜力的方案则被进一步调整和改进,直至系统收敛到当前问题下的最优算法。在许多测试中,其结果比现有的、由人类专家编写的最佳解决方案更高效或更准确。

据悉,AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率,包括训练 AlphaEvolve 本身所依赖的 LLM。它还帮助设计了更快的矩阵乘法算法,并为一些悬而未决的数学问题找到了新的解决方案,展现出在众多科学和工程领域应用的巨大潜力。

工作原理

AlphaEvolve 延续了谷歌 DeepMind 多年来的研究方向,其核心理念是通过人工智能推动数学与科学领域的人类认知边界。2022 年问世的 AlphaTensor 模型在计算机科学基础难题——矩阵乘法求解上取得突破,将保持了 50 余年的计算效率纪录一举刷新;2023 年推出的 AlphaDev 则发现了每日执行数万亿次的基础运算的加速方法。这两项技术均将数学问题转化为"游戏对弈"模式,通过寻找最优步骤序列来破解难题。

而 2023 年底亮相的 FunSearch 实现了范式革新——它用具备代码生成能力的大语言模型替代了游戏 AI。由于大语言模型具有多任务处理能力,相比仅专精单一游戏类型的早期系统,FunSearch 能攻克更多样化的问题。该工具甚至成功破解了纯数学领域一个长期悬而未决的著名难题。

AlphaEvolve 是 FunSearch 的升级版本。与 FunSearch 只能生成解决特定问题的简短代码片段不同,它能编写长达数百行的完整程序。这一突破使其能够应对更广泛的问题类型。

从理论上说,任何能用代码描述且解决方案可通过计算机评估的问题,AlphaEvolve 都能处理。"算法驱动着我们周围的世界,因此这项技术的影响将无比深远,"谷歌 DeepMind 算法探索团队负责人 Matej Balog 说道。

AlphaEvolve 的具体工作流程可以概括为一个进化式搜索循环。其核心组件协同工作:首先,一个程序数据库 (Program Database) 负责存储当前已发现的、有潜力的程序(算法)及其评估分数,并在进化过程中不断更新。

接着,提示采样器 (Prompt Sampler) 从程序数据库中选择一个或多个“父程序”以及一些“灵感”代码片段,构建一个具有引导性的提示。

随后,系统的 LLM 核心,主要利用快速高效的 Gemini Flash 模型接收此提示,并生成对父程序的修改建议(通常以 diff 的形式体现),这些修改旨在探索新的算法变体。当需要更深入、更具洞察力的分析或遇到瓶颈时,系统可以灵活调用能力更强但速度稍慢的 Gemini Pro 模型。生成的 diff 会被应用到父程序上,从而创造出新的“子程序”。

这些新诞生的子程序接下来会进入评估器池 (Evaluators Pool),这是关键的反馈环节。在这里,它们会接受严格的自动化测试,评估器根据预设的指标(如正确性、运行速度、资源消耗、输出精度等)对子程序进行打分。

最后,评估结果优异的子程序会被添加回程序数据库中,成为下一轮进化的潜在父程序。这个“采样-生成-评估-选择”的循环会持续进行,不断迭代,直到 Gemini 模型无法再提出能够超越数据库中现有最佳方案的新解法,或者达到预设的计算资源上限。

这种进化方法使得 AlphaEvolve 能够主动探索广阔的解决方案空间,发现人类可能从未想到的新颖方法,并通过自动化的评估过程不断优化这些方法。

解决多个问题

该团队在一系列不同的问题上测试了 AlphaEvolve。例如,他们再次研究了矩阵乘法,以比较像 AlphaEvolve 这样的通用工具与专用 AlphaTensor 的性能。矩阵是由数字构成的网格,而矩阵乘法作为基础运算支撑着从人工智能到计算机图形学等诸多应用领域,但至今无人知晓其最快计算方法。“这仍然是一个悬而未决的问题。”Balog 表示。

团队向 AlphaEvolve 输入了问题描述和标准算法示例。该工具不仅针对 14 种不同规模的矩阵提出了超越现有方法的快速计算算法,更在 4x4 矩阵乘法这一具体问题上突破了 AlphaTensor 创下的速度记录。

AlphaEvolve 从 Gemini 生成的 16,000 个候选方案中筛选出了最优解,但其效率仍高于 AlphaTensor。而且 AlphaTensor 的解决方案仅适用于由 0 和 1 构成的矩阵,而 AlphaEvolve 还能处理包含其他数字的矩阵运算。

矩阵乘法只是其中一项突破。DeepMind 总共用 AlphaEvolve 测试了 50 多个不同类型的知名数学难题,包括傅里叶分析问题、最小重叠问题以及接吻数问题等。AlphaEvolve 在 75% 的案例中匹配到了现有的最佳解决方案,并在 20% 的案例中找到了更优的解决方案。

例如,它推进了接吻数问题。这项几何挑战吸引了数学家们超过 300 年,它关注的是与一个共同单位球面相切的不重叠球体的最大数量。AlphaEvolve 发现了一个由 593 个外球体组成的结构,直接刷新了 11 维空间中的下限。

随后,谷歌 DeepMind 将 AlphaEvolve 应用于一些实际问题。AlphaEvolve 帮助谷歌改进了其下一代张量处理单元的设计,并找到了一种更有效地利用谷歌全球计算能力的方法,节省了 0.7% 的总资源。

AlphaEvolve 甚至找到了一种加速 Gemini 本身训练的方法,它将 Gemini 架构中这一关键内核的速度提高了 23%,从而使 Gemini 的训练时间缩短了 1%。除了性能提升之外,AlphaEvolve 还显著缩短了内核优化所需的工程时间,从数周的专家工作缩短为数天的自动化实验,从而帮助研究人员更快地进行创新。

AlphaEvolve 还能优化底层 GPU 指令——这个通常已被编译器深度优化的超复杂领域,人类工程师往往不会直接修改。在基于 Transformer 的 AI 模型中,AlphaEvolve为 FlashAttention 内核实现了高达 32.5% 的速度提升。这类优化不仅能帮助专家精准定位性能瓶颈,还能轻松将改进方案集成到代码库中,既提升了开发效率,又为未来节省算力和能耗铺平道路。

谷歌 DeepMind 计划继续探索该工具的潜在应用场景。目前的一个局限是,AlphaEvolve 无法适用于需要人工评分的解决方案,比如需要主观判读的实验室实验。

英国华威大学数学家 Jakob Moosbauer 指出,虽然 AlphaEvolve 能在诸多领域产出令人惊艳的新成果,但它几乎不提供关于解题过程的理论阐释。这对于推进人类认知而言是个明显缺陷。

尽管如此,这类工具注定将重塑科研人员的工作方式。

1.https://www.technologyreview.com/2025/05/14/1116438/google-deepminds-new-ai-uses-large-language-models-to-crack-real-world-problems/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
外媒:卢卡申科首次访问朝鲜

外媒:卢卡申科首次访问朝鲜

参考消息
2026-03-25 19:37:47
这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

奥字侃剧
2026-03-26 11:07:34
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

黑翼天使
2026-03-24 07:50:52
1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

抽象派大师
2026-03-26 10:57:02
事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

我不叫阿哏
2026-03-26 16:46:00
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

眼界看视野
2026-03-24 11:00:18
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

丁丁鲤史纪
2026-03-26 14:49:19
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
2026-03-26 21:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
健康
亲子
公开课

艺术要闻

哪一座桥不是风景?

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

转头就晕的耳石症,能开车上班吗?

亲子要闻

你好,我是馒头,快开门!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版