网易首页 > 网易号 > 正文 申请入驻

DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”

0
分享至


作者 | 木子

说起 AI Coding,之前很多人好歹还有个“心理安慰”:AI 也就写写“脚手架代码”、补补前端页面,真到核心算法、业务逻辑,还是得人来。

但这道“最后防线”,也正在松动。

谷歌 DeepMind最近做了一件更狠的事:他们让LLM 驱动的智能体,直接去改写、进化算法代码本身——不是调参数,而是改算法逻辑。

改完就丢进真实博弈环境里反复跑,自动评测、优胜劣汰,一轮轮进化。

结果呢?它真的做出了全新的多智能体学习算法,在多项测试中超过了人类专家手工打磨的版本。

重要的是,这些机制并不直观,属于人类很难靠经验穷举出来的解。

更关键的是:人只用定义好了算法骨架,之后的搜索、修改、筛选,全程自动完成,不用手调参数,不用反复试错,也不靠研究者的直觉微调。


这个智能体叫AlphaEvolve,延续了 DeepMind 一贯的“Alpha”命名传统(AlphaGo、AlphaZero、AlphaFold)。其中 “Evolve” 意为“进化”,点明它的核心机制:通过类似生物进化的方式不断改写和筛选算法。

这个 AlphaEvolve 本身去年就有,但这是它第一次被用来学习算法

它把 Gemini 系列大模型,和进化搜索结合起来,把代码不断生成、测试、筛选、再进化。


DeepMind 把把研究过程和成果写成了一篇 37 页的论文,题为《基于大语言模型的多智能体学习算法自动发现》(Discovering Multiagent Learning Algorithms with Large Language Models),一发出来就炸了技术圈。


有网友看完直呼,这玩意真挺“可怕”的:

“这看起来像是 DeepMind 手中的一张王牌,我认为它可能导致谷歌赢得比赛。”


有人锐评:

“这就像教一个孩子读书,然后看着它自己编写教科书。”


还有人已经开始往更远处想:既然 AI 已经能设计更好的学习算法,那或许它也该先给自己设计一套更完善的“伦理引擎”,在 ASI 真正爆发之前,先把对齐这件事想清楚。


人只选定算法框架,

AI 全自动闭环进化

来展开看看实验设计和操作过程。

需要说明的是,研究团队没有让模型“从零写算法”,而是选定两个成熟框架:

  • CFR(后悔最小化):CFR 算法族,依赖递归定义来累积后悔值并构建平均策略。

  • PSRO(策略种群训练):通过迭代计算最优响应并求解元策略,不断扩展策略种群。

过去,在不完全信息博弈求解(比如扑克)中,像 CFR、PSRO 这些经典算法虽然理论扎实,但真正好用的“升级版”,还是要靠人类专家一点点凭经验调参、改规则、试出来。

然后,研究人员把算法核心逻辑,拆成几个可被改写的 Python 函数,例如:regret 累积规则、当前策略生成方式、平均策略更新规则、PSRO 的 meta-solver 逻辑。

也就是说,他们只开放了“关键决策逻辑”给 LLM 改,其余框架固定。这一步很关键,相当于给进化定义“基因范围”。

接下来就进入真正的“进化环节”。

AlphaEvolve 把当前算法代码当作“个体”,由 LLM 生成若干语义上有意义的改写版本:不是随便乱改,而是改具体逻辑、控制流或更新规则。

每一个改写后的版本,都会被自动编译、运行,然后丢进一组博弈环境里真实对战,用 exploitability 这样的指标打分。表现更好的版本被保留下来,作为下一轮搜索的基础;表现差的直接淘汰。

整个过程是闭环的:生成 → 运行 → 评估 → 筛选 → 再生成,循环推进。人类不参与中间调参,也不手动筛选,只负责设定规则和评价标准。


图注:这张示意图也是 AI 做的

结果,AI 进化出了两个全新算法

先看 CFR 这一派。AlphaEvolve 进化出了 VAD-CFR。

AI 没有去调那点小参数,而是直接改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”这些核心逻辑。

比如引入了 volatility-sensitive discounting(根据波动动态折扣)、hard warm-start schedule(前期蓄力、后期发力)这样的机制。

听起来挺抽象的,但效果明显:在多个博弈里,它超过了目前人类手工打磨出来的最强版本。


这张图很直观,展示了多种 CFR 变体在不同博弈环境中的收敛表现。上半部分是用于搜索阶段的训练游戏,下半部分是规模更大、更复杂的测试游戏。

横轴是迭代次数(最多 1000 次),纵轴是 exploitability(越低越接近均衡)。曲线降得越快、越低,说明算法越强。

灰色那条线就是 VAD-CFR。可以看到,在多数游戏里,它下滑得更快、落得更低,明显压过 CFR+、DCFR、PCFR+ 这些人类优化过多轮的版本。

在一些游戏中,大约 500 次迭代之后,曲线像突然“踩了油门”,下降速度明显加快——这正是它预热阶段结束、正式发力的时刻。

前半段像是在默默蓄力,后半段才真正冲刺。

更关键的是,在规模更大、难度更高的测试游戏中,VAD-CFR 依然比传统的 CFR、CFR+、DCFR 等人工设计的算法收敛更快、结果更优,没有出现“只会做模拟题”的情况。

这说明,它不是针对训练游戏做了小技巧,而是在算法结构层面找到了一种更高效的更新方式。

再看PSRO这一派:AI 进化出了SHOR-PSRO算法。

它做的事情很简单也很大胆:重新设计“元求解器”。

传统方法要么偏探索,要么偏逼近均衡,权衡是固定的。而 SHOR 直接把多种更新机制混合在一起,设计了一种混合型 meta-solver,而且随着训练进程动态调整,让训练过程自动从“多样性探索”过渡到“逼近均衡”。


这张图,展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等经典方法的对比。

图中不同颜色代表不同元求解器:Uniform、Nash、AlphaRank、PRD、Regret Matching(RM),以及进化得到的 SHOR(棕色线)。

整张图分为上下两部分。上半部分是训练游戏,下半部分是规模更大、更复杂的测试游戏,用来检验算法是否具有泛化能力。

横轴是 PSRO 迭代次数(最多 100 轮),纵轴是 exploitability(可被利用度,对数坐标);数值越低,说明算法越接近博弈均衡、表现越好。

可以看到,在多数游戏中,SHOR 曲线下降更快,而且在第 100 次迭代时的 exploitability 更低,说明它在同样迭代次数下更有效地逼近均衡。

尤其是在更复杂的测试游戏中(如 4-player Kuhn、6-sided Liar’s Dice),SHOR 依然保持优势,没有明显退化。

简单说,SHOR-PSRO 在“什么时候多探索、什么时候专注逼近均衡”这件事上,比传统方法更灵活、更聪明。

它不是靠调参数赢的,而是把调度逻辑本身改了。

论文地址:

https://arxiv.org/abs/2602.16928

https://x.com/hasantoxr/status/2026371848217456738

https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程!汇聚顶尖专家实战分享,把 AI 能力一次夯到位!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

80后房车生活
2026-02-27 10:31:51
请假2小时被开除后续:店主真容曝光社死,黑历史被扒,已找律师

请假2小时被开除后续:店主真容曝光社死,黑历史被扒,已找律师

离离言几许
2026-02-26 16:16:45
媒体人:中国赢下这场才能逼日本把八村和河村叫回来比划一下

媒体人:中国赢下这场才能逼日本把八村和河村叫回来比划一下

懂球帝
2026-02-27 07:50:11
放过那个可怜的赵车长吧

放过那个可怜的赵车长吧

李老逵乱摆龙门阵
2026-02-27 09:42:29
5.5亿元索赔“砍”至6400万元,实地探访东莞大面积停运纯电公交:生产企业已停产两年,司机称显示能跑近400公里实际只跑160公里

5.5亿元索赔“砍”至6400万元,实地探访东莞大面积停运纯电公交:生产企业已停产两年,司机称显示能跑近400公里实际只跑160公里

每日经济新闻
2026-02-26 22:31:30
跻身全球储能第二,海辰储能IPO之路近在眼前

跻身全球储能第二,海辰储能IPO之路近在眼前

紫金财经
2026-02-25 09:48:59
震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

火山詩话
2026-02-27 12:08:36
哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

一口娱乐
2026-02-27 12:42:23
杉杉集团破产,事实证明:美女主持人只会排节目,对管理无能为力

杉杉集团破产,事实证明:美女主持人只会排节目,对管理无能为力

来科点谱
2026-02-27 07:29:21
湖人登全美第一热搜!连场被准绝杀 专家直言令人发笑 该做出改变

湖人登全美第一热搜!连场被准绝杀 专家直言令人发笑 该做出改变

颜小白的篮球梦
2026-02-27 13:00:37
西方打死也想不通:为什么秦始皇死了2000年,中国还在他的布局里

西方打死也想不通:为什么秦始皇死了2000年,中国还在他的布局里

凡人侃史
2026-02-26 15:26:20
1男4女五胞胎名字已取好 爸爸称心情像过山车

1男4女五胞胎名字已取好 爸爸称心情像过山车

封面新闻
2026-02-27 15:01:02
成了?默茨访华结束,他很兴奋。离开中国前,撂下一句话

成了?默茨访华结束,他很兴奋。离开中国前,撂下一句话

基斯默默
2026-02-27 11:07:19
奔驰、宝马、奥迪开年集体降价,销售员:是否考虑新能源?

奔驰、宝马、奥迪开年集体降价,销售员:是否考虑新能源?

华夏时报
2026-02-26 16:28:14
女孩被打后续:村民发声,打人夫妻更多信息被扒,最高可判10年

女孩被打后续:村民发声,打人夫妻更多信息被扒,最高可判10年

天天热点见闻
2026-02-27 07:01:26
美荷两国曾同时发声,对中国独立研发的光刻机技术给予了强烈批评

美荷两国曾同时发声,对中国独立研发的光刻机技术给予了强烈批评

来科点谱
2026-02-27 07:32:59
反转!中国男篮赢球后,FIBA改口,执法裁判身份曝光,或遭重罚

反转!中国男篮赢球后,FIBA改口,执法裁判身份曝光,或遭重罚

何老师呀
2026-02-27 11:31:58
新加坡大满贯赛:大爆冷!男单世界第2被淘汰,陈垣宇3:1淘汰雨果

新加坡大满贯赛:大爆冷!男单世界第2被淘汰,陈垣宇3:1淘汰雨果

国乒二三事
2026-02-27 14:28:06
大爆冷!美国男篮仅两人上双主场输多米尼加 吞世预赛首败

大爆冷!美国男篮仅两人上双主场输多米尼加 吞世预赛首败

醉卧浮生
2026-02-27 13:14:39
突发!2026年全国第一巨额抢劫案在江苏发生了,197万,疑犯已捕

突发!2026年全国第一巨额抢劫案在江苏发生了,197万,疑犯已捕

离离言几许
2026-02-26 10:14:26
2026-02-27 16:31:04
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1325文章数 131关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

手机
教育
本地
房产
公开课

手机要闻

小米17 Ultra徕卡版全球版本明天发布:定名LEICA LEITZPHONE powered by Xiaomi

教育要闻

中考数学,计算题,别想太简单

本地新闻

津南好·四时总相宜

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版