网易首页 > 网易号 > 正文 申请入驻

AlphaEvolve再进化!DeepMind用AI「养殖」算法,碾压所有人类设计

0
分享至


新智元报道

编辑:定慧

【新智元导读】DeepMind最新论文:用AlphaEvolve把算法源代码当基因组,让Gemini充当遗传算子,对博弈论算法进行「自然选择」。进化出的全新算法,采用了人类研究者从未想过的反直觉机制,在几乎所有测试博弈中碾压人类花了几十年设计的最优方案。AI不再只是执行算法——它开始自己发明算法了。

谷歌DeepMind刚刚放了一个大卫星。

他们用AlphaEvolve硬生生「繁殖」出了一批全新的博弈论算法。

这些算法不仅在性能上全面碾压人类花了几十年精心设计的经典方案,更令人头皮发麻的是:

它们使用的底层机制,反直觉到没有任何一个人类研究者会想到去尝试。


论文地址:https://arxiv.org/pdf/2602.16928

代码即基因组。LLM即造物主。

这一次,AI不是在帮人类写代码——它在自己发明数学。


这不是「让ChatGPT写个算法

首先,框架设定至关重要。

你可能以为这就是对着大模型说「帮我优化一下这个函数」,然后它吐出一段差不多的代码。

不是的。


把Gemini当基因工程师使的进化式编码智能体

这是AlphaEvolve,谷歌DeepMind构建的进化式编码智能体。

它的工作方式,更接近于达尔文而不是程序员。

它把算法的源代码当作基因组(genome)。

LLM充当遗传算子(genetic operator),对代码进行变异——重写逻辑、注入新的控制流、对符号操作进行变异。

然后,它在一组博弈论基准游戏上评估每个「后代算法」的适应度——谁的可利用度(exploitability)降得最低,谁就活下来。

活下来的算法进入下一代,继续被变异、评估、筛选。

这不是提示工程。这是代码的自然选择。

目标:博弈论的两大基石算法家族

AlphaEvolve瞄准的目标,是多智能体强化学习(MARL)中两个最核心的算法家族:

反事实遗憾最小化(Counterfactual Regret Minimization, CFR)策略空间响应预言(Policy Space Response Oracles, PSRO)


如果你玩过德扑AI、或者听说过Libratus和Pluribus那些碾压人类扑克高手的AI——没错,它们的核心就是这两样东西。

它们的任务是在不完全信息博弈中找到纳什均衡——也就是让每个玩家都无法通过单方面改变策略来获得更好结果的那个「完美平衡点」。


过去几十年,研究者们一直在手动调参、凭直觉设计这些算法的变体:CFR+、DCFR、PCFR+、LCFR……每一个变体都是某个聪明绝顶的博弈论研究者灵光一闪的产物。

但AlphaEvolve说:让我来。


为什么博弈论算法的设计这么难?

要理解这篇论文的分量,先得明白一个背景:不完全信息博弈是AI领域最硬的骨头之一。

什么叫不完全信息博弈?简单说——你不知道对手手里有什么牌。

德州扑克、骗子骰、甚至国际谈判,本质上都是这类问题。在这些场景中,你看到的只是「信息集」(information set)——一组你无法区分的博弈状态。你的策略必须对同一信息集下的所有可能情况都做出合理回应。

衡量一个算法好不好,博弈论有个硬核指标叫可利用度(Exploitability)。

直觉上说,它度量的是:如果对手知道你的策略并针对性地反击,你会亏多少。可利用度为零,意味着你的策略是纳什均衡——任何对手都无法通过单方面改变策略来占你便宜,这是博弈论中的「终极境界」。

几十年来,研究者们为了让算法更快地逼近纳什均衡,一直在手动迭代设计。这个过程是这样的:

某位顶级研究者凭数学直觉观察到一种规律 → 将其形式化为一个新的折现方案/权重函数/遗憾处理规则 → 在数学上证明收敛性 → 在几个标准博弈上做实验 → 发表论文

每一步都需要人类直觉

问题是,这些算法的设计空间是组合爆炸级别的——你怎么折现历史遗憾?

正遗憾和负遗憾要不要区别对待?策略平均什么时候开始?用什么权重?这些选择的排列组合,远超任何研究者能逐一验证的范围。

论文的核心洞察在于:算法设计本质上是一个搜索问题。


人类研究者受限于数学可推导性,大多只能在「优雅但有限」的设计空间里搜索——比如线性平均、固定折现、对称处理。但如果把搜索空间扩展到任意可执行代码呢?

AlphaEvolve做的正是这件事。

它不是在调超参数,而是在进化符号代码(symbolic code)。

LLM理解代码的语义,能做出「有意义的变异」——不是随机翻转一个比特,而是「把这个线性调度改成指数调度」「给正遗憾加一个增强系数」「在前500次迭代跳过策略累积」。

这让搜索空间从人类直觉所及的几百种可能,暴涨到LLM能触及的几乎无限种合理变体。

传统方法:人类设计算法,机器执行算法。

AlphaEvolve:机器设计算法,机器执行算法,人类在旁边看着惊掉下巴。


一句话说清楚这篇论文到底干了啥

这篇论文的故事其实特别简单:

想象你是一个扑克高手教练。你手下有一套打牌的策略手册,几十年来,全靠你和其他聪明人一条条手写规则、反复试错,才慢慢改进到今天的水平。

现在,DeepMind做了一件事——他们把这本策略手册的每一页、每一条规则,都变成了一段可以被改写的代码

然后他们放出了一个AI(AlphaEvolve),让它像大自然培育物种一样,不停地改写这些规则、测试效果、淘汰差的、留下好的。

跑了无数代之后,这个AI进化出了两套全新的策略手册。

第一套叫VAD-CFR,它学会了三件人类教练从来没想过的事:局势混乱时果断忘掉旧经验,发现好招时立刻加倍下注,前500轮纯学习不做总结。听起来很奇怪对吧?但它就是比所有人类设计的方法都好用。


第二套叫SHOR-PSRO,它学会了前期大胆试探,后期精准收网——而且训练和考试用不同的策略,训练时求稳,考试时求准。


最关键的一点是:这些新规则不是AI从某本教科书里抄来的,而是它自己「进化」出来的。

人类博弈论专家看到这些规则后的第一反应是——「这也行?」

但数据不会骗人。在几乎所有测试的博弈场景中,AI进化出来的算法都打败了人类花了几十年心血设计的最好方案。

所以这篇论文真正在说的是:AI已经不只是在执行人类写的算法了,它开始自己发明算法——而且发明得比人类还好。

这意味着什么?

让我们退一步,看看这件事的全貌。

过去,博弈论算法的进步长这样:

某个顶级研究者花几个月甚至几年时间,凭直觉和数学推导,提出一个新的折现方案或权重函数 → 在几个博弈上验证 → 发论文 → 社区惊呼「天才」

现在呢?

AlphaEvolve启动 → Gemini对代码进行变异 → 自动评估适应度 → 进化选择 → 输出一个人类研究者根本不会想到的算法 → 在11个博弈中碾压所有前辈

这不只是效率的提升。

这是范式的转换。


论文的结论部分这样说:

「我们的结果表明,自动发现的算法不对称性——特别是那些管理遗憾缩放和动态混合调度的机制——能够产生对人类直觉而言难以捉摸、但在实践中极其有效的求解器。」

翻译成人话就是:AI发现了人类想不到的数学。

而且这些「想不到的数学」不是什么花哨的噱头,而是实打实地在性能上统治了整个基线方阵。

DeepMind在论文最后也给了未来方向的暗示——

他们计划将这个进化框架应用到深度强化学习智能体的完整设计中去,以及探索合作博弈中的机制发现。

想象一下:不只是博弈论算法,而是让AI进化出整个学习范式。

代码的「自然选择」,这才刚刚开始。

参考资料:

https://x.com/rryssf_/status/2027062703144284521

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进攻欲望不强,詹姆斯全场16投7中得到15分6板5助,正负值+5

进攻欲望不强,詹姆斯全场16投7中得到15分6板5助,正负值+5

懂球帝
2026-02-27 12:49:07
谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

念得小柔
2026-02-13 02:19:33
赢日本7分!杨鸣大赞中国男篮1人:三分很关键,起到了奇兵作用

赢日本7分!杨鸣大赞中国男篮1人:三分很关键,起到了奇兵作用

体育哲人
2026-02-26 20:44:43
皮尔斯:瓜迪奥拉卸任主教练后,曼城应该让他担任足球总监

皮尔斯:瓜迪奥拉卸任主教练后,曼城应该让他担任足球总监

懂球帝
2026-02-27 18:25:11
牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

晓风洞察
2026-02-27 13:19:44
伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

百态人间
2026-02-24 15:37:37
张继科做梦没想到,德国总理访华仅1天,29岁樊振东竟意外火出圈

张继科做梦没想到,德国总理访华仅1天,29岁樊振东竟意外火出圈

白面书誏
2026-02-27 12:58:15
Shams:李凯尔与灰熊达成买断协议 将在澄清期后加盟森林狼

Shams:李凯尔与灰熊达成买断协议 将在澄清期后加盟森林狼

北青网-北京青年报
2026-02-27 09:20:10
三进万安滩,从屈辱撤离到扬眉吐气,越南已不在威胁中国的名单中

三进万安滩,从屈辱撤离到扬眉吐气,越南已不在威胁中国的名单中

触摸史迹
2026-02-26 11:28:32
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
Coco说她很怀念在香港的日子,很怀念和谢贤在一起的12年

Coco说她很怀念在香港的日子,很怀念和谢贤在一起的12年

西楼知趣杂谈
2026-02-19 21:09:49
美贸易代表:特朗普改主意了,除中国之外,其他国家一个都跑不掉

美贸易代表:特朗普改主意了,除中国之外,其他国家一个都跑不掉

凡知
2026-02-27 11:28:43
火箭逆转魔术!杜兰特+谢泼德轰60分统治级,史密斯精准,2将辣眼

火箭逆转魔术!杜兰特+谢泼德轰60分统治级,史密斯精准,2将辣眼

篮球资讯达人
2026-02-27 11:08:20
这就是巨星坯子?爱德华兹不听战术自己干,命中后霸气回呛主教练

这就是巨星坯子?爱德华兹不听战术自己干,命中后霸气回呛主教练

大眼瞄世界
2026-02-27 14:48:29
这块肉从民国传了六代没舍得吃,专家估值3800万,这肉还能吃吗?

这块肉从民国传了六代没舍得吃,专家估值3800万,这肉还能吃吗?

名石故事
2026-02-07 01:56:39
国台办经济局局长彭庆恩升任国台办副主任

国台办经济局局长彭庆恩升任国台办副主任

澎湃新闻
2026-02-27 18:04:26
记者:梅伦多出席海港出征仪式,蒋光太、张琳芃因伤未出席

记者:梅伦多出席海港出征仪式,蒋光太、张琳芃因伤未出席

懂球帝
2026-02-27 17:48:20
开封大梁门墙体被撞出豁口,碎石散落一地!官方回应:已报警,破损墙体非文物本体,已连夜修缮完成

开封大梁门墙体被撞出豁口,碎石散落一地!官方回应:已报警,破损墙体非文物本体,已连夜修缮完成

大风新闻
2026-02-27 16:06:54
00后博士涉案!上海知名游戏公司多款未公开内容遭泄露,3人被抓

00后博士涉案!上海知名游戏公司多款未公开内容遭泄露,3人被抓

新民晚报
2026-02-27 14:45:31
笑喷!申裕斌被王曼昱打到21-19飙中文:太累了!鳗鱼连忙夸她打得好

笑喷!申裕斌被王曼昱打到21-19飙中文:太累了!鳗鱼连忙夸她打得好

818体育
2026-02-26 23:59:33
2026-02-27 19:52:51
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14604文章数 66646关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

世界经济论坛总裁辞职 曾私信爱泼斯坦称对方"天才"

头条要闻

世界经济论坛总裁辞职 曾私信爱泼斯坦称对方"天才"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
数码
手机
时尚
公开课

本地新闻

津南好·四时总相宜

数码要闻

超越宽高比限制:AOC Trinity三合一桌面显示器获iF设计奖

手机要闻

三星版“豆包手机”发布 深度绑定AI

今年春天最美搭配:西装+半裙,怎么穿都好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版