网易首页 > 网易号 > 正文 申请入驻

AlphaEvolve再进化!DeepMind用AI「养殖」算法,碾压所有人类设计

0
分享至


新智元报道

编辑:定慧

【新智元导读】DeepMind最新论文:用AlphaEvolve把算法源代码当基因组,让Gemini充当遗传算子,对博弈论算法进行「自然选择」。进化出的全新算法,采用了人类研究者从未想过的反直觉机制,在几乎所有测试博弈中碾压人类花了几十年设计的最优方案。AI不再只是执行算法——它开始自己发明算法了。

谷歌DeepMind刚刚放了一个大卫星。

他们用AlphaEvolve硬生生「繁殖」出了一批全新的博弈论算法。

这些算法不仅在性能上全面碾压人类花了几十年精心设计的经典方案,更令人头皮发麻的是:

它们使用的底层机制,反直觉到没有任何一个人类研究者会想到去尝试。


论文地址:https://arxiv.org/pdf/2602.16928

代码即基因组。LLM即造物主。

这一次,AI不是在帮人类写代码——它在自己发明数学。


这不是「让ChatGPT写个算法

首先,框架设定至关重要。

你可能以为这就是对着大模型说「帮我优化一下这个函数」,然后它吐出一段差不多的代码。

不是的。


把Gemini当基因工程师使的进化式编码智能体

这是AlphaEvolve,谷歌DeepMind构建的进化式编码智能体。

它的工作方式,更接近于达尔文而不是程序员。

它把算法的源代码当作基因组(genome)。

LLM充当遗传算子(genetic operator),对代码进行变异——重写逻辑、注入新的控制流、对符号操作进行变异。

然后,它在一组博弈论基准游戏上评估每个「后代算法」的适应度——谁的可利用度(exploitability)降得最低,谁就活下来。

活下来的算法进入下一代,继续被变异、评估、筛选。

这不是提示工程。这是代码的自然选择。

目标:博弈论的两大基石算法家族

AlphaEvolve瞄准的目标,是多智能体强化学习(MARL)中两个最核心的算法家族:

反事实遗憾最小化(Counterfactual Regret Minimization, CFR)策略空间响应预言(Policy Space Response Oracles, PSRO)


如果你玩过德扑AI、或者听说过Libratus和Pluribus那些碾压人类扑克高手的AI——没错,它们的核心就是这两样东西。

它们的任务是在不完全信息博弈中找到纳什均衡——也就是让每个玩家都无法通过单方面改变策略来获得更好结果的那个「完美平衡点」。


过去几十年,研究者们一直在手动调参、凭直觉设计这些算法的变体:CFR+、DCFR、PCFR+、LCFR……每一个变体都是某个聪明绝顶的博弈论研究者灵光一闪的产物。

但AlphaEvolve说:让我来。


为什么博弈论算法的设计这么难?

要理解这篇论文的分量,先得明白一个背景:不完全信息博弈是AI领域最硬的骨头之一。

什么叫不完全信息博弈?简单说——你不知道对手手里有什么牌。

德州扑克、骗子骰、甚至国际谈判,本质上都是这类问题。在这些场景中,你看到的只是「信息集」(information set)——一组你无法区分的博弈状态。你的策略必须对同一信息集下的所有可能情况都做出合理回应。

衡量一个算法好不好,博弈论有个硬核指标叫可利用度(Exploitability)。

直觉上说,它度量的是:如果对手知道你的策略并针对性地反击,你会亏多少。可利用度为零,意味着你的策略是纳什均衡——任何对手都无法通过单方面改变策略来占你便宜,这是博弈论中的「终极境界」。

几十年来,研究者们为了让算法更快地逼近纳什均衡,一直在手动迭代设计。这个过程是这样的:

某位顶级研究者凭数学直觉观察到一种规律 → 将其形式化为一个新的折现方案/权重函数/遗憾处理规则 → 在数学上证明收敛性 → 在几个标准博弈上做实验 → 发表论文

每一步都需要人类直觉

问题是,这些算法的设计空间是组合爆炸级别的——你怎么折现历史遗憾?

正遗憾和负遗憾要不要区别对待?策略平均什么时候开始?用什么权重?这些选择的排列组合,远超任何研究者能逐一验证的范围。

论文的核心洞察在于:算法设计本质上是一个搜索问题。


人类研究者受限于数学可推导性,大多只能在「优雅但有限」的设计空间里搜索——比如线性平均、固定折现、对称处理。但如果把搜索空间扩展到任意可执行代码呢?

AlphaEvolve做的正是这件事。

它不是在调超参数,而是在进化符号代码(symbolic code)。

LLM理解代码的语义,能做出「有意义的变异」——不是随机翻转一个比特,而是「把这个线性调度改成指数调度」「给正遗憾加一个增强系数」「在前500次迭代跳过策略累积」。

这让搜索空间从人类直觉所及的几百种可能,暴涨到LLM能触及的几乎无限种合理变体。

传统方法:人类设计算法,机器执行算法。

AlphaEvolve:机器设计算法,机器执行算法,人类在旁边看着惊掉下巴。


一句话说清楚这篇论文到底干了啥

这篇论文的故事其实特别简单:

想象你是一个扑克高手教练。你手下有一套打牌的策略手册,几十年来,全靠你和其他聪明人一条条手写规则、反复试错,才慢慢改进到今天的水平。

现在,DeepMind做了一件事——他们把这本策略手册的每一页、每一条规则,都变成了一段可以被改写的代码

然后他们放出了一个AI(AlphaEvolve),让它像大自然培育物种一样,不停地改写这些规则、测试效果、淘汰差的、留下好的。

跑了无数代之后,这个AI进化出了两套全新的策略手册。

第一套叫VAD-CFR,它学会了三件人类教练从来没想过的事:局势混乱时果断忘掉旧经验,发现好招时立刻加倍下注,前500轮纯学习不做总结。听起来很奇怪对吧?但它就是比所有人类设计的方法都好用。


第二套叫SHOR-PSRO,它学会了前期大胆试探,后期精准收网——而且训练和考试用不同的策略,训练时求稳,考试时求准。


最关键的一点是:这些新规则不是AI从某本教科书里抄来的,而是它自己「进化」出来的。

人类博弈论专家看到这些规则后的第一反应是——「这也行?」

但数据不会骗人。在几乎所有测试的博弈场景中,AI进化出来的算法都打败了人类花了几十年心血设计的最好方案。

所以这篇论文真正在说的是:AI已经不只是在执行人类写的算法了,它开始自己发明算法——而且发明得比人类还好。

这意味着什么?

让我们退一步,看看这件事的全貌。

过去,博弈论算法的进步长这样:

某个顶级研究者花几个月甚至几年时间,凭直觉和数学推导,提出一个新的折现方案或权重函数 → 在几个博弈上验证 → 发论文 → 社区惊呼「天才」

现在呢?

AlphaEvolve启动 → Gemini对代码进行变异 → 自动评估适应度 → 进化选择 → 输出一个人类研究者根本不会想到的算法 → 在11个博弈中碾压所有前辈

这不只是效率的提升。

这是范式的转换。


论文的结论部分这样说:

「我们的结果表明,自动发现的算法不对称性——特别是那些管理遗憾缩放和动态混合调度的机制——能够产生对人类直觉而言难以捉摸、但在实践中极其有效的求解器。」

翻译成人话就是:AI发现了人类想不到的数学。

而且这些「想不到的数学」不是什么花哨的噱头,而是实打实地在性能上统治了整个基线方阵。

DeepMind在论文最后也给了未来方向的暗示——

他们计划将这个进化框架应用到深度强化学习智能体的完整设计中去,以及探索合作博弈中的机制发现。

想象一下:不只是博弈论算法,而是让AI进化出整个学习范式。

代码的「自然选择」,这才刚刚开始。

参考资料:

https://x.com/rryssf_/status/2027062703144284521

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,证监会发布:再融资新规来了!利好哪些板块?下周行情预测

刚刚,证监会发布:再融资新规来了!利好哪些板块?下周行情预测

虎哥闲聊
2026-07-04 08:28:35
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-07-03 18:18:55
山海经里面唯一不敢记载的妖怪,曾预言人类修炼飞升的唯一途径

山海经里面唯一不敢记载的妖怪,曾预言人类修炼飞升的唯一途径

掠影后有感
2026-07-03 10:13:52
格林:人们并不了解詹姆斯的影响力,湖人下赛季会感受到这一点

格林:人们并不了解詹姆斯的影响力,湖人下赛季会感受到这一点

懂球帝
2026-07-04 08:22:16
欧洲发出哀叹:中国的发展,让发达国家变得“猪狗不如”

欧洲发出哀叹:中国的发展,让发达国家变得“猪狗不如”

流史岁月
2026-07-02 15:10:04
阿根廷淘汰佛得角!赛后收4好2坏消息!沃齐尼亚间接的帮助了梅西

阿根廷淘汰佛得角!赛后收4好2坏消息!沃齐尼亚间接的帮助了梅西

小彭美识
2026-07-04 09:34:11
九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

苏大强专栏
2025-05-08 15:16:18
比新生儿数量跌破800万更可怕的,是生出来的男孩越来越多了!

比新生儿数量跌破800万更可怕的,是生出来的男孩越来越多了!

夏至陌离殇
2026-06-17 01:57:20
梅西单刀被扑出!40岁佛得角门将2次阻挡梅西必进球 球王抱头无奈

梅西单刀被扑出!40岁佛得角门将2次阻挡梅西必进球 球王抱头无奈

风过乡
2026-07-04 07:44:13
终于是清楚了,为何各地被要求“老破小”加装电梯,目的十分明确

终于是清楚了,为何各地被要求“老破小”加装电梯,目的十分明确

混沌录
2026-07-02 19:52:10
俄总统新闻秘书:普京宣布俄军“完全解放”卢甘斯克

俄总统新闻秘书:普京宣布俄军“完全解放”卢甘斯克

环球网资讯
2026-07-04 06:15:06
马斯克被曝卷入多人关系,太炸裂了

马斯克被曝卷入多人关系,太炸裂了

新浪财经
2026-07-03 19:26:35
女子6.8万装爬楼机供全楼免费使用,邻居全抵制:楼道只剩67厘米

女子6.8万装爬楼机供全楼免费使用,邻居全抵制:楼道只剩67厘米

听心堂
2026-07-03 18:19:38
前无古人!39岁梅西封神,20球+9助攻历史第1,解锁N项世界杯纪录

前无古人!39岁梅西封神,20球+9助攻历史第1,解锁N项世界杯纪录

萌兰聊个球
2026-07-04 08:49:28
你被骗了几十年!地球不是飘在太空,它已经往下掉了46亿年

你被骗了几十年!地球不是飘在太空,它已经往下掉了46亿年

观察宇宙
2026-07-03 17:52:58
山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

大风新闻
2026-07-03 20:49:04
收割腾讯10年!房东一次贪心,亏掉几百亿家底

收割腾讯10年!房东一次贪心,亏掉几百亿家底

流苏晚晴
2026-07-02 20:05:44
梅西人太好了!进16强后先安慰对手,1场造3球+推射破门创6纪录

梅西人太好了!进16强后先安慰对手,1场造3球+推射破门创6纪录

体育知多少
2026-07-04 09:17:55
独家:阿里全面禁用Claude

独家:阿里全面禁用Claude

智东西
2026-07-03 13:40:26
别被降价蒙蔽双眼!理想、蔚来、小鹏集体换二线电池,真相扎心了

别被降价蒙蔽双眼!理想、蔚来、小鹏集体换二线电池,真相扎心了

趣味萌宠的日常
2026-07-02 14:21:33
2026-07-04 11:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15601文章数 66945关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

佛得角主教练回应被绝杀 坦言“完全可以站着离开”

头条要闻

佛得角主教练回应被绝杀 坦言“完全可以站着离开”

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
时尚
教育
旅游
游戏

数码要闻

华硕ROG预热新款游戏手柄控制器,号称“性能颜值双升级”

裙子+玛丽珍鞋、背心+阔腿裤,今年夏天最流行搭配,谁穿谁好看!

教育要闻

2026年内蒙古高考录取本专科录取重要时间表!每年都有人错过了!

旅游要闻

佛得角:足球之外,大海之中

索尼超前设计曝光:曾秘密打造手柄 竟能直接玩游戏

无障碍浏览 进入关怀版