网易首页 > 网易号 > 正文 申请入驻

AlphaEvolve再进化!DeepMind用AI「养殖」算法,碾压所有人类设计

0
分享至


新智元报道

编辑:定慧

【新智元导读】DeepMind最新论文:用AlphaEvolve把算法源代码当基因组,让Gemini充当遗传算子,对博弈论算法进行「自然选择」。进化出的全新算法,采用了人类研究者从未想过的反直觉机制,在几乎所有测试博弈中碾压人类花了几十年设计的最优方案。AI不再只是执行算法——它开始自己发明算法了。

谷歌DeepMind刚刚放了一个大卫星。

他们用AlphaEvolve硬生生「繁殖」出了一批全新的博弈论算法。

这些算法不仅在性能上全面碾压人类花了几十年精心设计的经典方案,更令人头皮发麻的是:

它们使用的底层机制,反直觉到没有任何一个人类研究者会想到去尝试。


论文地址:https://arxiv.org/pdf/2602.16928

代码即基因组。LLM即造物主。

这一次,AI不是在帮人类写代码——它在自己发明数学。


这不是「让ChatGPT写个算法

首先,框架设定至关重要。

你可能以为这就是对着大模型说「帮我优化一下这个函数」,然后它吐出一段差不多的代码。

不是的。


把Gemini当基因工程师使的进化式编码智能体

这是AlphaEvolve,谷歌DeepMind构建的进化式编码智能体。

它的工作方式,更接近于达尔文而不是程序员。

它把算法的源代码当作基因组(genome)。

LLM充当遗传算子(genetic operator),对代码进行变异——重写逻辑、注入新的控制流、对符号操作进行变异。

然后,它在一组博弈论基准游戏上评估每个「后代算法」的适应度——谁的可利用度(exploitability)降得最低,谁就活下来。

活下来的算法进入下一代,继续被变异、评估、筛选。

这不是提示工程。这是代码的自然选择。

目标:博弈论的两大基石算法家族

AlphaEvolve瞄准的目标,是多智能体强化学习(MARL)中两个最核心的算法家族:

反事实遗憾最小化(Counterfactual Regret Minimization, CFR)策略空间响应预言(Policy Space Response Oracles, PSRO)


如果你玩过德扑AI、或者听说过Libratus和Pluribus那些碾压人类扑克高手的AI——没错,它们的核心就是这两样东西。

它们的任务是在不完全信息博弈中找到纳什均衡——也就是让每个玩家都无法通过单方面改变策略来获得更好结果的那个「完美平衡点」。


过去几十年,研究者们一直在手动调参、凭直觉设计这些算法的变体:CFR+、DCFR、PCFR+、LCFR……每一个变体都是某个聪明绝顶的博弈论研究者灵光一闪的产物。

但AlphaEvolve说:让我来。


为什么博弈论算法的设计这么难?

要理解这篇论文的分量,先得明白一个背景:不完全信息博弈是AI领域最硬的骨头之一。

什么叫不完全信息博弈?简单说——你不知道对手手里有什么牌。

德州扑克、骗子骰、甚至国际谈判,本质上都是这类问题。在这些场景中,你看到的只是「信息集」(information set)——一组你无法区分的博弈状态。你的策略必须对同一信息集下的所有可能情况都做出合理回应。

衡量一个算法好不好,博弈论有个硬核指标叫可利用度(Exploitability)。

直觉上说,它度量的是:如果对手知道你的策略并针对性地反击,你会亏多少。可利用度为零,意味着你的策略是纳什均衡——任何对手都无法通过单方面改变策略来占你便宜,这是博弈论中的「终极境界」。

几十年来,研究者们为了让算法更快地逼近纳什均衡,一直在手动迭代设计。这个过程是这样的:

某位顶级研究者凭数学直觉观察到一种规律 → 将其形式化为一个新的折现方案/权重函数/遗憾处理规则 → 在数学上证明收敛性 → 在几个标准博弈上做实验 → 发表论文

每一步都需要人类直觉

问题是,这些算法的设计空间是组合爆炸级别的——你怎么折现历史遗憾?

正遗憾和负遗憾要不要区别对待?策略平均什么时候开始?用什么权重?这些选择的排列组合,远超任何研究者能逐一验证的范围。

论文的核心洞察在于:算法设计本质上是一个搜索问题。


人类研究者受限于数学可推导性,大多只能在「优雅但有限」的设计空间里搜索——比如线性平均、固定折现、对称处理。但如果把搜索空间扩展到任意可执行代码呢?

AlphaEvolve做的正是这件事。

它不是在调超参数,而是在进化符号代码(symbolic code)。

LLM理解代码的语义,能做出「有意义的变异」——不是随机翻转一个比特,而是「把这个线性调度改成指数调度」「给正遗憾加一个增强系数」「在前500次迭代跳过策略累积」。

这让搜索空间从人类直觉所及的几百种可能,暴涨到LLM能触及的几乎无限种合理变体。

传统方法:人类设计算法,机器执行算法。

AlphaEvolve:机器设计算法,机器执行算法,人类在旁边看着惊掉下巴。


一句话说清楚这篇论文到底干了啥

这篇论文的故事其实特别简单:

想象你是一个扑克高手教练。你手下有一套打牌的策略手册,几十年来,全靠你和其他聪明人一条条手写规则、反复试错,才慢慢改进到今天的水平。

现在,DeepMind做了一件事——他们把这本策略手册的每一页、每一条规则,都变成了一段可以被改写的代码

然后他们放出了一个AI(AlphaEvolve),让它像大自然培育物种一样,不停地改写这些规则、测试效果、淘汰差的、留下好的。

跑了无数代之后,这个AI进化出了两套全新的策略手册。

第一套叫VAD-CFR,它学会了三件人类教练从来没想过的事:局势混乱时果断忘掉旧经验,发现好招时立刻加倍下注,前500轮纯学习不做总结。听起来很奇怪对吧?但它就是比所有人类设计的方法都好用。


第二套叫SHOR-PSRO,它学会了前期大胆试探,后期精准收网——而且训练和考试用不同的策略,训练时求稳,考试时求准。


最关键的一点是:这些新规则不是AI从某本教科书里抄来的,而是它自己「进化」出来的。

人类博弈论专家看到这些规则后的第一反应是——「这也行?」

但数据不会骗人。在几乎所有测试的博弈场景中,AI进化出来的算法都打败了人类花了几十年心血设计的最好方案。

所以这篇论文真正在说的是:AI已经不只是在执行人类写的算法了,它开始自己发明算法——而且发明得比人类还好。

这意味着什么?

让我们退一步,看看这件事的全貌。

过去,博弈论算法的进步长这样:

某个顶级研究者花几个月甚至几年时间,凭直觉和数学推导,提出一个新的折现方案或权重函数 → 在几个博弈上验证 → 发论文 → 社区惊呼「天才」

现在呢?

AlphaEvolve启动 → Gemini对代码进行变异 → 自动评估适应度 → 进化选择 → 输出一个人类研究者根本不会想到的算法 → 在11个博弈中碾压所有前辈

这不只是效率的提升。

这是范式的转换。


论文的结论部分这样说:

「我们的结果表明,自动发现的算法不对称性——特别是那些管理遗憾缩放和动态混合调度的机制——能够产生对人类直觉而言难以捉摸、但在实践中极其有效的求解器。」

翻译成人话就是:AI发现了人类想不到的数学。

而且这些「想不到的数学」不是什么花哨的噱头,而是实打实地在性能上统治了整个基线方阵。

DeepMind在论文最后也给了未来方向的暗示——

他们计划将这个进化框架应用到深度强化学习智能体的完整设计中去,以及探索合作博弈中的机制发现。

想象一下:不只是博弈论算法,而是让AI进化出整个学习范式。

代码的「自然选择」,这才刚刚开始。

参考资料:

https://x.com/rryssf_/status/2027062703144284521

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨瀚森正式回归首秀:仅9+7再被霍金森打爆 陷犯规麻烦存多项短板

杨瀚森正式回归首秀:仅9+7再被霍金森打爆 陷犯规麻烦存多项短板

醉卧浮生
2026-07-03 21:31:58
安妮斯顿57岁新欢曝光!这位男友凭什么拿下“美国甜心”?

安妮斯顿57岁新欢曝光!这位男友凭什么拿下“美国甜心”?

赴一场山海啊
2026-07-03 01:02:26
1990年,庄则栋带岳母登天安门时,向工作人员提出:我有一个请求

1990年,庄则栋带岳母登天安门时,向工作人员提出:我有一个请求

三毛是个体育评论者
2026-07-03 08:05:03
小县城生活的底色:打牌、喝酒、找女人!

小县城生活的底色:打牌、喝酒、找女人!

黯泉
2026-06-30 18:17:20
606万损失为何要赔1154.6万?律师:超出上限

606万损失为何要赔1154.6万?律师:超出上限

看看新闻Knews
2026-07-03 21:50:22
男性“最耗阳”行为,不是喝酒而是这些,排第一的,看看你在做吗

男性“最耗阳”行为,不是喝酒而是这些,排第一的,看看你在做吗

熊猫医学社
2026-06-30 11:30:03
善恶终有报!分手17年后,陈建斌主动向吴越示好,蒋勤勤成了笑话

善恶终有报!分手17年后,陈建斌主动向吴越示好,蒋勤勤成了笑话

手工制作阿歼
2026-07-03 18:29:47
“这以后谁还结婚?!”

“这以后谁还结婚?!”

阿振观点
2026-07-03 13:40:16
侄子在我家借住6年考上985,我卖房换新房,侄子怒气冲冲找我

侄子在我家借住6年考上985,我卖房换新房,侄子怒气冲冲找我

风起见你
2026-07-03 18:08:16
德转:青岛海牛边后卫张卫租借回归上海海港

德转:青岛海牛边后卫张卫租借回归上海海港

懂球帝
2026-07-03 18:39:21
董明珠再现惊人言论,冲上热搜第一!

董明珠再现惊人言论,冲上热搜第一!

大佬灼见
2026-07-03 14:13:41
WTT美国大满贯:伊藤美诚被淘汰!0:3无缘八强,张本美和晋级

WTT美国大满贯:伊藤美诚被淘汰!0:3无缘八强,张本美和晋级

国乒二三事
2026-07-03 11:02:33
现代美军到底有多强 看网友讲述 打破了我对第一军事强国的印象

现代美军到底有多强 看网友讲述 打破了我对第一军事强国的印象

侃神评故事
2026-07-03 09:35:08
网友笃定她家黑狗是金毛,大家都不信,直到她晒出这张照片……没毛病,是金毛!

网友笃定她家黑狗是金毛,大家都不信,直到她晒出这张照片……没毛病,是金毛!

爱宠物
2026-06-30 01:01:40
他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

历史人文2
2026-07-02 20:30:03
九十国代表送葬哈梅内伊,中俄高规格出席,最该来的人却没有露面

九十国代表送葬哈梅内伊,中俄高规格出席,最该来的人却没有露面

小陆搞笑日常
2026-07-04 01:16:34
蔡康永日本办画展,林志玲头发油腻、面黄肌瘦,小S周杰伦送花篮

蔡康永日本办画展,林志玲头发油腻、面黄肌瘦,小S周杰伦送花篮

眼底星碎
2026-07-04 01:39:32
7月3日乒乓球:蒯曼决胜局9-8领先,神操作致对手绝望

7月3日乒乓球:蒯曼决胜局9-8领先,神操作致对手绝望

小七七体育解说
2026-07-04 02:06:06
世一卫或将离队!阿森纳放弃 1.3 亿水货,6000 万抢英超铁闸

世一卫或将离队!阿森纳放弃 1.3 亿水货,6000 万抢英超铁闸

奶盖熊本熊
2026-07-04 05:07:12
心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理观察局
2026-07-02 06:37:12
2026-07-04 07:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15599文章数 66945关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
教育
艺术
健康
本地

亲子要闻

一妇婴领衔全国81家医院共筑“好孕联盟”,破解复发性流产跨区域转诊难题

教育要闻

高考地理选择题10大高频陷阱

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

听说少吃点能抗衰老?专家讲解!

本地新闻

国内足球之旅?这座小城给你高分答案

无障碍浏览 进入关怀版