网易首页 > 网易号 > 正文 申请入驻

AI开始重写自己的算法:谷歌DeepMind让大模型击败了博弈论专家

0
分享至



长期以来,设计一个优秀的多智能体强化学习算法,是一件高度依赖人类直觉和反复试错的工作。

研究人员需要凭借多年积累的专业经验,手动调整权重方案、折扣规则和均衡求解器,才能让算法在扑克这类信息不完全博弈中逼近纳什均衡。这个过程费时费力,而且很大程度上依赖于"感觉对不对"。谷歌DeepMind在2026年初发布的一项研究,正在把这套依赖人类经验的流程交给AI来完成,结果令人意外:AI自己设计出来的算法,在大多数测试场景下表现优于人类专家团队精心手工调优的最先进基线。

这个系统叫做AlphaEvolve,它的核心思路并不复杂,却相当大胆:用大型语言模型(LLM)作为"变异算子",直接演化算法的Python源代码,而不只是调整数值参数。

AI不是在调参,而是在重写逻辑

理解AlphaEvolve的意义,需要先理解它和传统自动化机器学习的本质区别。

过去的超参数搜索方法,无论多么复杂,本质上都是在人类预先定义的设计空间里找最优点,算法的整体结构和逻辑框架还是人写的。AlphaEvolve走的是完全不同的路:系统从标准实现出发,每一代都让Gemini 2.5 Pro读取当前算法的源代码,理解其逻辑,然后提出修改方案,生成新的候选算法,再用代理博弈环境评估性能,把表现好的版本留下来继续演化。

这个过程像生物进化,但演化的对象是代码本身的逻辑结构。

DeepMind研究团队把这套框架应用于两个成熟的博弈论算法范式,分别是反事实后悔最小化(CFR)和策略空间响应预言机(PSRO)。前者是目前求解不完全信息博弈纳什均衡的主流方法,后者则在更高抽象层次上管理多个策略的博弈演化。这两个领域都有大量人类研究者多年积累的手工设计成果,是检验AI发现能力的理想试验场。

研究团队给AlphaEvolve设定了明确的测试规则:在一组固定的训练博弈上进行演化,包括三人库恩扑克、两人勒杜克扑克等,然后在规模更大、此前从未出现过的独立测试集上评估泛化能力,训练和测试之间不做任何额外调整。

结果相当有说服力。

在CFR方向,系统发现了一种被命名为VAD-CFR的新变体,全称"波动率自适应折扣CFR"。与现有CFR变体对累积后悔值使用固定折扣因子不同,VAD-CFR引入了一套动态机制:它通过指数加权移动平均实时追踪学习过程中瞬时后悔值的波动幅度,当波动剧烈时加大折扣力度以快速遗忘不稳定的历史数据,当波动平稳时则保留更多历史信息。

更出人意料的是,VAD-CFR将策略平均的启动时间完全推迟到第500次迭代。这个阈值是LLM自己发现的,而它在发现这个数字时,并不知道整个评估周期是1000次迭代。事后来看,这个"硬延迟启动"具有相当清晰的逻辑:前500次迭代让后悔值累积充分,后500次才开始平均策略,从而避免了早期不稳定数据对最终均衡结果的污染。这是一个人类研究者通常不会主动尝试的设计选择。

VAD-CFR与7种现有手工设计的顶级算法进行了基准测试,在11个测试博弈中的10个里达到或超过了最佳性能。

在PSRO方向,系统发现的SHOR-PSRO同样展现出非直觉性的设计。这个元策略求解器在训练过程中混合了两个组件,一个是基于后悔最小化的稳定性来源,另一个是偏向高收益策略的玻尔兹曼分布,两者之间的混合比例会随训练进程自动退火,从早期的多样性探索逐渐转向后期的均衡精细化。更值得注意的是,训练阶段和评估阶段使用了参数完全不同的求解器配置,这种"训练评估不对称"并非研究人员预先设计的,而是搜索过程自己演化出来的结果。SHOR-PSRO在11个测试博弈中的8个里超过了现有最佳基线。

这意味着算法设计的"专家直觉"正在被自动化

AlphaEvolve的发布,让一个在AI圈子里已经讨论多年的问题变得更加具体:自动化科学发现的边界,究竟在哪里?

此前,谷歌DeepMind的AlphaFold解决了蛋白质结构预测问题,AlphaCode在编程竞赛中达到了具有竞争力的水平。AlphaEvolve的目标则更进一步,它针对的不是一个固定问题的最优解,而是"如何设计解决这类问题的算法"这个元问题本身。

这种区别在实践中意义重大。VAD-CFR和SHOR-PSRO中出现的几个核心机制,包括波动率感知的动态折扣、不对称的瞬时提升因子、500次迭代的硬延迟启动,以及训练与评估阶段分离的求解器配置,都是人类研究者根据现有直觉不太可能主动探索的设计方向。换句话说,AI在这里做的不只是更快地穷举人类已知的设计空间,而是找到了人类视野之外的区域。

当然,这项研究也有明确的边界。AlphaEvolve目前的工作场景是结构相对清晰、评估信号明确的算法演化任务,演化发生在预先定义好的Python类接口之内,并不是完全自由的代码生成。此外,所有实验均在OpenSpiel标准框架下运行,使用精确的最佳响应预言机以消除采样噪声,这些实验设计的严格性保证了结论的可信度,但也意味着结论的适用范围是特定的。

更广泛的问题是,当AI开始自主设计算法并产出人类难以直接解读的逻辑结构时,如何理解和验证这些"黑箱设计"背后的机制,将成为下一个需要认真面对的挑战。

但至少就目前而言,AlphaEvolve提供了一个相当清晰的信号:在某些高度专业化的算法设计领域,AI已经不只是工具,而是开始扮演研究者的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦:hold不住别嫁他!有颜有才犯桃花,国乒难有第二个王楚钦

王楚钦:hold不住别嫁他!有颜有才犯桃花,国乒难有第二个王楚钦

陈意小可爱
2026-04-06 14:39:57
爆雷了!知名电商平台总部人去楼空,大量供应商被欠款

爆雷了!知名电商平台总部人去楼空,大量供应商被欠款

凤凰网财经
2026-04-04 20:41:42
台退将:大陆已经在做解放台湾的思想动员,最后时刻即将到来

台退将:大陆已经在做解放台湾的思想动员,最后时刻即将到来

独舞独舞
2026-04-06 11:40:21
罗晋一家三口现身新加坡度假,唐嫣穿着时尚,此前曾多次被传婚变

罗晋一家三口现身新加坡度假,唐嫣穿着时尚,此前曾多次被传婚变

扒虾侃娱
2026-04-05 20:13:48
高铁司机月入2万+、每天只开4小时,为什么还是留不住人?

高铁司机月入2万+、每天只开4小时,为什么还是留不住人?

世界圈
2026-03-19 13:05:03
2009年以17万做局,骗走乾隆真迹转卖8700万的专家,结局大快人心

2009年以17万做局,骗走乾隆真迹转卖8700万的专家,结局大快人心

谈史论天地
2026-04-03 14:20:03
三月必吃这4种“强肝菜”!助眠、清火、增免疫,正当季别错过

三月必吃这4种“强肝菜”!助眠、清火、增免疫,正当季别错过

距离距离
2026-03-30 05:32:30
毛主席的第一爱将,比许世友还受宠,任何风浪都动摇不了他的地位

毛主席的第一爱将,比许世友还受宠,任何风浪都动摇不了他的地位

莹莹的历史说
2026-04-05 11:47:22
《清明上班图》阴间设计刷屏!网友:太恐怖

《清明上班图》阴间设计刷屏!网友:太恐怖

广告创意
2026-04-05 09:16:46
东契奇拼了!为打季后赛将赴欧洲治疗,最快2周复出,副作用很大

东契奇拼了!为打季后赛将赴欧洲治疗,最快2周复出,副作用很大

你的篮球频道
2026-04-06 11:31:50
祖坟到底管几代?谁的坟影响最大?牢记原则祭祖不拜错

祖坟到底管几代?谁的坟影响最大?牢记原则祭祖不拜错

复转这些年
2026-04-02 12:12:54
美伊截止日临近!日韩股市大涨,比特币升破6.9万,黄金平淡!

美伊截止日临近!日韩股市大涨,比特币升破6.9万,黄金平淡!

闻号说经济
2026-04-06 14:30:47
50岁金熙英与崔泰源出席艺术晚宴,珠光宝气!与65岁卢素英大不同

50岁金熙英与崔泰源出席艺术晚宴,珠光宝气!与65岁卢素英大不同

明星私服穿搭daily
2026-04-06 09:35:10
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
240垂发+400公里雷达!密集出动,中国3舰编队远洋体系成型

240垂发+400公里雷达!密集出动,中国3舰编队远洋体系成型

策略述
2026-04-06 15:00:12
28岁川大博士遗体找到了!父母搬砖供他,姐姐哭到崩溃还遭网暴

28岁川大博士遗体找到了!父母搬砖供他,姐姐哭到崩溃还遭网暴

舍长阿爷谈事
2026-04-01 13:14:28
孙悟空明明长有臊根,为什么绝对美女不感兴趣?

孙悟空明明长有臊根,为什么绝对美女不感兴趣?

杨角风发作
2026-04-06 07:06:42
他俩才是最牛岳父母,3个女儿全嫁百亿富豪,一个比一个漂亮厉害

他俩才是最牛岳父母,3个女儿全嫁百亿富豪,一个比一个漂亮厉害

做一个合格的吃瓜群众
2026-03-27 14:43:45
光刻机离了它就是废铁,佛山这工厂突破封锁,让ASML主动认证

光刻机离了它就是废铁,佛山这工厂突破封锁,让ASML主动认证

余們搞笑段子
2026-04-06 00:55:26
胸有大志,库里复出差点绝杀!

胸有大志,库里复出差点绝杀!

风子说个球
2026-04-06 14:52:07
2026-04-06 15:39:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
536文章数 8099关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

伊朗战争每天耗资20亿美元 美2027财年国防预算创新高

头条要闻

伊朗战争每天耗资20亿美元 美2027财年国防预算创新高

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

美国私募信贷风险:小型次贷危机?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

时尚
家居
本地
艺术
公开课

AI时代,辨别真相的成本变高了

家居要闻

温馨多元 爱的具象化

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

贵人鸟总部地块荒了多年,盛荣砸3.2亿,盖成一栋滨江地标!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版