网易首页 > 网易号 > 正文 申请入驻

博弈论新研究:通用算法胜过专用博弈算法

0
分享至


在博弈论领域,无论是扑克牌对局还是房屋竞价,参与者往往都处于信息不完全的状态。你清楚自己手中的牌,或者自己能承受的最高出价,但对手的底牌或报价上限对你来说始终是个谜。

近日,一篇由麻省理工学院(MIT)研究人员联合撰写的论文在今年4月于里约热内卢举办的国际学习表征会议(ICLR)上发表。该研究针对两名参与者之间的"零和"博弈(即一方所得必为另一方所失)这一经典场景,就信息不完全博弈提供了全新的研究视角。

参与该项目的MIT研究人员包括:麻省理工学院电气工程与计算机科学系(EECS)及信息与决策系统实验室(LIDS)的博士生Sobhan Mohammadpour,以及EECS助理教授、LIDS主要研究员Gabriele Farina。其他合作作者来自德克萨斯大学奥斯汀分校、加州大学伯克利分校、卡内基梅隆大学和纽约大学等多所高校。

该研究的核心议题是:哪类算法更适合训练神经网络参与信息不完全博弈?长期以来,学界普遍认为,基于博弈论原理的专用算法在这一场景下必然优于通用的策略梯度方法。策略梯度方法是一类兴起于20世纪90年代的通用决策算法,其中"策略"即指行动方案,"梯度"则指向变化最大的方向,类似于沿山坡寻找最高点的路径。该类方法通过持续迭代与修正,引导智能体逐步趋近目标。

然而,在多智能体场景下,策略梯度方法的分析难度大幅提升。Farina解释道:"虽然仍然存在可以改善自身处境的方向,但由于对手的行动,这个方向会随着博弈进程不断变化,有时甚至变化极为迅速。"

论文合著者Sokota指出:"此前,学界几乎将专用博弈论算法视为此类场景的不二之选。但我们的研究表明,策略梯度方法的表现可以优于这些专用算法,而专用算法的效果或许并没有人们想象中那么好——这引发了一个有趣的问题:为何这一现象长期未被发现?部分原因在于,该领域此前缺乏对算法进行严格评估的工程实践,导致难以判断究竟哪种方法更有效。"

因此,这项研究的一大核心贡献在于:提供了一套公平客观的评估框架,用于衡量各类能够训练神经网络参与信息不完全博弈的算法。Rudolph说:"我们采取了一种不同的思路。与该领域许多论文不同,我们并非提出一种可以击败其他算法的新算法,而是构建一个能够评估这些算法的基准测试体系。"

简而言之,基准测试是一套用于评估算法性能的软件体系。Farina表示:"我们提供的是一个测试平台,研究人员可以将自己的算法放入其中,针对特定任务进行训练,并观察其表现。"

研究团队采用"可利用度"这一概念来衡量参与者的表现——即在面对"最坏情况下的对手"时,一方能取得怎样的结果。Sokota解释说:"以扑克为例,这个对手不会知道我手中的牌,但会知道在任意一手牌的情况下我将如何行动。"可利用度得分为零代表完美博弈,得分越高则表明策略越次优。

研究团队共进行了五款游戏的实验:两个版本的"暗棋井字棋"(玩家无法观察对手的落子情况)、棋盘游戏Hex的两种信息不完全变体,以及一款名为"骰子谎言"的欺骗性博弈游戏。

研究面临的最大挑战在于:如何将可利用度指标应用于规模如此庞大的博弈场景——某些游戏的状态空间多达300亿个。Mohammadpour解释说:"所谓'状态',不仅包含所有可能的棋盘布局,还涵盖整场游戏的完整历史,包括每一步的决策与失误。"他补充道,此前研究人员通常只将可利用度指标用于规模缩小约10万倍的游戏。

实验结果表明,在这五款游戏中,使用策略梯度算法训练的神经网络获得了更优(更低)的可利用度评分;在随后进行的直接对抗赛中,策略梯度训练的网络再次击败了基于博弈论算法训练的对手。Rudolph表示:"这些结果令人振奋,因为它们进一步验证了我们基准测试方法的可靠性。"

研究团队已将基准测试软件免费开放,并致力于降低其使用门槛。Mohammadpour说:"不需要超级计算机,普通笔记本电脑就能运行。只需在常用的基准测试软件库OpenSpiel中添加一行代码即可。"

Farina希望将这项研究置于更宏观的视野下加以理解:"'博弈'这个概念实际上适用于任何多智能体战略互动的场景,因此本研究所得出的结论绝不局限于休闲游戏领域。"

Vinitsky对此表示赞同:"隐藏信息是现实世界的重要属性,它广泛存在于军事行动、交易场景和谈判过程等诸多领域,而这些场景都是在信息不完全的条件下进行的。如果我们能在博弈中取得更好的表现,那么在上述其他场景中同样有望获得改善。"

未参与本研究的谷歌DeepMind计算机科学家及博弈论专家Ian Gemp对上述研究成果表示认可:"这项工作有力地提醒我们,对策略梯度方法等经典工具进行现代化改造,仍是解决复杂战略问题的高效路径。"

Q&A

Q1:策略梯度方法是什么,它在博弈论中起什么作用?

A:策略梯度方法是一类兴起于20世纪90年代的通用决策算法,通过持续迭代与修正,引导智能体逐步趋近目标。在博弈论中,它被用于训练神经网络参与信息不完全博弈。MIT的最新研究表明,这类通用算法的表现甚至可以超越专为博弈设计的专用算法,打破了此前学界的普遍认知。

Q2:可利用度指标是如何衡量博弈中玩家表现的?

A:可利用度衡量的是玩家面对"最坏情况下的对手"时的表现。以扑克为例,这个对手不知道你手中的牌,但了解你在任意一手牌下的行为模式。可利用度得分为零代表完美博弈,分数越高则说明策略越次优。MIT研究团队将这一指标成功应用于状态空间多达300亿个的大规模博弈场景,远超以往研究的规模。

Q3:MIT发布的这套博弈算法基准测试工具有什么特点?

A:这套基准测试工具已免费开放,使用门槛极低,普通笔记本电脑即可运行,无需超级计算机。研究人员只需在常用的基准测试软件库OpenSpiel中添加一行代码即可使用。该工具提供了一个公平的评估平台,可对训练神经网络参与信息不完全博弈的各类算法进行客观比较。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

素衣读史
2026-05-26 21:52:56
这才是大赢家!贝克汉姆美国世界杯期间狂接广告,已赚1.76亿。

这才是大赢家!贝克汉姆美国世界杯期间狂接广告,已赚1.76亿。

喜欢历史的阿繁
2026-06-22 01:10:16
别盲目躺平!逾期几年没事都是假话,这两类债务碰不得

别盲目躺平!逾期几年没事都是假话,这两类债务碰不得

负债老莫
2026-05-07 17:34:07
逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

北美省钱快报
2026-06-02 04:45:28
有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

健康科普365
2026-05-30 16:30:29
乱套了!美联储二把手违规赴宴,密会美银高层,加息底牌被看穿?

乱套了!美联储二把手违规赴宴,密会美银高层,加息底牌被看穿?

至死不渝的爱情
2026-06-21 14:06:47
娜然坐霍家主桌照片曝光!已被认可、黑料被扒,郭晶晶评论区沦陷

娜然坐霍家主桌照片曝光!已被认可、黑料被扒,郭晶晶评论区沦陷

素衣读史
2026-06-21 21:49:56
59年军委开会没人通知粟裕,毛主席很不高兴:你们有人家的本事?

59年军委开会没人通知粟裕,毛主席很不高兴:你们有人家的本事?

新时代的两性情感
2026-06-21 08:46:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

今天的快乐
2026-06-21 22:14:43
德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

我爱英超
2026-06-21 07:47:47
跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

热心市民小黄
2026-06-03 13:30:41
心理学揭示:恶人敢反复拿你开刀、把你吃定,从来不是你太老实,也不是你没手段,而是你身上有这两种“被猎特质”

心理学揭示:恶人敢反复拿你开刀、把你吃定,从来不是你太老实,也不是你没手段,而是你身上有这两种“被猎特质”

心理观察局
2026-06-18 07:00:08
一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

吴猖旅行ing
2026-06-22 00:49:35
他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

兵卒史
2026-06-10 04:40:13
人到中年才发现一个饭局定律:酒桌上,那个不喝酒、不说话、只埋头吃菜的人,往往是这两种

人到中年才发现一个饭局定律:酒桌上,那个不喝酒、不说话、只埋头吃菜的人,往往是这两种

心理观察局
2026-04-29 15:46:18
吵成一锅粥!欧盟最后时刻放弃对华贸易战,10国主战,马克龙带头

吵成一锅粥!欧盟最后时刻放弃对华贸易战,10国主战,马克龙带头

面包夹知识
2026-06-21 18:22:26
四名出国打球的女排姑娘已经齐刷刷归队了!

四名出国打球的女排姑娘已经齐刷刷归队了!

眼界纵横
2026-04-23 12:10:28
泽连斯基这回是真把天捅破了

泽连斯基这回是真把天捅破了

回京历史梦
2026-06-21 18:40:15
1400万成本,零明星零宣发,票房剑指1.5亿,这才是年度大黑马

1400万成本,零明星零宣发,票房剑指1.5亿,这才是年度大黑马

探长读财
2026-06-21 23:24:46
2026-06-22 03:00:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19463文章数 49713关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

艺术
游戏
本地
房产
公开课

艺术要闻

310米!欧盟第一高楼,坐落于波兰

《STRANGER THAN HEAVEN》游先看试玩报告:散装拳脚,也可以很爽"/> 主站 商城 论坛 自运营 登录 注册 《STRANGER THA...

本地新闻

龙腾资江 韵动邵阳

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版