网易首页 > 网易号 > 正文 申请入驻

ABM+机器学习:如何理解终局之战?

0
分享至

现实世界中的诸多场景,从古代的田忌赛马到现代的核威慑、越南战争及俄乌冲突,都可以认为是典型的博弈场景。在冯·诺伊曼和奥斯卡·摩根斯特恩的《博弈论与经济行为》奠定其理论研究基础之后,博弈论作为一个重要的分析工具,在众多学科和领域中都得到了广泛的应用。

不过,即便在“玩”博弈模型的专业人士看来,目前绝大部分的博弈论模型都只是具有启发作用的“玩具”。这其中核心的原因是博弈论通常研究的都是高度简化了的“常规博弈”问题,而真实世界里的博弈情形却是非常复杂的。

“常规博弈”场景所描绘的是相对简单、规则明确的场景,通常包含2到3个行为体,在享有“共同知识”(common knowledge)的情景下进行博弈。从各种棋类游戏(象棋、围棋),到“囚徒困境”等等,都是规则确定的常规博弈。对于这类博弈问题,我们通常的做法是去求它们数学上的均衡解,从而帮助我们理解这些问题。在均衡解下,每个行为体的行为都是最优策略,即任何一方都不可能通过单方面改变策略而获得更好的结果。

但是,一旦博弈场景变得非常复杂,特别是博弈规则不太明确时,“常规博弈”的求解就会十分复杂——没有均衡解或者有太多的均衡解,因而难以理解。

以田忌赛马的故事为例。如果田忌和齐威王各自有15匹马,可以任意组合,但不能重复使用。比赛分为五轮,而且每一轮之后双方都可以根据上一轮的结果来调整策略,则该博弈的复杂度将呈指数级增长。但这也仅仅是一个稍显复杂的博弈问题,而且是有双方均接受的明确规则作为“共同知识”的博弈问题。

何谓“非常规复杂战略博弈”?

现实国际政治中的博弈场景,远远比传统博弈复杂得多。绝大多数时候,这些博弈不仅涉及多个行为体、多种行为和行为规则,行为交互作用规则也呈多样话(比如,不一定是你来我往),甚至由于行为体需要考虑多个方面的得失,因此权衡得失也非常困难。

最为重要的是,这类博弈问题通常还缺乏“共同知识”。也就是说,博弈的规则是不确定的,至少是不完整的。我们知道,任何棋类都是规则非常明确而且双方必须遵守的。这些非常明确且双方必须遵守的规则就是这类博弈问题中的核心的“共同知识”,也是这类博弈得以进行的核心基础。

相比之下,国际关系博弈往往不那么明确,不论过去朝鲜战争的停战谈判、越南战争的日内瓦谈判,还是眼下俄乌战争可能的和谈,都是多方多轮的博弈。参与各方均有“阴谋”与“阳谋”,而且手段大概率是“灰色”的(例如尔虞我诈、盟友背后捅刀等等),甚至谈判参与方也会发生变化。各方都试图“出奇制胜”,甚至可以说毫无规则可言,导致博弈更具不确定性。

显然,国际政治的博弈场景和博弈论通常讨论的博弈情形和模型有着天壤之别。这样的博弈问题几乎不可能有一个完整的数学刻画,因而也不可能有数学均衡解。我们将这类博弈称为“非常规复杂战略博弈”。而战争是最为复杂的非常规博弈问题,《孙子兵法》所谓“兵者,诡道也”恰恰道出了非常规博弈的核心原则。

需要特别指出的是,非常规博弈与受同一行为体(或者指挥官)指挥的个体或者智能体(如无人机)之间的“协同”也是非常不同的。

总之,传统博弈论是无法有效解决“非常规复杂战略博弈”问题的。面对“非常规复杂战略博弈”问题,我们亟需超越传统博弈论的框架,探索新的理论工具与分析方法。

ABM+机器学习:非常规复杂博弈的解决方案

我们认为,要处理“非常规复杂战略博弈”问题,以基于行为体的建模(Agent-Based Modelling,ABM)系统为核心,再结合强化学习以及其他的机器学习技术,可能是一种可行的解决方案

ABM模型擅长模拟多个行为体之间复杂的互动导致的涌现性结果,而强化学习则为ABM中的行为体提供了更加有效的自我学习的基础,因而有助于我们更好地理解和预测博弈的可能结果。

事实上,ABM从一开始就受到了博弈论和演化思想的影响。冯·诺伊曼不仅是博弈论的奠基人之一,还发展了第一个ABM系统的雏形——“通用构造器”(Universal Constructor)或“元胞自动机”(Cellular Automata)。

世界上第一个社会科学领域的ABM系统,是1971年托马斯·谢林关于种族隔离的著名研究。而谢林本人因为对非合作博弈论的贡献,于2005年与罗伯特·奥曼一起获得诺贝尔经济学奖。基于一个简单的ABM模型,谢林发现,在一个有多个行为体(住户)的社区中,尽管各自的行为相对简单,且每个行为体都不是“种族主义者”,但种族隔离现象仍然会产生。这样的涌现性结果显然是常规博弈模型无法呈现的。

受此启发,我们认为可行的研究路径是:可以秉承某些常规博弈论的思想,为非常规复杂战略博弈进行建模,然后主要依赖ABM来探索其可能的结果,即通过多次(大于100次,甚至更多)模拟,基于不同的参数甚至方程系统,模拟不同行为、行为规则、互动规则的多种组合下的复杂博弈结果,来获得不同博弈结果及中间状态的概率分布,从而加深对博弈系统的理解。

与绝大多数其他社会科学方法或技术相比,ABM具有极高的灵活性。在构建ABM时,研究者一般会对行为体、行为、行为规则、互动规则、系统环境等先做设定,而且这些设定通常都不是固定数值,而是某个区间。在经过多轮模拟之后,我们可以通过更改这些设定来创建数量巨大的相邻模型,然后基于验证(validation)和校准(calibration),ABM可以靠修改方程和参数调参来迅速筛选出更符合实际世界的模型。

针对非常规复杂战略博弈的ABM建模思路大致如下:我们首先需要基于相应的历史或现实案例,从中抽象、提炼出行为体特征、环境特征和其他初始设定;其次结合专家知识,大致明确行为矩阵;然后是让系统在各种行为规则、互动规则的制约下不断运行,系统状态也会随之不断更新;通过多次模拟和不断验证和校准,最终获得可靠的不同博弈结果及中间状态的概率分布。有了这样的结果,我们便能倒推在特定博弈场景中,博弈各方的行为策略和特定的行为。

构建ABM基础系统之后,我们还可以纳入“部分可观测马尔可夫决策过程(POMDP)”来刻画行为体与环境(包括系统中其他所有的行为体)的交互关系,并用强化学习技术来评估行为体策略价值,拟合优化行为体决策偏好。

部分可观测马尔可夫决策过程是一类复杂的决策模型,往往用于在不确定性情境中生成决策。其主要组成要素包括:环境状态、行为体的行为空间、 状态转移概率、行为奖励、观测空间、奖励的衰减系数等。

强化学习是使行为体通过与环境的互动来学习最佳策略的方法。与其他机器学习技术不同,强化学习特别关注不确定和动态环境下的决策,所以特别适用于探索模拟博弈场景中的策略。其基本逻辑是:在每个时间点中,行为体接收到当前的状态St和奖励Rt;行为体从可做出的行为列表中,根据策略函数选择出行为At,接着发送给环境模型;然后环境模型根据接收的行为通过转移函数转移到下一状态St+1和奖励Rt+1,以此循环往复。

强化学习的目的是让行为体学习并找到最优或接近最优的行为策略方法,以此最大化奖励收益。强化学习的演化性和动态性使我们能够探索行为体在复杂博弈场景中的决策及策略偏好变化,并为ABM的验证与校准提供支持。这种结合将帮助我们更好地把握系统的不同状态及其概率分布。

值得一提的是,非常规复杂战略博弈几乎不可能存有大量数据,因此,高度依赖大规模数据的机器学习的做法并不适用。针对这类博弈问题,我们需要的不是“大数据”而是“全数据”计算的思路,即基于问题来思考数据和技术路径的思路。

总之,对于多个国家之间战略层面的多回合博弈,常规博弈论的数学求解方法已经显得力不从心。因此,针对这样的复杂场景,我们只能发展基于博弈论核心思想的大规模高性能ABM系统,来捕捉复杂博弈所导致的各种复杂状态及其概率分布,并进一步反推不同行为体的行为、行为规则等等,从而实现对非常规复杂战略博弈的更全面的理解与应对。

总结

国家在国际大环境下面对的博弈基本都是多方多轮的非常规复杂战略博弈问题。要更好地应对这些博弈问题,我们需要突破传统的博弈建模方法,特别是突破“共同知识”对传统博弈建模的禁锢,从而构建非常规复杂战略博弈的模型,并运用大规模高性能的ABM来推演这类非常规复杂战略博弈问题。这样才能够最终实现让博弈建模从理论模型(“玩具”)到真实场景应用的决定性转变。

唐世平,系复旦大学教授、复杂决策分析中心主任。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国不记隔夜仇!巴拿马接到通知,美国终于下场,巴政府自食恶果

中国不记隔夜仇!巴拿马接到通知,美国终于下场,巴政府自食恶果

书纪文谭
2026-04-06 23:14:24
伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

民间胡扯老哥
2026-04-05 07:45:23
网红“鸡排哥”综艺首秀被嘲!网友吵翻了

网红“鸡排哥”综艺首秀被嘲!网友吵翻了

广告创意
2026-04-06 11:54:31
刚收到中国10万桶燃料,越南转身就作出裁定,对华产品加税27.83%

刚收到中国10万桶燃料,越南转身就作出裁定,对华产品加税27.83%

涵豆说娱
2026-04-06 15:14:43
绝平3分超时0.1秒,新鹰王21+11+5憾负!4年6200万奇兵破队史纪录

绝平3分超时0.1秒,新鹰王21+11+5憾负!4年6200万奇兵破队史纪录

锅子篮球
2026-04-07 11:26:20
张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

百言君
2026-04-06 23:11:58
张萌|穿成这样去海边还让不让人玩了

张萌|穿成这样去海边还让不让人玩了

TVB的四小花
2026-04-07 08:08:58
它是“树上人参”,春天遇见使劲吃,错过要等1年,比荠菜营养

它是“树上人参”,春天遇见使劲吃,错过要等1年,比荠菜营养

阿龙美食记
2026-04-06 13:56:32
郎咸平曾神预言董宇辉!你最多只能卖货,不可能有长久的发展

郎咸平曾神预言董宇辉!你最多只能卖货,不可能有长久的发展

谈史论天地
2026-04-06 15:32:45
糖友注意,如果你的尿液变成这样,说明你的肾已经在求救!

糖友注意,如果你的尿液变成这样,说明你的肾已经在求救!

今日养生之道
2026-04-05 12:36:50
文班亚马肋部挫伤但还需再打一场 是什么让球星们受伤了还不敢歇?

文班亚马肋部挫伤但还需再打一场 是什么让球星们受伤了还不敢歇?

仰卧撑FTUer
2026-04-07 11:40:04
“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

环球网资讯
2026-04-07 06:56:19
郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

海峡导报社
2026-04-07 09:09:13
英媒:美军飞行员靠“嗑药”飞到伊朗

英媒:美军飞行员靠“嗑药”飞到伊朗

参考消息
2026-04-06 21:14:36
癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

健康之光
2026-02-11 14:15:20
郑丽文行程公布,第一站南京中山陵,时间紧凑,不给外人可乘之机

郑丽文行程公布,第一站南京中山陵,时间紧凑,不给外人可乘之机

人世间的事与人
2026-04-07 04:00:46
买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

临云史策
2026-04-06 12:05:24
广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

带你感受人间冷暖
2026-04-07 00:05:08
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

衣服固元膏
2026-04-04 15:53:17
李亚鹏含沙射影,官媒下场无缝衔接配合,陈光标遮羞布被撕得粉碎

李亚鹏含沙射影,官媒下场无缝衔接配合,陈光标遮羞布被撕得粉碎

潮鹿逐梦
2026-04-05 16:56:45
2026-04-07 11:52:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
887557文章数 5089580关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

亲子
游戏
旅游
教育
公开课

亲子要闻

为什么说养孩子等于“毁容”?看看前后对比照,宝妈们的辛酸泪

卡普空小萝莉来了!《识质存在》倒计时10天:月球等你

旅游要闻

宿迁海选项羽NPC徐州刘姓男子夺冠,果然是“一生之敌”?项王故里景区:真不是故意的

教育要闻

孩子躺平,就让他颓废封闭一年能变好吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版