网易首页 > 网易号 > 正文 申请入驻

从AlphaGo到Libratus,百页白皮书详解机器博弈(附报告下载地址)

0
分享至

AI科技评论按:计算机博弈也称机器博弈(Computer Games)。如果按英语字面意义来看,这一名词应该理解为「计算机游戏」。但从事计算机棋牌竞技研究的科学家们,所定义的「Computers Games」则是计算机像人一样会思考和决策的棋类游戏。为了与计算机游戏进行区隔,Computer Games 采用的是「机器博弈」或「计算机博弈」这一具有指代性的译名。

1997 年,IBM 深蓝战胜世界棋王卡斯帕罗夫成为了机器博弈的第一个里程碑,而在近 20 年后,AlphaGo 又横扫了围棋世界冠军李世石,升级版 Master 横扫 60 余名顶级高手,让我们看到了计算机博弈的强大生命力与令人惊叹的技术。

在 2005 年,中国人工智能学会成立了机器博弈专业委员会,将国际象棋算法移植到中国象棋的电脑程序中,并取得了令人瞩目的成果。为了更好地对机器博弈进行一个细致、深入的全景式刻画,中国人工智能学会机器博弈专业委员会撰写了《机器博弈白皮书》。本白皮书介绍了机器博弈的发展过程、国内外重要赛事、博弈典型技术与比赛平台;并结合相关棋种介绍各种专项博弈技术,包括完备信息的棋类比赛,也涵盖不完备信息的牌类游戏搜索算法。

AI科技评论将102页白皮书进行简单梳理,对重点内容做概要介绍。原报告为中文版本,欢迎关注 AI科技评论(aitechtalk),在后台回复关键词「机器博弈」下载报告全文。

本文要点:

  • 机器博弈的发展状况

  • 机器博弈的复杂度及典型技术

  • 完备机器博弈及非完备机器博弈的专项技术


一、机器博弈的发展状况

在 1928 年,「计算机之父」冯诺依曼通过对两人零和一类博弈游戏的分析,提出了极大极小值定理,并证明博弈论的基本原理。在冯诺依曼与摩根斯特恩合著的《博弈论和经济行为》(1944)中,将二人博弈推广到 n 人博弈,并将博弈论系统应用于经济领域,奠定了机器博弈研究的基础与理论体系。

近代机器博弈的研究始于 20 世纪 50 年代,包括阿兰图灵、科劳德香农、约翰麦卡锡以及冯诺依曼等人都做出了巨大的贡献。随着研究的深入,科学家们开始研究国际象棋的博弈编程方案,并在 50 至 60 年代有了极大突破。由此,科学家们开始思考,棋类对弈是否能成为让计算机尝试战胜人类的入口。

从上世纪八十年代中期,美国卡耐基梅隆大学开始研究世界级的国际象棋计算机程序,并在 IBM「深思」、「深蓝」的不断迭代中,计算机在 90 年代以来变得越来越聪明。1996 年的「深蓝」、1997 年的「超级深蓝」与卡斯帕罗夫的两场比赛饱受世界瞩目,堪称「世纪之战」。

进入 21 世纪,计算机博弈水平也在逐步提升。2016-2017 年,AlphaGo 与李世石在围棋领域的两场人机大战,堪称是人机对抗史上是顶级比赛,从而也掀起了人工智能的全球热潮。

随着围棋被攻克,科学家们开始将目光投向了多人博弈的非完备信息机器博弈领域。2017 年初,美国卡耐基梅隆大学开发的德州扑克博弈系统 Libratus,在与 4 名人类顶尖扑克选手的人机大战中获得了胜利,再次树立了机器博弈的新一里程碑。

二、机器博弈的复杂度及典型技术

计算机的博弈水平代表了计算机的智能水平。而衡量其复杂程度的的两个重要标准则包括了计算机博弈问题的状态复杂度与博弈树复杂度。下图为一些常见博弈问题的状态复杂度及博弈树复杂度。计算机博弈的最高境界是找到该棋种的理想解,即不败解。而计算机博弈的最大困难和无法逾越的障碍则是问题的计算复杂性。被广泛认可的博弈问题,其计算复杂性一般都属于某复杂性类的困难问题(hard)或完全问题(complete),属于此类计算复杂性类的问题,被认为是最难解或是最难解的。

计算机博弈系统中,典型的关键技术主要包括搜索、评估与优化、学习与训练等技术。典型的博弈搜索算法:

  1. 搜索方向考虑,可分为深度优先搜索与宽度优先搜索;

  2. 从控制策略考虑,可分为盲目搜索与启发搜索;

  3. 从搜索范围考虑,可分为穷尽搜索、裁剪搜索。

此外,机器博弈的典型算法还包括迭代深化、最佳优先算法、随机搜索算法、并行计算、遗传算法、神经网络、机器学习等。

计算机博弈平台系统本身并不具有下棋或出牌的逻辑决策功能,但它能加载其它一个或多个决策引擎程序,使这些引擎程序以选手的角色参与对局。根据不同标准,计算机博弈平台可分为如下几类:

  1. 完备信息博弈平台和非完备信息博弈平台

  2. 单引擎博弈平台和多引擎博弈平台

  3. 单机博弈平台和网络博弈平台

  4. 程序级博弈平台和模块级博弈平台


三、完备机器博弈 及非完备机器博弈的专项技术

以完备信息机器博弈与非完备信息博弈的专项技术,白皮书以棋类为例,分述了不同棋种的游戏规则,并介绍了它们在机器博弈所采用的主要技术。

国外机器博弈在完备信息博弈的研究代表是 Google 公司的 AlphaGo,它具有极强的自觉能力。AlphaGo 的成功充分验证了深度学习与计算机博弈技术结合的实用性。学者总结 AlphaGo 的关键技术包括:

  1. 棋感直觉:通过深度学习获得,分为落子棋感与胜负棋感。AlphaGo 通过对 3000 万的经典棋局进行深度学习获得快速走棋网络(落子棋感)与策略网络;胜负棋感则是通过策略网络不断进行自对弈得到。

  2. 搜索验证:搜索引擎采用蒙特卡洛搜索树根据落子棋感与胜负棋感不断展开搜索树。

国外机器博弈在不完备信息博弈的研究代表是美国卡耐基梅隆大学开发的德州扑克博弈系统 Libratus。主要包括三个关键模块:

  1. 赛前纳什均衡近似,让Libratus自己学会德州扑克。它将最重要的博弈信息(如针对某一手牌对应的战略)进行抽取,再应用强化学习算法进行提升。

  2. 残局解算,让 Libratus 不仅能在比赛前学习,还能在比赛中学到东西。科学家从下往上构建博弈树,得以较容易地算出最下面节点的状态,再反过来指导设计上面的博弈树,并使用蒙特卡洛方法,每次选一些节点更新上面的策略。

  3. 持续自我强化。在游戏中发现问题所在,并找到更多细节进行自我强化,得到更好的纳什均衡。

目前,机器博弈也带动了游戏产业、智慧医疗、智能交通、航空、航天等相关产业中,特别是与军事国防领域的产业,催生新型武器与系统。

尽管机器博弈取得了巨大的成果,但依然存在一定局限性。具体包括:

  1. 应用拓展方面仍有提升空间;在具有模糊性和随机性的麻将、桥牌、斗地主、多国军旗等非完备信息博弈上,虽然在基于案例的策略研究上有一定进展,但相关研究还不成熟,开发的程序智力有限,目前还难以战胜人类顶级高手,存在一定的提升空间。

  2. 在相关技术产业化方面,产学研结合还有不足之处。一方面,相关企业缺乏机器博弈的专业人才,特别是顶级人才的支持;另一方面,机器博弈领域专家、学者们缺少相关部门、企业给予的研发资金支持。

在国内外,包括国际象棋人机博弈大赛、围棋人机与机机博弈大赛、桥牌计算机博弈大赛、德州扑克人机与机机博弈大赛、中国象棋人机与机机博弈大赛、中国计算机博弈大赛等多项赛事,本白皮书也做了详细的介绍与回顾。

AI科技评论小结:《机器博弈白皮书》成书之际恰逢国务院印发《新一代人工智能发展规划》,希望能更好让读者们对机器博弈这一技术产生系统性的了解。相信在未来,计算机博弈将与其它领域的技术更加紧密结合,推动人工智能产业发展。

原报告为中文版本,共 102 页,关注 AI科技评论(aitechtalk),在后台回复关键词「机器博弈」下载报告全文。

————— 给爱学习的你的福利 —————

随着大众互联网理财观念的逐步普及,理财规模随之扩大,应运而生的智能投顾,成本低、风险分散、无情绪化,越来越多的中产阶层、大众富裕阶层已然在慢慢接受。王蓁博士将以真实项目带你走上智能投顾之路,详情请识别下图二维码或点击文末阅读原文~

————————————————————

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Tracy的篮球博物馆
2026-06-30 10:57:50
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

球毛鬼胎
2026-06-30 17:00:26
Siegel:交易截止日以来 勇士多次公开表达希望留下巴特勒

Siegel:交易截止日以来 勇士多次公开表达希望留下巴特勒

北青网-北京青年报
2026-06-30 19:23:30
7月1日正式落地!人社56号令全面革新,工资、养老待遇迎来大调整

7月1日正式落地!人社56号令全面革新,工资、养老待遇迎来大调整

老特有话说
2026-06-30 16:04:40
郑钦文打的到底是谁的脸?

郑钦文打的到底是谁的脸?

网球之家
2026-06-30 09:31:03
小米正式官宣:6月30日,新机发布

小米正式官宣:6月30日,新机发布

科技堡垒
2026-06-28 12:59:18
3天死1000人,法国急购3万台空调,中国空调爆单,不打贸易战了?

3天死1000人,法国急购3万台空调,中国空调爆单,不打贸易战了?

古史青云啊
2026-06-30 11:31:42
德国队被淘汰,总理默茨发文:出局固然令人心痛,但我仍为你们骄傲;此前韩国队出局后,韩国总统李在明怒批球队表现

德国队被淘汰,总理默茨发文:出局固然令人心痛,但我仍为你们骄傲;此前韩国队出局后,韩国总统李在明怒批球队表现

大风新闻
2026-06-30 11:24:04
嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

揽星河的笔记
2026-06-30 13:44:22
为何没罚点球?范戴克:教练事先列好了名单,顺序也是定好的

为何没罚点球?范戴克:教练事先列好了名单,顺序也是定好的

懂球帝
2026-06-30 16:30:37
森保一:接下来专注亚洲杯争冠,但即使夺冠也无法抹去世界杯之痛

森保一:接下来专注亚洲杯争冠,但即使夺冠也无法抹去世界杯之痛

兰亭墨未干
2026-06-30 06:25:03
“卡牌大师”名不虚传!作为第四官员的马宁,多次提醒主裁向替补席出牌

“卡牌大师”名不虚传!作为第四官员的马宁,多次提醒主裁向替补席出牌

红星新闻
2026-06-30 08:41:04
160架战斗机就位 2000枚导弹下发 1400名空军飞行员等候战斗令

160架战斗机就位 2000枚导弹下发 1400名空军飞行员等候战斗令

聚峰军评
2026-06-30 13:01:28
勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

罗说NBA
2026-06-30 07:04:20
西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

甜到你心坎
2026-06-26 03:13:42
恭喜文班亚马!恭喜马刺!快船拒绝1.26亿续约,小卡或重回老东家

恭喜文班亚马!恭喜马刺!快船拒绝1.26亿续约,小卡或重回老东家

鸣哥说体育
2026-06-29 19:31:40
开拓者官方欢迎莫兰特!2换1交易正式完成 杨瀚森利拉德迎新队友

开拓者官方欢迎莫兰特!2换1交易正式完成 杨瀚森利拉德迎新队友

罗说NBA
2026-06-30 09:12:32
CCTV5+直播中日男篮大战,12人名单没出炉,郭士强按最强阵容备战

CCTV5+直播中日男篮大战,12人名单没出炉,郭士强按最强阵容备战

体育大学僧
2026-06-30 13:19:58
这位像雕塑的刚果球迷,在夜店证明了:他也会动

这位像雕塑的刚果球迷,在夜店证明了:他也会动

快乐加载中21
2026-06-30 00:03:49
2026-06-30 20:07:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7414文章数 20759关注度
往期回顾 全部

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

房产
旅游
本地
手机
公开课

房产要闻

等了三年!改善顶流实景交付,海口标杆的的答卷来了!

旅游要闻

漂流、溯溪、轻极限 年轻人避暑主打一个“活力”

本地新闻

贵州小城的新目标:举办“村超”世界杯!

手机要闻

摩托罗拉Edge 70 Max手机获Qi 2.2.1认证,支持磁吸充电

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版