网易首页 > 网易号 > 正文 申请入驻

AI杀入斗地主,快手DouZero对标AlphaZero,干掉344个AI获第一

0
分享至

梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI

AlphaGo在围棋界大杀四方时就有人不服:有本事让AI斗地主试试?

试试就试试。

快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类知识。

只用4个GPU,短短几天的训练时间,就在Botzone排行榜上的344个斗地主AI中排名第一

而且还有在线试玩(链接在文章最后),手机也能运行。

在线试玩中演示的是三人斗地主,玩家可以选择扮演地主、地主的上家或下家。

选择当地主来玩玩看,可以打开显示AI手牌功能,更容易观察AI决策过程。另外可以设置AI考虑时间,默认是3秒。

在AI的回合,会显示面临的决策和每种打法的预测胜率。

有时可以看到AI并不是简单地选择当前胜率最高的打法,而是有更全局的考虑。

斗地主对AI来说,很难

从博弈论的角度看,斗地主是“不完全信息博弈”。

围棋是所有棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。

而斗地主每个玩家都看不到其他人的手牌,对于AI来说更有挑战性。

在棋牌类游戏中,虽然斗地主的信息集的大小和数量不如麻将,但行动空间有10^4,与德州扑克相当,而大多数强化学习模型只能处理很小的行动空间。

斗地主的所有牌型总共有27472种可能。

像下图的手牌就有391种打法。

且斗地主的行动不容易被抽象化,使搜索的计算成本很高,像Deep Q-Learning和A3C等强化学习模型都只有不到20%的胜率。

另外作为不对称游戏,几个农民要在沟通手段有限的情况下合作并与地主对抗。

像扑克游戏中最流行的“反事实后悔最小化”(Counterfactual Regret Minimization)算法,就不擅长对这种竞争和合作建模。

全局、农民和地主网络并行学习

首先将手牌状态编码成4x15的独热(one-hot)矩阵,也就是15种牌每种最多能拿到4张。

DouZero是在Deep Q-Learning的基础上进行改进。

使用LSTM(长短期记忆神经网络)编码历史出牌,独热矩阵编码预测的牌局和当前手牌,最终用6层,隐藏层维度为512的MLP(多层感知机)算出Q值,得出打法。

除了“学习者”全局网络以外,还用3个“角色”网络分别作为地主、地主的上家和下家进行并行学习。全局和本地网络之间通过共享缓冲区定期通信。

△学习者和角色的算法

DouZero在48个内核和4个1080Ti的一台服务器上训练10天击败了之前的冠军,成为最强斗地主AI。

下一步,加强AI间的协作

对于之后的工作,DouZero团队提出了几个方向:

一是尝试用ResNet等CNN网络来代替LSTM。

以及在强化学习中尝试Off-Policy学习,将目标策略和行为策略分开以提高训练效率。

最后还要明确地对农民间合作进行建模。好家伙,以后AI也会给队友倒卡布奇诺了。

柯洁在围棋被AlphaGO击败以后,2019年参加了斗地主锦标赛获得了冠军。

不知道会不会有AI“追杀”过来继续挑战他。

在线试玩:
https://www.douzero.org

GitHub项目地址:
https://github.com/kwai/DouZero

论文地址:
https://arxiv.org/pdf/2106.06135.pdf

参考链接:
[1]https://www.sohu.com/a/285835432_498635

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这样缴纳社保无效,缴20年也没用......

这样缴纳社保无效,缴20年也没用......

祥顺财税俱乐部
2026-05-30 09:07:22
5月30日,人社部公布关于2026年调整退休人员养老金的通知了吗?

5月30日,人社部公布关于2026年调整退休人员养老金的通知了吗?

云鹏叙事
2026-05-30 17:15:42
释永信一审被判24年,涉案金额高达上亿元,为保护幕后人闭口不言

释永信一审被判24年,涉案金额高达上亿元,为保护幕后人闭口不言

花哥扒娱乐
2026-05-30 22:11:28
女子每到周末就头痛呕吐,工作日却安然无事?原来是咖啡惹的祸

女子每到周末就头痛呕吐,工作日却安然无事?原来是咖啡惹的祸

福建第一帮帮团
2026-05-30 19:04:33
中国芯弯道超车!华为联手南京大学造出全球首款二维并行处理器

中国芯弯道超车!华为联手南京大学造出全球首款二维并行处理器

三石记
2026-05-29 21:50:27
训练犯错真骂!邦本揭秘徐正源 三镇没请后悔吗?李金羽好好学吧

训练犯错真骂!邦本揭秘徐正源 三镇没请后悔吗?李金羽好好学吧

刀锋体育
2026-05-30 08:48:50
荷兰舰长想不到,当初的“看一眼就走”,竟是我们的“计中计”!

荷兰舰长想不到,当初的“看一眼就走”,竟是我们的“计中计”!

果妈聊娱乐
2026-05-30 11:15:46
英超球迷最佳阵公布:阿森纳5人,曼城3人

英超球迷最佳阵公布:阿森纳5人,曼城3人

懂球帝
2026-05-30 21:22:08
刘国梁培养女儿拿高尔夫冠军!13年花费超1000万 普通家庭玩不起

刘国梁培养女儿拿高尔夫冠军!13年花费超1000万 普通家庭玩不起

念洲
2026-05-30 07:48:31
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
不装了,黄智贤力挺金溥聪!洪秀柱方面出手,郑丽文决定一件事!

不装了,黄智贤力挺金溥聪!洪秀柱方面出手,郑丽文决定一件事!

混沌录
2026-05-30 23:41:12
19岁国乒天才彻底爆发!连续击败世界名将,张本智和都看傻了

19岁国乒天才彻底爆发!连续击败世界名将,张本智和都看傻了

林子说事
2026-05-30 20:21:57
1994年彗星撞木星,威力高达6万亿吨TNT,为地球挡下一劫

1994年彗星撞木星,威力高达6万亿吨TNT,为地球挡下一劫

观察宇宙
2026-05-29 19:15:08
撕开画皮!秦腔皇后沦为泄欲工具,戏台下的她比戏里更惨

撕开画皮!秦腔皇后沦为泄欲工具,戏台下的她比戏里更惨

小影的娱乐
2026-05-28 09:31:19
夺我企业,侵我领空,闯我国境!荷兰想趁势出手,解放军反制来了

夺我企业,侵我领空,闯我国境!荷兰想趁势出手,解放军反制来了

云舟史策
2026-05-30 07:40:21
为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

医药养生保健报社
2026-04-28 17:59:19
2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

华人星光
2026-05-29 11:30:09
记录报:皇马准备为穆里尼奥向本菲卡支付1500万欧

记录报:皇马准备为穆里尼奥向本菲卡支付1500万欧

懂球帝
2026-05-30 17:19:21
中超第十五轮重庆铜梁龙2:3不敌北京国安 主场不败金身告破

中超第十五轮重庆铜梁龙2:3不敌北京国安 主场不败金身告破

封面新闻
2026-05-30 23:54:03
戏子误国!被官方点名通报的4位明星,个个荒唐,没一个值得同情

戏子误国!被官方点名通报的4位明星,个个荒唐,没一个值得同情

不似少年游
2026-04-04 22:59:24
2026-05-31 00:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12710文章数 176472关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服凉了,橙匕无人问津?玩家评论区回怼

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
艺术
手机
家居
教育

亲子要闻

打败食海锤头鲨这里的玩具随便我挑!疯狂动物园系列

艺术要闻

339米!珠海第一高楼,形似“蛟龙出海”

手机要闻

REDMI K90至尊版入网?K90单品激活破200万

家居要闻

云栖 舒展如流云

教育要闻

26岁女教师赛课时猝死!老师,一路走好,愿天堂没有赛课

无障碍浏览 进入关怀版