网易首页 > 网易号 > 正文 申请入驻

IJCAI 2020 麻将AI赛:腾讯研究员拿下冠军,清华学子 3 天进前十

0
分享至

  

  作者 | 蒋宝尚、白莎莎

  编辑 | 陈彩娴

  围棋AlphaGo点燃的AI之火渐渐降温之际,人类在传统娱乐项目麻将上的成绩,也被一次次按在地上“摩擦”。

  近日, 在IJCAI 2020 麻将人工智能竞赛中,来自腾讯 AI 的 SuperJong 团队采用强化学习模型从零开始自我对弈训练,以 1338 分取得冠军。

  这是一个非常不错的成绩。

  与围棋等游戏不同的是,麻将更加规则复杂、胜负判定繁琐、信息非完全公开的,且更重要的是在公众认知中麻将更多地有“运气”和“凭直觉”的成分。

  换句话说,如果一个人运气比较差,拿到一手烂牌,可能再强的实力也只能是输得不那么难看。 所以,麻将不像围棋一样,不能单靠一轮对弈,而是要通过多轮(甚至上千轮)对弈才能看出一个雀士的实力。

  

  图注:前16名队伍信息。表格的AI算法列中,RL指强化学习,SL指监督学习,主要指使用对局数据模拟其他玩家/AI决策

  这次冠军队是个人参赛,来自腾讯 AI,所采用的方式是 强化学习算法框架。 如上所示,比赛前4 名也被强化学习包揽,北京大学有 6 支以个人参赛的队伍也打进了16 强。未使用强化学习的队伍主要采用搜索、剪枝、专家经验等方法,设计估值函数时考虑了向听数、游戏巡目等因素。

  1

  冠军如何诞生?

  

  冠军团队来自腾讯,参赛者以个人参赛,用名Yata。其设计的SuperJong 模型架构是一个非常深的卷积神经网络(CNN)。 在训练中使用不仅包含可见的信息,也包含不可见的信息。模型架构倾向于从零开始“自我发挥”,相当于在异步训练。

  为了充分利用CNN的优势,SuperJong 将大部分相关信息编码成类似图像特征,包括玩家牌的特征,例如顺子、杠、对等。 这其中也涉及到了非完美信息问题,因为在麻将中,每个玩家除了手中的13张牌和已经打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超过120 张未知的牌)。 由于隐藏信息过多导致游戏树的宽度非常大,树搜索算法基本不可行。

  为了克服非完美信息博弈的问题, 研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向 ,让它的学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。

  

  具体的算法设计如上图所示, 研究者采用了“Shanhu”特征,即考虑当前牌面和胡牌的差距,可以通过弃掉一些不需要的牌从而得到一些需要的牌,把现在的牌变成胜算较大的一副牌 。Shanhu特征的思维贯穿了模型设计的始末。

  

  在模型设计中,通过输入所有相关信息。研究者构造了一个端到端的神经网络。最后,神经网络会输出所有动作的概率,在训练过程中,利用全局值使网络更准确地预测状态值。

  整个神经网络一共有“三大块”(OWN、Others、Global),每一块都有三个残差层和一个过渡层,过渡层的作用是用来控制模型复杂度。

  

  至于训练方法,采用的是近端策略优化算法,可以被用于连续空间任务和离散空间任务。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。

  

  在训练过程中,采用从零开始的“自我”训练方法,没有使用任何人类数据。此外,研究者还发现,损失函数的方法比较大,这可能导致不同玩家的得分差距非常大。所以,研究者采用了不同的强化奖励方式,稳定了训练过程。

  2

  比赛介绍

  

  比赛官网:https://www.botzone.org.cn/static/gamecontest2020a_cn.html

  此比赛借助IJCAI平台举办,要求参赛者在在线人工智能平台Botzone上开发一个能够与其他人工智能和人类玩家比赛的麻将人工智能。比赛中采用《中国麻将竞赛规则》,即俗称的国标麻将。此外,组委会还为国标麻将初学者提供了样例程序和比赛使用的国标麻将裁判程序,方便参赛者学习国标麻将的规则并调试你的程序。最终比赛的胜者经由两轮正式的竞赛角逐诞生。

  

  比赛配备了强大的评审团队,不仅包括北京大学的李文新,邓小铁等等AI领域的专家,还有麻将圈的知名人士,国际麻将联盟秘书长:李文龙。

  

  以上是前十六强队伍开发人力投入情况,冠军方案是由两人合力完成,共奋战了21天,采用了100个CPU以及两个GPU。算力投入最多的队伍是“清澄高校”,团队以快手公司参赛,使用了180个CPU以及32个 GPU,大力出奇迹!

  微智娱的 Test 队伍排名第十三,奋战了60天,只用了4个 CPU 和2个GPU训练神经网络,算法效率极其高。 所用人力最少的队伍是清华大学的“点个大的”团队,一人参赛,开发三天,高手榜排名第十。 值得一提的是,“点个大的”并未使用强化学习算法,而是使用的 “搜索+剪枝” 。

  之前 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是因为巨大的信息集平均大小带来的环境不确定性,传统的搜索算法在桥牌和麻将面前很难发挥同样的功效。

  通过这次的比赛,我们也可以看出,麻将AI的研究为游戏AI在开辟了新的方向,并进行了极大地拓展。

  我们所生活的世界也正是一个非完美信息的决策过程,麻将游戏中复杂的推理策略和带有随机性的博弈过程,比完美信息游戏更加贴近人类复杂的真实生活。对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加“智能”的AI系统。

  AI科技评论为大家带来10本 《现代自然语言生成》 正版作者 亲笔签名版 新书。

  请在1月17日AI科技评论头条文章《》( 注意不是本文 )留言区畅所欲言,谈一谈你对本书的看法和期待(必须要和本书主题相关)。

  fAI 科技评论将会在留言区选出10名读者,每人送出 《现代自然语言生成》 亲笔签名版一本 。

  活动规则:

  1. 在1月17日AI科技评论头条文章( 注意不是本文 )留言,留言点赞最高的前10位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。

  2. 留言内容会有筛选,必须要和本书主题相关,例如“选我上去”等内容将不会被筛选,亦不会中奖。

  3. 本活动时间为2021年1月17日 - 2021年1月24日(23:00),活动推送内仅允许中奖一次。

  由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为 星标账号 ,以及常点文末右下角的“ 在看 ”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

印度决定向美国出口稀土,以此来替代中国!

战略观察员
2021-02-27 09:21:26

父母用积蓄给我买房,蜜月回来看到父母在新房做饭,我火冒三丈!

艾艾故事会
2021-02-27 15:04:17

券商3月金股出炉!最被好看的这只票,本周逆市上涨近8%

中国证券报
2021-02-27 23:16:08

确认了!中国女主播另一身份是“间谍”,澳大利亚真的过分了

宋玉华
2021-02-28 03:07:10

搬起石头砸自己的脚?民主党议员批评拜登,白宫或要让民众失望了

环球报姐
2021-02-27 20:49:07

800年前的鬼图,画个骷髅却成千古名画?专家:看头上戴的啥

爱飞多亲子
2021-02-26 06:44:30

马思纯胖成韩红,宽度堪比两个薇娅

全娱乐早扒点
2021-02-25 21:57:29

速度是比特币系统的428倍!上海研发拥有完全自主知识产权的区块链公链上线

文汇报
2021-02-27 10:20:20

江山易改本性难移? 法国突然对华“宣战” 中方:不服气 你来

张殿成
2021-02-24 13:35:39

拿下超1000架订单,C919获空客认可!波音或无缘中国9万亿新订单

海峡军志
2021-02-27 14:51:43

白天当干部、晚上是商人,“70后”副主任在“中国第一座农民城”受贿50万

格物资讯
2021-02-27 22:32:05

怨恨郭羡妮毁了自己,和前妻复合被拒绝,陶大宇56岁再遇真爱

娱人为乐
2021-02-28 03:15:38

联合国大会发生激烈辩论,14个国家围攻印度,要求莫迪立即撤兵

十八少年
2021-02-27 13:57:48

吴钊燮叫嚣全球挺“自由凤梨”,台湾民众傻眼:原来凤梨还有分自由及不自由?

海峡导报社
2021-02-27 10:10:03

我不是李荣浩,但杨丞琳的踢馆花絮我看三遍了!

时尚COSMO
2021-02-27 14:12:42

南极又一次出现西瓜雪,这下人类真的要警惕了

钟铭聊科学
2021-02-24 12:14:08

南非妇女无防护进超市,被提醒后拿所穿底裤遮脸,“这是个口罩”

译言
2021-02-27 10:04:06

经常提肛的男生到底有多强??

FitTime
2021-02-25 23:39:23

联盟第一后卫正式离队!湖人交易大获成功,詹姆斯迎来最好帮手

思朗瞎扯
2021-02-27 15:48:08

舒淇素颜为林熙蕾女儿庆生,发福明显疑正在备孕,白头发抢镜

好丹
2021-02-27 20:50:54
2021-02-28 10:12:52
AI科技评论
AI科技评论
点评学术,服务AI
4582文章数 14919关注度
往期回顾 全部

科技要闻

荣耀CEO:所有手机供不应求!5G手机超10款

头条要闻

打日本人脸!美国称支持日本钓鱼岛主权后道歉:我错了

头条要闻

打日本人脸!美国称支持日本钓鱼岛主权后道歉:我错了

体育要闻

3分到手!巴萨升至第二 梅西又闪耀

娱乐要闻

毛晓彤穿短裙玩烟花棒 清纯靓丽

财经要闻

汽车要闻

目前最快的硬派越野车 路虎卫士发布V8车型

态度原创

健康
教育
旅游
游戏
数码

为什么阴道炎总是反反复复?

教育要闻

莫让无效学习压弯了学生的腰

旅游要闻

太美了!这些赏花胜地别错过

《怪物猎人 崛起》公布游戏预购特典护石效果

数码要闻

苹果更新「平台安全指南」:持续强化个人信息安全