网易首页 > 网易科技 > 网易科技 > 正文

微软麻将AI来了!第一波人类高手已经被打爆

0
分享至


内功修炼到了十段,微软打算让Suphx出来走两步。

今年6月,由微软亚洲研究院开发的麻将AI系统Suphx成为首个在国际专业麻将平台“天凤”上荣升十段的AI系统,这是目前AI系统在麻将领域取得的最好成绩,其实力超越该平台公开房间顶级人类选手的平均水平。

今天,微软首次对外正式披露了该项目的详细进展,这个项目由微软亚洲研究院副院长刘铁岩带队的四人团队组成,用时一年,成绩显著。

大家可能有很多疑问,麻将AI和我们熟知的围棋AI有哪些不同?都是人工智能那谁更厉害?麻将AI又能做什么?网易智能同微软团队进行了深入的交流。

他们为什么选择麻将!

实际上,打造麻将AI要比打造已经压制人类的谷歌围棋AI难度更大。因为如果是围棋,棋局信息是公开的,但对于麻将而言,有太多的隐藏信息,并且有更多的随机性。

换句话讲,麻将这类完美信息游戏,与围棋、象棋等完美信息游戏相比,对人工智能来说具有更大的挑战性,如果说围棋的可观测状态信息是10的172次方,隐藏的不确定信息为0,那么,麻将的可观测状态信息则是10的121次方,可怕的是隐藏的不确定信息达到了10的48次方。


刘铁岩向网易智能表示,我们生活的世界是由许许多多的随机事件构成的,而且在很多情况下,无法知晓的信息也许远多于我们能够掌握的信息,而我们仍然要在这样信息不完全的条件下做出大大小小的决策。

“AI在完美信息游戏中的突破,将有助于协助人类应对更多高度复杂的现实问题,尤其是在智能交通、金融投资等容易受到随机突发状况影响的场景中“。他谈到。

AI如何在天凤“打怪升级”

据介绍,由于长期在民间广为流传,不同地区的麻将玩法非常多样,缺乏统一的规则标准和评价体系。日本在线麻将竞技平台“天凤”,因其完善的竞技规则、专业的段位体系,成为专业麻将平台,受到职业麻将界的广泛承认。

刘铁岩介绍,天凤平台为高水平麻将玩家提供两种竞技房间:“特上房”对四段以上所有玩家免费开放,允许AI参与游戏,目前所有玩家在此房间的最高段位是十段;

“凤凰房”仅对七段以上的人类付费玩家开放,目前不允许AI参与游戏,在该房间能够达到的最高段位是十一段,称为“天凤位”。自天凤平台在2006年推出以来,全平台达到四人麻将天凤位的麻将高手仅有13位[JL1] ,曾经达到过十段的选手约有180位,而现役十段的人类选手也仅有十几位。

而微软亚洲研究院开发的麻将AI系统Suphx于3月登陆天凤平台,在AI能够参与的公开竞技房“特上房”,Suphx与人类选手展开了5000余场四人麻将对局,在这5000余场对局中,Suphx的稳定段位超过了8.7。

刘铁岩透露,他们也在和天凤平台探讨,以怎样的方式让Suphx进入还不允许AI参与的凤凰房。

麻将AI到底难在哪?

与象棋、围棋、德州扑克等棋牌类游戏相比,麻将具有更复杂的隐藏信息和更高的难度

总体而言,微软亚洲研究院将麻将AI面临的挑战总结为以下三点:

首先,巨大的状态空间:与只有52张牌的德州扑克相比,136张麻将牌的排列组合可能性更多。同时,麻将中同一个玩家两次出牌之间,夹杂了其他三个玩家的出牌和自己摸的底牌,可能出现的不同局面数目非常巨大。值得特别指出的是,在麻将中,4位玩家的出牌顺序是不固定的,任意一位玩家的“吃碰杠”都可能使出牌顺序突然改变,导致游戏树不规则、且动态变化。这些特点使麻将很难直接利用AlphaGo等棋盘游戏AI常用的蒙特卡洛树搜索算法。

其次,非完美信息博弈:象棋和围棋属于完美信息游戏,玩家可以看到棋局中对方玩家的落子。麻将则存在大量的隐藏信息。具体而言,麻将中每个玩家可以有13张手牌,另外还有84张底牌。对于一个玩家而言,他只知道自己手里的13张牌和之前已经打出来的牌,却无法知道别人的手牌和没有翻出来的底牌,所以最多可以有超过120张未知的牌[JL2] 。这么多的未知信息使得麻将的难度非常高。一方面,由于随机性太大,玩家即便在出牌决策中估计对方玩家手牌、底牌等不可见的牌,也无法避免不确定性对于游戏走向的影响。这将对AI模型的训练带来很大挑战:AI模型很难发现已知牌面信息和最优打法之间的逻辑链路。另一方面,丰富的隐藏信息导致游戏树的宽度非常大,对树搜索算法的可行性提出了进一步的挑战。

其三,复杂的奖励机制日本麻将的规则是“无役不能和牌”,多样的特殊牌面构成了复杂的“役种”和番数计算规则。一轮游戏共包含8局,单局得分与役种和番数相关,最后根据8局的得分总和进行排名,来形成最终影响段位的点数奖惩。因此有时麻将高手会策略性输牌,例如,在第8轮时如果A玩家已经大比分领先第二名,他可能会故意放炮给排名第四的玩家,来防止总分被排名第二的玩家反超,保证自己在最终结算时获得最大的点数奖励。这为构建高超的麻将AI策略带来了额外的挑战,AI需要审时度势,把握进攻与防守的时机。

三大技术见招拆招

 “面对麻将游戏的巨大挑战,AI仅靠强大的计算力无法从根本上解决问题,而需要更强的直觉、预测、推理和模糊决策能力,“微软亚洲研究院副院长、机器学习领域负责人刘铁岩博士表示。他们的主要技术应用可以概况为先知教练、全盘预测、自适应决策

据了解,微软亚洲研究院针对麻将的特点与难点尝试了一系列基于强化学习的新算法,比如,为了应对巨大的状态空间,研究团队引入了全新的机制对探索过程的多样性进行动态调控,让Suphx可以比传统算法更加充分地试探牌局状态的不同可能;另一方面,一旦某一轮的底牌给定,其状态子空间会大幅缩小;所以研究团队让Suphx在推理阶段根据本轮的牌局来动态调整策略,对缩小了的状态子空间进行更有针对性的探索,从而更好地根据本轮牌局的演进做出自适应的决策。


其次,针对非完美信息博弈的挑战,Suphx尝试了先知教练技术来提升强化学习的效果。其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。

另外,对于麻将复杂的牌面表达和计分机制,研究团队还利用全盘预测技术搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。可以让AI理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一轮比赛之中,以便对自我博弈的过程进行更加直接而有效的指导,并使得Suphx可以学会一些具有大局观的高级技巧。/丁广胜

相关推荐
热点推荐
婆婆将我20万陪嫁卡拿走,说帮我存,我直接挂失,当晚小叔子上门

婆婆将我20万陪嫁卡拿走,说帮我存,我直接挂失,当晚小叔子上门

船长与船1
2025-12-15 10:03:13
寒心!本以为来当大腿,结果首败后被教练点名成背锅侠,回辽篮吧

寒心!本以为来当大腿,结果首败后被教练点名成背锅侠,回辽篮吧

萌兰聊个球
2025-12-17 09:35:36
2025式人民警察制式服装正式列装,新制服帅到你忘了正被盘问!

2025式人民警察制式服装正式列装,新制服帅到你忘了正被盘问!

老猫观点
2025-12-17 09:11:18
人到45岁会是一种什么感觉?网友:看完眼泪止不住的流!

人到45岁会是一种什么感觉?网友:看完眼泪止不住的流!

夜深爱杂谈
2025-12-05 20:56:13
特朗普这次也拦不住泰国,事到临头洪森才发现,中方的做法是对的

特朗普这次也拦不住泰国,事到临头洪森才发现,中方的做法是对的

白天爱杂谈
2025-12-17 11:47:49
何晴葬礼举行!儿子手捧骨灰,遗像曝光惹泪目,廖京生现身送别

何晴葬礼举行!儿子手捧骨灰,遗像曝光惹泪目,廖京生现身送别

180视角
2025-12-15 12:31:13
俄罗斯免签?倒贴一百万我也不去旅游

俄罗斯免签?倒贴一百万我也不去旅游

基本常识
2025-12-16 23:36:28
拿中国技术帮日本赢球,躲奖台怕挨骂?被国乒“挤走”成头号威胁

拿中国技术帮日本赢球,躲奖台怕挨骂?被国乒“挤走”成头号威胁

丁丁鲤史纪
2025-12-11 12:28:38
北京备战辽宁!翟晓川打趣杨鸣,赵睿被熊抱,许利民采访全力以赴

北京备战辽宁!翟晓川打趣杨鸣,赵睿被熊抱,许利民采访全力以赴

细话篮球
2025-12-17 13:06:01
意外!曝特谢拉或投奔中甲球队,转会原因遭曝光,能否加盟成疑

意外!曝特谢拉或投奔中甲球队,转会原因遭曝光,能否加盟成疑

体坛鉴春秋
2025-12-17 12:31:02
硬扛40天后,高市终改口:台不太可能符合日本行使自卫权条件

硬扛40天后,高市终改口:台不太可能符合日本行使自卫权条件

临云史策
2025-12-16 22:09:24
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
忍了38天后,中国对日本发出第一道制裁令!暗示了高市早苗结局?

忍了38天后,中国对日本发出第一道制裁令!暗示了高市早苗结局?

策略述
2025-12-16 19:40:57
2025年最终版全球“最强护照”排行榜出炉!日本护照跌至第三位

2025年最终版全球“最强护照”排行榜出炉!日本护照跌至第三位

东京新青年
2025-12-13 18:10:46
万科20亿债展期二次方案出炉:取消深铁担保,先付6000万利息

万科20亿债展期二次方案出炉:取消深铁担保,先付6000万利息

星岛记事
2025-12-17 11:23:47
因成绩不达标而无法毕业,他绝望自杀!事后学校才发现,是成绩算错了?!

因成绩不达标而无法毕业,他绝望自杀!事后学校才发现,是成绩算错了?!

新欧洲
2025-12-14 19:41:03
日本和美国早已禁种,中国为何依然大力种植?背后原因不简单

日本和美国早已禁种,中国为何依然大力种植?背后原因不简单

古史青云啊
2025-12-16 19:23:55
纯电生死战,打掉理想千亿市值

纯电生死战,打掉理想千亿市值

市值榜
2025-12-16 13:11:59
高中生买99朵康乃馨为母亲庆生,却收到写着“缅怀逝者”的菊花,店家:骑手送错了;当事人:和骑手确认过,并不是他们的责任

高中生买99朵康乃馨为母亲庆生,却收到写着“缅怀逝者”的菊花,店家:骑手送错了;当事人:和骑手确认过,并不是他们的责任

大象新闻
2025-12-17 10:53:12
东盟也要变天了,印尼如今终于清醒,柬埔寨被摁着摩擦不是偶然的

东盟也要变天了,印尼如今终于清醒,柬埔寨被摁着摩擦不是偶然的

文雅笔墨
2025-12-16 05:10:03
2025-12-17 14:04:49

科技要闻

无人驾驶迈关键一步 特斯拉股价触历史新高

头条要闻

独居女子去世遗产被收归国有 远亲想帮买墓安葬遇难题

头条要闻

独居女子去世遗产被收归国有 远亲想帮买墓安葬遇难题

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

鞠婧祎收入曝光,丝芭称已支付1.3亿

财经要闻

"祥源系"爆雷 有投资者数百万元无法提现

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

健康
教育
房产
本地
数码

这些新疗法,让化疗不再那么痛苦

教育要闻

重磅!深圳这所公办新校与北京十一学校合作办学!

房产要闻

封关前夜!海南绿发20亿拿下三亚重磅宅地!

本地新闻

云游安徽|踏过战壕与石板,读一部活的淮北史

数码要闻

追风者确认矩阵灯显机箱Evolv X2 Matrix明年1月5日发布

无障碍浏览 进入关怀版
×