网易首页 > 网易科技 > 网易科技 > 正文

第三代AI赌神:在六人桌德扑中胜过5个人类顶尖高手

0
分享至

(原标题:第三代AI赌神诞生:可在六人桌德扑中胜过5个人类顶尖高手)


澎湃新闻记者 虞涵棋

第50届世界扑克系列赛(WSOP)的六人桌无限德扑即将在7月13日开赛,但AI偏偏选在这个节骨眼上踢馆。

美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus能在六人桌无限德扑中击败顶级人类玩家。

这些顶级高手包括拥有职业冠军头衔最多的达尔文·埃利亚斯(Darren Elias)、6次世界扑克系列赛冠军得主“耶稣”克里斯·弗格森(Chris Ferguson)和在职业生涯中赚了将近200万美元的麦克·加利亚诺(Michael "Gags" Gagliano)。

无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。

“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。

在过去的20年里,我们见证了西洋双陆棋、跳棋、国际象棋和围棋等游戏在人工智能面前纷纷沦陷。人机大战往往成为AI发展史上的里程碑事件,例如卡斯帕罗夫与“深蓝”、李世石与“阿尔法狗”的巅峰对弈。不过,这些事件无一例外局限于机器和一人对决,而扑克在传统上是个多人游戏。

从两人到多人,不仅只是量变,还对人工智能增加了许多根本性的挑战。Pluribus通过“行动抽象”和“信息抽象”等方式来解决这些挑战。在与5个“自己”博弈的过程中,Pluribus学会了六人局无限注德扑的玩法。

埃利亚斯的感受是,德扑AI最大的优势在于混合运用多种策略,这也是人类高手想要达到的境界。然而,绝大数人都无法持续性地随机调整策略。

Pluribus也验证了一些牌桌上广为流传的智慧。例如“平跟”(limping)这种在翻牌之前,选择跟平大盲注而不加注的策略对绝大多数玩家而言都是欠佳的选择,只有“小盲注”玩家除外,因其已经在池中下了等同于一半大盲注的筹码。

初出茅庐的“平跟”

美国卡内基梅隆大学计算机系教授托马斯·桑德霍姆(TuomasSandholm)已经钻研德扑程序16年。为了缔造AI赌神,他带着博士生诺姆·布朗(Noam Brown)先从1V1无限注德扑做起。他们开发的第一款德扑程序名为Claudico,在拉丁语中对应着“平跟”。

2015年4月到5月,Claudico在匹兹堡的河流赌场轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是镜像牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。

初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。

扑克对于AI来说为什么这么难?原来,扑克和跳棋、国际象棋和围棋有本质上的区别,是一种“不完美信息”的游戏,对手手中的牌面全程未知。在无限注局中,对手又可以任意下注。

著名深度学习专家吴恩达(Andrew Ng)曾说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”

诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。

从这个意义上来说,扑克是一种更接近真实人类社会的游戏,涉及到推理和欺骗。人工智能能学会诈唬吗?

卷土重来的“均衡”

IBM的“深蓝”经过了两次才战胜国际象棋传奇卡斯帕罗夫,德扑AI也在2年后实现了完美复仇。2017年1月,桑德霍姆和布朗带着一个名为Libratus的德扑程序卷土重来。

这个新名字对应着“均衡”,从纳什均衡的博弈模型里脱胎而来。桑德霍姆解释说:“在两名玩家的零和游戏中,如果双方都遵从纳什均衡,那就无人能以独自改变策略的方式来获益。在此类游戏中,以纳什均衡的方式思考是最安全的。AI会严格遵从纳什均衡,保证一个起码是平局的局面,若对手计算失误,均衡被打破,AI就能一击必杀。”

学会了纳什均衡的Libratus善于诈唬及不被诈唬。比如其中一盘,人类高中Jason Lee起手牌是一对10(非梅花),前三张公共牌为K、9、4(其中有两张梅花),第四张和第五张都开出了非梅花牌。此时,AI突然压上所有筹码,Lee选择不跟。通过隔壁的镜像局,我们发现AI当时的起手牌确实是两张梅花,也就是,AI最后在赌同花失败的情况下,成功通过诈唬赢下了一局。而在镜像局中,AI早早为手上一对10下了重注,最后人类玩家同样选择弃牌。

同样是匹兹堡的河流赌场,同样是无限注德扑,人机大战的剧情截然不同。Libratus从比赛第一天就全面压制,一路领先。最终,Libratus赢得的筹码数量达到惊人的176.6万美元。

此后还有一个小插曲。李开复曾经邀请桑德霍姆带着Libratus前来中国举办表演赛,并取了一个中文名“冷扑大师”。

统筹全局的“众”

纳什均衡虽然对双人游戏很有利,但并不适用于多人游戏。Pluribus需要一种更为统筹全局的玩法。它首先通过6个“自己”混战,计算出了一种“蓝图”策略,足以应对首轮的下注。接着,它建立起一个精细度非常高的游戏沙盘,分析所有可能的走法。为了节省算力,Pluribus不会推演到终盘,而只是推演接下去的数步。

这看上去是游戏类AI的常规路径,但在非完美信息游戏中进行前瞻性推演格外具有挑战性。在每一个决策点的分叉上,AI要考虑每个对手的可能举动,也要分析自己可采取的应对,形成的决策树就会十分庞大。不过,桑德霍姆团队这次开发出了一种新算法,保证AI只需要计算每个对手接下去的5种可能性,就能在大战略上形成制衡。

Pluribus也变得更加狡猾。如果手上持有场上可能有的最好的牌,那加注是一个理性的选择。但如果每次都在持有好牌时才加注,就可能被对手识破规律。Pluribus会计算在对手来看,自己手上所有可能有的牌型,以及与之相对应的表现,最终选定一种均衡的方案。

最后,Pluribus也在计算效率上进行了改进。前一代Libratus用了1500万个核心小时计算出策略,并在1V1现场对决中占用了1400个CPU核数。这一代的Pluribus仅用12400个核心小时就形成蓝图策略,并在现场博弈时占用28个CPU核数。

麦克·加利亚诺(Michael "Gags" Gagliano)说道:“与德扑AI对战,观察它做选择的策略是非常令人激动的。我看到它做了一些人类根本不会去做的下注举动。”

布朗认为,Pluribus的许多创新性的大法可能会在根本上改变这项游戏。例如,绝大多数人类玩家都不会在一个回合末平跟,却在下一回合开始时加注。传统上认为这是一种没有任何战略意义的举动。但是,Pluribus经常会这么做,也许这背后有值得深思的地方。

相关推荐
热点推荐
战报 | 山西汾酒70 : 74不敌广州朗肽海本

战报 | 山西汾酒70 : 74不敌广州朗肽海本

山西国投职业篮球俱乐部
2026-01-02 22:33:21
猛过金银,暴涨超200%!

猛过金银,暴涨超200%!

大象新闻
2026-01-02 09:37:10
张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

草莓解说体育
2025-12-21 00:52:27
随着AC米兰1-0卡利亚里,意甲最新积分榜出炉

随着AC米兰1-0卡利亚里,意甲最新积分榜出炉

侧身凌空斩
2026-01-03 06:20:12
两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

梁讯
2026-01-01 21:55:58
北约给中国战机取代号:歼20代号“Fagin”,音译过来很恶毒

北约给中国战机取代号:歼20代号“Fagin”,音译过来很恶毒

云上乌托邦
2025-12-16 13:18:23
何穗元旦晒儿子!和陈伟霆陪娃迎新年,一个月Winsome趴爸爸背上

何穗元旦晒儿子!和陈伟霆陪娃迎新年,一个月Winsome趴爸爸背上

乐悠悠娱乐
2026-01-02 10:31:08
张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

历史回忆室
2025-12-16 14:26:14
森碟下巴后缩矫正好了,网友:她就像被偷了运气的小说女主

森碟下巴后缩矫正好了,网友:她就像被偷了运气的小说女主

深度解析热点
2026-01-03 01:11:08
快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

奇妙的本草
2026-01-02 12:00:45
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
7票通过,美利坚合众国将被毁?特朗普发文怒吼,表决结果已确定

7票通过,美利坚合众国将被毁?特朗普发文怒吼,表决结果已确定

花花娱界
2026-01-02 14:22:16
600亿市值归零,无人生还

600亿市值归零,无人生还

栗滴财经
2026-01-01 18:34:19
油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价早知道
2026-01-03 00:15:43
香港取消免费医疗了!每人最高负担1万港币,多项民生收费即日起同步上涨

香港取消免费医疗了!每人最高负担1万港币,多项民生收费即日起同步上涨

霹雳炮
2026-01-02 19:36:39
10年跟踪100多个孩子, 杜克教授发现:照这个趋势, 滑落的中产只会越来越多

10年跟踪100多个孩子, 杜克教授发现:照这个趋势, 滑落的中产只会越来越多

二胎妈妈圈
2025-12-25 22:14:35
全国统一体制内口头禅,一出口就知道,网友:味太正了!

全国统一体制内口头禅,一出口就知道,网友:味太正了!

另子维爱读史
2025-12-18 16:59:41
火爆!外国游客涌入,疯狂“扫货”!直呼“太划算了”

火爆!外国游客涌入,疯狂“扫货”!直呼“太划算了”

环球网资讯
2026-01-03 07:36:28
新年首击:圣彼得堡大面积断电!乌克兰摧毁黑海最大石油港

新年首击:圣彼得堡大面积断电!乌克兰摧毁黑海最大石油港

项鹏飞
2026-01-01 12:50:56
记者:亚泰和阎峰合同是1+1,十余名高薪球员不愿降薪而离队

记者:亚泰和阎峰合同是1+1,十余名高薪球员不愿降薪而离队

懂球帝
2026-01-02 21:17:07
2026-01-03 08:24:49

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

"最快女护士"刚夺冠就宣布辞职 曾50天内赢得20万奖金

头条要闻

"最快女护士"刚夺冠就宣布辞职 曾50天内赢得20万奖金

体育要闻

快船似乎又行了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

车企2026开年大促 含16个品牌近70款

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

时尚
本地
亲子
房产
健康

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

亲子要闻

你养我长大,我陪你变老,生日快乐

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

元旦举家出行,注意防流感

无障碍浏览 进入关怀版
×