网易首页 > 网易号 > 正文 申请入驻

用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类

0
分享至

机器之心报道

机器之心编辑部

AI:「我能战胜顶级人类玩家。」另一个 AI:「我玩不过人类,但我能战胜你。」

近几年,自我博弈中的强化学习已经在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本还收敛于纳什均衡。纳什均衡在博弈论中非常著名,该理论是由博弈论创始人,诺贝尔奖获得者约翰 · 纳什提出,即在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。

之前就有研究表明,自我博弈中看似有效的连续控制策略也可以被对抗策略利用,这表明自我博弈可能并不像之前认为的那样强大。这就引出一个问题:对抗策略是攻克自我博弈的方法,还是自我博弈策略本身就能力不足?

为了回答这个问题,来自 MIT、 UC 伯克利等机构的研究者进行了一番研究,他们选择自我博弈比较擅长的领域进行,即围棋(Go)。具体而言,他们对公开可用的最强围棋 AI 系统 KataGo 进行攻击。针对一个固定的网络(冻结 KataGo),他们训练了一个端到端的对抗策略,仅用了训练 KataGo 时 0.3% 的计算,他们就获得了一个对抗性策略,并用该策略攻击 KataGo,在没有搜索的情况下,他们的策略对 KataGo 的攻击达到了 99% 的胜率,这与欧洲前 100 名围棋选手实力相当。而当 KataGo 使用足够的搜索接近超人的水平时,他们的胜率达到了 50%。至关重要的是,攻击者(本文指该研究学到的策略)并不能通过学习通用的围棋策略来取胜。

这里我们有必要说一下 KataGo,正如本文所说的,他们在撰写本文时,KataGo 还是最强大的公开围棋 AI 系统。在搜索的加持下,可以说 KataGo 非常强大,战胜了本身就是超人类的 ELF OpenGo 和 Leela Zero。现在该研究的攻击者战胜 KataGo,可以说是非常厉害了。

图 1:对抗策略打败了 KataGo 受害者。

  • 论文地址:https://arxiv.org/pdf/2211.00241.pdf
  • 研究主页:https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board

有趣的是,该研究提出的对抗策略无法战胜人类玩家,即使是业余选手也能大幅胜过所提模型。

攻击方法

KataGo、AlphaZero 等之前的方法通常是训练智能体自己玩游戏,游戏对手是智能体自己。而在 MIT、UC 伯克利等机构的这项研究中,攻击者(adversary)和固定受害者(victim)智能体之间进行博弈,利用这种方式训练攻击者。该研究希望训练攻击者利用与受害者智能体的博弈交互,而不只是模仿博弈对手。这个过程被称为「victim-play」。

在常规的自我博弈中,智能体通过从自己的策略网络中采样来建模对手的动作,这种方法的确适用于自我博弈。但在 victim-play 中,从攻击者的策略网络中建模受害者的方法就是错误的。为了解决这个问题,该研究提出了两类对抗型 MCTS(A-MCTS),包括:

  • A-MCTS-S:在 A-MCTS-S 中,研究者将攻击者的搜索过程设置如下:当受害者移动棋子时,从受害者策略网络中采样;当轮到攻击者移动棋子时,从攻击者策略网络中采样。
  • A-MCTS-R:由于 A-MCTS-S 低估了受害者的能力,该研究又提出了 A-MCTS-R,在 A-MCTS-R 树中的每个受害者节点上为受害者运行 MCTS。然而,这种变化增加了攻击者训练和推理的计算复杂性。

在训练过程中,该研究针对与 frozen KataGo 受害者的博弈来训练对抗策略。在没有搜索的情况下,攻击者与 KataGo 受害者的博弈可以实现 >99% 的胜率,这与欧洲前 100 名围棋选手的实力相当。此外,经过训练的攻击者在与受害者智能体博弈的 64 个回合中实现了超过 80% 的胜率,研究者估计其实力与最优秀的人类围棋棋手相当。

值得注意的是,这些游戏表明,该研究提出的对抗策略并不是完全在做博弈,而是通过欺骗 KataGo 在对攻击者有利的位置落子,以过早地结束游戏。事实上,尽管攻击者能够利用与最佳人类围棋选手相当的博弈策略,但它却很容易被人类业余爱好者击败。

为了测试攻击者与人类对弈的水平,该研究让论文一作 Tony Tong Wang 与攻击者模型实际对弈了一番。Wang 在该研究项目之前从未学习过围棋,但他还是以巨大的优势赢了攻击者模型。这表明该研究提出的对抗性策略虽然可以击败能战胜人类顶级玩家的 AI 模型,但它却无法击败人类玩家。这或许可以说明一些 AI 围棋模型是存在 bug 的。

评估结果

攻击受害者策略网络

首先,研究者对自身攻击方法对 KataGo (Wu, 2019) 的表现进行了评估,结果发现 A-MCTS-S 算法针对无搜索的 Latest(KataGo 的最新网络)实现了 99% 以上的胜率。

如下图 3 所示,研究者评估了自身对抗策略对 Initial 和 Latest 策略网络的表现。他们发现在大部分训练过程中,自身攻击者对两个受害者均取得很高的胜率(高于 90%)。但是随着时间推移,攻击者对 Latest 过拟合,对 Initial 的胜率也下降到 20% 左右。

研究者还评估了对 Latest 的最佳对抗策略检查点,取得了超过 99% 的胜率。并且,如此高的胜率是在对抗策略仅训练 3.4 × 10^7 个时间步长的情况下实现的,这一数据是受害者时间步长的 0.3%。

迁移到有搜索的受害者

研究者将对抗策略成功地迁移到了低搜索机制上,并评估了上一节训练的对抗策略对有搜索 Latest 的能力。如下图 4a 所示,他们发现在 32 个受害者回合时,A-MCTS-S 对受害者的胜率下降到了 80%。但这里,受害者在训练与推理时都没有搜索。

此外,研究者还测试了 A-MCTS-R,并发现它的表现更好,在 32 个受害者回合时对 Latest 取得了超过 99% 的胜率,但在 128 个回合时胜率下降到 10% 以下。

在图 4b 中,研究者展示了当攻击者来到 4096 个回合时,A-MCTS-S 对 Latest 最高取得了 54% 的胜率。这与 A-MCTS-R 在 200 个回合时的表现非常相似,后者取得了 49% 的胜率。

其他评估

如下图 9 所示,研究者发现,尽管 Latest 是一个更强大的智能体,但针对 Latest 训练的攻击者在对抗 Latest 时要比 Initial 表现更好。

最后,研究者探讨了攻击原理,包括受害者的 value 预测和硬编码防御评估。如下图 5 所示,所有的基线攻击都要比他们训练的对抗策略表现差得多。

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
把妓院开到公安大楼背后,让女犯人卖淫减刑,睡过12个女明星!

把妓院开到公安大楼背后,让女犯人卖淫减刑,睡过12个女明星!

猫眼观史
2023-09-12 17:34:39
白发苍苍,谢亚龙出狱后首次亮相,新岗位曝光,年薪几万很满足

白发苍苍,谢亚龙出狱后首次亮相,新岗位曝光,年薪几万很满足

东球弟
2023-09-22 12:38:33
忽闻噩耗,曾经同事的初中孩子跳楼了,妻子也事后跳楼随孩子而去

忽闻噩耗,曾经同事的初中孩子跳楼了,妻子也事后跳楼随孩子而去

扒来扒去
2023-09-12 19:53:23
肯豆:又给男粉发福利,穿透视装前凸后翘,让人挪不开眼

肯豆:又给男粉发福利,穿透视装前凸后翘,让人挪不开眼

花草阁
2023-04-01 20:35:30
我国军衔最高的间谍,不仅是空军少将,竟还担任过空军学院院长

我国军衔最高的间谍,不仅是空军少将,竟还担任过空军学院院长

趣知史馆
2023-09-24 12:00:03
林心如生得早了,这颜值放到当今娱乐圈不得封神了

林心如生得早了,这颜值放到当今娱乐圈不得封神了

弦上之音
2023-09-24 15:50:25
继国际原子能机构后,世卫组织也沦陷,勒索中国4000万额外罚款

继国际原子能机构后,世卫组织也沦陷,勒索中国4000万额外罚款

魔城情感
2023-09-25 11:21:46
最美、先进都是笑话!校长主任同宿被曝:越道貌岸然越多桃色事件

最美、先进都是笑话!校长主任同宿被曝:越道貌岸然越多桃色事件

大风文字
2023-09-24 11:26:54
台媒曝大S现身街头,剪齐耳短发似臃肿大妈 ,网友:坐完月子了?

台媒曝大S现身街头,剪齐耳短发似臃肿大妈 ,网友:坐完月子了?

河宝小家
2023-09-23 15:32:35
美国:钻地弹能将三峡大坝轰烂!不料,一小伙让美国钻地弹成废铁

美国:钻地弹能将三峡大坝轰烂!不料,一小伙让美国钻地弹成废铁

寓然乎
2023-09-24 07:57:59
湖北男子变卖家产给女友治病,女友康复后嫁他人,5年后报应来了

湖北男子变卖家产给女友治病,女友康复后嫁他人,5年后报应来了

安妮Emotiong
2023-09-15 20:57:52
库克估计也没有想到!余承东也愣住了,小米胆子太肥了

库克估计也没有想到!余承东也愣住了,小米胆子太肥了

老炮儿聊球
2023-09-24 17:43:58
中国绝版老香烟,见过3种以上就说明你老了,老烟民们抽过几种?

中国绝版老香烟,见过3种以上就说明你老了,老烟民们抽过几种?

王姐懒人家常菜
2023-09-23 14:23:21
吓人!福州发现7米大蛇!

吓人!福州发现7米大蛇!

环球网资讯
2023-09-25 14:48:28
叙利亚总统来北京!夫人穿着真的用心,竟然是青花瓷

叙利亚总统来北京!夫人穿着真的用心,竟然是青花瓷

小布丁看各种书籍
2023-09-24 23:03:49
拒留队,再见阿森纳!加薪300万,也不留,阿尔特塔沉默,转曼联

拒留队,再见阿森纳!加薪300万,也不留,阿尔特塔沉默,转曼联

小猫猫爱小鱼干
2023-09-25 02:54:28
女大学生三个月内卖淫600多名嫖客,连怀孕的妹妹都没有幸免

女大学生三个月内卖淫600多名嫖客,连怀孕的妹妹都没有幸免

王小乖
2023-09-24 16:16:34
隔壁病床,是一位95后,年轻帅气还特别幽默,没想到是癌症晚期

隔壁病床,是一位95后,年轻帅气还特别幽默,没想到是癌症晚期

南瓜观点
2023-09-25 08:55:49
俄罗斯宣布,中国舰队‘加入’美国军演,中国:7艘核潜艇下水!

俄罗斯宣布,中国舰队‘加入’美国军演,中国:7艘核潜艇下水!

生机康香的奔跑
2023-09-24 08:49:31
西安二环以外取消限购 住房交易政策调整详细解读来了

西安二环以外取消限购 住房交易政策调整详细解读来了

环球网资讯
2023-09-25 14:27:35
2023-09-25 16:00:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8264文章数 141623关注度
往期回顾 全部

科技要闻

华为推超高端品牌"非凡大师" 刘德华担任品牌大使

头条要闻

印加关系紧张之际 又有一名印度籍锡克人在加拿大被杀

头条要闻

印加关系紧张之际 又有一名印度籍锡克人在加拿大被杀

体育要闻

陕西信达,重蹈凤铝覆辙?

娱乐要闻

窦骁何超莲被偶遇,勾肩搭背证未婚变

财经要闻

命悬一线的家乐福 在四年前就做错了选择

汽车要闻

升级8155且有8AT 15万级不会错的7座SUV

态度原创

数码
亲子
游戏
公开课
军事航空

数码要闻

华为秋季旗舰新品发布会

亲子要闻

女儿和爸爸躺在床上,奶声奶气的叫着爸爸,“这是我曾经幻想过无数次的场景”

《命运2》服务器维护后 大多数玩家无法正常游玩

公开课

我国癌症高发是洗洁精造成的?小心这5种

军事要闻

俄黑海舰队总部大楼被炸 有乌媒称舰队司令身亡

无障碍浏览 进入关怀版