【科技】AlphaGo是如何学会下围棋的|alphago|李世石|国际象棋|棋谱

【科技】AlphaGo是如何学会下围棋的

分享至

原题：In a Huge Breakthrough, Google's AI Beats a Top Player at the Game of Go

原载：Wired连线 2016.01.27

标签：人工智能（AI），算法，围棋。

翻译：芒芒原文有删减

译注：该文章刊载于人工智能AlphaGo与李世石对战前夕，当时大众对比赛的预测还有很大分歧。围棋界的风雨欲来时，亦是AI界的重要突破日，本文将为你重现人工智能来临时代的重要进步时刻。

第一缕星火

人工智能领域取得了一项重要突破----一在围棋项目中，一个由谷歌研究团队开发的计算机系统AlphaGo击败了欧洲的顶尖职业棋手。在此之前，这个关于战略性和直观判断的古老东方竞技游戏，已经困扰了人工智能专家们数十年之久。

在大多数公认的智力游戏中，机器已经战胜了最优秀的人类，包括国际象棋、拼字游戏、黑白棋等等。但是围棋----这个有着2500年的历史，比象棋复杂得多的游戏，即使是面对最先进的计算机系统，顶尖棋手们也能保持优势。

本月早些时候，谷歌以外的人工智能专家质疑其是否能在短时间内实现突破，而就在去年，许多人认为机器在围棋项目上打败顶尖人类还需要再过十年。

但谷歌AlphaGo已经做到了这一点。

「这一切发生的比我想象中快太多。」法国研究员雷米·库伦说。他的背后，是曾经的世界最佳围棋AI，Crazystone。

AlphaGo系统

DeepMind计划自称为「人工智能界的阿波罗」，于2014年被谷歌收购。在10月伦敦举办的这场人机比赛上，DeepMind的系统----一个更广为人知的名字「AlphaGo」，在与欧洲围棋冠军樊麾的对弈中发挥出色，五局比赛未尝一败。比赛结果在《自然》杂志的编辑和英国围棋联盟代表的监督和见证下产生，事后《自然》杂志的编辑评价：这是我职业生涯中最激动人心的时刻之一，无论是作为一名学者还是作为一名编辑。

关于AlphaGo的论文发表在自然杂志，并登上封面

今天早上，《自然》杂志发表了一篇论文，描述了AlphaGo的系统，它巧妙地利用了一种越来越重要的人工智能技术，即深度学习。

通过输入收集到的大量人类棋谱，DeepMind的研究人员开始训练这个系统自己下围棋。但这仅仅是第一步。从理论上讲，这样的训练只会产生一个和顶尖人类一样优秀的系统（但这不能保证对人类的绝对优势）。为了打败最顶尖的人类，研究人员让这个系统进行自我间对弈。这使得系统自身又可以产生一系列新的棋谱，基于新棋谱训练出的新人工智能，有着超越人类大师的能力。

「这其中最重要的方面……是AlphaGo不仅仅是一个手动规则构建下的专门系统，」负责DeepMind监督的戴密斯·哈萨比斯说，「相反，它还使用通用的机器学习技术来赢得胜利。」

穷举与剪枝

早在2014年初，库伦的围棋程序Crazystone就挑战了日本的职业棋手依田纪基并获得了胜利，但有一点需要声明----这是AI在受让四子的情况下。在围棋中，这代表着开局的巨大优势。当时，库伦预测，机器还需要10年的发展，才能在分先的情况下赢得顶尖棋手。

这项研究的难度在于围棋规则本身。

即使是功能再强大的超级计算机，处理能力也有极限，无法在给定任意的合理的时间内分析出棋盘中可行的每步棋着的变化。当深蓝在1997年战胜国际象棋冠军卡斯帕罗夫时，就是以这样的「暴力」做到的。从本质上讲，IBM的超级计算机分析了当前可行的每一步棋的结果，这样的预测视野超越了人类棋手的极限。但在围棋中，这是不可能做到的。在国际象棋中，任意给定的回合平均约有35种可行的变化；而围棋--这种两个玩家在19×19的网格上以抛光的棋子互相对抗的游戏，有着约250种变化，并且每种都能生出另外的250种，依此类推，无法穷尽。就像哈萨比斯指出的一样：横盘上存在的变化比宇宙中的原子还要多。

在使用一种被称为蒙特卡罗树搜索的技术后，像Crazystone这样的系统能够脱颖而出，结合其他技术，系统可以缩小必须分析的步数的范围，最终他们可以战胜一些围棋高手----但不能战胜最顶尖的棋手。

局面形式判断

在顶尖棋手中，每一手棋更具直观性。棋手可能会告诉你，要基于盘中的棋形和局势来决定下一步棋着（棋手思维），而不是仔细分析盘上每个点可能的后续变化（系统思维）。「好的选点看上去就觉得很棒，就像遵循着某种美学一般。」同时也是一名棋手的哈萨比斯说，「历经数千年依然是一个迷人的游戏，或许这就是它的魅力所在。」

但是，随着2014年让步至2015年，包括爱丁堡大学团队，Facebook团队以及DeepMind团队在内的研究者们，开始将深度学习应用于围棋研究。这个想法是利用技术来模仿下棋时所需要的「人类直觉」。「围棋是隐式的，且都是模式匹配（一种算法）」哈萨比斯说：「但这正是深度学习的优势所在。」

自我增强

深度学习依赖于所谓的神经网络----一种硬件和软件网络，类似于人脑中的神经元。这些神经网络并非依靠暴力计算或手动制定的规则来运作，他们分析大量数据以「学习」特定的任务。将足够多的袋熊照片送入神经网络，它可以学习识别袋熊；给它「投喂」足够多的口语，它可以学会辨认你说的话；「投喂」足够的围棋走法，它就可以学会下围棋。

在DeepMind，研究人员希望神经网络可以通过「看」盘中的选点来掌握围棋，就像人类在下棋时一样。这项技术反馈良好，通过将深度学习与「蒙特卡洛树」方法结合，Facebook旗下的系统已经击败了一些人类玩家。

但DeepMind团队更加深入的执行了这个理念。当接受了3千万步人类棋着的训练后，DeepMind神经网络能以57%的概率预测下一手人类棋着，这是一个令人印象深刻的数字（此前的记录是44%）。在这之后，研究员们让该神经网络和与其自身略有不同的版本进行相互对弈，这被称之为强化学习。本质上来说，通过神经网络进行自我对弈，系统会追踪哪一手棋能够带来最大利益----在围棋中体现在获得最多的地盘。随着时间的增加，系统在识别「哪些棋能带来利益，哪些不能」方面变得越来越完善。

「AlphaGo通过其神经网络之间的数百万次相互对弈，日渐提高，最终学会了自己发现新的战略。」DeepMind的研究员西尔弗说。

据团队成员西尔弗的说法，这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。在这之后，研究员们将研究结果输入第二个神经网络，收集它通过自我对弈给出的建议棋着，神经系统便可以预见这之后的每一步的变化。这类似于较旧的系统（如深蓝）在国际象棋领域所表现出的一样，只不过AlphaGo系统在分析更多数据时，会不断进行自我学习并最终做到这一点，而非通过暴力的手段探索棋盘上所有的可能性。这样一来，AlphaGo不仅学会了击败现有AI程序，也能学会击败顶尖的人类棋手。

风雨欲来

在非公开场合打败了欧洲的围棋大师之后，哈萨比斯和他的团队旨在在公开论坛上击败世界顶尖棋手之一的李世石。

不久之后的三月，AlphaGo将在韩国挑战围棋世界冠军李世石。李世石是至今为止世界冠军数第二位的棋手，并在过去的十年里获得了最多的世界冠军。哈萨比斯将他视为「围棋世界的费德勒」。

根据库伦等人的说法，战胜世界冠军将比战胜欧洲冠军樊麾更具挑战性。但是这次，库伦将赌注押在了一直以来的竞争对手----AlphaGo上。在过去的十年中，他一直尝试开发出能够击败世界最顶尖棋手的AI系统，现在，他相信这个系统就在眼前。

------完-------

PS：库伦和他背后的crazystone，感觉也是一个被后起之秀超越而壮志未酬的故事呢，冥冥中太像棋界人生~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.