网易首页 > 网易号 > 正文 申请入驻

【科技】AlphaGo是如何学会下围棋的

0
分享至

原题:In a Huge Breakthrough, Google's AI Beats a Top Player at the Game of Go

原载:Wired连线 2016.01.27

标签:人工智能(AI),算法,围棋。

翻译:芒芒 原文有删减

译注:该文章刊载于人工智能AlphaGo与李世石对战前夕,当时大众对比赛的预测还有很大分歧。围棋界的风雨欲来时,亦是AI界的重要突破日,本文将为你重现人工智能来临时代的重要进步时刻。

第一缕星火

人工智能领域取得了一项重要突破----一在围棋项目中,一个由谷歌研究团队开发的计算机系统AlphaGo击败了欧洲的顶尖职业棋手。在此之前,这个关于战略性和直观判断的古老东方竞技游戏,已经困扰了人工智能专家们数十年之久。

在大多数公认的智力游戏中,机器已经战胜了最优秀的人类,包括国际象棋、拼字游戏、黑白棋等等。但是围棋----这个有着2500年的历史,比象棋复杂得多的游戏,即使是面对最先进的计算机系统,顶尖棋手们也能保持优势。

本月早些时候,谷歌以外的人工智能专家质疑其是否能在短时间内实现突破,而就在去年,许多人认为机器在围棋项目上打败顶尖人类还需要再过十年。

但谷歌AlphaGo已经做到了这一点。

「这一切发生的比我想象中快太多。」法国研究员雷米·库伦说。他的背后,是曾经的世界最佳围棋AI,Crazystone。

AlphaGo系统

DeepMind计划自称为「人工智能界的阿波罗」,于2014年被谷歌收购。在10月伦敦举办的这场人机比赛上,DeepMind的系统----一个更广为人知的名字「AlphaGo」,在与欧洲围棋冠军樊麾的对弈中发挥出色,五局比赛未尝一败。比赛结果在《自然》杂志的编辑和英国围棋联盟代表的监督和见证下产生,事后《自然》杂志的编辑评价:这是我职业生涯中最激动人心的时刻之一,无论是作为一名学者还是作为一名编辑。

关于AlphaGo的论文发表在自然杂志,并登上封面

今天早上,《自然》杂志发表了一篇论文,描述了AlphaGo的系统,它巧妙地利用了一种越来越重要的人工智能技术,即深度学习。

通过输入收集到的大量人类棋谱,DeepMind的研究人员开始训练这个系统自己下围棋。但这仅仅是第一步。从理论上讲,这样的训练只会产生一个和顶尖人类一样优秀的系统(但这不能保证对人类的绝对优势)。为了打败最顶尖的人类,研究人员让这个系统进行自我间对弈。这使得系统自身又可以产生一系列新的棋谱,基于新棋谱训练出的新人工智能,有着超越人类大师的能力。

「这其中最重要的方面……是AlphaGo不仅仅是一个手动规则构建下的专门系统,」负责DeepMind监督的戴密斯·哈萨比斯说,「相反,它还使用通用的机器学习技术来赢得胜利。

穷举与剪枝

早在2014年初,库伦的围棋程序Crazystone就挑战了日本的职业棋手依田纪基并获得了胜利,但有一点需要声明----这是AI在受让四子的情况下。在围棋中,这代表着开局的巨大优势。当时,库伦预测,机器还需要10年的发展,才能在分先的情况下赢得顶尖棋手。

这项研究的难度在于围棋规则本身。

即使是功能再强大的超级计算机,处理能力也有极限,无法在给定任意的合理的时间内分析出棋盘中可行的每步棋着的变化。当深蓝在1997年战胜国际象棋冠军卡斯帕罗夫时,就是以这样的「暴力」做到的。从本质上讲,IBM的超级计算机分析了当前可行的每一步棋的结果,这样的预测视野超越了人类棋手的极限。但在围棋中,这是不可能做到的。在国际象棋中,任意给定的回合平均约有35种可行的变化;而围棋--这种两个玩家在19×19的网格上以抛光的棋子互相对抗的游戏,有着约250种变化,并且每种都能生出另外的250种,依此类推,无法穷尽。就像哈萨比斯指出的一样:横盘上存在的变化比宇宙中的原子还要多。

在使用一种被称为蒙特卡罗树搜索的技术后,像Crazystone这样的系统能够脱颖而出,结合其他技术,系统可以缩小必须分析的步数的范围,最终他们可以战胜一些围棋高手----但不能战胜最顶尖的棋手。

局面形式判断

在顶尖棋手中,每一手棋更具直观性。棋手可能会告诉你,要基于盘中的棋形和局势来决定下一步棋着(棋手思维),而不是仔细分析盘上每个点可能的后续变化(系统思维)。「好的选点看上就觉得很棒,就像遵循着某种美学一般。」同时也是一名棋手的哈萨比斯说,「历经数千年依然是一个迷人的游戏,或许这就是它的魅力所在。」

但是,随着2014年让步至2015年,包括爱丁堡大学团队,Facebook团队以及DeepMind团队在内的研究者们,开始将深度学习应用于围棋研究。这个想法是利用技术来模仿下棋时所需要的「人类直觉」。「围棋是隐式的,且都是模式匹配(一种算法)」哈萨比斯说:「但这正是深度学习的优势所在。」

自我增强

深度学习依赖于所谓的神经网络----一种硬件和软件网络,类似于人脑中的神经元。这些神经网络并非依靠暴力计算或手动制定的规则来运作,他们分析大量数据以「学习」特定的任务。将足够多的袋熊照片送入神经网络,它可以学习识别袋熊;给它「投喂」足够多的口语,它可以学会辨认你说的话;「投喂」足够的围棋走法,它就可以学会下围棋。

在DeepMind,研究人员希望神经网络可以通过「看」盘中的选点来掌握围棋,就像人类在下棋时一样。这项技术反馈良好,通过将深度学习与「蒙特卡洛树」方法结合,Facebook旗下的系统已经击败了一些人类玩家。

但DeepMind团队更加深入的执行了这个理念。当接受了3千万步人类棋着的训练后,DeepMind神经网络能以57%的概率预测下一手人类棋着,这是一个令人印象深刻的数字(此前的记录是44%)。在这之后,研究员们让该神经网络和与其自身略有不同的版本进行相互对弈,这被称之为强化学习。本质上来说,通过神经网络进行自我对弈,系统会追踪哪一手棋能够带来最大利益----在围棋中体现在获得最多的地盘。随着时间的增加,系统在识别「哪些棋能带来利益,哪些不能」方面变得越来越完善。

AlphaGo通过其神经网络之间的数百万次相互对弈,日渐提高,最终学会了自己发现新的战略。」DeepMind的研究员西尔弗说。

据团队成员西尔弗的说法,这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。在这之后,研究员们将研究结果输入第二个神经网络,收集它通过自我对弈给出的建议棋着,神经系统便可以预见这之后的每一步的变化。这类似于较旧的系统(如深蓝)在国际象棋领域所表现出的一样,只不过AlphaGo系统在分析更多数据时,会不断进行自我学习并最终做到这一点,而非通过暴力的手段探索棋盘上所有的可能性。这样一来,AlphaGo不仅学会了击败现有AI程序,也能学会击败顶尖的人类棋手。

风雨欲来

在非公开场合打败了欧洲的围棋大师之后,哈萨比斯和他的团队旨在在公开论坛上击败世界顶尖棋手之一的李世石。

不久之后的三月,AlphaGo将在韩国挑战围棋世界冠军李世石。李世石是至今为止世界冠军数第二位的棋手,并在过去的十年里获得了最多的世界冠军。哈萨比斯将他视为「围棋世界的费德勒」。

根据库伦等人的说法,战胜世界冠军将比战胜欧洲冠军樊麾更具挑战性。但是这次,库伦将赌注押在了一直以来的竞争对手----AlphaGo上。在过去的十年中,他一直尝试开发出能够击败世界最顶尖棋手的AI系统,现在,他相信这个系统就在眼前。

------完-------

PS:库伦和他背后的crazystone,感觉也是一个被后起之秀超越而壮志未酬的故事呢,冥冥中太像棋界人生~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杀人诛心!托纳利被两头抛弃!曼联阿森纳 3500 万抢怪物中场

杀人诛心!托纳利被两头抛弃!曼联阿森纳 3500 万抢怪物中场

澜归序
2026-05-28 07:39:42
联合国迎来大变动!联合国一把手确定换人,王毅亮明中国立场。

联合国迎来大变动!联合国一把手确定换人,王毅亮明中国立场。

娱乐圈的笔娱君
2026-05-29 00:40:52
深圳预警!14.2万辆车、39.5万司机,日均13单,网约车还能干吗?

深圳预警!14.2万辆车、39.5万司机,日均13单,网约车还能干吗?

侃故事的阿庆
2026-05-29 00:29:37
杭州一主播吃播时要求店家赠送啤酒,被拒后当场翻脸,不满警方调解竟虚构不实信息诬陷现场民警,目前已被处罚

杭州一主播吃播时要求店家赠送啤酒,被拒后当场翻脸,不满警方调解竟虚构不实信息诬陷现场民警,目前已被处罚

环球网资讯
2026-05-28 20:03:05
屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

悄悄史话
2026-05-28 11:44:23
“你拿我们大家生命开玩笑”!飞行途中,一男乘客被当场控制

“你拿我们大家生命开玩笑”!飞行途中,一男乘客被当场控制

南方都市报
2026-05-27 21:54:16
上海91:88绝杀广厦!杨鸣赛后点评,四句话精准点透比赛本质!

上海91:88绝杀广厦!杨鸣赛后点评,四句话精准点透比赛本质!

田先生篮球
2026-05-28 23:29:33
婚内强奸是强奸,那妻子抢工资是抢劫?付费同房是嫖娼?撕开婚姻最双标的底层真相

婚内强奸是强奸,那妻子抢工资是抢劫?付费同房是嫖娼?撕开婚姻最双标的底层真相

青苹果sht
2026-05-26 04:58:29
金饰价格一夜大跌,跌回原位了!20年老作者带你看清真相

金饰价格一夜大跌,跌回原位了!20年老作者带你看清真相

别人都叫我阿腈
2026-05-28 12:15:12
“我爸十几年没换过微信头像,这是我小学二年级画完送他的”

“我爸十几年没换过微信头像,这是我小学二年级画完送他的”

环球网资讯
2026-05-27 17:51:27
突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

LULU生活家
2026-05-02 08:35:04
冷艳,但并不神秘

冷艳,但并不神秘

疾跑的小蜗牛
2026-05-28 21:05:50
全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

番外行
2026-05-25 15:19:56
美国严查境内转绿卡,移民官开始提问这些问题,律师称这类B签证最难

美国严查境内转绿卡,移民官开始提问这些问题,律师称这类B签证最难

华人生活网
2026-05-29 04:46:19
结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

枯蝶
2026-05-11 09:20:17
美伊谈判大消息!国际油价跳水,金银拉升,美股三大指数翻绿,热门中概股普跌

美伊谈判大消息!国际油价跳水,金银拉升,美股三大指数翻绿,热门中概股普跌

21世纪经济报道
2026-05-28 23:09:35
2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

民间胡扯老哥
2026-05-24 13:40:40
乒坛出现大奇葩!一个人身披 3 个国籍,被中国球迷称为三姓家奴

乒坛出现大奇葩!一个人身披 3 个国籍,被中国球迷称为三姓家奴

酷侃体坛
2026-05-22 22:41:31
粉木耳,被偷走的六年

粉木耳,被偷走的六年

智远同学
2026-05-27 21:55:18
玄学提醒:一个人相貌如果越来越好看,不是保养好,是阴德在外冒

玄学提醒:一个人相貌如果越来越好看,不是保养好,是阴德在外冒

小陆搞笑日常
2026-05-18 15:29:25
2026-05-29 07:00:49
找借口安静 incentive-icons
找借口安静
围棋自媒体
2658文章数 2244关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

美财长:特朗普不会接受“糟糕的伊朗协议”

头条要闻

美财长:特朗普不会接受“糟糕的伊朗协议”

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

游戏
家居
房产
健康
教育

魔兽世界:时光服暗牧大调整,引入多种新机制,未来会爆发吗?

家居要闻

蜂鸟餐椅 线面交错

房产要闻

突发重磅!三亚新机场公司正式成立!

专家教你辨认“正规外泌体”!

教育要闻

你真的懂怎么用through吗?

无障碍浏览 进入关怀版