网易首页 > 网易数码 > 正文

AlphaGo两次提前30分钟确信必胜 残局计算能力或是关键

0
分享至

(原标题:AlphaGo两次提前30分钟确信必胜 残局计算能力或是关键)

摘要:比赛之前根据论文里的技术来分析AlphaGo能否战胜李世石,我们可能太过关注深度神经网络而忽视了MCTS的重要性,尤其是它在残局里的重要性。前天比赛结束后我们重新审视了AlphaGo的两大核心技术,认为残局是AlphaGo制胜的关键。昨天晚上看到新闻说AlphaGo在比赛结束前就确认了必胜的结果,更加证实了这个想法可能是对的,所以想把这个观点分享出来。

下面是具体的内容:

经过第二局比赛之后,我已经变得悲观了。因为我觉得在残局的计算能力上人类与AlphaGo的差距太大了。

1、 上帝眼中的围棋

从数学上来讲,围棋有个最优的走法,也就是用mini-max搜索到游戏结束时的一条最优路径(也许有多条,但至少有一条),然后就能知道最优的情况下黑棋胜白棋多少目(也许是白棋胜黑棋?直觉上和经验上来说黑棋先手是占优的,但是好像也没有谁证明过这个问题?),那么黑棋对白棋的贴目就应该是这个最优值。

2、AlphaGo的残局计算

和人类相比,AlphaGo的残局计算有点太Bug了。

比如说AlphaGo可以计算出最后50步棋(这里只是假设的步数,而且MCTS不是完全搜索所有可能,而是根据先验概率和搜索结果调整策略,搜索“重要”的子树),而人类只能计算最后30步棋。那么即使在第50步的时候人类选手领先10目(已经去掉贴目),那么也只是说人类在100%精确地走好每一步的时候才能胜。但是围棋很复杂,也许走第50步时走个次优的走法,领先就变成了8目,如果再走得缓一点,可能就只领先6目了。而因为人类只能计算最后30步棋,那么这50-31步的一点点失误可能都会造成最终的失利。

当然我对围棋不懂,也许围棋没有想象的复杂,它的估值函数还是比较平滑的,或者在这50-31步中大部分局面都很容易直接找到最优解,但是某些局面就困难一些(也就是关键的点)。但是我觉得这样的关键点还是很多的,因为围棋和象棋不同,围棋随便挪动一个棋子,对全局都是有影响的。象棋虽然在某些特殊情况下一个棋子的位置会影响最后的胜负,但是大部分局面下走一步闲棋影响都不大,尤其是双方棋子较少的中残局。

比如说人类高手的判断局面的准确率是AlphaGo的90%(90%能不计算凭“感觉”直接找到当前局面的最优解,1是AlphaGo的准确度,上帝可能是2?),那么20步全部正确的概率只有0.12(相对于Alphago来说)。如果两个人残局的计算能力差太远,而且积累的优势不是太多的话,除非碰到的残局很简单,第50步-31步凭感觉就能找到最优解(或者次优解与最优解的差别很小,但感觉上围棋不像象棋。象棋如果优势,比如比对方多两个兵,那么走一两步缓手(只要别太差,让人吃子了),最终还是很可能会赢(当然也有某些特殊的局面必须要走的精确)。但围棋如果稍微几个缓手,优势就丢了很多。

所以如果残局计算力差太多的话,前中盘有差不太多的话,那么人类是不太可能胜利的。

3、AlphaGo的开局呢?

AlphaGo的计算有两个关键,一个是Value Network,也就是给定一个局面,不计算,直接判断它的好坏(也就是上帝的视角来看,大家都下得完美,黑棋能比白棋多/少多少目),另外一个就是通过不断的蒙特卡罗模拟比赛到游戏结束(rollout)。

这其实和人类的搜索有些类似:比如当前局面下有10种走法,我们根据好坏(alphago是rollout Policy,这个需要非常快)给它计算一个概率,比如0.4,0.3,0.1,.....,那么它就会以较大的概率选择0.4的走法来尝试,当然也有0.3的概率走第二个。之后每一步都是一样的方法选择走法直到游戏结束,然后就能判断这个游戏结束局面的准确值。比如我方胜利了,那么就会backup回去,让我们下次选择0.4的概率更大一点,也许变成了0.45,0.28, 0.09,...。经过大量的模拟,我们就能知道选择第一个走法的是否“好”。

这两个得分value network(评估局面)和rollout(蛮力计算)是加权平均起来的,论文里好像说最优值是0.5?也就是两个因素都很重要。

所以可以看出,越到后面残局,变化就越少,模拟的步数也越少,就越准确。而开局的话rollout肯定不准,那么更多的是靠人类高手棋谱对局学出来的“大局观”,而越到后面计算就越准了,它就起主要作用了(那理论上是不是两者的权重动态调整会更好?)

所以我觉得AlphaGo的开局在上帝看了应该也是挺弱的,也许上帝在它下了一步之后就呵呵一笑:你输了1目棋了。

4、人类的开局呢?

我觉得人类超一流的高手可能比AlphaGo强那么一点点(毕竟AphaGo只是用大量一流高手的对局),但是在上帝看来可能比随机下棋只是好那么一点点。所以经常会出现这样的情况:这个布局之前很流行,大家都认为很好,但过了若干年后又认为不好了。

5、人类/机器是怎么自学提高自己呢?

理论上如果计算和存储资源足够,比如最后10步可以精确计算,那么我们就可以存储所有10步之内结束的局面的结果(有点像残局库),但是这个局面太多,只能用一个模型来“压缩”这些结果,提取一些重要的feature来代表局面,这些feature可能就是我们说的势啊,厚薄等等(当然也可能机器学到的feature完全不同)。假设这个模型能99%的准确率预测最终得分。然后再计算11步的所有局面(用的是模型来打分,因此准确率99%),然后又得到更多的训练数据,重新调整模型,这个时候可能就只有98%的准确率了(因为局面变多),再加上之前累计的误差,总的准确率是99% * 98%,...,然后不断的反向传播到开局。如果这么一算,我们开局第一步能算准的概率基本就是0了。

所以我们人类这么几千年这样学习得出的一些经验会经常被推翻,几十年前认为好的开局可能现在认为不好,但过几十年可能又认为好。说白了就是我们离上帝的距离有些太远。

6、AlphaGo强在哪?

从上面的AlphaGo原理的分析来看,AlphaGo比人类强的也只是在计算力上面,但是围棋的分支因子太大,步数又多,而且估值函数太复杂,所以只能在残局上体现出计算力的优势。而开局甚至中局计算力都不行,因此早期基于mini-max(alpha-beta)的搜索根本不行,后来出现了MCTS,但开局和中局亏得太多,所以基本没到残局就游戏结束了。

AlphaGo的特点是开局和中局模拟人类,从上帝的角度来说不一定好,但是至少在人类高手看来还可以(即使会下一些人类认为“业余”的走法,但也不至于太离谱),只要不在残局前崩盘,输得不太多,那么残局它总是能追回来。

7、MCTS和深度神经网络(CNN)哪个重要?

因为深度神经网络非常火,大家可能觉得它是AlphaGo能赢的关键,其实我觉得不是这样。

根据Tian yuandong和AlphaGo的论文,如果不做任何搜索,只是根据“棋感”(其实就是估值函数),CNN最好能达到KGS 3d的水平,我估计也就业余1段的水平。而MCTS算法在没有Value Network的情况下在9*9的棋盘上能战胜人类高手,其实这也间接印证了AlphaGo在残局的实力是搜索(计算)起重要作用。原来基于搜索的软件在开局和中局就崩盘或者亏太多了,所以就不能体现搜索的优势了,另外AlphaGo使用了Value Network,这保证即使搜索有一些小问题,从人类学来的棋感也能保证不至于偏差太大。

AlphaGo的特点是:开局和中局依靠人类的棋谱学习棋感(可以理解为背棋谱,不过比死记硬背好一点,有一定的泛化能力),然后残局的计算能力碾压人类,就好像以前的李昌镐,前面看不出什么好来,但官子你就是下不过他,没办法,不服不行。

8、AlphaGo能成为围棋上帝吗?

我认为AlphaGo离上帝(最优解)其实还是差得老远的,尤其是开局和中局。

其实这也间接的说明人类在开局上其实也离最优解差得太远。人类几千年也下不了多少盘棋(而且水平越差的人的棋对整个人类围棋没有太大帮助),我们认为一个开局是否好,只能更加水平相似的高手下这个布局的胜率来推测它的好坏。但如果我们在最后50步的时候误差就很大,那么往前传播时积累的误差就更大了,我们可能经常忽略了一个看起来不好的走法,而这个走法可能就是“支持”这个开局的关键。

当然AlphaGo的残局比人厉害,那么就可以通过自己对弈来学习,然后往前传播误差。

但是由于这个问题本质是NP的,即使它用了MCTS的方法来避免“明显不好”的走法。但是由于围棋的复杂性,可能某个“看起来不好”的走法可能恰恰是一个关键的胜负手呢?另外根据之前的分析,即使每步都能99%的准确,那么往前推100步准确的可能性也基本是0了。

因此如果人类不能解决NP问题,不能提出计算能力超过图灵机的计算模型,那么人类制造的机器也是不太可能解决这个问题的(当然这只是我的直觉,不知道能不能数学上证明)。不过即使这样,能制造和人类一样,虽然质不能超越人类,但量能超越人类的机器也是很有意义的。

9、怎么能验证这些看法?

新闻说AlphaGo提前30分钟认为自己必胜,这是个很强有力的证据,我们看看30分钟还有多少棋,可以估算AlphaGo自认为能算准多少步。

方法一,看接下来3盘棋,如果都是人类觉得李世石走得还可以或者稍微领先,最后都翻盘,那么就是一个证据。

方法二,人类和AlphaGo下开局和中局,然后到了AlphaGo认为可以比较准确计算的时候让它来评估好坏。

方法三,找一盘人类认为可以但是被翻盘的局面,然后人类和AlphaGo换个颜色来下,如果还是AlphaGo获胜,那么也是一个证据。

方法四,看AlphaGo对自己的打分,是不是有出现过认为自己落后,后来又领先。

那么作为人类选手,应该怎么和AlphaGo下棋呢?

我觉得可以试试的策略就是中前期利用自己超一流的棋感尽量占优,然后残局导向简单变化的局面。开局不要被怪招吓到,我们认为是弱手就要严厉打击,我觉得机器的开局不怎么样。当然我不懂围棋,只是从程序员的角度的个人看法。

作者李理,出门问问NLP工程师。

相关推荐
热点推荐
突然爆火!浙江老板月赚8万,忙到凌晨4点!有客人专门从外地赶来…

突然爆火!浙江老板月赚8万,忙到凌晨4点!有客人专门从外地赶来…

浙江之声
2024-04-17 18:36:39
太突然!知名品牌被曝接连撤柜,网友:买完第二天就就降价、代购比官旗便宜一半

太突然!知名品牌被曝接连撤柜,网友:买完第二天就就降价、代购比官旗便宜一半

中国商报
2024-04-16 19:03:42
齐祖含金量还在上升!身价12.7亿欧元的曼城也无法完成欧冠卫冕

齐祖含金量还在上升!身价12.7亿欧元的曼城也无法完成欧冠卫冕

直播吧
2024-04-18 06:35:31
我1973年入伍,给首长当了三年警卫员,后调入小车班,娶了女护士

我1973年入伍,给首长当了三年警卫员,后调入小车班,娶了女护士

老冯故事汇
2024-04-18 06:11:37
阿娇还是不婚族,而前夫赖弘国喜晒二胎B超,结婚两年抱俩超幸福

阿娇还是不婚族,而前夫赖弘国喜晒二胎B超,结婚两年抱俩超幸福

麦大人
2024-04-11 12:59:06
替补奇兵!德朗-赖特半场三分3中2拿6分2板2助2断&正负值+17!

替补奇兵!德朗-赖特半场三分3中2拿6分2板2助2断&正负值+17!

直播吧
2024-04-18 08:31:38
成都一业主换燃气表20天欠费1万7!燃气公司和相关部门介入调查,为何各地频现换新表气费暴增?

成都一业主换燃气表20天欠费1万7!燃气公司和相关部门介入调查,为何各地频现换新表气费暴增?

和讯网
2024-04-17 17:06:17
赵丽颖修改微博简介,疑似回应马丽的内涵,越来越精彩了

赵丽颖修改微博简介,疑似回应马丽的内涵,越来越精彩了

娱评人吴清功
2024-04-16 16:10:55
泽连斯基:已无足够导弹用于防卫!为何不帮乌拦截导弹? 白宫:乌克兰又不是以色列,美国无意参战

泽连斯基:已无足够导弹用于防卫!为何不帮乌拦截导弹? 白宫:乌克兰又不是以色列,美国无意参战

每日经济新闻
2024-04-16 18:29:13
35岁杨颖上台颁奖,港媒“有意”关掉美颜,baby颜值翻车了

35岁杨颖上台颁奖,港媒“有意”关掉美颜,baby颜值翻车了

木子爱娱乐大号
2024-04-15 13:03:35
震惊!我国竟是全球第二多艾滋病患者国家!为何蔓延势头如此迅猛

震惊!我国竟是全球第二多艾滋病患者国家!为何蔓延势头如此迅猛

杂谈哥闲谈
2024-04-12 23:52:25
浙商银行行长张荣森:理财资产已全部回表

浙商银行行长张荣森:理财资产已全部回表

北京商报
2024-04-17 19:22:03
NBA历史最贵球队分崩离析!仅3人确定回归 3千万老将恐被交易

NBA历史最贵球队分崩离析!仅3人确定回归 3千万老将恐被交易

末位侃球
2024-04-18 07:31:08
事业单位迎来“大地震”,新政策或将全国实行,毕业生要开心了

事业单位迎来“大地震”,新政策或将全国实行,毕业生要开心了

娱乐的硬糖吖
2024-04-18 07:15:17
第三后卫亮相!杜锋起用大心脏杀手,顶替赵锦洋,季后赛可成奇兵

第三后卫亮相!杜锋起用大心脏杀手,顶替赵锦洋,季后赛可成奇兵

小豆豆赛事
2024-04-18 03:00:41
A股:大家要提前做好准备,A股很可能会出现更大级别的大涨?

A股:大家要提前做好准备,A股很可能会出现更大级别的大涨?

财经大拿
2024-04-18 03:10:03
伊朗GPS被关闭,导弹飞行2000公里末端S机动,炸点仍然精确到米级

伊朗GPS被关闭,导弹飞行2000公里末端S机动,炸点仍然精确到米级

二次元小韩
2024-04-16 02:40:27
浪潮软件2023年营收25.53亿元

浪潮软件2023年营收25.53亿元

北京商报
2024-04-17 22:55:04
资本捧杀10年,中国出现了1亿剩女

资本捧杀10年,中国出现了1亿剩女

枫冷慕诗
2024-02-29 18:56:03
退役后变美的四位运动员:郭跃越来越有女人味,陈若琳二次发育

退役后变美的四位运动员:郭跃越来越有女人味,陈若琳二次发育

凤幻洋
2024-04-16 12:03:51
2024-04-18 09:00:49

头条要闻

媒体:中美防长通话超1小时 谈及台湾、南海"针锋相对"

头条要闻

媒体:中美防长通话超1小时 谈及台湾、南海"针锋相对"

体育要闻

8扑+拒2点球!皇马门将欧冠2场直接封神

娱乐要闻

霍建华老了?总比糊了强

财经要闻

重大违法强制退市!今年首例

科技要闻

投资者迫切想问马斯克,你还搞不搞Model 2

汽车要闻

一口气发三款新车 方程豹汽车全集结

态度原创

家居
亲子
艺术
本地
公开课

家居要闻

黑域奢境 光影与色彩创造空间专属记忆

亲子要闻

爸爸看女儿化妆,眼睛都不带眨的,妥妥的女儿奴

艺术要闻

艺术名画|波兰当代艺术家威廉·萨斯纳尔的绘画作品

本地新闻

不懂就问,霸道总裁为什么没有广东人?

公开课

反抗痛苦,最好的方式就是读书

无障碍浏览 进入关怀版
×