网易首页 > 网易号 > 正文 申请入驻

星阵围棋的研发背景与星阵技术

0
分享至

一、研发背景

2016年3月,DeepMind团队的围棋AI程序AlphaGo 4:1战胜世界冠军李世石九段,成为人工智能历史上的里程碑事件。2017年5月,改进后的AlphaGo再次与柯洁九段对弈,以3:0获得完胜。DeepMind团队发表在《自然》杂志上的两篇重磅论文,阐释了这两次胜利背后的技术驱动力。

第一篇论文(Mastering the game of Go with deep neural networks and tree search)主要讲述了如何使用监督学习的方法,通过深度学习技术,学习人类棋谱,达到略高于人类顶尖棋手的水平。这篇论文证明了深度学习技术的优越性。战胜李世石九段的AlphaGo版本就是这篇论文的工程实现。深度学习是一种数据驱动的方法,数据的数量和质量决定了学习效果的上限。这篇论文对应的AlphaGo版本,学习的数据是人类棋谱,因此其水平受限于人类棋谱的数量和质量。

第二篇论文(Master the game of Go without human knowledge)发表于2017年,主要思想是使用强化学习方法突破人类棋谱水平和数量的瓶颈。通过自我对弈生成棋谱,再学习这些棋谱来自我提高,如此不断重复,螺旋上升,可以超越上一版的水平。2017年5月3:0击败柯洁的版本,就是第二篇论文的产物。基于强化学习技术的AlphaGo-Zero从零开始,学习40天后,达到了远超人类顶尖棋手的水平。

AlphaGo-Zero在包括围棋的完全信息博弈领域开辟了一条崭新的道路。也给了后继研究者站在巨人肩膀上持续工作,改进算法的可能空间。AlphaGo-Zero存在一些问题,使得它尚未达到完美:

首先,是水平上限的问题。AlphaGo-Zero证明了使用强化学习技术可以提高AI的棋力,但是从论文的实验数据来看这种棋力增长的速度越来越慢,后期趋向停滞。也就是说,在这一框架下,棋力的提升存在瓶颈。

其次,是资源开销问题。AlphaGo-Zero的方法自对弈消耗的计算资源空前巨大,DeepMind团队为了打造AlphaGo-Zero,使用了2000个TPU进行自对弈,总耗资过亿元。这样的算力消耗是中小型学术机构、研究团队难以承受的,需要从算法层面做出改进,降低训练使用的计算资源开销。

第三,是算法的通用性、灵活性、可迁移性的问题。AlphaGo-Zero的强化学习算法,基于单一、特定的围棋规则,从实现角度来说,就是中国规则黑贴3.75子。一旦规则改变,就需要重新训练,之前投入的大量计算资源也白白浪费了。全世界的围棋规则并没有统一,而如果使用强化学习方法为各个围棋规则分别训练围棋AI,会造成极大的浪费。

二、星阵技术

星阵围棋力求使用更少的训练资源,实现更具通用性、更人性化的高水平围棋智能。它在AlphaGo的基础上做了一些技术创新。星阵的主要贡献涉及到机器学习的两个重要领域,多任务学习和迁移学习。

多任务学习

多任务学习(MTL)是机器学习中一个很有前景的领域,它利用多个学习任务中包含的有用信息来帮助每个任务学习到更为准确的学习器。假定所有任务或部分任务的学习目标是相关联的,那么联合多个学习任务会比单独学习它们得到更好的性能。

与AlphaGo只使用策略网络(Policy Network)和价值网络(Value Network)不同,星阵同时学习了四个任务,另外两个是领地网络(Area Network)和子差网络(Score Network)。领地网络基于任意给定盘面,分别估算棋盘上每个交叉点最终归属黑棋或白棋的概率。子差网络基于任意给定盘面,估算最终黑方子数与白方子数的差值。

在领地网络和子差网络的帮助下,星阵对局面的判断更加全面、立体,这也让星阵学会了像人一样“点目”,而不仅仅是依靠胜率来下棋。在胜率接近的情况下,星阵会选择子差更优的下法,将领先的优势继续扩大,或者试图缩小落后的目数,咬住局面寻找机会。这一技术特点也形成了星阵“不退让围棋”的棋风。

多任务学习能够行之有效,有其深层次的原因。首先,越多任务的越多标签,意味着数据量的增加,能够显著降低过拟合的风险。其次,越多任务同时学习,越容易捕捉到同一个隐藏特征的表示,这些隐藏特征能对多个任务同时产生作用。此外,还可以帮助某些任务获取单独训练无法学习到的隐藏特征表示。

迁移学习

机器学习的模型训练是靠数据驱动的,但在很多情况下数据极端匮乏,迁移学习就是解决数据量匮乏的一种重要方法。假定源域具有充足的数据,并已经训练出足以解决源问题的模型,迁移学习利用源域中的现有模型,帮助在缺乏训练样本的目标域,训练出解决目标任务的模型。使用迁移学习有两个假设,源域与目标域的样本分布不同;目标域严重缺乏带有标签的样本。

围棋规则并没有在全世界范围内统一,不同围棋规则下的训练样本并不通用。目前围棋AI大多使用19路棋盘,中国规则黑贴3.75子,此规则下的训练样本相对充足。星阵通过引入迁移学习技术,将中国规则黑贴3.75子的模型,用较小的代价,迁移到其他规则下。迁移学习为星阵带来了极大的算法灵活性。星阵因此可以进行任意路数的对局,也可以进行任意贴目的对局,可以进行让子棋的对弈,完美适应中国规则数子法和韩日规则数目法。

“星阵围棋”官方微博、微信公众号、头条号、网易号、一点号、搜狐号、企鹅号、大鱼号、百家号同步上线,欢迎广大围棋及人工智能爱好者前往关注!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冯唐:去趟重症病房,你就会明白,很多纠缠根本不值得

冯唐:去趟重症病房,你就会明白,很多纠缠根本不值得

清风拂心
2025-09-14 16:15:04
日本下届首相落定?不仅反华,而且反美反犹,特朗普尤其需要当心

日本下届首相落定?不仅反华,而且反美反犹,特朗普尤其需要当心

健身狂人
2025-09-16 07:33:38
王晶曝新消息,古天乐低调在美国完婚,网友:年纪大结婚很正常

王晶曝新消息,古天乐低调在美国完婚,网友:年纪大结婚很正常

阿废冷眼观察所
2025-09-14 12:59:27
史上最大“养老骗局”终于倒下

史上最大“养老骗局”终于倒下

快刀财经
2025-09-01 23:02:36
52岁金庸爱上16岁林乐怡不久,儿子在美国自杀,妻子:她必须结扎

52岁金庸爱上16岁林乐怡不久,儿子在美国自杀,妻子:她必须结扎

史笔似尘钩
2025-09-15 21:11:56
詹国枢:我早有预感:贾国龙如此自负,出事是迟早的事!

詹国枢:我早有预感:贾国龙如此自负,出事是迟早的事!

豆腐脑观察局
2025-09-16 01:00:03
镍矿危机!印尼突然查封青山矿场,全球电池供应链告急

镍矿危机!印尼突然查封青山矿场,全球电池供应链告急

环球零碳
2025-09-15 20:47:43
拉什福德首发助攻,曝巴萨向曼联买断前提!维拉用世界杯激励桑乔

拉什福德首发助攻,曝巴萨向曼联买断前提!维拉用世界杯激励桑乔

罗米的曼联博客
2025-09-15 09:40:51
老罗火烧华与华,为什么会有企业愿花600万咨询费?

老罗火烧华与华,为什么会有企业愿花600万咨询费?

刀客Doc
2025-09-15 23:21:29
卖掉燃油车,开上电车3年后,送给想要买新能源电车的人5个忠告!

卖掉燃油车,开上电车3年后,送给想要买新能源电车的人5个忠告!

诗意世界
2025-08-16 23:31:43
普通人活到80岁的概率是多少?10%、 30%还是50%,或者更高?

普通人活到80岁的概率是多少?10%、 30%还是50%,或者更高?

暖心人社
2025-08-09 22:31:41
新股友升股份公布中签号码,发行价有些高,股民中签或许纠结!

新股友升股份公布中签号码,发行价有些高,股民中签或许纠结!

数据挖掘分析
2025-09-16 07:02:36
闹大了!西贝预制菜事件发酵,深圳城中村挂出“拒绝预制菜”标识

闹大了!西贝预制菜事件发酵,深圳城中村挂出“拒绝预制菜”标识

明月杂谈
2025-09-15 10:50:52
国家钱袋子持续萎缩,“提高财政收入占比”迫在眉睫,如何解决?

国家钱袋子持续萎缩,“提高财政收入占比”迫在眉睫,如何解决?

影史侃谈
2025-09-16 07:24:29
一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

一个花卷33,一碗豆腐汤要69,贵到离谱的西贝,为什么总是挤满人

北纬的咖啡豆
2025-09-13 19:14:42
深挖一下丨西贝,到底是啥来头?

深挖一下丨西贝,到底是啥来头?

小鹏财经
2025-09-13 15:43:46
那些被“骗”到威海,花5W买海景房的人!后悔了么?

那些被“骗”到威海,花5W买海景房的人!后悔了么?

背包旅行
2025-09-14 15:03:54
港媒:中国小学迎来大批俄罗斯学生

港媒:中国小学迎来大批俄罗斯学生

环球网资讯
2025-09-16 07:01:35
日军最奇葩大将,打仗消极却热衷种地,带领14万大军向三千人投降

日军最奇葩大将,打仗消极却热衷种地,带领14万大军向三千人投降

近史谈
2025-09-15 16:53:19
小米手机官方泄露17 Pro Max新机图片!采用副屏设计

小米手机官方泄露17 Pro Max新机图片!采用副屏设计

手机中国
2025-09-15 17:43:12
2025-09-16 09:27:00
星阵围棋
星阵围棋
高水平人工智能围棋程序
10文章数 189关注度
往期回顾 全部

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

头条要闻

牛弹琴:特朗普又夸中国了 羡慕中又透出一些焦虑不服

头条要闻

牛弹琴:特朗普又夸中国了 羡慕中又透出一些焦虑不服

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

科技要闻

中国将依法依规开展TikTok技术出口审批

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

家居
本地
时尚
公开课
军事航空

家居要闻

典雅大气 舒适中带童趣

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

2025秋冬靴子八大流行趋势!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版