网易首页 > 网易号 > 正文 申请入驻

AlphaZero如何学习国际象棋的?

0
分享至

DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik通过概念探索、行为分析和对其激活的检查,探索了人类知识是如何获得的,以及国际象棋概念如何在 AlphaZero 神经网络中表示。

AlphaZero 在短短四个小时内掌握了所有国际象棋专业知识。 AlphaZero 不仅要颠覆国际象棋世界,还要颠覆整个世界 战略决策领域。 AlphaZero 胜利者代表了另一个重要方面的突破:这是一种可以推广到其他学习任务的算法。

众所周知,深度神经网络可以学习人类无法理解的不透明、无法解释的表示。 因此从科学和实践的角度来看,探索像AlphaZero这样自学成才的超人类神经网络代理实际上在学习什么以及如何学习,才是最重要的。

在新论文Acquisition of Chess Knowledge in AlphaZero中,DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik探索了 AlphaZero 如何以及在多大程度上获取人类知识,以及如何在其网络模型中表示国际象棋概念。 他们通过全面的概念探索、行为分析和对 AlphaZero 激活的检查来做到这一点。

像AlphaZero这样复杂的神经网络代理能学到什么?这个问题既有科学意义又有实践意义。如果强神经网络的表示与人类的概念没有相似之处,我们理解对其决策的解释的能力将受到限制,最终也会限制在神经网络可解释性方面的成就。在这项工作中,论文证明了AlphaZero神经网络在下棋时可以获得人类知识。通过探索广泛的人类国际象棋概念,论文展示了这些概念在如何在AlphaZero网络中表示。还提供专注于开局的行为分析,包括定性分析国际象棋大师Vladimir Kramnik。最后,对AlphaZero表示的底层细节进行了初步查看,并将结果的行为分析和表示分析放到网上。

研究人员的研究前提是:如果像 AlphaZero 这样的强神经网络的表示与人类概念没有相似之处,我们理解其决策的解释的能力将受到限制,最终限制了我们可以通过神经网络可解释性实现的目标。

该团队的研究旨在提高对以下方面的理解:

· 人类对于知识的编码

· 如何在训练中获取知识

· 通过编码国际象棋概念重新解释价值函数

· AlphaZero 的进化与人类历史的比较

· AlphaZero 的棋子下一步移动候选策略的演变

· 无监督概念发现和证明

该团队从大型输入数据集的网络激活中检测人类概念,在 AlphaZero 的国际象棋自我对弈训练过程中,在每个块和多个检查点上探测每个概念。 这使他们能够建立一张图片,了解在训练期间学习的内容以及计算网络的位置。

用于选择 Stockfish 8 和自定义概念的时间地点图。 下图,我们将一个 ResNet“块”算作一个层。

回归残差模式

该团队使用稀疏线性探测方法检查国际象棋知识是如何逐渐获取和表示的,这样可以确定 AlphaZero 如何表示广泛的人类国际象棋概念。 他们通过说明在训练时间学习什么概念以及在“什么时间什么地点”图中的网络来可视化这种概念知识的获取。

在研究内部表征是如何随着时间变化的之后,该团队接着研究了这些变化的表征是如何导致行为的变化的,方法是测量一组指定的棋位的移动概率的变化;通过将自我游戏训练中的进化与人类顶级游戏中移动选择的进化进行比较。

最后,考虑到已经建立的用于预测人类概念的AlphaZero的激活,通过使用非负矩阵分解(NMF)来直接查看这些激活,将AlphaZero的表示分解为多个因素,以获得AlphaZero网络正在计算的内容的补充视图。

下图确实是我们看到的,它将人类历史与AlphaZero在训练期间的历史偏好进行了比较。

如果训练不同版本的AlphaZero,得到的棋手可能会有不同的偏好。有趣的是,这意味着不存在“独一无二”的优秀棋手!下表显示了四种不同AlphaZero神经网络的偏好:

上表的先验是在 100 万次训练步骤后给出的。 有时 AlphaZero 收敛成为喜欢 3…a6 的玩家,有时 AlphaZero 收敛成为喜欢用 3…Nf6 的玩家。

但是AlphaZero到底是怎么想的呢?AlphaZero如何评估位置?AlphaZero的神经网络评估函数没有Stockfish的评估函数那样的结构层次:Stockfish将一个位置分解为一系列概念(例如king safety, mobility, and material),并将这些概念结合起来,以达到对位置的整体评估。而AlphaZero输出的值函数范围从-1(一定会失败)到+1(一定会胜利),没有明确的中间步骤。虽然神经网络评估函数在计算一些东西但并不清楚是什么。为了了解正在被计算的内容,DeepMind和谷歌Brain的研究人员使用Stockfish概念值来尝试预测AlphaZero的位置评估函数(类似于通过预测游戏结果获得棋子值的方式)。

这种方法允许研究人员估算AlphaZero在某个位置的值,以及这种评估是如何随着自训练的进展而发展的。如上图所示,material 在AlphaZero的评估中较早出现为重要因素,但在后期的训练中,随着king safety等更复杂的概念的重要性上升,material (子力)的重要性逐渐下降。这种进化与人类惊人地相似:在学习国际象棋的早期过程中,我们只是通过棋子子力来评估位置,然后随着我们了解的更多对位置的其他方面有了更丰富的理解。

该团队对 AlphaZero 神经网络从初始化到训练结束的进程的研究得出了以下见解:

1)在 AlphaZero 网络中可以找到许多人类概念;

2)通过“what-when-where plots”呈现训练过程中知识获取的详细画面;

3)概念的使用和相对概念价值随着时间的推移而演变,AlphaZero 最初主要关注子力,更复杂和微妙的概念在训练中才出现作为价值函数的重要预测指标;

4) 与历史人类游戏的比较表明,人类游戏的发展方式存在显着差异,但在 AlphaZero 的自我游戏策略的演变方面也有惊人的相似之处。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!集体拉升!变天了?

突发!集体拉升!变天了?

魏家东
2026-02-20 09:28:27
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
4人出局引爆悬念!女篮阵容大洗牌,李月汝真的悬了

4人出局引爆悬念!女篮阵容大洗牌,李月汝真的悬了

卿子书
2026-02-20 08:36:01
小妈祖换事件新料!旧照首度曝光,八年坚守每年正月初二参与出游

小妈祖换事件新料!旧照首度曝光,八年坚守每年正月初二参与出游

一盅情怀
2026-02-20 16:47:58
大反转!雷军宣布停产,一代神车没了!

大反转!雷军宣布停产,一代神车没了!

财经要参
2026-02-18 22:21:37
湖北烟花店爆炸后续:当地人曝内幕 可以逃生 一致命点害了12人

湖北烟花店爆炸后续:当地人曝内幕 可以逃生 一致命点害了12人

离离言几许
2026-02-19 14:59:17
美国华裔选手夺金登上热搜第2 仅次于宁忠岩 美媒借她恶评谷爱凌

美国华裔选手夺金登上热搜第2 仅次于宁忠岩 美媒借她恶评谷爱凌

念洲
2026-02-20 11:19:15
特朗普将解密外星生命相关文件,实物黄金即将迎来宇宙级暴涨

特朗普将解密外星生命相关文件,实物黄金即将迎来宇宙级暴涨

东方豪侠
2026-02-20 14:28:41
上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上观新闻
2026-02-20 10:19:09
谷爱凌又逆风翻盘:失误后从第20冲上第5,中国队4人参赛全进决赛

谷爱凌又逆风翻盘:失误后从第20冲上第5,中国队4人参赛全进决赛

侃球熊弟
2026-02-20 05:28:14
毛岸英究竟怎么牺牲的?2020年彭德怀发的绝密电报公开,写了什么

毛岸英究竟怎么牺牲的?2020年彭德怀发的绝密电报公开,写了什么

楚风说历史
2026-02-18 07:25:03
全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

老马拉车莫少装
2026-02-20 15:13:49
研究显示:“猎鹰9”火箭解体致高空大气锂原子浓度飙升10倍

研究显示:“猎鹰9”火箭解体致高空大气锂原子浓度飙升10倍

界面新闻
2026-02-20 16:34:02
南方大米产量第一,为啥超市里大部分还是东北米?南方米去哪了?

南方大米产量第一,为啥超市里大部分还是东北米?南方米去哪了?

天下十三洲猎奇
2026-02-18 23:53:55
破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

靠谱电影君
2026-02-19 21:28:54
安德鲁被警方逮捕,英国国王发声

安德鲁被警方逮捕,英国国王发声

环球网资讯
2026-02-19 20:46:06
英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

史政先锋
2026-02-20 14:26:29
王心迪晋级自由式滑雪男子空中技巧决赛

王心迪晋级自由式滑雪男子空中技巧决赛

环球网资讯
2026-02-20 18:27:33
春晚这一天,刘敏涛秒了周慧敏,才懂造型得体的含金量有多高

春晚这一天,刘敏涛秒了周慧敏,才懂造型得体的含金量有多高

大铁猫娱乐
2026-02-20 01:40:03
东北大妈偷菜谎称山东人后续:弟弟单位同事证明,脸都丢尽了

东北大妈偷菜谎称山东人后续:弟弟单位同事证明,脸都丢尽了

离离言几许
2026-02-20 15:57:01
2026-02-20 20:11:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1925文章数 1452关注度
往期回顾 全部

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

头条要闻

国外男子冬夜将女友单独留冰天雪地山顶 女方被冻死

头条要闻

国外男子冬夜将女友单独留冰天雪地山顶 女方被冻死

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
本地
教育
数码
公开课

亲子要闻

一幼儿园门口“烧脑”春联引热议,有人看半天没读懂!老师回应:孩子们不会写字,就用符号表达祝福

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

教育要闻

“院校专业组”志愿怎么填?2026年最新填报步骤与策略

数码要闻

amazfit全新户外旗舰T-Rex Ultra 2发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版