Nature收录DeepMind“四代AlphaGo”论文，有望成为广泛使用的强化学习算法

Nature收录DeepMind“四代AlphaGo”论文，有望成为广泛使用的强化学习算法｜解读

分享至

继 AlphaFold 大火之后，DeepMind 又一款算法蹿红。

12 月 23 日，DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules，并详细介绍了这款名为 MuZero 的 AI 算法。

视频 | 在下棋的 MuZero

如果说 AlphaGo 是一代 “爷爷”，那么 AlphaGo Zero 就是二代 “爸爸”，AlphaZero 则是三代 “孙儿”，MuZero 就是四代 “重孙”。其中，出生最晚的 “重孙” MuZero 最厉害。

图 | “四代同堂”

伊利诺伊大学香槟分校计算机科学系的助理教授、《麻省理工科技评论》2020 年度全球 “35 岁以下科技创新 35 人” 上榜者李博告诉 DeepTech，四代之间的区别可总结如下：

“爷爷” AlphaGo 提供了人类知识（Human Knowledge）和规则（Rules），因因此可训练出一个大的策略树，来完成搜索、以及帮助做出决策；
“爸爸” AlphaGo Zero 去掉了人类知识部分，而是只给 AI 提供规则，然后通过自我博弈，就能学习出自己的策略；
“孙儿” AlphaZero 则可通过完全信息，利用泛化能力更强的强化学习算法来做训练，并学会不同的游戏，如围棋、国际象棋和日本将棋。
“重孙” MuZero 则是前级阶段的升级版，即在没有人类知识以及规则的情况下，，它能通过分析环境和未知条件（Unknown Dynamics），来进行不同游戏的博弈。

不过，MuZero 并非首次露面，它诞生于 2019 年 11 月，当时 DeepMind 在预印本平台 arXiv 发表了论文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。

今年 12 月 23 日，Nature 于一年后收录了该论文，这也是 MuZero 此次走红的原因。

图 | Nature 收录 MuZero 的论文

论文的主要思路在于，人类智慧之所以高级，表现之一在于有预测能力，比如看到月朗星稀，即可推断明天大概率是晴天。在重复性计算方面，机器已经非常擅长，但一直缺乏预测能力。此前， DeepMind 曾提出了前向搜索和基于模型的规划算法两种方案。

就前向搜索方案来说，二代 AlphaZero 已使用过该方案，它在理解游戏规则的前提下，可通过自我模拟和复盘，去制定下棋时的最佳策略。但在游戏规则未知的情况下，前向搜索方案就会 “失灵”。

就基于模型的规划算法方案来说，它能在学习环境动态后，进行精准建模即环境建模，然后制定出最佳策略。但是，环境建模比较复杂，无法让机器良好把握 Atari 游戏。

这意味着，上述两种方案都不是最佳选，因此 MuZero 放弃对环境中所有要素进行建模的方法，而是针对三个最重要的要素进行建模：即价值（The value）、策略（The policy）和奖励（The reward）。

仅需两到三周，就能完成对一款 Atari 游戏的训练

谈及建模过程，论文共同作者、DeepMind 算法工程师 Julian Schrittwieser 告诉媒体：“MuZero 前期的训练过程需要大量算力，但在训练结束后，它仅需很少的算力就能做出决策，这甚至能在一部智能手机上完成。而前期的训练过程所需的算力其实也并不是什么天文数字，单块 GPU 仅需两到三周就能完成 MuZero 针对一个 Atari 游戏的训练。

具体建模时，MuZero 从下面动图的顶部开始，使用表征功能 H将当前状况、映射到神经网络中的嵌入层（S0），然后使用动态函数（G）和预测函数（F），来推测接接下来的动作序列（A）。

图 | 基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划

只知道下一步怎么做还不够，还得判断做得好不好，为此 MuZero 可以跟环境互动，进而模拟出对手的下一步走向。

图 | MuZero 通过模拟下棋走向训练神经网络

每一步棋的走法，都会被累加为棋局最后的奖励。如下图，每当策略函数 P 获得一次预测走法，价值函数 V 就会得到一次奖励。

图 | 预测走法带来奖励

凭借该策略，在围棋、国际象棋和日本将棋中，MuZero 在多训练步骤的情况下，达到甚至超过了前辈 AlphaZero 的水平。下图分别为 MuZero 在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果，横坐标代表着训练步骤数量，纵坐标表示 Elo 评分（Elo，一个衡量各类对弈活动水平的评价方法）。

图 | 在国际象棋、日本将棋、围棋和 Atari 游戏上的评估结果

其中，蓝色线代指 MuZero 的表现，黄色线代表三代 AlphaZero 的表现，可以看出在围棋和 Atari 游戏中，MuZero 的表现比上一代更佳。

此外，为验证 MuZero 的精确规划能力，DeepMind 让其尝试学习了围棋高精度规划能力，也就是下完一步棋就能判断胜负。

如下图右侧，在 Ms Pac-Man 游戏的测试中，训练时间越长、MuZero 就更强大，当下一步棋的判断时间从 0.1 秒增加到 50 秒，Elo 指标就能增加 1000，这相当于从业余棋手跳跃到最强职业棋手的水平。

图 | 左：步骤判断时间和围棋 Elo 指标之间的关系；右：训练时长和训练效果的关系

李博认为： “这种利用强化学习进行端到端训练的方法，是 AI 的重点之一，对于强化学习来说，其本质之一是要设计合适的奖励（Reward Function），并且可以考虑到不确定环境条件从而提高算法的泛化能力。”

而另一位不愿具名的计算机教授表示，DeepMind 攻克的第一个游戏就是 Atari，因为 Atari 是基准线，能测出算法到底是否管用。传统的强化学习，学习的是 Agent (智能体)，而 MuZero 对下棋规则（Environment ）也做了建模，与此同时它还能学会规则，这就是它的最大创新。但从机器学习角度来看，无非就是搜索空间变得更大，所以计算量会大大增加，理论上仍旧是强化学习。

Muzero 有望成为广泛使用的强化学习算法

对于其进步，重庆大学汽车工程学院副教授王科评价称：“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化，那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是，Muzero 有潜力成为广泛使用的强化学习算法。”

对于它的应用前景，另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说：“目前，我们正在尝试将 MuZero 用于优化视频压缩。”

除优化视频压缩之外，MuZero 的潜在应用还包括自动驾驶技术和医药生物研究领域里的蛋白质设计，比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

王科向 DeepTech 重点展望了 MuZero 可能在自动驾驶领域的应用： “Muzero 作为 DeepMind 最新 AI 算法，具备了一定的类人成长和学习能力。” 他以自动驾驶汽车举例称，目前的自动驾驶汽车离实现 L5 级完全无人驾驶还很远，还都需要在 ODD（Operational Design Domain）即运行设计域中运行，其原因是当前自动驾驶汽车技术无法应对未知开放环境带来的挑战，相信 MuZero 强大的学习能力和规划能力，能在一定程度上推动包括自动驾驶汽车在内的很多领域的进步。”

-End-

翻译支持：武文浩

参考：

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules

https://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.