网易首页 > 网易号 > 正文 申请入驻

Nature收录DeepMind“四代AlphaGo”论文,有望成为广泛使用的强化学习算法|解读

0
分享至

继 AlphaFold 大火之后,DeepMind 又一款算法蹿红。

12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,并详细介绍了这款名为 MuZero 的 AI 算法。

视频 | 在下棋的 MuZero

如果说 AlphaGo 是一代 “爷爷”,那么 AlphaGo Zero 就是二代 “爸爸”,AlphaZero 则是三代 “孙儿”,MuZero 就是四代 “重孙”。其中,出生最晚的 “重孙” MuZero 最厉害。

图 | “四代同堂”

伊利诺伊大学香槟分校计算机科学系的助理教授、《麻省理工科技评论》2020 年度全球 “35 岁以下科技创新 35 人” 上榜者李博告诉 DeepTech,四代之间的区别可总结如下:

  • “爷爷” AlphaGo 提供了人类知识(Human Knowledge)和规则(Rules),因因此可训练出一个大的策略树,来完成搜索、以及帮助做出决策;

  • “爸爸” AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;

  • “孙儿” AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。

  • “重孙” MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknown Dynamics),来进行不同游戏的博弈。

不过,MuZero 并非首次露面,它诞生于 2019 年 11 月, 当时 DeepMind 在预印本平台 arXiv 发表了论文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。

今年 12 月 23 日,Nature 于一年后收录了该论文,这也是 MuZero 此次走红的原因。

图 | Nature 收录 MuZero 的论文

论文的主要思路在于,人类智慧之所以高级,表现之一在于有预测能力,比如看到月朗星稀,即可推断明天大概率是晴天。在重复性计算方面,机器已经非常擅长,但一直缺乏预测能力。此前, DeepMind 曾提出了前向搜索基于模型的规划算法两种方案。

就前向搜索方案来说,二代 AlphaZero 已使用过该方案,它在理解游戏规则的前提下,可通过自我模拟和复盘,去制定下棋时的最佳策略。但在游戏规则未知的情况下,前向搜索方案就会 “失灵”。

就基于模型的规划算法方案来说,它能在学习环境动态后,进行精准建模即环境建模,然后制定出最佳策略。但是,环境建模比较复杂,无法让机器良好把握 Atari 游戏。

这意味着,上述两种方案都不是最佳选,因此 MuZero 放弃对环境中所有要素进行建模的方法,而是针对三个最重要的要素进行建模:即价值(The value)、策略(The policy)和奖励(The reward)。

仅需两到三周,就能完成对一款 Atari 游戏的训练

谈及建模过程,论文共同作者、DeepMind 算法工程师 Julian Schrittwieser 告诉媒体:“MuZero 前期的训练过程需要大量算力,但在训练结束后,它仅需很少的算力就能做出决策,这甚至能在一部智能手机上完成。而前期的训练过程所需的算力其实也并不是什么天文数字,单块 GPU 仅需两到三周就能完成 MuZero 针对一个 Atari 游戏的训练。

具体建模时,MuZero 从下面动图的顶部开始,使用表征功能 H将当前状况、映射到神经网络中的嵌入层(S0),然后使用动态函数(G)和预测函数(F),来推测接接下来的动作序列(A)。

图 | 基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划

只知道下一步怎么做还不够,还得判断做得好不好,为此 MuZero 可以跟环境互动,进而模拟出对手的下一步走向。

图 | MuZero 通过模拟下棋走向训练神经网络

每一步棋的走法,都会被累加为棋局最后的奖励。如下图,每当策略函数 P 获得一次预测走法,价值函数 V 就会得到一次奖励。

图 | 预测走法带来奖励

凭借该策略,在围棋、国际象棋和日本将棋中,MuZero 在多训练步骤的情况下,达到甚至超过了前辈 AlphaZero 的水平。 下图分别为 MuZero 在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果,横坐标代表着训练步骤数量,纵坐标表示 Elo 评分(Elo,一个衡量各类对弈活动水平的评价方法)。

图 | 在国际象棋、日本将棋、围棋和 Atari 游戏上的评估结果

其中,蓝色线代指 MuZero 的表现,黄色线代表三代 AlphaZero 的表现,可以看出在围棋和 Atari 游戏中,MuZero 的表现比上一代更佳。

此外,为验证 MuZero 的精确规划能力,DeepMind 让其尝试学习了围棋高精度规划能力,也就是下完一步棋就能判断胜负。

如下图右侧,在 Ms Pac-Man 游戏的测试中,训练时间越长、MuZero 就更强大,当下一步棋的判断时间从 0.1 秒增加到 50 秒,Elo 指标就能增加 1000,这相当于从业余棋手跳跃到最强职业棋手的水平。

图 | 左:步骤判断时间和围棋 Elo 指标之间的关系;右:训练时长和训练效果的关系

李博认为: “这种利用强化学习进行端到端训练的方法,是 AI 的重点之一,对于强化学习来说,其本质之一是要设计合适的奖励(Reward Function),并且可以考虑到不确定环境条件从而提高算法的泛化能力。

而另一位不愿具名的计算机教授表示,DeepMind 攻克的第一个游戏就是 Atari,因为 Atari 是基准线,能测出算法到底是否管用。传统的强化学习,学习的是 Agent (智能体),而 MuZero 对下棋规则(Environment )也做了建模, 与此同时它还能学会规则,这就是它的最大创新。但从机器学习角度来看,无非就是搜索空间变得更大,所以计算量会大大增加,理论上仍旧是强化学习。

Muzero 有望成为广泛使用的强化学习算法

对于其进步,重庆大学汽车工程学院副教授王科评价称:“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。”

对于它的应用前景,另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说:“目前,我们正在尝试将 MuZero 用于优化视频压缩。”

除优化视频压缩之外,MuZero 的潜在应用还包括自动驾驶技术和医药生物研究领域里的蛋白质设计,比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

王科向 DeepTech 重点展望了 MuZero 可能在自动驾驶领域的应用: “Muzero 作为 DeepMind 最新 AI 算法,具备了一定的类人成长和学习能力。” 他以自动驾驶汽车举例称,目前的自动驾驶汽车离实现 L5 级完全无人驾驶还很远,还都需要在 ODD(Operational Design Domain)即运 行设计域中运行,其原因是当前自动驾驶汽车技术无法应对未知开放环境带来的挑战,相信 MuZero 强大的学习能力和规划能力,能在一定程度上推动包括自动驾驶汽车在内的很多领域的进步。

-End-

翻译支持:武文浩

参考:

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules

https://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
九三阅兵后她站上天安门城楼,看完回到台湾说了一句“扎心话”

九三阅兵后她站上天安门城楼,看完回到台湾说了一句“扎心话”

诗意世界
2025-09-13 19:17:11
被3亿彩票砸中的38岁日本社畜,不辞职也不告诉家人,20年后他怎么样了?

被3亿彩票砸中的38岁日本社畜,不辞职也不告诉家人,20年后他怎么样了?

今日日本
2025-08-02 14:05:58
24岁清华女子养狗陪伴自己,30天没出门引楼下担心,警方破门后愣住

24岁清华女子养狗陪伴自己,30天没出门引楼下担心,警方破门后愣住

朝暮书屋
2025-08-06 17:35:01
官方释疑!青海秦刻石认定的五个关键问题

官方释疑!青海秦刻石认定的五个关键问题

大象新闻
2025-09-15 15:27:05
中国芯片专家在米兰被捕后续,中方出手了,仅用一招让美吃哑巴亏

中国芯片专家在米兰被捕后续,中方出手了,仅用一招让美吃哑巴亏

二大爷观世界
2025-07-24 16:40:04
散步8000步错了?医生建议:过了60岁,散步要尽量做到这6点

散步8000步错了?医生建议:过了60岁,散步要尽量做到这6点

荷兰豆爱健康
2025-09-16 10:32:36
“想表现反华,却被中企狠狠拿捏”

“想表现反华,却被中企狠狠拿捏”

观察者网
2025-09-16 16:04:19
苹果调整中国区AirPods Pro 3文案:朝九晚五变为“从早到晚”

苹果调整中国区AirPods Pro 3文案:朝九晚五变为“从早到晚”

PChome电脑之家
2025-09-16 18:07:28
程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

叨唠
2025-09-16 01:37:15
Shams:库里追梦巴特勒已知勇士将签下霍福德、梅尔顿、小佩顿和小库里

Shams:库里追梦巴特勒已知勇士将签下霍福德、梅尔顿、小佩顿和小库里

懂球帝
2025-09-16 07:32:12
全数崩跌,5000万订单成为世界笑柄,订单营销玩不下去了!

全数崩跌,5000万订单成为世界笑柄,订单营销玩不下去了!

柏铭锐谈
2025-09-14 13:12:13
欧冠-毕巴1-3阿森纳:枪手主力中锋只能虐菜,但雄狮并不菜|前瞻

欧冠-毕巴1-3阿森纳:枪手主力中锋只能虐菜,但雄狮并不菜|前瞻

体育世界
2025-09-16 17:44:24
谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了

谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了

量子位
2025-09-15 15:36:13
李湘“爱女”人设崩塌!11年前就怀上二胎,始终把王诗龄当棋子

李湘“爱女”人设崩塌!11年前就怀上二胎,始终把王诗龄当棋子

陈意小可爱
2025-09-16 13:50:26
在鲍蕾麦迪娜面前,王灿的不幸福体现出来了,杜淳的爱真的很敷衍

在鲍蕾麦迪娜面前,王灿的不幸福体现出来了,杜淳的爱真的很敷衍

衡南县融媒体中心
2025-09-15 22:32:31
有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

会计人
2025-09-13 23:50:39
父亲是前外交部部长,妻子是阎维文女儿,他却拒绝父辈光环靠自己

父亲是前外交部部长,妻子是阎维文女儿,他却拒绝父辈光环靠自己

揽星河的笔记
2025-09-15 12:03:42
“嘎子哥”60+秒视频报价25万元

“嘎子哥”60+秒视频报价25万元

极目新闻
2025-09-16 11:07:17
西贝宣布“鳕鱼条”改为用大黄鱼制作,网友质疑货不对板,客服及门店回应

西贝宣布“鳕鱼条”改为用大黄鱼制作,网友质疑货不对板,客服及门店回应

极目新闻
2025-09-15 16:56:02
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2025-09-15 13:35:33
2025-09-16 22:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15631文章数 514086关注度
往期回顾 全部

科技要闻

2025款Apple Watch全系怎么选?

头条要闻

网友称上亿违建豪宅拆除后遗留大片建筑垃圾 当地回应

头条要闻

网友称上亿违建豪宅拆除后遗留大片建筑垃圾 当地回应

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

650km续航 广汽埃安AION RT焕新款9月22日上市

态度原创

房产
教育
游戏
手机
家居

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

教育要闻

“宝藏校长”杨振德:让全校学生近视率3年下降12%,肥胖率下降9% | 致敬,体育教师

AL3-0横扫JDG,晋级败决!Peyz尽力带不动,hope希维尔伤害爆炸

手机要闻

华为 MateBook Pro 鸿蒙笔记本获 HarmonyOS 5.1.0.320 SP26 升级

家居要闻

江南秘境 理想生活模样

无障碍浏览 进入关怀版