网易首页 > 网易号 > 正文 申请入驻

Nature收录DeepMind“四代AlphaGo”论文,有望成为广泛使用的强化学习算法|解读

0
分享至

继 AlphaFold 大火之后,DeepMind 又一款算法蹿红。

12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,并详细介绍了这款名为 MuZero 的 AI 算法。

视频 | 在下棋的 MuZero

如果说 AlphaGo 是一代 “爷爷”,那么 AlphaGo Zero 就是二代 “爸爸”,AlphaZero 则是三代 “孙儿”,MuZero 就是四代 “重孙”。其中,出生最晚的 “重孙” MuZero 最厉害。

图 | “四代同堂”

伊利诺伊大学香槟分校计算机科学系的助理教授、《麻省理工科技评论》2020 年度全球 “35 岁以下科技创新 35 人” 上榜者李博告诉 DeepTech,四代之间的区别可总结如下:

  • “爷爷” AlphaGo 提供了人类知识(Human Knowledge)和规则(Rules),因因此可训练出一个大的策略树,来完成搜索、以及帮助做出决策;

  • “爸爸” AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;

  • “孙儿” AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。

  • “重孙” MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknown Dynamics),来进行不同游戏的博弈。

不过,MuZero 并非首次露面,它诞生于 2019 年 11 月, 当时 DeepMind 在预印本平台 arXiv 发表了论文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。

今年 12 月 23 日,Nature 于一年后收录了该论文,这也是 MuZero 此次走红的原因。

图 | Nature 收录 MuZero 的论文

论文的主要思路在于,人类智慧之所以高级,表现之一在于有预测能力,比如看到月朗星稀,即可推断明天大概率是晴天。在重复性计算方面,机器已经非常擅长,但一直缺乏预测能力。此前, DeepMind 曾提出了前向搜索基于模型的规划算法两种方案。

就前向搜索方案来说,二代 AlphaZero 已使用过该方案,它在理解游戏规则的前提下,可通过自我模拟和复盘,去制定下棋时的最佳策略。但在游戏规则未知的情况下,前向搜索方案就会 “失灵”。

就基于模型的规划算法方案来说,它能在学习环境动态后,进行精准建模即环境建模,然后制定出最佳策略。但是,环境建模比较复杂,无法让机器良好把握 Atari 游戏。

这意味着,上述两种方案都不是最佳选,因此 MuZero 放弃对环境中所有要素进行建模的方法,而是针对三个最重要的要素进行建模:即价值(The value)、策略(The policy)和奖励(The reward)。

仅需两到三周,就能完成对一款 Atari 游戏的训练

谈及建模过程,论文共同作者、DeepMind 算法工程师 Julian Schrittwieser 告诉媒体:“MuZero 前期的训练过程需要大量算力,但在训练结束后,它仅需很少的算力就能做出决策,这甚至能在一部智能手机上完成。而前期的训练过程所需的算力其实也并不是什么天文数字,单块 GPU 仅需两到三周就能完成 MuZero 针对一个 Atari 游戏的训练。

具体建模时,MuZero 从下面动图的顶部开始,使用表征功能 H将当前状况、映射到神经网络中的嵌入层(S0),然后使用动态函数(G)和预测函数(F),来推测接接下来的动作序列(A)。

图 | 基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划

只知道下一步怎么做还不够,还得判断做得好不好,为此 MuZero 可以跟环境互动,进而模拟出对手的下一步走向。

图 | MuZero 通过模拟下棋走向训练神经网络

每一步棋的走法,都会被累加为棋局最后的奖励。如下图,每当策略函数 P 获得一次预测走法,价值函数 V 就会得到一次奖励。

图 | 预测走法带来奖励

凭借该策略,在围棋、国际象棋和日本将棋中,MuZero 在多训练步骤的情况下,达到甚至超过了前辈 AlphaZero 的水平。 下图分别为 MuZero 在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果,横坐标代表着训练步骤数量,纵坐标表示 Elo 评分(Elo,一个衡量各类对弈活动水平的评价方法)。

图 | 在国际象棋、日本将棋、围棋和 Atari 游戏上的评估结果

其中,蓝色线代指 MuZero 的表现,黄色线代表三代 AlphaZero 的表现,可以看出在围棋和 Atari 游戏中,MuZero 的表现比上一代更佳。

此外,为验证 MuZero 的精确规划能力,DeepMind 让其尝试学习了围棋高精度规划能力,也就是下完一步棋就能判断胜负。

如下图右侧,在 Ms Pac-Man 游戏的测试中,训练时间越长、MuZero 就更强大,当下一步棋的判断时间从 0.1 秒增加到 50 秒,Elo 指标就能增加 1000,这相当于从业余棋手跳跃到最强职业棋手的水平。

图 | 左:步骤判断时间和围棋 Elo 指标之间的关系;右:训练时长和训练效果的关系

李博认为: “这种利用强化学习进行端到端训练的方法,是 AI 的重点之一,对于强化学习来说,其本质之一是要设计合适的奖励(Reward Function),并且可以考虑到不确定环境条件从而提高算法的泛化能力。

而另一位不愿具名的计算机教授表示,DeepMind 攻克的第一个游戏就是 Atari,因为 Atari 是基准线,能测出算法到底是否管用。传统的强化学习,学习的是 Agent (智能体),而 MuZero 对下棋规则(Environment )也做了建模, 与此同时它还能学会规则,这就是它的最大创新。但从机器学习角度来看,无非就是搜索空间变得更大,所以计算量会大大增加,理论上仍旧是强化学习。

Muzero 有望成为广泛使用的强化学习算法

对于其进步,重庆大学汽车工程学院副教授王科评价称:“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。”

对于它的应用前景,另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说:“目前,我们正在尝试将 MuZero 用于优化视频压缩。”

除优化视频压缩之外,MuZero 的潜在应用还包括自动驾驶技术和医药生物研究领域里的蛋白质设计,比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

王科向 DeepTech 重点展望了 MuZero 可能在自动驾驶领域的应用: “Muzero 作为 DeepMind 最新 AI 算法,具备了一定的类人成长和学习能力。” 他以自动驾驶汽车举例称,目前的自动驾驶汽车离实现 L5 级完全无人驾驶还很远,还都需要在 ODD(Operational Design Domain)即运 行设计域中运行,其原因是当前自动驾驶汽车技术无法应对未知开放环境带来的挑战,相信 MuZero 强大的学习能力和规划能力,能在一定程度上推动包括自动驾驶汽车在内的很多领域的进步。

-End-

翻译支持:武文浩

参考:

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules

https://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

三言四拍
2026-04-09 13:59:27
江苏一男子称还款5年一直未见合同,提前还款才发现房贷利率从3.8%变成8.7%,银行客服:正抓紧核实,会妥善处理

江苏一男子称还款5年一直未见合同,提前还款才发现房贷利率从3.8%变成8.7%,银行客服:正抓紧核实,会妥善处理

大象新闻
2026-04-10 20:44:05
陪睡陪玩算什么?继人体盛宴、舔手指后,千万网红再曝娱乐圈内幕

陪睡陪玩算什么?继人体盛宴、舔手指后,千万网红再曝娱乐圈内幕

徐云流浪中国
2026-04-10 00:31:22
全红婵群内被骂果断报警!周继红霸气护犊:管你是谁依法办!

全红婵群内被骂果断报警!周继红霸气护犊:管你是谁依法办!

不似少年游
2026-04-09 17:13:43
嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

揽星河的笔记
2026-04-10 18:42:07
李现灵隐寺偶遇名场面!一身黑接地气,主动帮路人拍立得太圈粉

李现灵隐寺偶遇名场面!一身黑接地气,主动帮路人拍立得太圈粉

不似少年游
2026-04-10 17:03:49
因室友电瓶燃爆全身90%烧伤,“武汉大学生烧伤案”当事人在长沙治疗半年,父母:他痒我们就拍,身上已不再缠绷带,预计5月接受嘴部手术

因室友电瓶燃爆全身90%烧伤,“武汉大学生烧伤案”当事人在长沙治疗半年,父母:他痒我们就拍,身上已不再缠绷带,预计5月接受嘴部手术

潇湘晨报
2026-04-10 17:27:12
格列兹曼含泪告别马竞:10年红白生涯终章,35岁法国传奇欧冠谢幕

格列兹曼含泪告别马竞:10年红白生涯终章,35岁法国传奇欧冠谢幕

里芃芃体育
2026-04-11 00:10:06
为啥男人一出门就要拉屎?

为啥男人一出门就要拉屎?

混知
2026-04-09 14:55:16
人民币持续升值的真相,货币战争早已打响,已经进入白热化阶段

人民币持续升值的真相,货币战争早已打响,已经进入白热化阶段

小蜜情感说
2026-04-10 16:57:18
6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

中国足球的那些事儿
2026-04-10 13:16:45
英超冠军主帅带队保级:4个月从垫底爬到悬崖边

英超冠军主帅带队保级:4个月从垫底爬到悬崖边

篮坛第一线
2026-04-10 14:41:42
马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
3-0横扫!神锋帽子戏法,意甲争四格局大乱,3队积分最多仅差1分

3-0横扫!神锋帽子戏法,意甲争四格局大乱,3队积分最多仅差1分

足球狗说
2026-04-11 04:39:28
退圈女星自曝,被注射不明物质,不听话就头疼,秦岚也被牵连其中

退圈女星自曝,被注射不明物质,不听话就头疼,秦岚也被牵连其中

阿纂看事
2026-04-10 14:27:16
别以为反腐离你远!中纪委锁定7大领域,这些岗位风险最高

别以为反腐离你远!中纪委锁定7大领域,这些岗位风险最高

细说职场
2026-04-10 11:40:48
全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

眼光很亮
2026-04-08 14:51:46
我在国安退休后在村口下棋,年轻人观棋时,他的手势竟是特工暗号

我在国安退休后在村口下棋,年轻人观棋时,他的手势竟是特工暗号

千秋文化
2026-03-03 20:17:48
最高法:药企回扣入刑标准明确了!5月1日起执行

最高法:药企回扣入刑标准明确了!5月1日起执行

健识局
2026-04-10 23:33:52
网暴全红婵的网民被抓获,身份曝光令人气愤,警方处罚大快人心!

网暴全红婵的网民被抓获,身份曝光令人气愤,警方处罚大快人心!

古希腊掌管松饼的神
2026-04-10 19:42:22
2026-04-11 06:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16563文章数 514859关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

健康
艺术
旅游
时尚
数码

干细胞抗衰4大误区,90%的人都中招

艺术要闻

曾熙『仿思翁山水册』

旅游要闻

周末来这里!足不出沪体验首尔韩屋风情

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

数码要闻

联想推出2026款来酷斗战者“战7000”笔记本,7699元起

无障碍浏览 进入关怀版