网易首页 > 网易号 > 正文 申请入驻

训练Rainbow算法需要1425个GPU Day?谷歌说强化学习能降计算成本

0
分享至

机器之心报道

编辑:陈萍、小舟

DeepMind 提出的 Rainbow 算法,可以让 AI 玩 Atari 游戏的水平提升一大截,但该算法计算成本非常高,一个主要原因是学术研究发布的标准通常是需要在大型基准测试上评估新算法。来自谷歌的研究者通过添加和移除不同组件,在有限的计算预算、中小型环境下,以小规模实验得到与 Rainbow 算法一致的结果。

人们普遍认为,将传统强化学习与深度神经网络结合的深度强化学习,始于 DQN 算法的开创性发布。DQN 的论文展示了这种组合的巨大潜力,表明它可以产生玩 Atari 2600 游戏的有效智能体。之后有多种方法改进了原始 DQN,而 Rainbow 算法结合了许多最新进展,在 ALE 基准测试上实现了 SOTA 的性能。然而这一进展带来了非常高的计算成本,拥有充足计算资源的和没有计算资源之间的差距被进一步拉大。

在 ICML 2021 的一篇论文《Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research》中,研究者首先讨论了与 Rainbow 算法相关的计算成本。研究者探讨了通过结合多种算法组件,以小规模实验得到与 Rainbow 算法一致的结果,并将该想法进一步推广到在较小的计算预算上进行的研究如何提供有价值的科学见解。

论文地址:https://arxiv.org/abs/2011.14826

Rainbow 计算成本高的一个主要原因是学术研究发布的标准通常是需要在大型基准测试(例如 ALE,其中包含 57 款强化学习智能体能够学会玩 Atari 2600 游戏)上评估新算法。通常使用 Tesla P100 GPU 训练模型学会玩一个游戏大约需要五天时间。此外,如果想要建立有意义的置信边界,通常至少执行 5 次运行。

因此,在全套 57 款游戏上训练 Rainbow 需要大约 34,200 个 GPU hour(约 1425 天)才能提供令人信服的性能实验数据。这样的实验只有能够在多个 GPU 上并行训练时才可行,这使得较小的研究小组望而却步。

Rainbow 算法

与原始 Rainbow 算法的论文一样,在 ICML 2021 的这篇论文中,研究者评估了在原始 DQN 算法中添加以下组件的效果:双 Q 学习(double Q-learning)、优先经验回放(prioritized experience replay,PER)、竞争网络、多步学习、分布式强化学习和嘈杂网络。

该研究在四个经典控制环境中进行评估。需要注意的是,相比于 ALE 游戏需要 5 天,这些环境在 10-20 分钟内就可以完成完全训练:

左上:在 CartPole 中,游戏任务是智能体通过左右移动平衡推车上的一根杆子;右上:在 Acrobot 中,有两个杠杆和两个连接点,智能体需要向两个杠杆之间的连接点施加力以抬高下面的杠杆使其高于某个高度要求。左下:在 LunarLander 中,智能体的任务是将飞船降落在两个旗帜之间;右下:在 MountainCar 中,智能体需要在两座山丘之间借助一定的动力将车开到右边的山顶。

研究者探究了将每个组件单独添加到 DQN 以及从完整 Rainbow 算法中删除每个组件的效果,并发现总的来说每一个算法组件的添加都确实改进了基础 DQN 的学习效果。然而,该研究也发现了一些重要的差异,例如通常被认为能起到改进作用的分布式 RL 自身并不总是能够产生改进。实际上,与 Rainbow 论文中的 ALE 结果相反,在经典控制环境中,分布式 RL 仅在与其他组件结合时才会产生改进。

上图显示了在 4 个经典控制环境中,向 DQN 添加不同组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。

上图显示了在 4 个经典控制环境中,从 Rainbow 中移除各种组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。

研究者还在 MinAtar 环境中重新运行了 Rainbow 实验,MinAtar 环境由一组五个小型化的 Atari 游戏组成,实验结果与原 Rainbow 论文类似。MinAtar 游戏的训练速度大约是常规 Atari 2600 游戏的 10 倍,其中后者的训练速度是在最初的 Rainbow 算法上评估的。此外,该研究的实验结果还有一些有趣的方面,例如游戏动态和给智能体添加基于像素的输入。因此,该研究提供了一个具有挑战性的中级环境,介于经典控制和完整的 Atari 2600 游戏之间。

综合来看,研究者发现现在的结果与原始 Rainbow 论文的结果一致——每个算法组件产生的影响可能因环境而异。研究者建议使用单一智能体来平衡不同算法组件之间的权衡,该研究的 Rainbow 版本可能与原始版本高度一致,这是因为将所有组件组合在一起会产生整体性能更好的智能体。然而,在不同算法组件之间,有一些重要的细节变化值得进行更彻底的探究。

「优化器 - 损失函数」不同组合实验

DQN 被提出时,同时采用了 Huber 损失和 RMSProp 优化器。对于研究者而言,在构建 DQN 时使用相同的选择是一种常见的做法,因为研究者将大部分时间用在了其他算法设计上。

而该研究重新讨论了 DQN 在低成本、小规模经典控制和 MinAtar 环境中使用的损失函数和优化器。研究者使用 Adam 优化器进行了一些初始实验,目前 Adam 优化器是最流行的优化器,并在实验中结合使用了一个更简单的损失函数,即均方误差损失 (MSE)。由于在开发新算法时,优化器和损失函数的选择往往被忽略,而该研究发现在所有的经典控制和 MinAtar 环境中,这二者的改变都能让实验结果有显著的改进。

因此,研究者将两个优化器(RMSProp、Adam 优化器)与两个损失函数(Huber、MSE 损失)进行了不同的组合,并在整个 ALE 平台(包含 60 款 Atari 2600 游戏)上进行了评估。结果发现 Adam+MSE 组合优于 RMSProp+Huber 组合。

在默认 DQN 设置下(RMSProp + Huber),评估 Adam+MSE 组合带来的改进(越高越好)。

此外,在比较各种「优化器 - 损失函数」组合的过程中,研究者发现当使用 RMSProp 时,Huber 损失往往比 MSE 表现得更好(实线和橙色虚线之间的间隙可以说明这一点)。

对 60 款 Atari 2600 游戏的标准化得分进行汇总,比较不同的「优化器 - 损失函数」组合。

在有限的计算预算下,该研究研究者能够在高层次上复现论文《Rainbow: Combining Improvements in Deep Reinforcement Learning》的研究,并且发现新的、有趣的现象。显然,重新审视某事物比首次发现更容易。然而,研究者开展这项工作的目的是为了论证中小型环境实证研究的相关性和重要性。研究者相信,这些计算强度较低的环境能够很好地对新算法的性能、行为和复杂性进行更关键和彻底的分析。该研究希望 AI 研究人员能够把小规模环境作为一种有价值的工具,评审人员也要避免忽视那些专注于小规模环境的实验工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马球迷意难平!不止因为1-2不敌拜仁失先机,更多在于以下6点!

皇马球迷意难平!不止因为1-2不敌拜仁失先机,更多在于以下6点!

球场新视角1号
2026-04-08 07:21:21
男孩离教室200米凭空消失,失踪两周后,书包诡异现身,此前该区域曾多次徒步地毯式搜索,却始终未发现此书包

男孩离教室200米凭空消失,失踪两周后,书包诡异现身,此前该区域曾多次徒步地毯式搜索,却始终未发现此书包

观威海
2026-04-07 15:39:04
特朗普:我们与伊朗谈判的最大问题是无法沟通,靠孩子们传递纸条

特朗普:我们与伊朗谈判的最大问题是无法沟通,靠孩子们传递纸条

章幃户外
2026-04-08 08:21:53
过了7天!人民日报发文狠批单依纯,狠狠地为李荣浩出了一口恶气

过了7天!人民日报发文狠批单依纯,狠狠地为李荣浩出了一口恶气

娱乐故事
2026-04-05 22:44:16
39岁男子考研落榜后举报复试第一,考生候考时,该考生曾被工作人员叫离座位,返回后手中持有文件夹并翻阅,华东师大回应:调查小组正在调查

39岁男子考研落榜后举报复试第一,考生候考时,该考生曾被工作人员叫离座位,返回后手中持有文件夹并翻阅,华东师大回应:调查小组正在调查

观威海
2026-04-07 16:39:02
英超第5个欧冠名额到手!再做两件事,名额变7个!

英超第5个欧冠名额到手!再做两件事,名额变7个!

体坛周报
2026-04-08 09:57:13
她曾担任北京市委常委,退休前享受局级住房待遇,活了81岁

她曾担任北京市委常委,退休前享受局级住房待遇,活了81岁

元哥说历史
2026-04-07 06:35:05
从央行行长到国家领导人:黎明兴当选越南新一任总理

从央行行长到国家领导人:黎明兴当选越南新一任总理

春之韵
2026-04-08 05:17:20
局座眼光毒辣!曾扬言中国要给全世界道歉的阿丘,有今天毫不意外

局座眼光毒辣!曾扬言中国要给全世界道歉的阿丘,有今天毫不意外

嘴角上翘的弧度
2026-04-08 09:16:54
特朗普遭“泼冷水”!EIA:即便霍尔木兹重开 燃油价格仍将继续上涨

特朗普遭“泼冷水”!EIA:即便霍尔木兹重开 燃油价格仍将继续上涨

财联社
2026-04-08 08:24:20
董宇辉争议言论炸上热搜,人设大反转!

董宇辉争议言论炸上热搜,人设大反转!

互联网品牌官
2026-04-07 18:20:08
22岁女学生被拐到深山乡村里,看到买她那户人家时,人贩子傻眼了

22岁女学生被拐到深山乡村里,看到买她那户人家时,人贩子傻眼了

卡西莫多的故事
2025-12-07 10:41:11
医生坦言:只要血脂报告里没有这2个词,血管健康就不用太担忧

医生坦言:只要血脂报告里没有这2个词,血管健康就不用太担忧

健康科普365
2026-04-07 11:35:05
深度长文:为什么有那么多人相信“人类起源于非洲”?

深度长文:为什么有那么多人相信“人类起源于非洲”?

宇宙时空
2026-04-03 19:10:06
比赖清德还狂的人出现了,如果她当选台湾领导人,解放军必定收台

比赖清德还狂的人出现了,如果她当选台湾领导人,解放军必定收台

芳芳历史烩
2026-03-29 21:09:31
国际奥委会禁止跨性别运动员参赛,美国女足传奇拉皮诺埃非常不满

国际奥委会禁止跨性别运动员参赛,美国女足传奇拉皮诺埃非常不满

懂球帝
2026-04-07 09:14:24
索尼新高端头戴耳机曝光售价比苹果还贵

索尼新高端头戴耳机曝光售价比苹果还贵

IT之家
2026-04-07 22:38:10
高速路上,事故车辆遭遇二次被撞!警方:全车人在车内避雨

高速路上,事故车辆遭遇二次被撞!警方:全车人在车内避雨

南方都市报
2026-04-07 07:57:51
好家伙《八千里路云和月》开播就差评一片,观众给的理由挺新鲜!

好家伙《八千里路云和月》开播就差评一片,观众给的理由挺新鲜!

悦君兮君不知
2026-04-08 09:10:18
红土赛季开启,急需保积分的郑钦文却因伤退出WTA斯图加特公开赛

红土赛季开启,急需保积分的郑钦文却因伤退出WTA斯图加特公开赛

上观新闻
2026-04-08 09:50:16
2026-04-08 10:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12702文章数 142618关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

美国、伊朗全面停火立即生效 特朗普最新发声

头条要闻

美国、伊朗全面停火立即生效 特朗普最新发声

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

房产
健康
教育
数码
时尚

房产要闻

重磅!三亚拟出安居房新政!

干细胞抗衰4大误区,90%的人都中招

教育要闻

六年级添加符号:456=24

数码要闻

开发者自建48台Mac mini集群,撑起Overcast播客转录

阔腿裤失宠了?今年这几条裤子最时髦!

无障碍浏览 进入关怀版