网易首页 > 网易号 > 正文 申请入驻

DeepMind推出控制套件:为强化学习智能体提供性能基准

0
分享至

原文来源:arxiv

作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel,Andrew Lefrancq, Timothy Lillicrap, Martin Riedmiller

「雷克世界」编译:嗯~阿童木呀、KABUDA

DeepMind Control Suite是一组连续的控制任务,具有标准化的结构和可解释性的奖励,旨在作为强化学习智能体的性能基准。这些任务是用Python编写的,由MuJoCo物理引擎驱动,从而使得它们易于使用和修改。我们这里涵盖了几个学习算法的基准。你如果对这方面比较感兴趣,可以在github.com/deepmind/dm_control上获得公开的控制套件(Control Suite),而所有任务的相关视频总结等可在youtu.be/rAai4QzcYbs上获得。

可以这样说,控制物质世界是通用智能一个不可分割的组成部分,也可以说是通用智能的一个先决条件。事实上,唯一已知的通用智能的例子就是灵长类动物,他们操纵这个世界已经有数百万年的时间了。

基准测试领域。顶端:机器人、球杯、卡杆、猎豹、,手指、鱼、单足跳者。底部:人形机器人、操纵器、钟摆、质点、Reacher、游泳运动员(6和15个连接点)、行走者。

物理控制任务有许多共同的属性,而且,将它们视为一类独特的行为问题是一种明智的选择。与棋盘游戏、语言和其他符号域不同的是,物理任务在状态、时间和行为上是基本连续的。它们的动力学受二阶运动方程的影响,而这意味着基础状态是由类似位置和类速度的变量组成的,而状态导数则类似于加速度。感官信号(Sensory signals)(即观察)通常携带有意义的物理单位,并且在相应的时间尺度上发生变化。

在这十年中,在诸如视频游戏这样的困难问题领域中,强化学习(RL)技术的应用取得了快速的进展。Arcade学习环境(Arcade Learning Environment,ALE,Bellemare 等人于2012年提出)是这些发展的重要促进因素,为评估和比较学习算法提供了一套标准基准。 DeepMind Control Suite为连续控制问题提供了一组类似的标准基准。

OpenAI Gym(Brockman等人于2016年提出)目前包括一组连续控制域,而且已经成为连续强化学习实际上的基准(Duan 等人于2016年、Henderson等人于2017年提出)。Control Suite也是一组任务,用于对连续的强化学习算法进行基准测试,其中存在着一些显著的差异。我们只专注于连续控制,例如将观察值与相似的单位(位置、速度、力等)分离,而不是将其连接成一个向量。我们统一的奖励结构提供了具有可解释性的学习曲线和综合性适用范围的性能度量。此外,我们强调使用统一设计模式的高质量的完整代码,提供可读、透明和易于扩展的代码库。最后,Control Suite与Gym一样,里面都有相同的域,而且同时增加了更多的域。

DeepMind控制套件是强化学习算法(基于物理控制)的设计和性能比较的起点。它提供了各种各样的任务(从几乎微不足道的任务到相当困难的任务)。统一的奖励结构可以实现对套件整体性能的评估。

Control Suite中所有任务的标注为数据(第一列)和挂钟时间(第二列)对比的平均返回值。 第一行显示使用低维特征作为输入的任务中的A3C、DDPG和D4PG的性能表现。第二行显示了D4PG在仅使用原始像素作为输入的任务上的性能表现。

这里展示的A3C、DDP和D4pg的结果组成的基线,是通过运用我们提出的理论,对这些算法进行良好的执行得到的。同时,我们强调,学习曲线不是基于穷举的超参数优化,并且对于给定的算法,在控制套件的所有任务中都使用相同的超参数。因此,我们期望能够获得更好的性能或数据效率,特别是在每个任务的基础上。

我们很乐意与更多的社区分享控制套件,并且希望有更多人能够注意到它的作用,我们期待着能够对套件进行多样化研究,并将社区所做出的贡献整合到未来发布的版本中。

未来研究方向

对于Control Suite的当前版本来说,里面还缺少一些元素。

有一些特征,比如缺乏丰富的任务,这是在设计中没有考虑到的。该套件,尤其是基准测试任务,旨在成为一个稳定、简单的学习控制起点。像复杂地形中的完全操纵和运动的任务类别需要对任务和模型的分布进行推理,而不仅仅是对初始状态进行操作。而所有这些都需要更为强大的工具,我们希望未来在不同的分支机构中能够进行共享。

以下几个特性并没有包含在当前发布的版本中,但我们打算在将来的版本中将其添加在内。 它们包括:一个四足行走的动作任务;一个交互式的可视化程序,用其便可以查看和扰乱模拟;支持C回调和多线程动态;MuJoCo TensorFlow封装器和Windows支持。

dm_control: DeepMind控制套件和控制包

此软件包含:

一套由MuJoCo物理引擎驱动的Python强化学习环境。

为Mujoco物理引擎提供python绑定的库。

如果你使用此软件包,请引用我们随附的技术报告。

安装要求

请按照以下步骤安装DM_control:

1.从Mujoco网站的下载页面下载Mujoco pro1.50。必须在安装dm_contect之前安装mujoco pro,因为dm_contect的安装脚本由mujoco的头文件生成python ctypes绑定。默认情况下,dm_contect假定mujo COZIP归档文件被提取为~/.mujoCO/mjpro150。

2.通过运行pip install git + git://github.com/deepmind/dm_control.git(PyPI包即将推出)或通过复制存储库并运行pip install / path / to / dm_control /来安装dm_control Python包。在安装时,dm_control在/mujoco / mjpro150 / include中查找步骤1中的MuJoCo头文件,然而这个路径可以使用headers-dir命令行参数进行配置。

3.为mujoco安装一个许可密钥,该密钥在运行时由dm_controls命令。有关详细信息,请参阅Mujoco许可密钥页面。默认情况下,dm_contect在~/.mujoco/mjkey.txt处查找mujo co许可密钥文件。

4.如果在非默认路径上安装许可密钥(例如mjkey.txt)或mujocopro提供的共享库(例如libmujoco150.so或libmujoco150.dylib),则分别使用mjkey_jmpATH和libm path指定它们的位置。

关于macOS上的自制软件用户的其他说明

1.只要你使用的是由Homebrew安装的python解释器(而不是系统默认的解释器),那么以上使用pip的说明应该有效。

2.要使Open GL正常工作,请通过运行brew来安装GLFW,然后安装来自Homebrew的GLFW包。

3.在运行之前,需要使用GLFW库的路径更新DYLD_library_path环境变量。这可以通过运行export dyld_library_path=$(brew--prefix)/lib:$dyld_library_path来完成。

控制套件快速入门

from dm_control import suite

# Load one task:

env = suite.load(domain_name="cartpole", task_name="swingup")

# Iterate over a task set:

for domain_name, task_name in suite.BENCHMARKING:

env = suite.load(domain_name, task_name)

# Step through an episode and print out reward, discount and observation.

action_spec = env.action_spec()

time_step = env.reset()

while not time_step.last():

action = np.random.uniform(action_spec.minimum,

action_spec.maximum,

size=action_spec.shape)

time_step = env.step(action)

print(time_step.reward, time_step.discount, time_step.observation)

详情请参阅技术报告:https://github.com/deepmind/dm_control/blob/master/tech_report.pdf

原文链接:https://arxiv.org/pdf/1801.00690.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
692分!独家专访高考同分姐妹花:打篮球解压,没上过培优班

692分!独家专访高考同分姐妹花:打篮球解压,没上过培优班

极目新闻
2026-06-25 22:41:54
输球仍出线!世界第29创114年纪录首进世界杯淘汰赛

输球仍出线!世界第29创114年纪录首进世界杯淘汰赛

宝哥精彩赛事
2026-06-25 06:03:14
超巴西独享第1!萨内处子球 德国1-2厄瓜多尔时隔12年重返淘汰赛

超巴西独享第1!萨内处子球 德国1-2厄瓜多尔时隔12年重返淘汰赛

钉钉陌上花开
2026-06-26 05:58:42
日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

李健政观察
2026-06-25 11:20:16
给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

球场没跑道
2026-06-25 12:07:52
0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

我就是一个说球的
2026-06-25 19:03:20
摩洛哥4-2!逆转海地却让日本队两难:赢球碰巴西,输球更没戏

摩洛哥4-2!逆转海地却让日本队两难:赢球碰巴西,输球更没戏

宝哥精彩赛事
2026-06-25 12:57:15
上海多区发布消息:确认延期!费用减半!

上海多区发布消息:确认延期!费用减半!

看看新闻Knews
2026-06-25 22:08:06
重磅!美国就俄乌战争作出公开表态!白俄对乌打开边境

重磅!美国就俄乌战争作出公开表态!白俄对乌打开边境

史政先锋
2026-06-25 20:58:05
981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

新姐看世界
2026-06-25 15:41:55
夏窗大反转!曼联截胡 1.5 亿世界杯神锋!皇马巴萨争破头反被抢

夏窗大反转!曼联截胡 1.5 亿世界杯神锋!皇马巴萨争破头反被抢

奶盖熊本熊
2026-06-26 02:17:54
太亏了!安徽一高考生数学0分,总分458超过本科线,原因让人无语

太亏了!安徽一高考生数学0分,总分458超过本科线,原因让人无语

育学笔谈
2026-06-25 21:23:28
香港演员苗金凤去世,享年81岁!《女人俱乐部》成最后作品

香港演员苗金凤去世,享年81岁!《女人俱乐部》成最后作品

TVB剧评社
2026-06-25 21:39:08
对话当事人|佛得角足协副主席保罗·桑托斯:我们准备了10年,只为让世界看见

对话当事人|佛得角足协副主席保罗·桑托斯:我们准备了10年,只为让世界看见

上游新闻
2026-06-25 20:50:01
开场1分49秒破门,萨内打进德国队历史世界杯第二快进球

开场1分49秒破门,萨内打进德国队历史世界杯第二快进球

懂球帝
2026-06-26 04:28:10
审计署抽查60县,平均每个县翻出10个亿问题资金

审计署抽查60县,平均每个县翻出10个亿问题资金

南方都市报
2026-06-25 12:17:33
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
9队遭淘汰,韩国爆冷出局,非洲黑马晋级,亚洲无一出线

9队遭淘汰,韩国爆冷出局,非洲黑马晋级,亚洲无一出线

吴朑爱游泳
2026-06-25 16:41:12
浴场男员工被指凌晨进入女宾区,三名女顾客称被看光

浴场男员工被指凌晨进入女宾区,三名女顾客称被看光

现代快报
2026-06-25 21:59:09
左手将!姆巴佩训练中背打孔德后仰跳投命中

左手将!姆巴佩训练中背打孔德后仰跳投命中

懂球帝
2026-06-25 20:22:16
2026-06-26 06:11:00
雷克智能 incentive-icons
雷克智能
智能才是机器之道
1146文章数 5889关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

霍尔木兹海峡再现风险:一艘货船遇袭 数艘油轮折返

头条要闻

霍尔木兹海峡再现风险:一艘货船遇袭 数艘油轮折返

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

房产
数码
手机
本地
公开课

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

数码要闻

突发!苹果全面涨价:MacBook Neo上涨900元

手机要闻

vivo X Fold6参数全公布,就差价格了

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版