不再纠结“先有鸡还是先有蛋”，Percy Liang团队解耦探索和执行，可学习最优策略|机器人|汤普森|理想|智能体

分享至

作者 | Zheran Liu

编译 | 陈彩娴

我们能否制造出一些机器人来代替我们做家务（比如做饭）呢？

训练智能体来执行多种任务的普遍做法是：应用强化学习，完全从零开始训练单个智能体去执行单项任务。但是，这种方法完全不适用于训练家庭烹饪机器人，原因主要有：1）这可能会造成许多“意外事故”（如厨房起火等）；2）需要每个人进行大量监督，对成功烹饪出一顿美味的机器人给予奖励；3）会耗费大量时间，因为即使强化学习方法从零开始学习一些极其简单的任务，也需要进行成千上万次的尝试。

如果一个机器人在“机器人厨师工厂”内的多种厨房内经过训练后，能够快速适应各色各样的家用厨房，那就太好了！如果不同任务和场景的大体结构一致，比如在一个厨房里做披萨跟在另一个厨房里做汉堡包的方法是类似的，机器人学习每个烹饪任务也会更加轻松、高效，前面所说的情况也并非不可能实现。

元强化学习的目标便是实现这种愿景：事先训练智能体执行多项相似的任务后，智能体能够在不熟悉的情况下执行新任务。那么，有了元强化学习，为什么烹饪机器人还没有普及到各个家庭中呢？

为了回答这个问题，我们要将注意力转移到元探索（meta-exploration）的问题上：如何尽可能利用有限的交互来探索新任务？举个例子，在理想情况下，为了适应新厨房，机器人厨师应该在有限的交互下探索新厨房，找到食材，然后才可以完成做饭的任务。在本篇文章中，作者着重介绍如何解决元探索的两个关键挑战，让人类在厨房中有一席之地。

挑战一：现有的元强化学习方法存在“先有鸡还是先有蛋”的问题。学会探索与寻找食材，只能帮助已掌握烹饪技巧的机器人准备三餐，但机器人只有在已经知道食材在哪的情况下，才能学习做饭。为了避免“学会探索”与“学会执行（完成任务）”之间的循环依赖（cyclic dependence），作者提出分开训练机器人“学会探索”与“学会执行”。
挑战二：标准的元强化学习问题设置期望机器人通过试错法（trial-and-error），甚至在不被告知烹饪什么菜式的情况下，来学会烹饪正确的餐食。这会使元探索问题无谓地复杂化。为了避免这种情况，作者提出了基于指令的元强化学习，给机器人下达明确需要烹饪的菜式的指令。

斯坦福大学博士生在读Evan Zheran Liu与团队成员Aditi Raghunathan、Percy Liang与Chelsea Finn共同研究解决元探索问题。

源代码链接：https://github.com/ezliu/dream

标准的元强化学习

首先，让我们回顾一下标准的元强化学习（meta-RL）问题陈述。在元强化学习中，智能体（比如机器人厨师）在许多任务（不同的食谱）和环境（不同的厨房）中训练，然后必须在元测试过程中，在新环境里完成新的任务。在面对新任务和新环境时，智能体在完成执行任务（比如做饭）前，可以先设置一个回合（episode）来探索与搜集所有必要信息（比如定位食材）。

用更形式化的语言说，标准meta-RL考虑了一系列问题，每个问题对应一个奖励函数（例如做披萨）和变迁动态（transition dynamics，比如一个厨房）。我们定义了一个试验（trial ），该试验包含同一个问题中的多个回合。第一个回合是探索回合，智能体无需将回报最大化即可收集信息。随后的所有阶段都是执行回合，智能体必须完成任务。元强化学习的目标是在元训练过程中的多个试验里首次训练后，将在元训练试验（执行回合）所获得的回报最大化。

元强化学习中的解耦无奖励探索与执行（DREAM）

鸡与蛋的耦合问题

解决元探索问题的常用方法是优化循环策略（recurrent policy），该策略基于执行回合奖励（execution episode rewards）端到端地执行“探索回合”和“执行回合”。这是希望捕捉在循环策略隐藏状态里的探索回合中学到的信息，有利于之后的执行回合。但是，这就产生了鸡与蛋的耦合问题：学习好的探索行为需要具备已经掌握的好的执行行为，反之亦然，这就阻碍了这种方法的学习。

比方说，如果机器人厨师无法发现食材放在厨房中的位置（差劲的探索），那么它就不可能学会如何烹饪（差劲的执行）。另一方面，如果机器人不知道如何烹饪（差劲的执行），那么无论它在探索回合中做了什么，它还是不会做饭，这让学习探索变得非常困难。因为机器人在训练的起始阶段不会做饭或探索，所以它们便深陷局部最优（local optimum）的僵局，学习过程也很艰难。

应用DREAM来规避耦合问题

为了避免“先有鸡，还是先有蛋”的耦合问题，作者提出用DREAM模型，以打破学习探索与学习执行之间的循环依赖关系。一般来说，出色的探索可以通过尝试恢复执行指令所需的信息来学习。

DREAM包括两个主要步骤：

步骤一，同时从探索中学习执行策略与了解执行所需的信息；

步骤二，学习恢复该信息的探索策略。

详细而言，在步骤一中，我们基于问题的标识符来训练执行策略。在烹饪示例中可以直接识别厨房的特征（比如墙壁的颜色或食材的摆放位置），也可以仅仅是每个厨房的一个独特标识符（例如炉灶）。该问题标识符（直接或间接）对解决厨房任务所需的所有信息进行编码，从而使执行策略能够独立从探索中学习，避免耦合问题。同时，步骤一的目标是仅识别执行指令所需的信息，问题标识符或许也会编码无关的信息，比如墙壁的颜色。为了防止标识符编码无关信息，作者应用了一个信息瓶颈来获得瓶颈表示，用来训练探索策略。

在步骤二中，一旦我们获得了仅包含执行指令所需信息的瓶颈表示，它仅包含执行指令所需的信息，我们就可以训练探索策略来恢复探索回合中的信息。为此，作者推出探索策略以获得回合，然后根据这个回合对中包含的信息进行编码的良好程度对策略进行奖励。大体上，这种奖励是瓶颈表示和回合之间的互信息。

问题标识符在元训练期间很容易获取，只需为每个问题分配一个独热编码（one-hot），但独热编码在元测试期间通常不可用或没有帮助（比方说，假如是一个全新的独热编码），原因可能是：在元训练期间，执行策略基于，而需要了解。然而，由于探索策略是训练来生成探索轨迹（包含与相同的信息），我们可以推出探索策略，在元测试时直接用交换。

基于指令的元强化学习（IMRL）

改进标准meta-RL设置

元探索挑战二与元强化学习设置本身有关。此外，作者及其团队成员还观察到两个更实际的问题：

问题一：标准meta-RL设置要求智能体从奖励观察中推断出它要完成的任务（比如做饭），这既不必要又影响效率。在现实生活中，用户只会告诉智能体他们想要智能体完成的任务。

问题二：尽管标准的meta-RL设置运用不同问题（环境和任务对）的相同结构，但没有捕获到同一环境中不同任务之间的共同结构。具体来说，该任务在试验中的所有回合中都是固定不变的。为了执行新任务（例如煮一顿新的菜肴），即使基层环境（如厨房）保留不变，智能体也需要第二次探索回合。在理想情况下，一个智能体应该在进行一次探索回合之后就能执行许多任务。例如，在探索厨房寻找任意食材后，完美的机器人厨师便可以用这些食材烹饪任何菜式。但在标准元强化学习设置中，受过训练的智能体只能煮一顿饭。

这两个问题使“如何最好地利用探索回合”的元探索问题变得晦涩难懂，因为前者要用到意义不大的探索来推断任务，而后者仅需要智能体探索并发现与单项任务相关的信息。

大家常理所当然地认为，智能体应该用探索回合收集对之后的执行回合有用的信息，但在许多情况下，最佳探索会将目标降至仅解决任务。例如，智能体只能通过成功烹饪披萨和获得正面奖励来确定烹饪披萨的任务，就为了在以后的执行回合中重复做同样的事。这使探索回合几乎毫无意义。

为了使meta-RL设置更切合实际，作者提出了一种新的设置，称为：基于指令的元强化学习（IMRL），过程主要如下：（1）向智能体下达指令（例如，“煮披萨”或“独热编码”表示），在执行回合期间阐明任务；（2）通过在每个执行回合中提供不同的指令来区分不同任务。然后，举例而言，在工厂的不同厨房中经过元训练之后，紧随一个简单的设置阶段（探索回合），机器人厨师可以在新的家用厨房里，按照人类指定的菜式要求，做出不同的菜肴。

无奖励适应

在标准的元强化学习设置中，智能体需要在探索回合期间通过奖励观察来推断任务。而通过在IMRL中接收阐明任务的指令，有一个好处是：该智能体不再需要观察奖励即可适应新的任务和环境。也就是说，IMRL可以促进无奖励适应，即在元训练期间，智能体在执行回合期间使用奖励观察来学会解决任务，但在探索回合期间没有观察奖励。在元测试的过程中，智能体不会观察到任何奖励，这有利于对实际部署情形进行建模。在实际部署中，收集奖励监督的成本确实很高。比方说，理想情况下，机器人厨师在无人工监督时能够适应家用厨房。

IMRL是通用的吗？

有一个重要的点是，设置一些状态始终为“空”的指令可以恢复标准meta-RL设置。换句话说，标准meta-RL只是IMRL，在试验阶段，用户的需求是固定的、对指令没有干预。因此，为IMRL开发的算法也可以直接应用于标准设置，反之亦然。

结果

稀疏奖励3D视觉导航（Sparse-reward 3D visual navigation）

在一项论文实验中，作者对Kamienny等人在今年提出的稀疏奖励3D视觉导航问题系列进行了DREAM评估（如上图所示）。

实验过程中包含了视觉标志和更多物体，实验难度也随之加大。我们将IMRL设置与无奖励适应结合使用。在执行回合期间，智能体会收到一条指令，将它指引到目标物体：球、立体方块或钥匙。智能体从障碍物的另一远端开始各种回合，并且必须绕过障碍物以读取标志（标志用黄色线条突出）。标志有两种指示，让智能体走向蓝色物体，与让智能体走向红色物体。这个智能体接收了80x60 RGB图像作为观察结果，可以转向左边或转向右边，或向前移动。智能体转向正确的目标物体将奖励1分，而转到错误的物体则减1分。

在这项任务中，DREAM学习了最优探索和执行行为（如下图所示）。在第一张图中，DREAM进行探索回合，在障碍物周围行走，以阅读蓝色的标志。在第二张图的执行回合期间，DREAM收到“转向钥匙”的指令。由于DREAM在探索回合中已经读到该标志为蓝色，因此走向了这把蓝色钥匙。

DREAM所学习的行为

比较

大致而言，先前的meta-RL方法大致分为两类：一类是端到端方法，探索与执行均基于执行奖励进行端到端的优化；另一类是解耦方法，探索和执行根据不同的目标进行优化。作者将DREAM与这两类的最新方法进行比较。

在端到端这一类中，作者将DREAM与以下方法进行了比较：

RL^2：一种经典的端到端方法，是基于以往状态和奖励观察的整个序列来学习循环策略。
VariBAD：额外在循环策略的隐藏状态中添加了辅助损失函数，以预测当前问题的收益和动态。这个方法可以看作是学习置信状态（belief state），是对过去所有观察结果的充分总结。
IMPORT：额外利用问题标识符来帮助掌握执行行为。

此外，在解耦一类中，作者将DREAM与PEARL-UB进行了比较：

PEARL-UB：PEARL算法的上限。作者对最优问题针对性策略（optimal problem-specific policy）所取得的预期奖励进行了分析性计算。该策略使用问题的真实后验分布进行了汤普森采样研究。

量化结果

在下文中，作者将所有方法获得的回报进行了图表绘制。与实现接近最佳收益的DREAM相比，作者发现端到端方法从不读取标志，因此避过了所有物体，因为担心走向错误的目标物体而获得负面奖励。即使允许智能体在探索回合中观察奖励（如虚线所示），这种情况也会发生。因此，它们没有获得任何回报，这表明存在耦合问题。

另一方面，尽管解耦类别中的现有方法可以避免耦合问题，但优化其目标并不能带来最佳的探索策略。例如，汤普森采样方法（PEARL-UB）即使具备最佳的问题针对性执行策略和掌握问题的真实后验分布，也无法获得最佳回报。这是因为汤普森采样是通过从后验分布中抽样问题并遵循该问题的执行策略来进行探索的。由于最佳执行策略直接指向正确的物体，并且从不读取标志，因此汤普森采样在探索期间也从不读取标志。相反， DREAM的一个优秀特点是，当具备了足够的数据和表达能力足够的策略分类，理论上来说，它就可以学习最佳的探索和执行。

其他结果

在论文中，作者及团队还在其他方面评估了DREAM，希望回答以下的问题：

DREAM是否可以针对“只发现执行执行所需信息”的目标进行有效探索？
DREAM是否可以泛化至未知的指令和环境？
DREAM是否在标准meta-RL设置以及基于指令的meta-RL中也体现出改善的结果？

总体而言，上述问题的答案都是肯定的！想要了解详细结果的读者可以查看作者的论文。（链接：https://arxiv.org/abs/2008.02790）

结论

在本文中，作者解决了元探索的问题：如何在新环境中以最好的方式收集信息来执行任务。为此，作者研究并解决了两个关键挑战。

首先，作者及团队发现：现有的meta-RL方法可以通过对探索和执行进行端到端的优化，将奖励最大化，从而解决了“鸡与蛋”的耦合问题。如果智能体尚未学会探索，那么它就无法收集用于学习解决任务（例如做饭）的关键信息（例如食材的位置）。另一方面，如果智能体尚未学会解决任务，那么就无法学会探索，因为无论如何它都无法解决任务。因此，作者团队提出DREAM方法，将“学会探索”与“学会解决任务”分开进行。
接着，作者及其团队发现：标准的meta-RL设置可以适应新环境和任务，但这要求智能体进行不必要的探索，以推断出要执行的任务（例如要煮什么菜），并且没有利用相同环境下不同任务之间的共同结构（例如，在同一厨房中烹饪不同的食物）。为此，作者等人提出基于指令的meta-RL（IMRL）的方法，向智能体提供阐明任务的指令，让智能体探索和收集对多个任务都有用的信息。

DREAM和IMRL两种方法很好地结合在了一起：IMRL在原则上实现了无奖励适应，DREAM在实践中实现了无奖励适应。由于鸡与蛋的耦合问题，作者等人测试的其他最新方法并无法实现无奖励适应。

下一步是什么？

基于这项成就，接下来可以往哪些方向发展呢？作者提出了3个例子：

更复杂的指令和问题ID表示。这项工作研究了将指令和问题ID表示为唯一独热代码（one-hot）的情况，以此作为概念证明。当然，在现实世界中，使用自然语言或图像（比如一张要烹饪的菜式的图片）可以更好地表示指令和问题ID。
将DREAM应用于其他meta-RL设置。大体上，DREAM适用于任何meta-RL设置。在meta-RL设置中，一些信息会传达给智能体，而其余信息则必须通过探索来发现。在这方面，作者研究了两个实例：在IMRL中，指令传达了任务；在标准meta-RL设置中，所有内容必须通过探索来发现。还有其他设置也值得检验。比方说，我们可能想向智能体传达有关环境的信息，例如某些配料的位置，或者左边的煤气灶坏了、因此机器人厨师应该使用右边的煤气灶。
整合探索和执行。在最常研究的meta-RL设置中，智能体可以先通过探索（探索回合）收集信息，然后再解决任务（执行回合）。这项研究非常贴近实际。例如，机器人厨师可能需要一个设置阶段，在该阶段中，机器人厨师可以先探索家庭厨房，然后才开始做饭。另一方面，Zintgraf等人在2019年发表的一些工作中，要求智能体在一开始就去解决任务：没有探索回合，所有回合都是执行回合。DREAM早已可以在这种设置中运行，只需忽略奖励、并在第一个执行回合中进行探索，以及尝试在之后的执行回合中用更好的表现来弥补第一个执行回合的缺陷。这个方法的效果非常好，但最好还是将探索和执行整合在一起。

Y. Duan, J. Schulman, X. Chen, P. L. Bartlett, I. Sutskever, and P. Abbeel. RL2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016.
J. X. Wang, Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo, R. Munos, C. Blundell, D. Kumaran, and M. Botvinick. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.
L. Zintgraf, K. Shiarlis, M. Igl, S. Schulze, Y. Gal, K. Hofmann, and S. Whiteson. VariBAD A very good method for bayes-adaptive deep RL via meta-learning. arXiv preprint arXiv:1910.08348, 2019.
L. P. Kaelbling, M. L. Littman, and A. R. Cassandra. Planning and acting in partially observable stochastic domains. Artificial intelligence, 101(1):99–134, 1998.
P. Kamienny, M. Pirotta, A. Lazaric, T. Lavril, N. Usunier, and L. Denoyer. Learning adaptive exploration strategies in dynamic environments through informed policy regularization. arXiv preprint arXiv:2005.02934, 2020.
K. Rakelly, A. Zhou, D. Quillen, C. Finn, and S. Levine. Efficient off-policy meta-reinforcement learning via probabilistic context variables. arXiv preprint arXiv:1903.08254, 2019.
W. R. Thompson. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 25(3):285–294, 1933.

https://ai.stanford.edu/blog/meta-exploration/

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.