DeepMind发布阿尔伯塔计划：AI 迈向通用人工智能 (AGI) 的路线图|算法|人机交互|deepmind

分享至

，上篇文章提到了Google DeepMind和OpenAI 的 LLM 人工智能发展路径截然不同。这不免引起了很多读者和小编一样的思考，Google DeepMind在AI 迈向通用人工智能 (AGI) 的路线图到底是什么样的？DeepMind作为引领RL强化学习领域的先锋，下一个RL范式的突破点在哪儿？为了解锁真正的人工智能！有必要了解下这篇同样是强化学习之父携手Deepmind发布的阿尔伯塔计划，这篇论文介绍了如何运用强化学习和实际经验，以下是论文《The Alberta Plan for AI Research》完整的译文，Enjoy。

历史表明，达成坚定的研究共识的道路格外艰巨。— 托马斯·库恩，《科学革命的结构》

在本文中，我们描述了我们的人工智能（AI）研究方法，我们称之为阿尔伯塔计划。阿尔伯塔计划是在我们在阿尔伯塔省的研究小组和世界各地志同道合的其他人中推行的。我们欢迎所有愿意加入我们的人。

阿尔伯塔计划是一项面向未来5-10年的长期规划，旨在加深对计算智能的基础理解。它并非着眼于我们现有知识的直接应用，而是致力于填补我们现有理解的空白。随着计算智能逐渐被人们理解，它无疑将对我们的经济、社会和个人生活产生深远的影响。尽管所有后果都难以预见，而且每一项强大的技术都可能被滥用，但我们坚信，更具远见和更复杂智能的存在，将对世界产生整体益处。

遵循阿尔伯塔计划，我们致力于理解和创建能够长期生存的计算智能体，它们能够与极其复杂的世界互动，并预测和控制其感知输入信号。这些智能体之所以复杂，是因为它们需要长期与复杂的世界互动；它们的初始设计尽可能简单、通用且可扩展。为了控制输入信号，智能体必须采取行动。为了适应变化和世界的复杂性，它们必须不断学习。为了快速适应，它们必须利用学习到的世界模型进行规划。

本文档的目的有两个。一是描述我们对 AI 研究的愿景及其潜在的知识承诺和优先事项。第二部分是描述这一愿景可能展开的道路，以及我们将追求的研究问题和项目。我们在这里描述我们对第一个目标所说的话，是为了清楚地记录我们来自哪里;我们研究策略的这一部分预计会相对稳定。我们对第二个目标所说的要现代得多。航行是不确定的;我们的道路有差距和不确定性。尽管如此，我们还是试图尽可能具体地规划前方的道路，以便我们知道我们要去哪里，即使最终我们走了另一条路或到达了一个有点不同的目的地。

研究愿景：智能作为随时间变化的信号处理

图 1：在阿尔伯塔计划的研究愿景中，智能Agent从其环境中接收观察和奖励信号，并寻求通过其行动控制这些信号。这是高级强化学习的标准视角。

我们致力于理解并创建能够与极其复杂的世界交互的长周期计算智能体，并预测和控制其感知输入信号，尤其是一种名为“奖励”的特殊标量信号。我们考虑的整体场景与强化学习领域相似（图1）。智能体和环境在精细的时间尺度上交换信号。智能体向环境发送动作，并从环境接收感知信号。较大的感知信号，即观察信号，显然不会提供关于环境状态的完整信息。第二个感知信号，即奖励信号，是一个标量信号，它定义了智能体的最终目标——最大化随时间变化的总奖励。这三个时间序列——观察信号、动作信号和奖励信号——构成了智能体的体验。我们期望所有学习都基于这三个信号，而不是环境内部的变量。智能体只能获得体验，而环境仅仅是这些信号的来源和接收器。

如上所述，艾伯塔计划研究愿景的第一个显著特点是它强调普通体验，而不是特殊的训练集、人类援助或进入世界的内部结构。尽管有很多方法可以使用人类输入和领域知识来提高 AI 的性能，但这些方法通常无法与计算资源一起扩展，因此不是我们的研究重点。

阿尔伯塔计划研究愿景的第二个显著特点可以概括为“时间一致性”。时间一致性意味着，对于Agent上运行的算法而言，所有时间都是相同的。不存在特殊的训练周期，即训练信息可用或奖励计数多于或少于其他周期。如果提供训练信息（例如通过奖励信号提供），则该信息在每个时间步长上都会提供。如果Agent进行学习或计划，则它会在每个时间步长上进行学习或计划。如果Agent构建自己的表示或子任务，则用于构建它们的元算法会在每个时间步长上运行。如果Agent可以在环境部分看似稳定时降低其学习速度，那么当环境部分开始发生变化时，它也可以提高其学习速度。我们对时间一致性问题和算法的关注，使我们对非平稳、持续的环境以及持续学习和元学习算法产生了兴趣。

时间的统一性部分是我们研究内容的限制，部分是我们强加给自己的学科。保持所有内容在时间上统一会降低自由度并缩小Agent设计空间。为什么不让一切都在时间上保持一致呢？在提出了这个反问之后，我们承认在某些情况下，偏离绝对的时间统一性是可取的。但是当我们这样做时，我们意识到我们正在超越这个学科。

阿尔伯塔计划研究愿景的第三个显著特点是它对计算考虑的认识。摩尔定律及其推广带来了计算机能力的稳定指数增长，我们必须优先考虑与计算机能力成比例扩展的方法。计算机能力虽然呈指数级增长，但从来都不是无限的。我们拥有的越多，有效利用它就越重要，因为它是我们Agent性能的越来越大的决定因素。我们必须吸取人工智能过去的惨痛教训，优先考虑学习和搜索等方法，这些方法可以随着计算机能力的广泛扩展而扩展，同时淡化那些不重要的方法，例如人类对问题领域的洞察和人类标记的训练集。

除了这些大规模的影响之外，计算考虑因素还涉及智能Agent设计的各个方面。例如，对于智能Agent来说，能够对其观察的变化做出快速反应通常很重要。但是，考虑到计算限制，反应时间和决策质量之间总是需要权衡。时间步长应为统一长度。如果我们希望Agent快速响应，则时间步长必须较小(小于确定最佳作所需的时间步长)。规划可能会有更好的行动，但规划甚至学习都需要时间;有时，快速行动（Fast Action）比行动良好（Action Well）要好。

以这种方式优先考虑被动行动并不妨碍Planning规划的重要作用。被动Policy策略可能会建议采取暂时的Action行动，直到Planning规划改进了Policy策略，然后再采取更具决心的Action行动，就像棋手可能会等到确定自己的走法后再采取行动一样。Planning规划是智能的重要组成部分，也是我们研究愿景的重要组成部分。

阿尔伯塔计划研究愿景的第四个显著特点是，它关注环境中包含其他智能代理的特殊情况。在这种情况下，主要智能代理可以学习与环境沟通、合作和竞争，并且应该意识到环境可能会根据其行为做出不同的反应。人工智能在游戏方面的研究通常必须处理这些问题。两个或多个智能代理合作的情况也包括认知助手和人身体上的假肢。这种情况被研究为智能放大 (Intelligence Amplification)，这是人机交互的一个子领域。有一些通用的原则，一个智能Agent可以利用其所学知识来放大和增强另一个智能Agent的行为、感知和认知，而这种放大是充分发挥人工智能潜力的重要组成部分。

阿尔伯塔计划将人工智能问题描述为通过持续的感知和行动实现奖励的在线最大化，计算量有限，并且可能在其他Agent存在的情况下。这种描述可能看起来很自然，甚至很明显，但它也与当前的做法相反，当前的做法通常侧重于离线学习、准备好的训练集、人工协助和无限计算。阿尔伯塔计划的研究愿景既经典又逆向，在追根溯源的意义上是激进的。

研究计划

所有研究计划都是可疑性的和临时性的。然而，我们必须做出这些任务，以便我们之间进行沟通和有效协作。艾伯塔计划并不是要限制我们团队成员的个人工作，而是试图就我们共同做的事情达成共识。

围绕基础Agent进行设计

图 2：阿尔伯塔计划的基础Agent由四个组件组成，这些组件由感知组件构建的状态信号相互连接。所有组件都可以学习。

我们对智能体设计的研究从图2所示的标准或基本智能体开始，它本身基于“通用模型的智能Agent”，该模型已被提议用于人工智能、心理学、控制理论、神经科学和经济学（Sutton 2022）。我们的基础Agent有四个主要的内部组件。Perception感知组件负责更新Agent对其过去经验或状态的总结，这些总结随后会被所有组件使用。Reactive policies反应策略组件包含主要策略，它负责选择将发送到环境的操作，并根据最大化奖励的目标进行更新。感知和主要策略共同将观察结果映射到操作，因此可以充当一个最小Agent。我们的基础Agent允许其他反应策略，例如最大化奖励以外的其他数量。每个策略都有一个对应的价值函数，用于学习它。所有价值函数的集合构成了Value functions价值函数组件。允许多个策略和价值函数是我们的基础Agent与通用模型智能Agent的主要区别。

基础智能体的第四个组件是Transition model组件转换模型组件，它代表了智能体对世界动态的认知。转换模型是从观察到的动作、奖励和状态中学习而来的，无需参考观察结果。一旦学习完成，转换模型就可以采用一个状态和一个动作，并预测下一个状态和下一个奖励。通常，该模型在时间上可能是抽象的，这意味着它采用的不是一个动作，而是一个选项（一个策略加上一个终止条件），并预测选项终止时的状态以及沿途的累积奖励。转换模型用于设想采取该动作/选项的可能结果，然后由价值函数评估这些结果，从而改变策略和价值函数本身。这个过程称为规划。与架构中的其他所有内容一样，规划应该是连续的和时间上一致的。每一步都会有一定程度的规划，可能是一系列小的规划步骤，但规划通常不会在一个时间步内完成，因此和Agent与环境交互的速度相比会比较慢。

规划是一个持续进行的过程，只要不干扰前三个组件，它就会在后台异步运行。前三个组件必须在每个时间步（Time Step）运行，被称为前台运行。每一步，新的观察结果都必须经过感知处理，产生一个状态，然后由主策略处理，产生该时间步的操作。价值函数也必须在前台运行，以评估每个时间步的新状态以及采取先前操作的决策。我们强烈倾向于在事件发生时对其进行全面处理。具体而言，所有四个组件都由前台运行的学习过程使用最新事件以及短期信用分配记忆（例如eligibility traces资格追踪）进行更新。

我们的基础Agent是我们经常偏离或延伸的起点。感知成分可能是最不被理解的。尽管我们有静态的、设计的感知过程的例子（例如在 Atari 中更新或记住四个框架），但应该如何学习或元学习感知以最大限度地支持其他组成部分仍然是一个悬而未决的研究问题。规划同样也很好地理解了实例化，但如何有效和普遍地进行规划——使用近似、时间抽象和随机性——仍然悬而未决。基本Agent也不包括子任务，即使这些可能是发现有用选项的关键。基本Agent中也没有提到指导规划过程的算法，例如优先扫描，有时通常称为搜索控制。也许基本Agent最容易理解的部分是价值函数和反应策略的学习算法，但即使在这里，它们的高级形式也有改进的空间，例如涉及平均奖励、非策略学习和持续非线性学习的那些。最后，给定选项，世界模型的学习在概念上是明确的，但仍然具有挑战性且未得到充分探索。更好地了解所有这些算法的高级形式是进一步研究的重要领域。其中一些将在下一节中进一步讨论。

AI 原型路线图

“路线图”一词指的是绘制一条线性路径，即一系列应按顺序执行和完成的步骤。这并非完全错误，但它未能认识到研究中的不确定性和机遇。我们下面概述的步骤除了从头到尾的顺序之外，还具有多重相互依赖性。路线图建议的顺序虽然自然，但在实践中往往会被偏离。有用的研究可以通过进入或附加到任何步骤来完成。例如，我们中的许多人最近在集成架构方面取得了有趣的进展，尽管这些进展仅出现在顺序的最后几步。

首先，让我们尝试对路线图及其基本原理有一个整体的了解。共有 12 个步骤，标题如下：

1. 表征 I：基于给定特征的持续监督学习。

2. 表征 II：监督特征查找。

3. 预测 I：持续广义值函数 (GVF) 预测学习。

4. 控制 I：持续行动-评论控制。

5. 预测 II：平均奖励 GVF 学习。

6. 控制 II：持续控制问题。

7. 规划 I：基于平均奖励的规划。

8. 原型人工智能 I：基于模型的单步强化学习，采用持续函数逼近。

9. 规划 II：搜索控制与探索。

10. 原型人工智能 II：STOMP 进展。

11. 原型人工智能 III：Oak。

12. 原型人工智能 I：智能放大。

这些步骤从开发核心能力（用于表示、预测、规划和控制）的新型算法发展到将这些算法组合起来，为基于模型的连续 AI 生成完整的原型系统。

AI 中一个永恒的困境是 “部分与整体” 的困境。在核心能力的有效算法存在之前，无法构建完整的 AI 系统，但在组装完整的系统之前，无法知道究竟需要哪些核心能力。为了解决这个先有鸡还是先有蛋的问题，我们必须同时研究先有鸡还是先有蛋、系统和组件算法、部分和整体。结果是不完美的，浪费了精力，但可能是不可避免的。

步骤 1.表示 I：具有给定特征的持续监督学习。第 1 步是艾伯塔计划主要策略的示例：通过考虑它出现的最简单环境并尝试在那里充分处理它，然后再推广到更复杂的环境，从而专注于特定问题。第 1 步中关注的问题是持续学习和表征的元学习。如何在长时间持续的同时快速、稳健和高效地学习？如何利用长时间的学习来元学习更好的表示，从而最有效地学习？

步骤 1 中采用的简单设置是监督学习和随机梯度下降，使用具有静态给定特征的线性函数近似器。在这种情况下，传统的随机梯度下降方法（例如最小均方学习规则）即使问题是非平稳的，也可以很好地工作。然而，这些方法的效率和稳定性可以显著提高，这就是步骤 1 的目的。首先，这些方法通常涉及一个全局步长参数，该参数必须由专家用户设置，并借助目标输出、特征、特征数量和启发式方法的知识。所有这些用户专业知识都应该被用于设置 step-size 参数的元算法所取代，以便相同的方法可以用于任何问题或大型问题的任何部分。其次，每个特征应该有不同的步长参数，而不是全局步长参数，具体取决于该特征应进行多少泛化。如果这样做了，那么将有许多 step-size 参数需要设置，通过算法设置它们将更加重要。

在这种设定下，表征就是特征，它们是给定且固定的，因此，将这种设定作为探索表征学习的一种方式似乎有些令人惊讶。诚然，这种设定不能用于发现特征或搜索新特征，但它可以用来评估给定特征的效用——这是全面表征发现的重要前提。即使不改变特征，也能学习哪些特征相关，哪些特征不相关。相关特征可以赋予较大的步长参数，而无关特征则赋予较小的步长参数；这本身就是一种表征学习，即使不改变特征本身，也能影响学习效率。

最后，特征的归一化（缩放和偏移量）可以极大地影响学习效率，而不会改变线性函数近似器的表示能力，我们在第 1 步中包括这些。

特别是，我们考虑了期望行为的无限序列，每个样本都由一个实值输入向量和一个实值期望输出组成。设第 t 个示例是一对表示 (t,yt∗) 为的。学习器寻求从每个输入向量 t 到 yt 与所需输出 yt∗ 非常接近的输出的仿射映射。该仿射映射表示为权重向量 t 和标量偏差或偏移项 bt 。也就是说，输出为 yt≐tt⊤+bt 。目标是通过学习 t 和 bt 来最小化平方误差 (yt∗−yt)2 。每个示例都是独立的，但生成该示例的分布会随时间而变化，从而使问题变得不稳定。特别是，我们可以将所需的输出视为在输入向量中是仿射的，并且是一个随时间缓慢变化的未知目标权重向量 t∗ ，再加上一个额外的、独立的均值零噪声信号： yt∗≐t∗t⊤+bt∗+ηt 。如果 t∗ 或bt∗随时间变化，或者如果bt∗的分布 t 随时间变化，则问题是非平稳的。

在这个简单的环境中，仍有一些基本问题尚未得到明确回答。我们对归一化和步长适应问题特别感兴趣。在不改变线性学习单元的表达能力或其计算复杂度的顺序的情况下，我们可以转换各个输入 xti 以产生归一化信号 x~ti≐xti−μtiσti ，其中 μti 和 σti 是 i 第个信号的平均值和标准差的非平稳（跟踪）估计值。令人惊讶的是，这种在线正常化的效果尚未在文献中明确确定。我们考虑以下形式的学习规则：

其中 each αti 是元学习的、每权重的步长参数，并且

其中 αtb 是另一个可能元学习的 step-size 参数。我们对第 1 步的初步研究将侧重于在现有算法的基础上对步长参数进行元学习的算法， 11 以及展示它们改进的稳健性。

第 1 步的总体思路是在给定固定特征表示的情况下设计出尽可能强大的算法。它应该包括问题中所有最重要的非平稳性问题（对于一组固定的线性特征），包括对特征相关性变化的跟踪。它应该包括特征相关性的元学习，这是表征学习中一个具有挑战性的问题——可以说是最具挑战性的问题——但它不包括实际改变正在考虑的特征集;这将在第 2 步中探讨。

步骤 2。表示 II：监督特征查找。此步骤的重点是在持续监督学习的上下文中创建和引入新功能（通过组合现有特征制成），如步骤 1 中所示，不同之处在于现在目标将是 t∗ 近似于 output vectors t 的向量。获取 t 要匹配的 t∗ 每个组件称为单独的任务。如何在现有功能的基础上构建新功能，以在不牺牲临时性能的情况下，最大限度地发挥新功能的潜在效用和实现该效用的速度？之前构建和提供各种任务的经验如何帮助功能构建？

我们现在有一个非平稳的多层和多任务系统。如何为所有功能分配效用，同时考虑到所有功能的效果和将来可能的效用？系统的性能将取决于资源预算（即，可以并行考虑多少个新的非线性特征）。一个好的解决方案将包括一种方法，即评估现有特征并丢弃不太有前途的特征，以便为新特征腾出空间。从广义上讲，解决方案方法可能是某种形式的智能生成有前途的功能，然后智能测试以对它们进行排名和替换。

此步骤的重点是探索在管理用于表示和学习特征的有限资源时具有挑战性的问题。您可以表示和收集有限数量的要素的数据。何时应丢弃旧特征，以便可以收集有关新特征的数据？新功能是如何构建的？如何选择丢弃的特征？

步骤 3。预测 I：持续的 GVF 预测学习。对顺序的实时设置重复上述两个步骤，其中数据不是 i.i.d.，而是来自具有状态的过程，任务是广义价值函数（GVF）预测。首先使用给定的线性特征，然后进行特征查找。新功能不仅包括非线性组合，还包括旧信号和迹线的合并。像经典的条件测试台，对非平稳性进行了适当的扩展，可能适用于此目的。理想情况下，这将一直带到非策略学习。理想情况下，这将是在实时设置中，具有循环网络，每个观测执行的处理量有限。在这里，我们明确解决了构建状态的问题，这是标准Agent模型的感知部分。

步骤 4。控制 I：持续行动-评论控制。重复上述三个步骤进行控制。首先在传统的k-arm bandit设置中，然后在具有离散 softmax 动作的上下文bandit设置中，然后在具有给定特征的顺序设置中，最后在具有特征查找的顺序设置中。在最后两个子步骤中，我们正在寻找一种 actor-critic 算法。评论者可能是步骤 1-3 的结果。Action会很相似，但仍然不同，Action和评论者（以及他们的配角）之间的互动仍然必须得到解决，这样才能持续和稳健地学习。

步骤 5。预测 II：平均回报 GVF 学习。这里的一般思路是将 GVF 的一般预测学习算法扩展到平均奖励情况。我们将累积量与终端值分开，累积量始终是奖励。然后似乎有两个相关的案例。一个是学习的值应该接近差分值。在这种情况下，我们还学习了平均奖励率，从观察到的奖励中减去它，终止永远不会发生。另一种方法是，学习约定价值（不减去平均回报率）加上期权的预期期限。。也许这些可以结合起来。但这两者似乎就足够了。

我们在前四个步骤中学到的应该延续到平均奖励 GVF 的学习算法中，用于预测和控制，变化最小。

步骤 6。控制 II：持续的控制问题。我们需要一些持续的问题来测试用于学习和规划的平均奖励算法。目前我们有 River Swim、Access-control Queuing、像Jellybean World 这样的觅食问题和 GARNET。OpenAI Gym 有很多偶发问题，应该转换为持续版本。

前六个步骤（以上）旨在设计更连续的无模型学习方法。它们构成了对所有标准无模型方法的彻底修改。这些方法为后续步骤（涉及环境模型和规划）提供了基础。

就像 agent 所做的所有工作一样，模型的学习和模型的使用应该以时间上统一的方式完成，就像在 Dyna 和 asynchronous dynamic programming 中一样。早期步骤是在持续环境中以平均奖励目标制定计划。

步骤 7。规划 I：具有平均奖励的计划。为平均奖励标准开发基于异步动态规划的增量规划方法。这里的初始工作是针对表格情况的，但具有函数近似的情况应该紧随其后。后一种方法应该包含我们在步骤 1-3 和 5 中学到的关于持续学习、元学习和特征查找的所有知识。

步骤 8。Prototype-AI I：具有连续函数近似的基于模型的一步式 RL。我们的第一个原型 AI 将基于平均奖励 RL、模型、规划和连续非线性函数近似。这将通过合并一般连续函数近似来超越过去在 Dyna 上的工作，但仍将仅限于一步模型。换句话说，Prototype-AI 1 将是一个集成架构，除了时间抽象（选项）之外，其他所有内容都包含。如果没有时间抽象，Prototype-AI 1 在许多方面都会很弱和有限（也许不是那么令人印象深刻），但它无疑会带来自己的挑战。或者，也许它会很容易且不令人印象深刻，在这种情况下，我们可以完成它并继续进行 Prototype-AI II。

原型 AI 1 将包括a）递归状态更新（感知）过程，b）一步环境模型，大概是期望模型或样本模型或介于两者之间的东西，c）像步骤 2 中一样寻找特征，利用来自模型的重要性反馈，d）用于特征查找和确定环境模型中包含哪些特征的特征排名， e）模型学习和规划对特征排名的影响（一个周期），以及 f）某种形式的搜索控制，可能包括 MCTS 或优先扫描之类的东西。子步骤 b、e 和 f 将涉及挑战以前没有遇到的新问题，并且在时间抽象之前可能无法以完全令人满意的方式解决。

此步骤和以下步骤将需要开发目标域，以开发和说明这些原型 AI 的功能。

步骤 9。规划 II：搜索控制和探索。在第二个规划步骤中，我们开发了对规划的控制。规划被视为具有函数近似的异步值迭代。异步值迭代允许按任意顺序更新状态，但选择的顺序会极大地影响规划效率。使用函数近似时，效果甚至更大。控制规划过程的早期工作包括优先扫描和小备份，并且已经进行了一些尝试将这些表格概念推广到线性函数近似，并考虑模型各个部分的不确定性。从最普遍的角度来看，搜索控制（改变状态更新的顺序）使规划能够发生根本性的变化 — 例如，从蒙特卡洛树搜索到经典的启发式搜索。

步骤 10。原型 AI II：STOMP 进展。现在我们介绍子任务和时间抽象。排名最高的特征被分别放入一个单独的奖励相关子任务中，并设置一个终值，当该特征排名较高时，该终值鼓励任务结束。每个 subtask 都被解决以产生一个选项。对于每个此类选项，都会学习其模型并将其添加到用于规划的转换模型中。这种进展——子任务、选项、模型和规划（SubTask, Option, Model, and Planning）——被称为时间抽象认知结构发展的 STOMP 进展（见图 3）。学习过程以选项为条件，因此需要脱离策略进行。他们还需要在早期的步骤中整合我们学到的关于持续学习、元学习和规划的所有知识。

图 3：STOMP 级数和 Oak 架构中抽象的发展。选定的状态特征定义了要实现这些任务的子任务（右），而子任务又定义了学习策略和终止条件（选项）的标准及其相应的值函数（左下角）。这些选项反过来定义学习其过渡模型（左上）的标准，规划流程（紫色箭头）使用这些标准来改进策略和价值功能。从经验中学习（红色箭头）利用当前可用的特征（绿色箭头）作为函数逼近器的输入。从基于特征的 SubTask 到 Options 再到 Models 的进程构成了 STOMP 进程。完整的 Oak 架构添加了反馈流程，这些流程会持续评估所有元素的效用，并确定应删除哪些元素（功能、子任务、选项和选项模型）并将其替换为新元素（请参阅步骤 11 的文本）。特别是，选择作为 subtasks 基础的状态功能会发生变化，这将更改所有下游元素。在 Oak 架构中，状态抽象和时间抽象都会不断更改和改进。

步骤 11.原型 AI III：ARK。Oak 架构通过添加反馈流程来修改 Prototype-AI II，这些反馈流程会持续评估所有元素（功能、子任务、选项和选项模型）的效用，并确定应删除哪些元素并将其替换为新元素。例如，如果一个选项模型在规划中从来没有用处，那么它和相应的选项和子任务最终应该被删除，并替换为尚未成为子任务基础的新功能的那些。这些功能本身也在不断评估它们在学习和规划过程中的有用性。这应该会导致功能的重要性重新排序，偶尔会导致不太有用的子任务被删除并被新的子任务替换。以这些方式和其他方式，状态和时间抽象不断变化和改进。

此外，在此步骤中，我们引入了一个选项键盘。键盘的比喻是选项可以由实值向量引用，每个 subtask 都有一个分量。即键盘的每个键都引用了基于 subtask 的选项，以实现相应的功能。具有多个非零组件的键盘向量（就像在和弦中一样同时弹奏多个键）引用基于组件选项组合的选项。

在一个设计中，选项以正常的非策略方式学习，每个选项都以最大化其单独的功能，而和弦选项是组件选项的固定混合，同时考虑到和弦中每个组件音符/选项/功能/子任务的强度。在此设计中，环境模型不会学习组件选项（就像在 Prototype-AI 2 中一样），而是学习键盘上弹奏的任何和弦选项。

在另一种设计中，键盘向量首先被解释为一个问题 — 因为使用通常奖励的 subtask 在终止时接收到与键盘向量的所有非零分量成比例的终端值。如果和弦是用两个全 1 的音符弹奏的，那么当选项终止时，子任务是最大化相应特征值的总和。该模型与第一个设计中的学习完全相同（它忽略了键盘向量的含义，将其视为选项的非解释名称或描述符），但现在选项是针对多组件子任务学习的，而不是针对单独实现特征的（除非播放的键盘向量恰好是 one-hot）。

步骤 12.原型 IA：智能放大。智能应用 (IA) 的演示，其中原型人工智能 II 型智能体被证明能够以非凡的方式提升第二个智能体的速度和整体决策能力。我们认为该 IA 智能体的第一个版本或许可以被描述为一个计算外小脑（一个主要基于 Oak 的预测和持续特征构建元素以及上述步骤构建的系统）。然后，我们看到了第二个版本，它或许可以被理解为一个计算外皮层，充分体现了智能体制定策略的能力，并利用规划来乘法式地增强另一个伙伴智能体或单个智能体的一部分的智能。我们看到这两个版本正在人机交互和智能体与智能体之间的交互环境中进行研究。

如前所述，该计划是临时的，是草案，是工作计划。我们应该期望继续编辑它们。特别是最后的步骤不太具体，随着我们的接近，可能会发生很大变化。我们欢迎提供我们可能忽略的相关工作或相关计划的指针。

我们的研究愿景中有一些重要的部分可能最好被认为是与这些步骤一起运行。在这里，我们正在考虑关于智能放大（在最后的步骤 12 中提到）和机器人技术的研究。这些工作将与前 11 个步骤相互作用并为其提供信息，但可能应该按照它们自己的平行步骤序列进行开发，这些步骤尚未列出和排序。

看完这篇论文你对DeepMind未来可能推动的范式融合有什么观点？小编认为：一个具备世界模型的多模态Agent，使用Transformer统一感知、语言与控制，具备自我探索能力、内在动机、因果推理能力，并能在开放任务中持续适应与学习。这基本就是 DeepMind 在向通用智能体（AGI）方向迈进的技术路线。

原文链接：https://arxiv.org/pdf/2208.11173

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.