为什么电子游戏和棋盘游戏不能很好地衡量人工智能智能|机器人|谷歌|星际争霸

分享至

就人工智能的进展采访谷歌的 François Chollet

衡量人工智能的智能是计算机科学领域中最棘手但最重要的问题之一。如果你不明白你今天建造的机器是否比昨天更聪明，你怎么知道你在进步？

乍一看，这似乎不是问题。“显然人工智能变得越来越聪明”是一个回答。“只要看看涌入该领域的所有资金和人才。看看里程碑，比如在围棋中击败人类，以及十年前无法解决但今天司空见惯的应用程序，比如图像识别。怎么不是进步？”

智能对于开发人工智能意味着什么？

另一个回答是，这些成就并不是真正衡量智力的好方法。在国际象棋和围棋中击败人类是令人印象深刻的，是的，但是如果最聪明的计算机在解决一般问题的策略上被蹒跚学步的孩子或老鼠打败又有什么关系呢？

这是人工智能研究员、谷歌软件工程师、机器学习界知名人士弗朗索瓦乔莱提出的批评。Chollet 是 Keras 的创建者，Keras 是一种广泛使用的程序，用于开发神经网络，是当代人工智能的支柱。他还编写了大量关于机器学习的教科书，并维护着一个流行的Twitter 提要，在那里他分享他对该领域的看法。

在最近一篇题为“关于智力的衡量”的论文中，Chollet 还提出了一个论点，即人工智能世界需要重新关注智能是什么，不是什么。Chollet 说，如果研究人员想要在通用人工智能方面取得进展，他们需要超越视频游戏和棋盘游戏等流行基准，并开始思考真正使人类变得聪明的技能，比如我们的概括和适应能力。

在接受The Verge的电子邮件采访时，Chollet 解释了他对这个主题的看法，谈到了为什么他认为当前人工智能的成就被“歪曲”，我们如何衡量未来的智能，以及为什么关于超智能人工智能的可怕故事（如埃隆马斯克和其他人告诉）对公众的想象力毫无根据。

为清楚起见，对本次采访进行了轻微编辑。

在您的论文中，您描述了塑造人工智能领域的两种不同的智能概念。一种认为智能是在广泛的任务中表现出色的能力，而另一种则优先考虑适应性和泛化能力，即人工智能应对新挑战的能力。现在哪个框架的影响更大，其后果是什么？

在该领域的前 30 年历史中，最具影响力的观点是前者：智能是一组静态程序和显式知识库。现在，钟摆已经朝着相反的方向摆动了很远：人工智能社区中概念化智能的主要方式是“白板”，或者用更相关的比喻来说，“刚初始化的深度神经网络”。不幸的是，这是一个基本上没有受到挑战甚至基本上未经审查的框架。这些问题有很长的思想史——几乎是几十年——我今天在这个领域看不到这段历史，也许是因为今天做深度学习的大多数人是在 2016 年之后加入这个领域的。

拥有这样的知识垄断从来都不是一件好事，尤其是作为对知之甚少的科学问题的回答。它限制了被问到的问题集。它限制了人们追求的思想空间。我认为研究人员现在开始意识到这一事实。

François Chollet 是人工智能框架 Keras 的发明者，也是谷歌的软件工程师。

在您的论文中，您还论证了 AI 需要更好地定义智能才能改进。现在，你认为，研究人员专注于在静态测试中对性能进行基准测试，比如击败视频游戏和棋盘游戏。为什么你觉得缺乏这种智力衡量标准？

问题是，一旦你选择了一个度量，你就会采取任何可用的捷径来玩它。例如，如果您将下棋作为智力的衡量标准（我们在 1970 年代到 1990 年代开始这样做），那么您最终会得到一个可以下棋的系统，仅此而已。没有理由认为它对其他任何事情都有好处。你最终得到了树搜索和极小极大值，这并没有教会你任何关于人类智能的知识。今天，在Dota或StarCraft等电子游戏中追求技能作为一般智力的代表也落入了完全相同的智力陷阱。

这可能并不明显，因为在人类中，技能和智力是密切相关的。人类的思维可以利用其一般智能来获得特定于任务的技能。一个真正擅长国际象棋的人可以被假定为非常聪明，因为我们隐含地知道他们从零开始，并且必须利用他们的一般智力来学习下棋。它们不是为下棋而设计的。所以我们知道他们可以将这种通用智能引导到许多其他任务上，并学习以类似的方式有效地完成这些任务。这就是普遍性。

关于人类智能的假设不应适用于机器

但是机器没有这样的限制。一台机器绝对可以设计成下棋。所以我们对人类所做的推断——“会下棋，因此必须聪明”——失效了。我们的拟人化假设不再适用。通用智能可以产生特定任务的技能，但没有反向的路径，从特定任务技能到通用性。在所有。因此，在机器中，技能与智能完全正交。您可以在任意任务中获得任意技能，只要您可以对有关任务的无限数据进行采样（或花费无限量的工程资源）。这仍然不会让你更接近一般智力一英寸。

关键的见解是，在任何任务中，获得高技能都是智慧的标志。除非该任务实际上是一项元任务，否则它涉及在广泛的[范围] 以前未知的问题上获得新技能。这正是我提出的作为智能基准的建议。

图片：DeepMind

人工智能实验室 DeepMind 的研究人员观察他们的人工智能 AlphaStar 在星际争霸 II 中对付人类玩家。

如果这些当前的基准不能帮助我们开发具有更通用、更灵活智能的人工智能，为什么它们如此受欢迎？

毫无疑问，在特定的知名视频游戏中击败人类冠军的努力主要是由这些项目可以产生的新闻报道驱动的。如果公众对这些很容易被误认为是迈向超人通用人工智能的步骤的华丽“里程碑”不感兴趣，研究人员就会做其他事情。

专注于 AI 击败视频游戏是“由新闻报道驱动的”

我认为这有点可悲，因为研究应该回答开放的科学问题，而不是产生 PR。如果我开始“解决”魔兽争霸III在使用深度学习的超人水平上，只要我有足够的工程人才和计算能力（对于这样的任务来说，这大约需要数千万美元），你就可以肯定我会到达那里。但是一旦我完成了它，我会学到什么关于智能或概括的知识？嗯，没什么。充其量，我已经掌握了有关扩展深度学习的工程知识。所以我并不真正将其视为科学研究，因为它并没有教会我们任何我们还不知道的东西。它不回答任何悬而未决的问题。如果问题是“我们可以在超人的水平上玩 X 吗？”，答案肯定是，“可以，只要您可以生成足够密集的训练情况样本并将它们输入到具有足够表现力的深度学习模型中。” 我们已经知道这一点有一段时间了。(实际上，在Dota 2和星际争霸 IIAI 达到冠军级别之前，我已经说了很多。）

您认为这些项目的实际成果是什么？他们的结果在多大程度上被误解或歪曲了？

我看到的一个明显的误解是，这些高技能游戏系统代表了“人工智能系统，它可以处理现实世界的复杂性和不确定性”的真正进步[正如 OpenAI 在关于其Dota的新闻稿中所说的那样2 -玩机器人 OpenAI 五]。他们不。如果他们这样做了，那将是一个非常有价值的研究领域，但事实并非如此。以 OpenAI Five 为例：它无法处理Dota 2的复杂性首先是因为它是用 16 个字符训练的，它不能推广到超过 100 个字符的完整游戏。它接受了超过 45,000 年的游戏训练——然后再次注意训练数据要求如何与任务复杂性相结合——然而，结果模型被证明非常脆弱：非冠军人类玩家能够找到可靠地击败它的策略在 AI 向公众开放后的几天。

如果你想有一天能够处理现实世界的复杂性和不确定性，你必须开始问这样的问题，什么是泛化？我们如何衡量和最大化学习系统中的泛化能力？这与在大型神经网络中抛出 10 倍多的数据和计算完全正交，以便将其技能提高一小部分。

那么对于该领域来说，什么是更好的智力衡量标准呢？

简而言之，我们需要停止评估事先已知的任务的技能——比如国际象棋、Dota或星际争霸——而是开始评估技能获取能力。这意味着只使用系统事先不知道的新任务，测量系统启动任务的先验知识，并测量系统的样本效率（即需要多少数据来学习完成任务）任务）。达到特定技能水平所需的信息（先验知识和经验）越少，您就越聪明。而今天的人工智能系统真的一点都不智能。

此外，我认为我们对智能的衡量应该使人类相似性更加明确，因为可能存在不同类型的智能，而当我们谈论一般智能时，类人智能才是我们真正在隐含地谈论的。这涉及试图了解人类与生俱来的先验知识。人类的学习效率非常高——他们只需要很少的经验就能获得新技能——但他们不是从头开始的。除了一生积累的技能和知识外，他们还利用先天的先验知识。

[我最近的论文] 提出了一个新的基准数据集 ARC，它看起来很像 IQ 测试。ARC 是一组推理任务，其中每个任务都通过一小段演示进行解释，通常是三个演示，您应该从这几个演示中学习完成任务。ARC 的立场是，评估您的系统的每项任务都应该是全新的，并且应该只涉及适合人类先天知识的知识。例如，它不应该以语言为特色。目前，ARC 完全可以由人类解决，无需任何口头解释或事先培训，但我们迄今为止尝试过的任何 AI 技术都完全无法解决。这是一个巨大的闪光信号，表明那里正在发生一些事情，我们需要新的想法。

弗朗索瓦·乔莱 (François Chollet) 提供的图片

Chollet 为他的新 ARC 基准数据集提出的智力测试类型的一个例子。

你认为人工智能世界可以通过在问题上投入更多的计算能力来继续进步吗？有些人认为，从历史上看，这是提高绩效的最成功的方法。而其他人则表示，如果我们只是走这条路，我们很快就会看到收益递减。

如果您正在处理特定任务，这绝对是正确的。在垂直任务中投入更多训练数据和计算能力将提高该任务的性能。但它会让你对如何在人工智能中实现通用性有零增量的理解。

如果你有一个足够大的深度学习模型，并且你在一个任务的输入-交叉输出空间的密集采样上训练它，那么它会学会解决这个任务，不管是什么——Dota，星际争霸，你的名字它。这是非常宝贵的。它在机器感知问题中有几乎无限的应用。这里唯一的问题是您需要的数据量是任务复杂性的组合函数，因此即使是稍微复杂的任务也会变得非常昂贵。

以自动驾驶汽车为例。数以百万计的训练情况不足以让端到端的深度学习模型学会安全驾驶汽车。这就是为什么，首先，L5 自动驾驶还没有完全实现。其次，最先进的自动驾驶系统主要是符号模型，它们使用深度学习将这些手动设计的模型与传感器数据连接起来。如果深度学习可以泛化，2016 年我们就会有 L5 级自动驾驶，它会采用大型神经网络的形式。

摄影：Vjeran Pavic / The Verge

自动驾驶汽车的发展比许多人预测的要慢得多。

最后，鉴于您正在谈论当前 AI 系统的限制，似乎值得询问超级智能的想法——担心极其强大的 AI 可能在不久的将来对人类造成极大伤害。你认为这样的恐惧合理吗？

不，我不相信超级智能的叙述是有根据的。我们从未创建过自主智能系统。绝对没有迹象表明我们能够在可预见的未来创造一个。（这不是当前 AI 进步的方向。）而且我们绝对无法推测如果我们最终在遥远的未来创建一个它的特征可能是什么。打个比方，这有点像在 1600 年问：“弹道学的进展非常快！那么，如果我们有一门可以摧毁整个城市的大炮呢？我们如何确保它只会杀死坏人？” 这是一个相当格式错误的问题，在对我们所谈论的系统缺乏任何了解的情况下进行辩论，充其量相当于哲学论证。

“我们不需要超级智能来让某些人工智能应用程序表现出危险。”

关于这些超级智能的恐惧的一件事是，它们掩盖了人工智能今天有可能变得非常危险的事实。我们不需要超级智能来让某些 AI 应用程序代表危险。我写过关于使用 AI 实现算法宣传系统的文章。其他人写过算法偏见、人工智能在武器系统中的使用，或者人工智能作为极权控制的工具。

有一个关于 1453 年君士坦丁堡围城的故事。当这座城市与奥斯曼帝国军队作战时，它的学者和统治者正在争论天使的性别。好吧，我们在讨论天使的性别或假设的超级智能 AI 的价值对齐上花费的精力和注意力越多，我们处理当今 AI 技术提出的真实而紧迫的问题的时间就越少。有一位著名的技术领导者喜欢将超级智能 AI 描述为对人类生存的威胁。好吧，虽然这些想法成为头条新闻，但您并没有讨论在我们的道路上部署不够准确的自动驾驶系统而引起的碰撞和生命损失所引发的道德问题。

如果人们接受这些批评——这些担忧目前没有技术依据——你为什么认为超级智能的叙述很受欢迎？

归根结底，我认为这是一个好故事，人们会被好故事所吸引。它类似于末世宗教故事并非巧合，因为随着时间的推移，宗教故事已经演变并被选择以与人们产生强烈共鸣并有效传播。出于同样的原因，您也可以在科幻电影和小说中找到这种叙述。它被用在小说中的原因，它类似于宗教叙事的原因，以及它作为一种理解人工智能发展方向的方式而流行的原因都是一样的：这是一个好故事。人们需要故事来理解世界。对此类故事的需求远远超过了解智能本质或了解推动技术进步的因素的需求。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.