汪军对话 Rich Sutton：大模型在一定程度上分散了我们对智能理解的注意力|算法|差分|时序

分享至

在刚刚落幕的 RL China 2025 开幕式上，伦敦大学学院（UCL）汪军教授与图灵奖得主、“强化学习之父” Richard Sutton 展开了一场跨越地域的思想对话，从强化学习（RL）的学科根基出发，共探智能的本质与未来方向。

汪军教授深耕智能信息系统领域多年，现任 UCL 计算机系教授，Turing Fellow，是华人强化学习社区 RL China 的联合发起人。RL China 是由全球华人学者与强化学习相关从业者共同发起的非盈利性学术与技术交流平台，致力于推动强化学习及决策智能领域的研究、应用与教育。

Richard Sutton 是强化学习领域的奠基者，这位美国计算机科学家现任阿尔伯塔大学计算机学教授，因提出时序差分学习、策略梯度方法等核心理论，被公认为 “现代强化学习之父”。2024 年，他斩获计算机领域最高荣誉——图灵奖，这一奖项不仅是对其在算法创新与基础研究中突出贡献的认可，更标志着强化学习作为 AI 核心分支的价值与影响力，以及整个 RL 研究社区为人工智能发展奠定的基础。

Richard 在对话中坦言：当前人工智能行业的快速扩张虽改变了人们从事的工作与生活感知，却也在一定程度上分散了对基础科学的关注，这对科学发展来说并非真正有益。我们必须对此进行反击，努力将目光投向理解思维如何运作、智能如何运作这一重大目标。

在他看来，大模型并非真正理解智能的途径。LLM 确实很有用，但它们在运行过程中是没有学习能力的，一旦模型被训练完成，它们就不再学习了。事实上，它们也无法学习，因为它们没有目标，没有奖励。它们只是在模仿人类，而人类是有目标的，但 LLM 本身没有目标，也无法判断自己说的话是对是错。

人类语境中的目标与意图一般被理解为：对一种名为 “奖励” 的标量信号的累积和的期望值进行最大化，这是对智能问题一项极具价值的简化与提炼。要知道，智能就是与世界交互以达成目标，而你需要某种方式来定义这个目标。所以，在强化学习的框架下，Richard 建议：所有目标都可以被解读为 “奖励”，一种单一的标量数值。

正因如此， Richard 非常重视从经验中学习，他认为，从某种意义上来说，RL 的核心在于，它最强大的思维方式来自于从经验中学习的理念。而且既希望直接从经验中学习，也希望间接从经验中学习，让自己的经验能形成一个世界模型，然后利用这个模型来规划行为上的改进。这种规划就类似于推理，人们仅凭对世界的认知就能想清楚该做什么。

而且智能的基本原则有限，梯度下降在其中至关重要。但行业熟练后很容易陷入只用梯度下降，而忽视其他可能性的局限中。实际上梯度下降、时序差分学习、搜索都是智能的基本原则的其中之一，其中搜索尤为关键。随机权重是搜索的核心要素，它能让模型探索更多可能性。因此，梯度下降算法中需要融入这种搜索成分，把搜索和梯度下降结合起来，其威力会远大于梯度下降单独使用。

以下是此次对话的精彩分享，AI 科技评论进行了不改原意的编辑整理：

01 对智能的思考

汪军：可以简单介绍一下你 2023 年创建 Openmind Research Institute（开放思维研究所）的背景吗？以及你想要实现的使命是什么？

Richard Sutton：Openmind Research Institute 的使命是理解智能，并与世界分享这种理解。尝试与世界分享的原因是，人工智能已经变得有点地缘政治化，各个国家都在试图主导这个领域。当然，许多不同的政治阵营之间存在竞争，尤其是中美。任何一方都不应该占据主导地位。

理解智能是对人类思维理解的根本性探索，每个人都应该参与其中。这主要是一项科学探索，而不是为了追求产业发展。大家都应该尝试面对思维的根本问题，以及如何理解它、如何让它更好地运作，这样我们才能更好地运作，才能理解我们是什么，以及我们在宇宙中扮演什么角色。

Openmind Research Institute 肯定是从小事做起，它是一个实验室，中心在加拿大阿尔伯塔省，但之后还会启动一个以新加坡为中心的新实验室。这样一来，研究范围就遍布全球了，每个实验室都会有一定数量的研究员，通常是刚获得博士学位但想要从事基础研究和人工智能的年轻人。

汪军：这是要必须做的，而且非常及时，因为现在有些研究社区甚至不发表论文。这谈不上绝对的好坏，这些算法本质上是特定时期的研究成果，问题在于，我们似乎已经丢失了当初驱动其诞生的发展势头，这种状态对整个研究学界来说是极不健康的。（Openmind Research Institute）这个想法让一切都变得开放和独立，让科学回归到纯粹的科学好奇心，这很关键。我很高兴现在一些基础模型开始开源或开放参数，情况变得越来越好了，希望 Openmind Research Institute 能在中国设立分支机构，鼓励年轻人，让年轻的研究人员回归真正的科学追求，而不只是追求产业进步。

我在 RL China 举办过一些会议研讨会，已经举办了好几年，还有这次夏令营。大多数参会者都是年轻的研究员，尤其是在 RL 领域，以及从机器人技术到多智能体（Multi-Agent）系统，再到核心领域。你对年轻的研究人员有什么想说的吗？或者认为他们应该思考的根本问题是什么？

Richard Sutton：有一点很关键：要着眼于长远目标。

人工智能不是今年或明年就能实现的，它可能会在这个十年或下个十年完成，所以这是一个长远目标，它就像一场马拉松，而不是短跑比赛。尤其在人工智能的 RL 领域中，情况比较特殊：一方面，我们面临着一个基础性的科学难题；但另一方面，这个领域又已经形成了庞大的产业，有巨额资金源源不断地投入到各类应用中。单看人工智能这个行业的确十分庞大，它也确实改变了人们的感受以及人们可以从事的工作，但同时也在某种程度上减少了对基础科学的关注。

它更像是一场快速的游戏，你可以很快就赚点钱退出。这对科学发展来说并非真正有益。

从宏观角度来看，科学取得如此大的成功是件好事，这为该领域带来了大量资金。但作为一门科学，它在某种程度上改变了这个领域的性质，我们必须对此进行反击，努力将目光投向理解思维如何运作、智能如何运作这一重大目标，并不断解决问题。既要着手解决那些我们已经知道该怎么做的问题，更要持续关注那些我们还不知道该如何解决的问题。工业界倾向于关注我们已知的、我们今天能做什么；而科学界则关注我们尚不知道如何做的事情，是什么阻碍了我们深入理解。

汪军：没错，我认为在中国也有类似的情况。产业方的参与在某些方面确实非常有益，但另一方面，它在某种程度上会推动甚至是迫使研究（尤其是学术研究）聚焦于一些短期问题，这未必是好事。比如大模型（LLM），需要进行预训练，还需要大量的计算资源。这确实是一部分人能做的事，但对于整个研究界来说，可能无法都投入其中。我们真正应该关注的是超越 Transformer 的东西，超越你之前提出并研究过的重要学习领域。

Richard Sutton：让我再次强调一下关于 LLM 的讨论，LLM 在人工智能产业中占据主导地位，但我确实觉得它对科学造成了巨大的干扰。

所以我想对各位说的是，虽然 RL 可以作为 LLM 的一部分——这没问题，而且 LLM 确实是一种与互联网所有知识进行交互的有效方式，它有很多优点——但它在很大程度上分散了我们对理解智能问题的注意力。

我们必须把它放在一边，不要走这条路。学生们对 LLM 的关注和热情，很难不想在此基础上继续研究，但它（大模型）并非真正理解智能的途径。虽然 LLM 确实很有用，但它们在运行过程中是没有学习能力的，机器学习确实被用于创建它们，但一旦模型被训练完成，它们就不再学习了。

事实上，它们也无法学习，因为它们没有目标，没有奖励。它们只是在模仿人类，而人类是有目标的，但 LLM 本身没有目标，也无法判断自己说的话是对是错。

我有一句用于人工智能研究的口号，如果在网上搜索“Rich's slogan”之类的词，就可以找到。其中一个核心口号就是：你不应该要求你的人工智能知道一些它自己都无法判断正确的事情。Agent（智能体）必须能够验证它的知识，LLM 无法验证它们的任何知识，除了人类会说它正确之外，但这种正确没有任何意义。

那么该如何验证你的知识呢？可能有一种行为方式：如果它没有得到奖励，你就知道这不是一个好的行为方式，这就给了你奖励，给了你一个目标，或者你可能有一个世界的预测模型，你可能会预测某事会发生，然后从经验中看到它确实发生了。但 LLM 不会这样做，它们可能会说我预测了某事，但大模型无法将其与实际发生的事情进行比较，因为大模型没有持续的经验流。

所以我非常重视从经验中学习，从某种意义上来说，RL 的核心在于，它最强大的思维方式来自于从经验中学习的理念，这种理念实际上可以追溯到人工智能诞生之初。

艾伦·图灵有一篇书面演讲提到：我们想要的是一个能够在1947年、甚至在人工智能出现之前，从经验中学习的机器。我们现在依然渴望这样的机器，这仍然是核心，也是我们应该努力的方向，这就是 RL 的意义所在，而这一点正是 LLM 所完全缺乏的。

02 强化学习的突破路径

汪军：你对经验（experience）的定义是什么？我认为图灵在撰写那篇论文时有着他自己对经验的理解；另外，像 AlphaGo 那样，通过自我对弈生成一系列轨迹数据，这也算一种经验，而现在情况发生了什么变化呢？你认为如今的经验和过去一样还是有所不同了？

Richard Sutton：我认为经验这一概念非常自然，并且随着时间推移一直以来都是如此。你的经验并非某种怪异、模糊或难以捉摸的东西，它就是你在世界中生存时接收到的真实数据。你采取行动、做各种事情，然后看到结果——这些就是你的观察，同时你也会感受到奖励。这三组时间序列共同构成了你的经验。

实际上，至少从 agent 的视角以及在 RL 的思维框架下，除了你接收和生成的数据之外，再无其他东西。而且，你无法先验地去谈论空间、物体、物理规律或几何概念，因为你无法直接接触到这些东西；你能直接接触的，只有你的观察和行动。而那些概念，不过是你为了解释自身经验、为经验建立模型而编造的故事罢了。

经验是根本性的，它是智能的核心。我们有时会说从经验中学习，但同样重要的是，你的知识本身就与经验相关。比如，当你相信某件事时，这个信念本质上是关于未来你会接收到哪些观察的预判。说到底，它就是一种理论：关于你未来会收到什么数据、会拥有怎样的经验的理论。

汪军：你觉得样本复杂度是人工智能领域里我们需要解决的一个问题吗？还是说，你其实并不认为这是个问题？

Richard Sutton：我们的算法学习效率确实不够高，但我并不觉得这是 RL 独有的问题。实际上，我们所有的算法学习效率都很低，所以必须解决这个问题。说到底，或许整个研究的核心就是要从经验中高效学习——这正是我们研究者正在做的事，我们在努力寻找能让我们从经验中尽可能高效学习的算法。

在某种意义上，从奖励中学习比从指令中学习更困难，如果世界直接告诉你该做什么，学习起来会简单得多。但显然，世界不会直接给出指令，世界只会给你抛出一个问题，你得自己弄明白该怎么做，所以这才是真正的问题所在。因此，我不会把这种问题看作是一种困难，而是一项挑战。

汪军：这两个单一的奖励会是这个标量吗？要知道，奖励本身也分不同种类的

Richard Sutton：这就是我们所说的“奖励假设”了。我们所说的目标与意图，都可以被很好地理解为：对一种名为 “奖励” 的标量信号的累积和的期望值进行最大化，这是对智能问题一项极具价值的简化与提炼。要知道，智能就是与世界交互以达成目标，而你需要某种方式来定义这个目标。

在强化学习中，我们建议：所有目标都可以被解读为 “奖励”，一种单一的标量数值。

在你们看来，这样认为可能显得有些浅薄，甚至格局不大。但我认为，这恰恰是它极具智慧的部分——它非常清晰，高度简化，却又似乎足够完备。事实上，像风险考量、多目标这类更复杂的设定，未必能让系统变得更强大。阿尔伯塔大学（也就是我所在的大学）的几位研究者发表过一篇很棒的论文，名为《Settling the Reward Hypothesis》，这篇论文深入探讨了这一假说，论证了我们并不需要多目标、风险等复杂设定，单一奖励信号已足够。

论文链接：https://arxiv.org/pdf/2212.10420

我还记得自己最初真正接受这一假设时的情景，它确实显得有些格局不大。毕竟，我们的人生似乎承载着更宏大的目标：比如拯救世界、积累财富、保护生态，或者养育家庭。我们有许多目标，而且它们似乎都与现实世界紧密相关、具体可感。但要打造算法、构建智能，就必须将问题转化为一种标准形式。奖励假设正是这样一个极具价值的核心思想，它非常深刻，极大地帮助我们理解了智能究竟是什么。

汪军：这种整合方式能否解决“奖励难以定义”或“奖励定义得非常模糊”的问题呢？你认为，明确奖励是否已成为人工智能或任何学习算法的一种先决条件？

Richard Sutton：首先，我们先回归自然、动物和人类本身。没人需要为我们制定奖励，我们的奖励是进化的产物。那我们的奖励到底是什么？并没有一根线从外部接入我们的大脑，奖励究竟存在于何处呢？实际上，奖励是在你的颅骨内部计算产生的。大脑中有一个区域，我认为是下丘脑，它会计算一系列状态：你的身体状况是否良好？血液中是否含有足够的营养？你是否脱离了痛苦？是否感到不适？体温是否适宜？所有这些因素都会影响你的奖励信号。

所以，奖励信号存在于你的颅骨之内，它是你大脑（实际上也是你身体）的一部分。但我们不会把身体视为环境的一部分，而大脑中这个负责计算奖励的小区域，却属于环境的范畴。我们必须将其归为环境的一部分，这样它才不会受到 agent 的直接控制，agent 无法随心所欲地将自身奖励调至高位，要让奖励升高，它必须采取行动：比如避免痛苦、获取食物以维持血糖在满意水平，它必须通过行动影响周围的世界，这些影响再通过身体反馈，最终产生高奖励信号。

在那之后，当我们打造工程化系统、希望人工智能完成特定任务时，作为设计者，我们必须想清楚、明确自己真正希望达成的目标是什么，并且得找到方法，将这个目标转化为奖励信号传递给 agent。这一步有时颇具挑战，有时又比较简单。比如，下国际象棋，赢得比赛你会得到奖励；下围棋，赢得比赛也会得到奖励。如果是企业想要盈利，你可以为成功赚钱的人提供奖励。能作为奖励的东西有很多，有时很简单，有时却真的很难。难点部分在于，我们自己往往都难以确定最想让人工智能完成的到底是什么。

我想说的是：人们常常有一种强烈的倾向，就是把问题的解决方案直接塞进奖励里。比如，想让 AI 下围棋，你可能会忍不住在过程中设置一些额外奖励，比如控制棋盘的特定区域或做出眼位就给奖励，但这几乎是错误的。你应该为自己真正想要的结果设置奖励，对于围棋而言，真正想要的就是赢棋，做出眼位只是通向赢棋的一条路径。尽管你可能是想帮人工智能一把，这种尝试也非常普遍，但这样实际上改变了问题本身，而我们并不想改变问题。如果你想赢，就应该只为赢设置奖励。

汪军：你之前提到过要保持开放的心态，并且也鼓励那些刚拿到博士学位的年轻研究者这样做，我最近看了一些研究提案，其中关于持续学习的一些想法我很喜欢，所以你能不能进一步讲讲？

Richard Sutton：无论是阿尔伯塔省还是新加坡的研究项目都是从 RL 开始的，尤其是“阿尔伯塔人工智能研究计划”（The Alberta Plan for AI Research），这是一份文件，你可以在 arXiv 上找到它。这份文件由 Michael Bowling、Patrick Plarskin 和我自己共同撰写。在其中，我们试图尽可能清晰地勾勒出从当前阶段迈向 full intelligent agent，即 the full AI 所需的步骤。这是一个包含 12 个步骤的计划，这些步骤并非必须按顺序执行，但我目前正致力于第一步，并且热切期待完成第一步后能开始着手第二步。

链接：https://arxiv.org/pdf/2208.11173

计划的前期步骤都与使用函数近似（function approximation）进行高效学习相关，实际上也都围绕 RL 展开，涉及持续学习（continual learning）、元学习（meta-learning）等方向——真正聚焦 RL 本身的内容其实从第三步才开始。但归根结底，整个计划的目标是打造一个 RL agent：一个具备推理、规划与学习能力的完整 agent。

此外，该计划完全以奖励为核心基础，但在实践过程中，会衍生出子目标或辅助任务，这些子目标可以是我们日常会考虑的事情，比如拿起一个物体可能成为一个子任务，高效行走是一个目标，下围棋也可以是一个需要达成的子目标，甚至获得学位。基本上你一整天做的所有事，步行去大学、喝杯水、找洗手间，这些都可以成为你努力达成并学习相关技能的目标。而所有这些子目标和技能，最终都服务于那一个核心目标，例如完成工作，这就是阿尔伯塔人工智能研究计划的一部分内容。

03 通用智能体的认知转向

汪军：你提到了元学习，关于如何让 RL 在跨任务场景下更具通用性，你的看法是什么？如何让它不仅能解决雅达利围棋游戏这类特定任务，还能具备更广泛的通用性？你认为元学习会是打造通用 agent 的有力候选方向吗？还是说，我们需要其他完全不同的方法？

Richard Sutton：我们当然想要打造通用 agent，但并不认同“task”（任务）这个概念。说实话，我觉得我们只是生活而已，我不觉得我有什么任务是需要单独奖励的，我有自己的人生，有自己的奖励信号，它会一直持续下去，虽然并非永恒，但会延续很长时间。

每次听到人们谈论“task”，我其实都不太清楚他们具体指什么，但我很清楚“skill”（技能）是什么。比如，我有熟练行走的技能，有找到去银行路线的技能，还有做其他各种事情的技能。这些就像我之前提到的辅助性问题：拿起一个物体、找到去不同地方的路，等等。我会学习如何完成所有这些事，然后思考如何将这些技能组合起来，以获得属于自己的奖励。

通用性至关重要，我们确实追求通用性，但我们不想在“task”之间追求通用。因为“task”并非这一框架的组成部分，也不属于 RL 的范畴，并不存在“task”这种概念，这里只有单一的奖励信号，仅此而已。但我们确实需要探讨泛化（generalization）。这里的泛化指的是状态之间的泛化，在这个状态下学会了该做什么，这会影响我对在另一个状态下该做什么才正确的判断。所以，泛化是在不同状态间发生的，这正是泛化的核心价值所在，而这种泛化能力也将助力我们打造出通用 agent。

我们说的元学习是指：当存在一个基础学习过程，然后我们在这个基础之上再做一些操作时，谈论元学习才是恰当的。我认为最主要的例子是这样的：比如我们通过调整模型权重来解决某个基础学习任务，不管这个基础任务是监督学习（supervised learning）还是 RL，在这个过程中，我们会涉及步长（step sizes）以及其他超参数的设置。所以，这些步长的调整就属于元学习的一个例子。

我们的整个网络都应该设置步长，每个权重都该有自己专属的步长，这些步长必须通过自动化流程来单独调整，而不是由人工操作。这样一来，如果你能调整这些步长，就能从中得知：这些权重不想调整，那些权重想调整。而当你决定调整哪些权重时，这些权重正是你要进行泛化的依据。打个比方，你有很多特征，该基于哪些特征进行泛化呢？答案就是那些步长较高的特征。因此，这就把研究焦点引向了学习算法本身，也就是用于学习所有权重对应步长的元学习算法。

在所有算法中，我最爱的算法当然是时序差分学习（Temporal Difference Learning），第二爱的算法是专门用来设置步长的，它叫 Incremental Delta-Bar-Delta，简称 IDBD。这是个1992年的老算法了，它的用途非常明确，就是用来设置步长，进而决定泛化是如何发生的。再来聊聊 RL 中的偏置（bias），这篇论文提出了类似通过梯度下降（gradient descent）学习偏置的思路。也就是说，我们不再由人工编写程序来设定偏置，而是让系统自主学习如何泛化，这本质上就是在学习偏置。IDBD 算法虽然是个老算法，但它已经过一些改进，我们目前也在对它进行更新，还在尝试将其扩展到深度学习领域，只是这项工作仍在进行中，它有很大的潜力。

汪军：之前我们聊到过学习效率，你也说过效率当然是越高越好，而且这是机器学习领域的普遍问题，所以梯度下降在过去确实推动了人工智能的发展。但另一方面，它或许并不是学习神经网络函数映射的高效方法。你认为这是我们需要突破的瓶颈吗？还是说，你觉得梯度下降仍是未来的发展方向？

Richard Sutton：如果我们试着提炼智能与学习的几条基本原则，梯度下降一定是其中之一，它的威力强大且至关重要。问题在于，当我们熟练掌握梯度下降后，就开始觉得它无比出色，甚至可能认为一切学习问题都能用梯度下降解决。而这恰恰是错误所在，我们陷入了只用梯度下降，而排除所有其他可能性的局限中。

所以如果要列举智能的基本原则，我认为梯度下降、时序差分学习、搜索都是其中之一，此外还有其他原则，但不会太多了。而搜索尤其重要，其实搜索的影子已经存在于反向传播中了，训练开始时，我们会给模型设置随机的小权重，但也仅仅是在开始时这样做。从那之后，模型就只会完全确定性地沿着梯度方向更新。

在过去几年里，我们在持续学习领域取得了一点突破，我们对反向传播进行了改进，提出了持续反向传播。这种方法下，模型不再是一直只沿着梯度更新，也不再只在初始阶段设置随机权重，而是在整个训练过程中持续重新注入随机权重。也就是说，随机化不再只发生在开头，而是贯穿始终，这样就是完全连续的。随机权重正是搜索的核心要素，它能将模型推向随机的方向，从而探索更多可能性。因此，我们的梯度下降算法中需要融入这种搜索成分，把搜索和梯度下降结合起来，其威力会远大于梯度下降单独使用。

汪军：你之前提到了时序差分学习，你是如何发明时序差分学习的？这种决策—行动的逻辑与整个控制领域息息相关，他们一直在研究贝尔曼方程优化等问题，而 RL 正是从这些基础上发展而来的，时序差分学习是其中的关键。还有我之前提到过，你的一篇早期论文总是被我用作案例，这篇论文从心理学中的经典条件反射、神经科学等领域切入，然后将思路延伸到了计算机科学领域，这篇论文非常出色，能和我们多讲讲这篇论文以及背后的故事吗？

Richard Sutton：时序差分学习的确源于经典条件反射，它脱胎于心理学，以及上世纪早期所有关于动物学习的先驱性实验。经典条件反射是巴甫洛夫在 19 世纪 90 年代左右提出的概念。我本科时学的就是心理学，但我还是一直都在研究人工智能，只是在 70 年代，本科阶段还没法主修计算机科学，必须选其他专业，我很乐意主修心理学，因为在学习领域，尤其是在探索学习的基本原理方面，心理学家的思考是最深入的，他们为此付出了巨大努力，提出了许多重要的观点，其中有一些观点虽然没有直接催生时序差分学习，但已经非常接近了。如果你仔细梳理所有的动物实验，试着从中提炼规律，就必然会走向时序差分学习，它就是这样诞生的。

直到后来我们才意识到，从动态规划和控制理论的角度来看，时序差分学习同样说得通，但时序差分学习最初是源于经验的产物。可以这样理解二者的关系：动态规划的前提是，你已经完全了解整个世界，你就能计算出最优解；而时序差分学习则不同，即便我不知道世界是如何运作的，我也能通过经验而非知识达成与动态规划相同的目标。

这一点太美妙了，因为它意味着所有研究智能与学习的学科实现了统一，时序差分学习的影响力非常深远。回到神经科学领域，它为研究者们观察到的许多动物学习新结果、新数据提供了合理解释，如今已成为大脑奖励系统研究中占主导地位的标准模型与理论。我们能看到，人工智能、控制理论、神经科学这些原本截然不同的学科，正成功地走向融合与交汇。我对此感到非常欣慰，这就像终于触碰到了智能最根本的东西。

汪军：我注意到的一点区别也就是无模型（model-free）和基于模型（model-based）的概念，你能再详细解释一下这个吗？

Richard Sutton：首先，我们得明确一点，我们两者都需要兼顾。我们既希望直接从经验中学习，也希望间接从经验中学习，我们希望自己的经验能形成一个世界模型，然后利用这个模型来规划行为上的改进。这种规划就类似于推理，我们仅凭对世界的认知就能想清楚该做什么。这两者我们都需要，而实现二者在某种意义上的统一，正是我们追求的“The Holy Grail”（圣杯），就是能够同时进行规划和学习，并在某种意义上将它们统一起来。

这种统一的开端是“dyna system”（动力系统），在这个系统中，规划的过程本身就带有学习的属性，不过这种学习是通过想象自己可能采取的行动来完成的，这一点在心理学文献中也有很好的体现，RL 的目标正是成为一种涵盖所有智能形式的宏大理论。

汪军：您有什么想对中国的 RL 社区说的吗？您认为这与您正在开展的 Openmind 使命有什么联系？

Richard Sutton：我想补充一点我们尚未谈及的核心内容，得益于摩尔定律以及计算能力的日益普及，当下正是宇宙中一个极其特殊的时代，在未来的一二十年里，我们将得以弄明白思维是如何运作的。能生活在这样一个时代，实在太令人惊叹了。我曾将对智能的理解比作地球上生命的起源，我认为这是一件具有同等重大意义的事件。我们将能够设计出与人类自身一样强大、甚至可能更强大的 agent，这真的是一件无比激动人心的大事。如果说我最想表达什么，那就是我对此抱有极大的乐观，我认为一切都会变得非常好，这不仅将实现历史上知识分子乃至普通人一直以来追寻的伟大探索目标，还将对世界的经济发展产生巨大的积极影响。

未来并非全都是一帆风顺的，肯定会面临诸多挑战，但这并非因为人工智能会带来什么糟糕的结果，总的来说，它是一件极具积极意义的事。它将为我们带来更深入的科学研究、更透彻的自我认知，甚至有可能帮助我们更好地和平共处，而这正是 Openmind 使命的一部分。

每个人都能参与到这份理解中来，我们会展开合作，共同去探索人工智能的奥秘，共同收获它带来的成果，共同加深对自我的认知，而且要明白，并非只有机器会变得智能，我们人类自身也会通过增强手段变得更聪明。其实我们已经在被增强了，电话在增强我们的沟通，眼镜在增强我们的视力，一支铅笔、一门能让彼此交流的语言，这些都是对我们能力的增强，人工智能实际上就是这一增强过程的延续，所以人工智能的发展前景会非常好。我们应当为从事这项工作而感到由衷的喜悦，并为了全人类的福祉去推进它的发展。

（雷峰网）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.