强化学习之父：大语言模型是一个错误的起点|数学|先验

分享至

来源：市场资讯

（来源：网易科技）

在日前参加的一个访谈中，强化学习之父、图灵奖得主 Richard Sutton 语出惊人：大语言模型（LLM）是一个错误的起点，是一条死胡同。

在 Sutton 看来，真正的智能源自经验学习，通过行动、观察与反馈持续修正行为，实现目标；相比之下，大语言模型的预测能力更多是对人类行为的模仿，它没有独立的目标，也无法对外部世界的变化产生真正意义上的惊讶和调整。

他认为，想要真正可扩展的智能，必须从经验学习出发，而不是把大语言模型当作起点。

这一犀利的观点，在如今人人追捧的大模型浪潮中，无疑是一剂清醒剂，促使我们从对模型“能力”的狂欢中跳脱出来，重新审视“智能”的本质与基础。

此次 Sutton 与国外科技博主 Dwarkesh Patel 的对话非常精彩，充满了观点碰撞。访谈内容包括以下 7 个部分：

完整访谈详见：

https://www.dwarkesh.com/p/richard-sutton

学术头条节选了该访谈的第一部分内容「Are LLMs a dead end?」，在不改变原文大意的前提下，做了一定的编辑。如下：

Dwarkesh Patel：Richard Sutton 是强化学习的奠基人之一，也是许多主要技术的发明者，比如时序差分学习和策略梯度方法。凭借这些贡献，他获得了今年的图灵奖——被誉为“计算机科学界的诺贝尔奖”。Richard，恭喜您。

Richard Sutton：谢谢你，Dwarkesh。

Dwarkesh Patel：我的第一个问题是：我和我的听众更多是从大语言模型（LLM）的角度来思考人工智能。那么，如果从强化学习（RL）的角度来理解 AI，我们可能错过了什么？

Richard Sutton：这确实是一个非常不同的视角。两者很容易被割裂开来，失去相互对话的能力。大语言模型如今非常火，生成式 AI 整体也成了热门话题。可我们的领域往往容易被潮流带偏，从而忽视最根本的问题。而我认为，强化学习才是真正的基础 AI。

什么是智能？归根到底，是对你所处世界的理解。强化学习关注的就是理解世界，而大语言模型更多是在模仿人类，按人类的指令去做。它们并不是在思考“应该做什么”。

Dwarkesh Patel：你可能会认为，要想模仿互联网上数万亿的文本 token，你必须先建立一个世界模型。事实上，这些模型似乎确实展现出了强大的世界建模能力。它们是我们在 AI 领域迄今为止创造的最好的世界模型，对吧？您认为还缺少什么？

Richard Sutton：我不同意你刚才说的大部分内容。模仿人类语言，并不等于在建立世界模型。那只是在模仿那些拥有世界模型的人类。我并不是想采取对抗的立场，但我想质疑“大语言模型具备世界模型”这个观点。一个真正的世界模型，应该能预测未来会发生什么。大语言模型能预测某个人会说什么，但没法预测世界上会发生什么。

借用 Alan Turing 的话来说，我们真正想要的，是一台能从经验中学习的机器。而“经验”，就是你实际生活中遭遇的事情：你采取行动，观察结果，并从中学习。而大语言模型学到的却是另一种模式：给定一个情境，它们学习某个人会怎么做，并隐含地暗示你应该照着那个人的做法去做。

Dwarkesh Patel：不知道您是否认同，我想关键点或许在于，有人认为模仿学习能够为模型提供一种先验知识，让它们在进入您所谓的“经验时代”之前，就已经具备一种合理的解决问题的能力。这样一来，它们就能在一些情况下给出正确答案，而后续的经验学习也可以建立在这个基础上。您认同这种看法吗？

Richard Sutton：不。我理解这是从大语言模型出发的观点，但我不认为这是一个好观点。要成为某事的先验，必须有一个真实的东西存在。先验知识应该是实际知识的基础。什么是实际知识？在大语言模型中，没有对实际知识的定义。是什么让一个动作成为一个好的动作？

真正重要的是持续学习。“持续”意味着你必须在与世界的正常交互中不断学习。而在正常的互动过程中，必须有某种方式来判断什么是对的。

在大语言模型的设置中，是否存在判断正确表达的方式？当你发出某种表达时，无法获得关于正确表达的反馈，因为根本不存在对正确表达的定义。它们是没有目标的。所以一句话和另一句话没有对错之分。没有什么正确之说。

它没有 ground truth。如果没有 ground truth，就不可能有先验知识，因为先验知识本应是关于真相（truth）是什么的提示或初始信念。世间本无绝对真理，亦无绝对正确的言论。在强化学习中，有正确的话语要说，有正确的动作要做，正确的事就是能够获得奖励的事。

我们对正确的事是有定义的，因此可以预先掌握或通过他人获取关于正确的事的知识。然后我们可以去验证它，因为我们知道什么是真正正确的事。

举一个简单例子：当你尝试建立世界模型时，你会预测会发生什么，然后观察结果。这中间存在 ground truth。但大语言模型没有这种 ground truth，它们没法预测接下来真实会发生什么。

比如在一场对话中，大语言模型回复了某句话，它无法预测对方会如何回应，或者回应什么。

Dwarkesh Patel：我认为它们可以。你直接问它们，“你预计用户可能会有什么回应？”它们会给出一个预测。

Richard Sutton：不，那只是对问题的回答，而不是有意义的预测。它们不会对结果感到惊讶。即便事实和它们所谓的“预测”不符，它们也不会因为发生了意料之外的事情而改变。要学习到这一点，它们必须做出调整。

Dwarkesh Patel：这种能力在某些上下文中确实存在。例如，观察一个模型进行“思维链”（CoT）是很有趣的。假设它正在尝试解决一个数学问题。它会说：“好吧，我首先要用这种方法来解决这个问题。”它会把这个写出来，然后说：“哦等等，我刚刚意识到这在概念上是解决问题的错误方法。我要用另一种方法重新开始。”

这种灵活性在上下文中是存在的，对吧？您是否另有想法，还是您只是认为需要将这种能力扩展到更大范围？

Richard Sutton：我只是说，他们根本无法对接下来会发生什么做出任何有意义的预测。他们不会对后续发展感到意外。即使发生变故，他们也不会根据事态发展做出任何调整。

Dwarkesh Patel：这不就是“下一个 token 预测”（next token prediction）吗？预测接下来会是什么，然后根据意外情况进行更新？

Richard Sutton：不一样。下一个 token 预测的只是它们接下来要说什么，是一种输出动作，而不是对外部世界的预测。

关键还是在于，它们缺乏目标。对我来说，拥有目标是智能的本质。如果一个系统能实现目标，那它就是智能的。我赞同 John McCarthy 的定义：智能就是达成目标的计算能力。没有目标，它就只是一个行为系统，没有特别之处，算不上智能。你同意大语言模型没有目标吗？

Dwarkesh Patel：不，它们有目标。

Richard Sutton：目标是什么？

Dwarkesh Patel：下一个 token 预测。

Richard Sutton：那不是一个目标。它不能改变世界。预测 Token，本身不会对 token 产生影响。

Dwarkesh Patel：是的，我同意。它不是一个关于外部世界的目标。

Richard Sutton：所以，那不是实质性的目标。你不能说，一个只是静静预测并因预测准确而满足的系统，是有目标的。

Dwarkesh Patel：我更想问的是，为什么您认为在大语言模型之上做强化学习不是一个可行的方向？毕竟我们已经能赋予这些模型解决复杂数学问题的目标。

例如，它们已经能在国际数学奥林匹克竞赛（IMO）上拿到金牌，这意味着它们确实在追求“正确解题”这个目标。为什么不能把这种能力扩展到其他领域呢？

Richard Sutton：数学问题是不同的。构建物理世界的模型，与在数学中演绎推理、计算结果，完全是两回事。经验世界必须通过交互去学习，需要从结果中得到反馈。而数学更偏向计算，更像是标准的规划，目标比较清晰：找到证明。某种意义上，它们被赋予了“找到证明”的目标。

Dwarkesh Patel：您在 2019 年写了一篇题为《惨痛的教训》（The Bitter Lesson）的文章，这也许是 AI 历史上最具影响力的文章。如今，人们正把它作为扩大大语言模型规模的依据，因为在他们看来，这是我们目前唯一能找到的可扩展方案，就是用海量算力去探索世界。有趣的是，您却认为大语言模型并没有真正吸取“苦涩的教训”。

Richard Sutton：大语言模型是否是“苦涩的教训”的一个案例，这是一个有趣的问题。它们显然是一种利用大规模计算的方法，这种计算可以随着互联网数据的极限扩展。但它们也是一种融入大量人类知识的方式。这确实是个值得探讨的问题——既涉及社会学层面，也关乎产业未来。它们是否会触及数据极限，最终被那些仅凭经验而非人类知识就能获取更多数据的新事物所取代？

在某些方面，这正是“苦涩的教训”的典型案例。我们向大语言模型输入的人类知识越多，它们的表现就越出色。这令人欣慰。然而，我期望会出现能够从经验中学习的系统。这种系统可以表现得更好，也更具可扩展性。那时，人类知识驱动的系统终将被纯粹依靠经验与计算训练的系统所取代——这又将成为“苦涩的教训”的另一例证。

Dwarkesh Patel：在我看来，这好像不是核心分歧。我认为那些人也认同，未来绝大多数的计算将来自从经验中学习。他们只是认为，支撑这种学习的基础架构——即为实现未来经验学习或在职学习而注入计算能力的起点——将是大语言模型。我还是不明白，为什么这根本就是错误的起点，为什么我们需要一个全新的架构来开始进行经验上的、持续的学习？为什么我们不能从大语言模型开始做这件事呢？

Richard Sutton：在每一个“苦涩的教训”的案例中，你都可以先从人类知识入手，然后再去做那些可扩展的事情。理论上，这并不算错误。但实践中，它几乎总是行不通。因为人们会被困在人类知识驱动的方法中，很难跳出来。最终，这些方法总会被真正可扩展的途径超越。

Dwarkesh Patel：那么，真正可扩展的方法是什么？

Richard Sutton：就是从经验中学习。尝试各种做法，观察哪些有效。不需要有人告诉你。前提是，有一个目标，没有目标，就没有对错或好坏之分，而大语言模型试图在没有目标或优劣判断的情况下运作。这就是一个错误的起点。

整理：乔治

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.