大模型“缩放定律”悖论：RL（强化学习）越强，AGI（通用智能）越远？|算法|rl|agi|智能体

分享至

在人工智能迈向通用智能（AGI）的竞赛中，当前最受追捧的强化学习（RL）路径，可能正将我们引向一条歧路——RL越强，距离真正的AGI或许越远。

12月24日，知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日发布了一则引发行业深思的视频，直击当前大模型发展的痛点。在硅谷普遍对Scaling Law（缩放定律）和RL（强化学习）持极度乐观态度的背景下，Patel提出了一个反直觉的犀利观点：对RL（强化学习）的过度依赖和投入，可能非但不是通往AGI的捷径，反而是其远未到来的明确信号。

Patel的核心论点在于，当前顶尖AI实验室正耗费巨资，通过基于可验证结果的强化学习，为大模型“预制”大量特定技能，例如操作Excel或浏览网页。然而，这一做法本身就构成了逻辑上的冲突。他犀利地指出：“如果我们真的接近一个类人学习者，那么这套在可验证结果上进行训练的整个方法就注定要失败。”

在Patel看来，这种“预置”技能的模式，恰恰暴露了当前模型的根本缺陷。人类之所以在工作中具有价值，正是因为我们不需要为工作的每一个细微部分都建立专门的“繁琐训练循环”。一个真正的智能体应该能够通过经验和反馈自主学习，而不是依赖于预先排练好的脚本。如果AI无法做到这一点，那么其通用性就大打折扣，离真正的AGI也就相去甚远。

因此，Patel认为，通往更强大AI的真正驱动力，并非无尽的RL（强化学习），而是“持续学习”（Continual Learning）——即像人类一样从经验中学习的能力。他预测，解决持续学习问题不会是一蹴而就的“单一成就”，而会是一个渐进的过程，类似于模型在“上下文学习”能力上的逐步演进。这个过程可能需要“5到10年才能完善”，从而排除了某个模型因率先破解该难题而获得“失控优势”的可能性。

核心要点提炼：

技能预制的悖论：目前的模型依赖“预先植入”技能（如使用Excel或浏览器），这恰恰证明了它们缺乏人类具备的通用学习能力，AGI并不是迫在眉睫的。
机器人学的启示：机器人问题本质是算法问题而非硬件问题。如果拥有类人学习能力，机器人早已普及，无需在该特定环境下反复训练百万次。
经济扩散的“托词”：所谓“技术扩散需要时间”是自我安慰（Cope）。如果模型真有类人智能，它们会瞬间被企业吸纳，因为它们比雇佣人类更低风险且无需培训。
收入与能力的落差：全球知识工作者创造数十万亿美元价值，而模型收入远低于此，证明模型能力尚未达到替代人类的临界点。
持续学习（Continual Learning）是关键：AGI的真正瓶颈在于“持续学习”能力，而非单纯的RL算力堆叠。真正的AGI可能需要未来10到20年才能实现。

视频文字全文实录（由AI工具翻译）：

Dwarkesh Patel 00:00
我很困惑。为什么有些人一方面认为AGI（通用人工智能）很快就会实现，另一方面却看好在顶级大模型上扩大强化学习（Reinforcement Learning, RL）的应用？如果我们真的接近造出一个像人类一样的学习者，那么这种基于“可验证结果”进行训练的整套方法注定是死路一条。
目前，各大实验室正试图通过中途训练（mid-training）将大量技能“烘焙”（bake in）进这些模型中。现在有一整条供应链的公司正在构建虚拟环境，教模型如何浏览网页或使用Excel建立财务模型。现在的情况是，要么这些模型很快就能以自我导向的方式在职学习，这将使所有这些“预烘焙”工作变得毫无意义；要么它们不能，这意味着AGI并非迫在眉睫。人类不需要经历这种特殊的训练阶段，也无需排练他们在工作中可能需要使用的每一个软件。
Dwarkesh Patel 00:45
Baron Millage在他最近的一篇博客文章中对此提出了一个有趣的观点。他写道（引用）：“当我们看到前沿模型在各种基准测试中取得进步时，我们不应只想到规模的增加和聪明的机器学习研究思路，还应想到支付给博士、医学博士和其他专家的数十亿美元，让他们编写问题并提供针对这些精确能力的示例答案和推理过程。”
Dwarkesh Patel 01:07
你可以在机器人领域最生动地看到这种张力。从某种根本意义上说，机器人学是一个算法问题，而不是硬件或数据问题。人类只需要很少的训练，就可以学习如何操作当前的硬件来做有用的工作。因此，如果你真的拥有一个类人的学习者，机器人学在很大程度上将是一个已解决的问题。但事实是，我们没有这样一个学习者，这使得我们必须走进1000个不同的家庭，练习一百万次如何拿起盘子或折叠衣物。
Dwarkesh Patel 01:32
现在，我从那些认为我们要么在未来五年内实现（AI）腾飞的人那里听到的一个论点是：我们需要做所有这些笨拙的RL工作，是为了构建一个超人类的AI研究员。然后，这百万个自动化的“Ilya”（指Ilya Sutskever，OpenAI前首席科学家）副本可以去搞清楚如何解决从经验中进行稳健且高效学习的问题。这给我的感觉就像那个老笑话：“我们要么每笔生意都亏钱，但我们会通过走量把钱赚回来。”这个自动化的研究员将找出AGI的算法——这是一个人类在这个世纪的大半时间里都在绞尽脑汁解决的问题——而它甚至不具备儿童拥有的基本学习能力。我觉得这极不可能。
Dwarkesh Patel 02:09
此外，即使你相信这一点，这也不能描述实验室目前如何通过“可验证奖励”来进行强化学习的方法。为了自动化“Ilya”，你不需要预先植入制作PPT幻灯片的咨询顾问技能。所以很明显，实验室的行动暗示了一种世界观，即这些模型将继续在泛化能力和在岗学习方面表现不佳，从而使得有必要预先将我们希望具有经济用途的技能构建到这些模型中。
Dwarkesh Patel 02:36
你目前可以提出的另一个论点是，即使模型可以在工作中学习这些技能，但在训练期间一次性构建这些技能，比为每个用户和每个公司一次又一次地构建要高效得多。听着，将常见工具（如浏览器和终端）的流畅使用能力直接植入模型是非常有意义的。确实，AGI拥有的关键优势之一是这种在副本之间共享知识的巨大能力。但人们真的低估了大多数工作所需的“公司特定”和“语境特定”技能的数量。目前还没有一种稳健、高效的方法让AI掌握这些技能。我最近和一个AI研究员以及一位生物学家共进晚餐，结果发现这位生物学家对AGI的时间线预期很长。所以我们问她为什么预期这么长。她说：“你知道，最近实验室工作的一部分涉及查看幻灯片，并决定幻灯片中的那个点实际上是一个巨噬细胞，还是仅仅看起来像一个巨噬细胞。”正如你所预料的那样，那位AI研究员回应道：“看，图像分类是一个教科书式的深度学习问题。这是死板的中心问题，也是我们可以训练这些模型去做的那种事情。”
Dwarkesh Patel 03:45
我觉得这是一次非常有趣的交流，因为它阐明了我与那些预期未来几年内会有变革性经济影响的人之间的关键症结。人类工人之所以有价值，正是因为我们不需要为他们工作的每一个细小部分建立那些繁琐的（schleppy）训练循环。鉴于这个实验室制备幻灯片的特定方式，建立一个定制的训练管道来识别巨噬细胞的样子，然后为下一个特定的微任务再建立一个训练循环，依此类推，这并不是净生产力的提升。你真正需要的是一个能够从语义反馈或自我导向的经验中学习，然后像人类一样进行泛化的AI。每天，你都要做100件需要判断力、情境感知以及在工作中习得的技能和背景知识的事情。这些任务不仅因人而异，甚至同一个人每天的任务也不同。仅仅通过植入一套预定义的技能来自动化单一工作是不可能的，更不用说所有的工作了。
Dwarkesh Patel 04:46
事实上，我认为人们真的低估了真正的AGI将是多么大的一件事，因为他们只是想象当前这种制度的延续。他们没有思考服务器上数十亿个类人智能，它们可以复制和合并所有的学习成果。明确一点，我预期这一点会发生，也就是说，我预期在未来一二十年内会出现真正的大脑般的智能，这已经相当疯狂了。
Dwarkesh Patel 05:09
有时人们会说，AI目前没有在企业中更广泛部署并在编码之外提供大量价值的原因是，技术扩散需要很长时间。我认为这是“Cope”（托词/自我安慰），人们用这种托词来掩盖这样一个事实：这些模型就是缺乏产生广泛经济价值所必需的能力。
Dwarkesh Patel 05:28
如果这些模型真的像服务器上的人类，它们会以难以置信的速度扩散。事实上，它们比普通人类员工更容易整合和入职。它们可以阅读你所有的Slack记录并在几分钟内上手。它们可以立即提炼出你其他AI员工拥有的所有技能。此外，人类的招聘市场非常像一个“柠檬市场”（信息不对称市场），很难预先知道谁是优秀的人才。显然，雇佣一个结果很差的人成本是非常高的。如果你只是启动一个经过验证的API模型的另一个实例，这就不是你必须面对或担心的一种动态。
Dwarkesh Patel 06:05
所以基于这些原因，我预计将AI劳动力扩散到企业中要比雇佣一个人容易得多。而公司无时无刻不在招人。
Dwarkesh Patel 06:14
如果能力真的达到了AGI水平，人们会愿意每年花费数万亿美元购买这些模型生成的Token。全世界的知识工作者每年累计赚取数十万亿美元的工资，而实验室现在的收入数字与之相差几个数量级，原因就在于这些模型的能力远不如人类知识工作者。现在，你可能会说：“看，标准怎么突然变成了实验室要每年赚几十万亿美元的收入了？对吧？就在不久前，人们还在说，这些模型能推理吗？这些模型有常识吗？它们只是在做模式识别吗？”显然，AI看多者批评AI看空者反复移动这些球门（标准）是正确的。这通常是公平的。人们很容易低估AI在过去十年中取得的进步，但一定程度的球门移动实际上是合理的。如果你在2020年向我展示Gemini 3，我会确信它可以自动化一半的知识工作。所以我们不断解决我们认为是通向AGI的充分瓶颈。我们拥有具备一般理解力的模型，它们有少样本学习能力，它们有推理能力，然而我们仍然没有AGI。
Dwarkesh Patel 07:24
那么，观察到这一点的理性反应是什么？我认为完全合理反应是看着这一切说：“哦，实际上，智能和劳动包含的内容比我以前意识到的要多得多。”我们在很多方面已经非常接近，甚至超过了我过去定义的AGI。
Dwarkesh Patel 07:41
模型公司没有创造出AGI所暗示的数万亿美元收入这一事实，清楚地表明我以前对AGI的定义太狭隘了，我预计这种情况在未来会继续发生。我预计到2030年，实验室将在我热衷的“持续学习”（continual learning）方面取得重大进展，模型每年的收入将达到数千亿美元，但它们仍然不会自动化所有的知识工作。我会说：“看，我们取得了很大进步，但我们还没有达到AGI。我们还需要这些其他能力。”
如果模型在能力上的提升速度符合短期时间线派的预测，但在实用性上的提升速度符合长期时间线派的预测，值得问的是：我们在扩展什么？在预训练（Pre-training）中，我们在损失函数（loss）上有极其清晰和普遍的改进趋势，跨越了多个数量级的计算量，尽管这是一个幂律，虽然不如指数增长强劲，但依然有效。但人们正试图利用预训练扩展所拥有的声望（它几乎像宇宙物理定律一样可预测），来为基于可验证奖励的强化学习（RL）做出乐观预测，而对于后者，我们并没有广为人知的趋势。而当无畏的研究人员确实试图从稀缺的公共数据点拼凑出其含义时，他们得到了相当悲观的结果。例如，Toby Bord有一篇很棒的文章，他巧妙地连接了不同O系列基准测试之间的点。
这向他表明：“我们需要在大约100万倍的总RL计算规模上进行扩展，才能获得类似于单一GPT级别提升的效果。”。所以人们花了很多时间讨论“软件奇点”的可能性，即AI模型将编写代码生成更聪明的后继系统，或者“软件+硬件奇点”，即AI也改进其后继者的计算硬件。然而，所有这些场景都忽略了我认为将是顶级API（应指AGI）进一步改进的主要驱动力：持续学习。再次强调，想想人类是如何变得比任何事物都更有能力的？主要是通过相关领域的经验。
在谈话中，Baron Millage提出了一个有趣的建议，即未来可能看起来像持续学习的智能体（Agents），它们都走出去，做不同的工作，产生价值。然后它们将所有的学习成果带回蜂巢思维模型，该模型对所有这些智能体进行某种批量蒸馏。智能体本身可能是相当专业化的，包含Karpathy所说的“认知核心”加上与其被部署所做工作相关的知识和技能。解决持续学习不会是一次性的一劳永逸的成就。相反，这感觉就像解决“上下文学习”（in-context learning）。现在的GPT-3在2020年就已经证明了上下文学习可能非常强大。它的上下文学习能力如此惊人，以至于GPT-3论文的标题就是《语言模型是少样本学习者》。但当然，当GPT-3问世时，我们并没有彻底解决上下文学习。确实，从理解力到上下文长度，仍然有大量的进步需要取得。
Dwarkesh Patel 10:50
我预计持续学习也会有类似的进展过程。实验室可能会在明年发布某种东西，他们称之为持续学习，实际上这也算作通向持续学习的进步。但人类水平的“在岗学习”可能还需要5到10年才能解决。这就是为什么我不指望第一个破解持续学习的模型会带来某种失控的收益，而是会越来越广泛地部署和增强能力。
Dwarkesh Patel 11:16
如果你完全解决了持续学习，并且它突然从天而降，那么当然，正如Satya（微软CEO）在播客中我在问及这种不稳定性时所说的那样，这可能是“Game, Set, Match”（比赛结束，胜负已分）。但这可能不是将会发生的事情。相反，某个实验室会找出如何在这个问题上获得一些初步牵引力的方法，然后通过把玩这个功能，它的实现方式就会变得清晰，随后其他实验室很快就会复制这一突破并稍作改进。此外，我只是有一些先验判断，即所有这些模型公司之间的竞争将保持相当激烈。这是基于观察得出的：所有以前所谓的飞轮效应，无论是聊天机器人的用户参与度，还是合成数据或其他什么，都在减少模型公司之间越来越大的竞争方面收效甚微。每隔一个月左右，三大模型公司就会轮流登上领奖台，而其他竞争对手并没有落后太远。似乎有某种力量，可能是人才挖角，可能是谣言工厂，或者是NSF（此处可能指一般的科学基础）或者仅仅是正常的逆向工程，到目前为止已经抵消了单个实验室可能拥有的任何失控优势。
Dwarkesh Patel 12:14
这是对我最初在我的博客dwarkesh.com上发表的一篇文章的叙述。我将发表更多的文章。我发现这实际上非常有用于在采访前理清我的思路。如果你想了解这些最新动态，可以在dwarkesh.com订阅。或者，我们下期播客见。干杯。
注：翻译不能保证100%正确。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.