OpenAI联创 | ChatGPT首席架构师最新深访：大语言模型的进化之路 (附全文+视频）|算法|科学|大模型|人工智能|openai

分享至

未经授权请勿转载，务必保留出处和公众号按钮

文：天空之城·城主

OpenAI联合创始人，ChatGPT首席架构师John Schulman在最近的一次访谈中全面分享了他对AI模型未来发展的看法。

John Schulman是OpenAI联合创始人之一，也是ChatGPT首席架构师。在这个长达100分钟的访谈里，Schulman深入探讨了关于大语言模型训练与进化的各个话题。难得的是通篇干货的讨论，主持人还能跟上节奏，这个访谈在模型训练相关话题的触及深度上是非常少见的。推荐给关心细节的读者们。

在访谈开始，Schulman解释说，在训练前，模型会模仿互联网或网络上的所有内容，包括网站和代码等。训练后，模型会针对更窄的行为范围进行优化，比如作为聊天助手，提供帮助和回答问题。

他预测，未来五年内，模型将变得更好，能够完成比现在更复杂的任务。例如，可以想象让模型执行整个编码项目，而不仅仅是提供编写函数的建议。他还提到，模型将更具样本效率，能够更好地从错误中恢复，更善于处理边缘情况。

Schulman对模型是否存在一个真正清晰的缩放定律持保留态度，因为可能会出现某种相变，一旦达到某个水平，就能处理更长的任务。通过使用语言，可以描述所有这些不同的时间尺度，然后可以制定计划，尝试朝着目标前进，无论这个目标是一个月后还是十年后的。

Schulman预测，一旦开始进行长期的强化学习训练，模型将能够在更长时间里保持连贯。然而模型可能仍会有其他杂项缺陷，导致它们陷入困境或无法取得进展。

Schulman还讨论了AI模型的泛化和迁移能力，例如，如果用英语数据训练模型，它也能在其他语言中表现良好。此外AI模型有局限性，例如，模型可能会错误地认为自己可以执行某些任务，如发送电子邮件或叫Uber。

谈到AI的未来发展，特别是如果AI的发展比预期更快，Schulman认为我们可能需要在训练和部署方面放慢速度，直到非常确定可以安全地处理AI。可能需要在大型实体之间进行协调，以避免牺牲安全性。然而，他也承认，他不确定如何长期保持这种平衡。如果能够合理协调，就能找到一种方法来部署真正智能的人工智能，这将作为人们意志的延伸，并防止其被滥用导致灾难。这将带来繁荣和更快的科学进步。然而需要考虑如何确保这些系统不会被滥用或试图发动政变。

Schulman倾向于逐步部署比以前更智能的系统，以提高安全性。如果情况开始变得可怕，可以放慢速度。在部署新系统时，可能需要进行大量的测试，例如模拟预期的部署，并希望有一个良好的监控系统，以便在部署的系统开始出现问题时能够立即发现。

在进行长期视角的强化学习时，需要密切关注任何不连续的跳跃，并进行大量的评估。需要确保的模型没有任何理由反对，而且需要对模型的能力进行大量的评估。在今天的强化学习和人类反馈系统中试图通过奖励模型来最大化人类的认可。模型只是试图产生一些人们会喜欢并判断为正确的东西。在推理方面，Schulman认为最佳的结果是将训练阶段的计算和测试阶段的逐步推理结合起来。

Schulman关注两种学习方式:一种是上下文学习，虽然样本效率高，但会随着每个实例的变化而被破坏;另一种是大规模训练，虽然不会随实例变化而破坏，但可能过于浅薄。他探讨了是否存在一种中间路径，既不会随实例变化而破坏，也不会过于浅薄，而是更加刻意和主动。

这种中间路径可能涉及某种中期记忆，既能适应上下文，又比预训练小得多。这可能涉及到推理，通过自推理发展知识，同时使用内省和自知识来确定需要学习什么。这种能力是当前系统所缺少的。

人们并没有真正努力在这个中间地带，例如大规模训练和上下文学习之间找到平衡。OpenAI希望能构建一个能进行在线学习的系统，同时具有一些认知技能，如反思自己的知识，寻找新的知识来填补空白。

Schulman还谈到了他们在OpenAI的工作，包括创建ChatGPT，以及他们对聊天机器人和指令遵循模型的研究。他们发现这些模型在语言和代码方面表现出色，但也存在一些问题，如产生幻觉和不正常的输出。

在这个讨论中，Schulman关注了聊天模型的发展，以及如何通过混合数据集(如指令和聊天数据)来优化模型。他认为，聊天模型更易于使用，并能自理解其局限性，从而表现出更明智的行为。Schulman也提到了模型的微调过程，强调了迭代监督微调的重要性，即让人类编辑模型生成的输出。还提到强化学习训练的指令跟随模型，以及如何通过微调和包装器来创建类似的模型。

关于人工智能的发展速度，Schulman认为自GPT-2以来，其发展速度比预期的要快。此外，他还探讨了GPT-4的ELO分数提高，认为这主要是由于后训练带来的改进。

Schulman对是否存在数据瓶颈的问题进行了探讨，尽管数据量有限会带来一些挑战，但OpenAI不认为会立即遇到数据瓶颈。关于从不同类型的预训练数据进行概括的问题，这是一个科学研究的挑战，因为无法创建大量的预训练模型进行研究。

关于模型规模与其智能程度之间的关系，Schulman认为，较大的模型可能会学习更好的共享表示，而较小的模型可能过于依赖记忆。那么，为什么大型模型在相同数量的数据上训练时会变得更聪明，或者在更少的数据上训练时可以获得相同的智能呢？Schulman解释说，这可能是因为大型模型可以视为一系列不同电路的集合，用于进行并行计算。在更大的模型中有更多的计算，因此更有可能找到一个幸运的计算，最终获胜。

他进一步解释说，大型模型就像一个库，可以将函数以某种方式链接在一起，具有一定的可组合性。因此，大型模型有一个更大的不同计算库，包括许多处于休眠状态并且只在某些时候使用的东西。

在未来几年的发展趋势方面，Schulman希望能够添加新的模式，通过预训练和后训练的结合，不断改进功能，开辟新的用例。他预计随着时间的推移，人工智能将成为经济的重要组成部分，人们将更好地理解如何将其集成到不同的流程中。

然而，这也提出了一个问题:如果人工智能变得足够强大，能够自己经营一家成功的企业，那么人类是否还需要参与其中？Schulman认为即使人工智能变得非常有能力，人们仍然是人工智能最终行动的驱动力。但是，如果有人参与的公司在竞争中败给了没有人参与的公司，那么可能需要某种监管，禁止没有人参与整个公司的运营。

虽然AI运营的公司在许多方面可能表现得更好，但它们也存在更高的尾部风险，因为它们更有可能出现大规模故障。这是因为AI在处理非常古怪的情况时仍然缺乏样本效率。我们可能更倾向于让人类参与其中，至少在不久的将来是这样。如果AI在管理所有方面都表现得更好，而且它们也完全仁慈，已经完全解决了协调问题，它们比人类更善于对人类负责，那么让AI管理公司也许是可以的。但这可能还是一个遥远的未来。

Schulman还讨论了AI系统的责任和激励机制，以及如何在不同利益相关者的需求之间做出妥协。OpenAI提出了一个名为"模型规范"的文档，该文档详细描述了他们希望模型在API和ChatGPT中如何表现。

关于机器学习研究的状态，Schulman认为与社会科学等其他领域相比，机器学习是一个相对健康的领域，因为它有坚实的基础，在很大程度上基于实用性和让事情正常运转。他还提出了一些关于如何提高模型效率和改进的问题，以及如何使模型更具可操作性。

OpenAI正在努力改进AI写作体验，使其更生动、有趣，例如改进了ChatGPT的个性。他们也在探索AI的语言模型如何影响语言使用，以及如何可能在语言模型提供商之间发生无意的提炼。他们发现人们喜欢结构化的回应和大量信息，但也注意到模型可能比人们需要的更冗长。这可能是因为在标记阶段，评分者更喜欢更冗长的答案，或者是因为预训练的方式导致模型倾向于继续生成文本。

关于人们的偏好是否会随着模型输出的速度而改变，以及如何最好地描述人们的偏好，Schulman发现，大数据集可以帮助捕捉人们的模糊偏好，而更大的模型可以自动学习人们可能会发现有用和有帮助的概念。

训练后创建一个真正具有人们关心的所有功能的模型是相当复杂的，需要大量的专业人士和大量的研发积累。这使得它有点像护城河，不容易被复制或启动。然而，也有可能通过提炼模型或使用别人的模型来克隆输出或进行比较。

Schulman提到，标签者来自不同的背景和专业领域，他们在完成任务方面非常优秀。他发现，模型的能力与在微调数据集中拥有非常接近匹配的标签有关。然而，模型也可以从泛化中获得很多东西，即使没有在特定领域上训练它，只要训练一个偏好模型以获得有用性，它也会在某种程度上推广到那个领域。

OpenAI正在对更多的多模态数据进行训练，使模型能够理解屏幕的样子，并能够以更连贯的方式与之交互。他们也在使用强化学习使模型能够充当系统中的代理，以更加集成的方式成为工作流程的一部分。Schulman期望在不久的将来，我们会拥有一个类似于助手的东西，可以在屏幕上与你一起工作。他希望AI能够更像一个乐于助人的同事，而不仅仅是一个执行一次性查询的工具。他期待AI能够更加主动，能够理解并参与到用户的整个项目中，甚至能够主动提出建议和帮助。

=以下是访谈全文的天空之城书面整理版，共2.5w字=：

主持人

如果明年没有其他瓶颈或其他阻碍，你有了人工智能的通用智能（AGI），你的计划是什么？

今天，我有幸与John Schulman进行了交谈。他是OpenAI的联合创始人之一，负责领导这里的后期训练团队。他还领导了ChatGPT的创建，是许多最重要的、被广泛引用的人工智能和强化学习论文的作者。约翰，很高兴和你聊天，感谢你参加播客。

John Schulman：

也感谢你邀请我参加播客。我是你的忠实粉丝。

哦，谢谢，谢谢你这么说。

那么，我的第一个问题是，除了损失函数和训练机制方面实际发生的情况之外，我们在训练前和训练后之间还有这些区别。我只是好奇，从概念上退一步，训练前会创造什么？在此基础上，训练后会做什么？

在训练前，你基本上是在训练模型去模仿互联网或网络上的所有内容，包括网站和代码等等。所以你会得到一个模型，它基本上可以生成看起来像互联网上随机网页的内容。而且该模型还经过训练以最大化可能性，它必须对所有内容赋予概率。所以目标基本上是根据前几个标记预测下一个标记。标记就像单词或单词的一部分。由于模型必须对其赋予概率，而我们正在训练以最大化对数概率，因此它最终会非常精确。所以它不仅可以生成网络上的所有内容，还可以为所有内容分配概率。因此，基础模型可以有效地承担所有这些不同的角色或生成所有这些不同类型的内容。

然后，当我们进行后期训练时，我们通常针对更窄的行为范围，我们基本上希望模型表现得像这种聊天助手。这是一个更具体的角色，它试图提供帮助。它不是试图模仿一个人。它是回答你的问题或完成你的任务。我们正在针对不同的目标进行优化，这更多地是产生人类会喜欢和觉得有用的输出，而不是仅仅试图模仿来自网络的原始内容。

是的，好的。我想也许我应该退一步问，现在我们有这些模型，它们非常擅长充当聊天机器人。退一步看看这些流程目前的工作方式，这些模型将在年底前发布什么……这些模型在年底发布的东西，我们能做什么？您认为未来五年内会取得怎样的进展？

是的，我认为模型在五年内会变得更好。是的。所以，我认为即使在一两年内，我们也会发现您可以使用它们来完成比现在更复杂的任务。例如，现在，您可以想象让模型执行整个编码项目，而不是给您一个关于如何编写函数的建议。因此，你可以将这个模型想象成，你给出一些关于编写代码的高级指示，然后它会去编写许多文件并进行测试，查看输出，然后对其进行一些迭代。这只是一个更复杂的任务。

基本上，这个模型能否连续运行足够长的时间来编写多个代码文件？或者说，从现在到那时，会发生什么变化？

是的，我认为这样的更艰巨的任务将通过训练模型来完成。就像我之前所说，模型并不是特别……大多数训练数据更像是一次执行单个步骤。我希望我们能做更多的工作来训练模型，以执行这些较长的项目。我认为任何类型的训练，比如进行强化学习来学习如何完成这些任务，无论你怎么做，无论你是监督最终输出还是监督每一步，我认为任何一种执行这些长期项目的训练都会让它们变得更好。由于整个领域都很新，我想说有很多唾手可得的成果。这在进行这种训练时非常有趣。

我认为这是一回事。此外，我希望随着模型变得越来越好，它们会更好地从错误中恢复，或者它们只是更善于处理边缘情况，或者当出现问题时，它们知道如何从中恢复。因此，模型将更具样本效率。你不必收集大量数据来教他们如何回到正轨，只需一点数据或只是他们从其他能力中概括出来的数据就可以让他们回到正轨，而当前的模型可能会陷入困境并迷失方向。

我不确定我是否真正理解了……我想更明确地了解概括如何帮助你回到正轨。你能详细说一下吗？我不确定我是否明白这两个概念为什么有联系。

对，它们没有直接联系。所以我想说你通常会有一点数据可以做所有事情。如果你收集了一个多样化的数据集，你会得到其中的一点点东西。如果你有概括性非常好的模型，即使只有几个回到正轨的例子，比如在预训练中，有回到正轨的例子，那么模型将能够从它看到的其他事物中概括到当前的情况。

我认为，如果你有较弱的模型，你可能能够让它们在有足够的数据的情况下做几乎任何事情。但你可能必须在某个特定领域或技能上投入大量精力，而对于更强大的模型，它可能无需任何训练数据或任何努力就能做正确的事情。

你现在对这些模型可能可以连贯地行动五分钟有什么直觉吗？我们希望它们能够完成人类需要一小时、一周、一个月等才能完成的任务。

从这些基准中得到的结果，是否每个基准都需要10倍以上的计算量，类似于当前预训练的缩放损失，还是会有一个更精简的过程，因为只要达到那个点，你的样本效率就已经更高了，然后你就可以，你只需要花几年时间完成一项任务或其他事情。

是的，我想说，从高层次来看，我同意更长远的任务将需要更多的模型智能才能做好，而且训练成本也会更高。我对是否存在一个真正清晰的缩放定律持保留态度，除非你能以极其谨慎的方式设定它，或者以某种方式设计实验。因为我认为，最终可能会出现某种相变，一旦你达到某个水平，你就能处理更长的任务。

例如，我认为当人们在不同的时间尺度上进行规划时，我并不确定他们是否采用了完全不同的机制。因此，无论我们是在考虑一个月后、一年后还是一百年后的事情，我们可能都是使用相同的思维机制。因此，我们实际上并没有进行某种强化学习，我们需要担心的是如何涵盖这个时间尺度的折扣因子等等。

我认为，通过使用语言，你可以描述所有这些不同的时间尺度，然后你可以做一些事情，比如在当下制定计划，你可以尝试朝着你的目标前进，无论这个目标是一个月后还是十年后的。因此，我对模型也有同样的期待，我不确定这是否是一个相变，但我认为有一些功能可以在多个尺度上发挥作用。

如果我理解错了，请纠正我，但这似乎意味着我们现在拥有的模型是基于每个Token的，非常智能，就像他们可能和人类一样聪明，基于每个Token，最聪明的人类。然而，阻止它们发挥应有作用的原因是，从现在起五分钟后，它们将无法以连贯的方式编写代码，也无法与你对项目的更广泛目标保持一致。

如果情况确实如此，那么一旦你开始这种长期的强化学习训练计划，它就会立即释放你在更长时间里保持连贯的能力。一旦该制度被解锁，我们是否应该预测一些人类水平的事情？如果不是，那么在你可以计划一年并执行需要那么长时间的项目之后，还剩下什么？是的，一旦我们进入该制度，我们会看到什么以及进展速度有多快还不完全清楚。所以这仍然不确定。

我想说，我预计会有，我不会指望通过任何这样的训练立即解决所有问题。我认为模型还会有其他杂项缺陷，导致它们陷入困境或无法取得进展或做出比人类更糟糕的决定。所以我不会说我预计这一件小事会解锁所有能力，但目前还不清楚。但它可能会在执行长期任务的能力方面有所提高，这可能会走得很远。

你认为这是合理的吗？或者似乎很可能有其他原因导致瓶颈？我也有点好奇，瓶颈的本质是什么？因此，它拥有所有这些用于预训练的表示。现在，由于长视界强化学习，它可以在很长一段时间内保持连贯性。那么，还剩下什么？

也许还有一些，比如人类专家在不同任务中带来的其他经验，比如有品味或更好地处理歧义。所以我可以想象，如果我们想做一些研究之类的事情，这些考虑就会发挥作用。显然，它们只是一些平凡的限制，比如模型的承受力，比如它是否可以使用用户界面。显然还有物理世界或访问事物。所以我认为可能有很多平凡的障碍，这些障碍可能不会持续那么久，但最初会减慢进度。

对于这些被设计出来的人工智能网站，一旦它们在更多的多模态数据上进行训练，或者至少变得更加多模态，它们与我们为人类设计的网站会有何不同？例如，它们所需的用户界面（UI）是什么样的？如何弥补它们的优点和缺点？它们与我们目前为人类设计的UI有何不同？

这是一个有趣的问题。我希望这些模型能够使用仅通过视觉为人类设计的网站，比如当它们的视觉能力变得更强大时，我们并不需要立即改变它们。另一方面，有些网站可能会从人工智能的使用中受益，它们可能希望设计出更好的人工智能用户体验。我不确定这到底意味着什么，但可能就像我们的模型在文本模式下仍然比从图像中读取文本更好一样，你可能希望有一个好的基于文本的模型表示。这也是一个很好的迹象，表明所有可以交互的东西是什么。但我不会期望网络被完全重新设计，让API无处不在，因为我希望我们能够让模型使用与人类相同的UI。

我认为这就是语言模型的重大教训，它们可以以与人类类似的能力行事。你之前提到的关于这个过程的观点可能更具有样本效率，因为它可以从预训练中的经验中概括出如何在不同场景中摆脱困境。我很好奇你所见过的这种概括和迁移的最有力证据是什么。因为关于模型未来能力的最大问题似乎是发生了多少概括。有什么让你感觉非常有说服力的东西，比如你真的学到了一些你不会期望它从这里的概括中学到的东西？

在训练后，确实有一些有趣的概括实例。比如一个众所周知的现象是，如果你用英语数据进行所有的微调，你的模型也会在其他语言中表现良好。因此，如果你用英语数据训练助手，它也会用西班牙语做一些合理的事情。有时你可能会得到错误的行为，比如它是用英语回复还是用西班牙语回复，但通常你也会得到正确的行为。比如你让它用西班牙语回答西班牙语的查询。所以这是一种有趣的泛化实例，你只需要抓住合适的有用角色，然后你就会用不同的语言自动做正确的事情。

我们已经看到了一些使用多模态数据的版本，如果你只对文本进行微调，你也会得到合理的图像行为。在ChatGPT的早期，我们试图解决一些问题，让模型理解自己的局限性。早期版本的模型会认为他们可以给你发电子邮件或叫Uber之类的。该模型会尝试扮演助手的角色，它会说，哦，是的，我当然发了那封电子邮件。

但显然它没有。

所以我们开始收集一些数据来解决这些问题，我们发现，即使将少量数据与其他所有数据混合在一起，也能解决问题。所以我不记得具体有多少例子，但大概有30个。我们目前拥有的例子相当有限，这些例子展示了一种普遍现象，即解释模型并不具备这种能力，而且这种现象很好地推广到了我们尚未训练过的各种能力。

我想再次提出这个问题，因为我不确定我是否已经理解了。如果你有一个经过训练的模型，它可以在更长的时间内保持连贯性，那么这是否意味着，除非存在其他瓶颈（可能存在也可能不存在），否则到明年，你的模型在表现上可能达到人类水平？你可以像与人类同事一样，以同事的身份与模型互动。你可以指示它们去做一些事情，它们就会去执行。如果这就是你认为可能实现的能力，那么这个预测有什么问题？

是的，很难确定会有什么缺陷。

我想说，当你今天与模型交谈时，除了长期连贯性之外，它们还有各种弱点，比如认真思考事情或注意你问他们为什么。所以我想说，我不会期望仅仅提高一点连贯性就能达到人工智能的水平。但我无法清楚地表达出，阻止他们成为一个完全发挥作用的同事的主要弱点是什么。

看起来你应该为很快拥有人工智能的可能性做计划。

是的，我认为这是合理的。

那么计划是什么？如果明年没有其他瓶颈，你就有了人工智能，那么计划是什么？

我想说，如果人工智能比预期来得更早，我们肯定会对此保持谨慎。我们可能希望在训练和部署方面放慢一点速度，直到我们非常确定我们可以安全地处理它。我们对它将要做什么、能做什么有很好的把握。所以我认为，是的，如果它比预期的要早得多，我们必须非常小心，因为我认为我们的理解在很多方面仍然处于初级阶段。

小心意味着什么？因为想必你已经很小心了。你在训练之前会做这些评估。

是的，我想说也许不要训练更智能的版本，在训练它时要非常小心，确保它经过适当的沙盒处理等等。也许不要大规模部署它，或者不要小心部署它的规模。

嗯。是的，我想我没有……好吧，让我们来玩一下这个场景。它发生在明年，然后你没有训练一个更智能的系统，而是在以某种有节制的方式部署。

是的，我在想...大概这在人工智能中并不是特别开放，但这只是......智能比我们预期的要容易得多，这就是它发生的原因。所以你等着部署。现在，其他公司也拥有类似的能力。接下来会发生什么？所以你一直在等待部署。你在等什么？在这种情况下，每家公司都在做什么？

是的，博弈论有点难以理解。

所以首先，我不认为明年会发生这种情况，但进行对话仍然很有用。也许是两三年。

但两三年还很快。

是的，还很快。我确实认为你可能需要一些协调。每个人都需要就如何部署或进一步训练的合理限制达成共识，才能实现这一目标。如果没有这样的共识，就会出现竞争态势，每个人都在努力保持领先地位，这可能会牺牲安全性。因此，我认为可能需要在进行这种训练的大型实体之间进行协调。

那么，你在协调的过程中，我想知道，你会暂停部署到什么时候？直到你弄清楚模型中发生了什么？

或者是进一步训练，暂停部署，以避免我们认为可能存在更大风险的某些类型的训练。因此，我们需要为每个人应该做的事情制定一些合理的规则，让每个人都在一定程度上限制这些行为。

那么，限制到什么程度呢？因为我认为在某个时候，你将不得不释放这种智能的潜在能量。那么，假设两年后，我们得到了人工智能，现在每个人都很紧张，人工智能公司已经暂停了。那么，我们现在应该怎么做？或者我们应该等到什么时候？

对此，我没有很好的答案。

我想说，如果每个人都能协调一致，那将是一个不错的场景。因为我确实认为，建立这些模型需要大量的资本，而且包含很多复杂的部分，所以并不是每个人都能在家里重新创建这些东西。考虑到能够训练最大模型的实体数量相对较少，协调似乎是可能的。但我不确定你如何长期保持这种平衡。如果我们能达到这一点，我认为我们就会处于一个不错的位置。

我很好奇，我不确定接下来会发生什么。因为从根本上讲，我们有大量的资源，比如你可以把它推送到服务器上。现在我们有了一堆智能，或者它们可以把自己推送到服务器上。现在我们让每个人都协调起来了，但我不确定我们接下来在这个世界上做什么。我们想，为什么这会让我们获得一个好的结果？

我想说，如果我们每个人都能合理地协调，我们就能找到一些办法。我们觉得我们已经很好地解决了协调方面的技术问题，能够部署真正智能的人工智能，作为人们意志的延伸，而且还能防止它们被滥用而导致灾难，我认为这会很棒。我们可以继续安全地部署这些系统，这将带来很多繁荣和一个新的、更快速的科学进步阶段等等。所以我认为这会是好的情景。

但我很好奇，比如，你怎么知道几年后所有这些参与者，即使在最好的情况下，他们也同意暂停，直到我们弄清楚我们正在构建的一致系统不会试图接管政变或不会让别人这样做？这方面的证据是什么样的？

我想说，如果我们可以逐步部署比以前的系统更智能的系统，那么我认为这会更安全。因此，我期望的情况并非每个人都必须协调、锁定并安全地释放事物。这样可能会导致势能的大幅积累。我更倾向于这样的场景：我们只是不断地释放比以前更好的东西，同时确保我们对每个差异都有信心，认为它们都在改善安全性和一致性，以适应能力的提升。如果事情开始变得有些可怕，我们可以放慢速度。这就是我所期望的。

我想说，如果出现更多的不连续跳跃，问题就在于，你如何知道你得到的东西是否可以安全地释放？我不能给出一个通用的答案。但为了让这更容易接受，你可能需要进行大量的测试，比如模拟你期望的部署。所以红队就是这样。你会希望以一种比你计划在现实世界中做的事情更不利的方式，或者更有可能失败的方式来进行。你会希望有一个非常好的监控系统，这样如果部署的系统开始出现问题，你会觉得它会立即被发现。也许你有一些东西在监视部署的人工智能和它们在做什么，并寻找麻烦的迹象。

我想说，你需要一些纵深防御。你会希望有一些组合，比如模型本身表现得很好，有无可挑剔的道德准则等等。你非常有信心，它对任何类型的接管企图或严重滥用都具有极强的抵抗力。然后你还希望在它之上有非常好的监控。所以，你可以检测到任何类型的麻烦。

在进行 Long Horizon RL 时，或者当你最终开始进行这项任务时，你会跟踪什么，以便在广泛部署这些系统之前注意到这种不连续的跳跃？

我想说，你会希望在训练过程中进行大量评估。

那具体会是什么呢？你怎么会注意到类似这样的事情？在知道这是可能发生的事情的情况下，在 Long Horizon RL 上进行训练是否有意义？或者这只是一种非常低的可能性？你如何看待这个问题？

如果你看到很多潜在的可怕能力，如果它们看起来很接近，那么在进行这种训练时，你需要非常小心。我认为这不是我们想要的，我们现在必须害怕，因为现在很难让模型做任何连贯的事情。但如果它们开始变得非常好，我想我们会想要，我们必须认真对待其中的一些问题。我们希望进行大量的评估，以测试它们在大多数方面是否存在不当行为，或者我猜这就像模型的对齐。我们想要检查它们是否不会对我们或其他什么的。但你可能还想寻找不连续的跳跃和能力。你会想要对模型的能力进行大量的评估。

我想你也想确保无论你正在训练什么，都没有任何理由让模型反对你，我认为这本身并不是最难做到的事情。就像我们用 RLHF 训练它们的方式一样，这确实感觉非常安全，即使模型非常聪明，它也确实感觉非常安全，因为模型只是试图产生一个让人类愉悦的信息。该模型并不关注世界上的其他任何事情，它只关注自己生成的文本是否得到了批准。

因此，很明显，如果你正在进行某项任务，而模型正在执行一系列涉及工具等的操作，那么在生成最终结果的过程中，它可能会有动机去做很多对人类来说毫无意义的古怪事情。但我认为，它并不一定有动机去做除了生成非常高质量的输出之外的任何事情。

因此，我认为你对于工具收敛的传统观点，比如模型会想要接管世界，以便最终能生成出色的代码，可能并不准确。例如，如果你让它为你编写一个Flask应用程序，它可能会说：“首先，我需要接管世界，然后我需要……”但我不知道。然而，对于这样一些明确的任务，很难想象为什么你会首先想要征服世界。当然，如果你的任务是赚钱，那么这可能会导致一些恶劣的行为作为工具性目标。

在我们回到这个问题之前，让我们先退一步，谈谈今天的强化学习和人类反馈（RLHF）系统等。但我确实想在某个时候跟进一下，这是一个很有趣的话题。

今天的RLHF，它影响这些模型的方式是……你会将其描述为……从人类心理学的角度来看，它是一种驱动力吗？它是一个目标吗？它是一种冲动吗？从心理学的角度来看，它是如何改变的？不仅仅是聊天机器人的角色，不要这样说话，用另一种方式说话，或者不要产生那些输出。

我想说，可能有一些类似于人类的驱动力或目标。因此，你会试图转向某一组状态，而不是其他状态。我认为我们的驱动力或目标概念还包括实现目标后的满足感。这些因素可能与学习算法的关系比模型在运行时所做的更密切，因为你只有一个固定的模型。所以我想说，可能有一些类比，尽管我不知道它们到底有多接近。但我想说，在某种程度上，模型确实以某种有意义的方式具有驱动力和目标。在RLHF的情况下，你试图通过奖励模型来最大化人类的认可，模型只是试图产生一些人们会喜欢并判断为正确的东西。

我听说过两种想法，即使用那种独白类型的东西来更好地推理，至少在公开场合，我见过这种事情。我很好奇你认为哪种更有希望。一种是模型从它输出的一系列潜在思路中学习，它学会遵循导致正确答案的思路，并在部署之前对其进行训练。另一种是在部署中使用大量推理，这涉及模型在部署时与自己对话。你希望它更接近哪一个？当它真正擅长推理时，是因为它只做了一堆推理云，还是因为你训练它在这方面做得很好？

好的，我想说，推理可以被定义为在测试阶段需要进行某种计算或推理的任务。因此，根据这个定义，推理是需要在测试阶段进行一些计算和逐步推理的任务。另一方面，我也希望能够在训练阶段进行一些计算或通过训练获得丰富的收获。因此，我认为，将这两者结合起来，可以得到最佳的结果。

目前，模型有两种学习方式：一种是在训练阶段，另一种是自由训练或后训练，但大部分的计算训练都花在了自由训练上。这就像是在掩盖数万亿个标记，就像是在浏览数万亿个标记的信息，如果人类受到这种影响，就会感到非常困惑，这并不是一种有效的学习方式。

另一种方式是上下文学习，虽然这种方式的样本效率更高，但它会随着每个实例的变化而被破坏。我很好奇，你是否认为在这两种方式之间有一条路径，它不会随着每个实例的变化而被破坏，但它也不会像只看到数万亿个标记那样轻浮，它更加刻意和主动。

你的意思是，模型具有某种中期记忆，因此太多而无法适应上下文，但规模比预训练小得多？

我不确定这是否是记忆，可能是记忆。我没有上下文，但当然，当我试图为这次谈话做准备时，我觉得我想到了我应该理解的内容。所以我查阅了它，仔细阅读了它，也许在阅读时会思考它。我不确定它在模型方面自然对应的是什么，但它会是什么样子？我很好奇。

我明白了。所以这不仅仅是记忆，它也有点像专门从事某项任务，专门从事某项任务或为某个特定项目投入大量精力。

我甚至不确定这是否更像是专业化。因此，我在思考，我对这部分的理解还不够深入。我需要更深入地研究这部分。现在，我已经理解了。我将专注于你现有的知识库。

是的，我明白了。这不仅仅是找到我不知道的内容，然后在一系列相关的资源上进行训练，以在某些特殊领域进行微调。这也涉及到推理，例如，通过自己的推理来发展一些知识，同时使用某种内省和自我知识来弄清楚你需要学习什么。是的，我想说，这确实感觉像是当前系统中所缺少的部分。

我想说，人们并没有真正在这个中间地带上努力，例如大规模训练，例如你制作的快照模型，它应该像部署模型一样做所有事情。另一方面，就像在上下文学习中一样。我认为部分原因是我们一直在增加上下文长度，以至于没有动机这样做。所以，如果你能达到十万或一百万个上下文，那实际上就很多了。

在很多情况下，这实际上并不是瓶颈，但我同意，你可能还想通过某种微调来补充这一点，例如，你从微调和情境学习中获得的能力可能在某种程度上是互补的。因此，我希望我们能够构建能够进行某种在线学习的系统，并且还拥有一些认知技能，比如反思自己的知识，寻找新的知识来填补空白。

这一切都是同时发生的吗？比如，这是否就像一种新的训练机制，所有这些事情都可以同时发生，或者无论是长期训练还是这种训练，它们是分开的，还是只是因为模型足够聪明，所以它们既可以自省，又可以在更长的视野范围内行动，你可以在长期任务上获得足够的回报？

是的，我想说，如果你正在做一些长期任务，那么我会说，你在做任务的同时也在学习。因此，完成涉及很多步骤的事情的唯一方法就是在任务过程中更新学习和记忆。因此，就像短期记忆之间存在一个连续体，短期记忆和长期记忆之间。

所以，我想说，是的，我希望，我希望当我们开始更多地关注长期任务时，这种能力将开始变得清晰，对它的需求将开始变得清晰。而且，在某种程度上，仅仅将很多东西放入上下文中可能会让你走得很远，因为我们现在有很长的上下文，但你可能还需要微调之类的东西。

至于内省和主动学习的能力，这可能会自动从模型的能力中脱离出来，让他们知道他们知道什么。因为他们有一些，模型对他们所知道的东西有一些校准。这就是为什么，这就是为什么，模型不会产生那么严重的幻觉，因为是的，他们对自己的局限性有一些了解。所以我认为同样的能力可以用于主动学习之类的事情。

那么，所有这些复杂的RL程序，你们开创的许多程序，当模型本身变得如此智能，以至于它可以充当自己的环境并以更在线和稳定的方式进行交互时，其中有多少是相关的。真的吗？那么，相较于过去的RRL解决方案，进步的道路会更直接吗？

我个人认为，策略梯度算法并非最有效的样本算法。因此，如果你希望快速学习，这可能并不是你在测试时想要采取的策略。然而，谁又能确定呢？也许情况并非如此糟糕。我倾向于认为，像动物的运动学习可能是一种策略评分算法。例如，当你正在学习如何投篮时，你可能需要数千次的尝试才能提高准确率。我想你可能会使用一些类似策略评分算法的方法。但是，这并不是最快的学习方式，尤其是当你有一个模型试图完成一个项目或某种任务时。

因此，我认为我们会更多地依赖情境学习，你实际上有一个学习算法，就像你已经学会了如何探索，如何详尽地尝试所有可能性，而不是一遍又一遍地重复同样的事情，犯同样的错误。所以，我想说我们将能够做一些看起来更像学习搜索算法的事情，这将是那种在特定任务中会用到的东西。这是一个有趣的观点。

好的，我想退一步问一下你自己的历史。至少在OpenAI，你领导了ChatGPT的创建。你是在什么时候意识到，首先，这些LLM是要走的路，然后聊天机器人会是，或者某种指导它们的方式会是一件有用的事情。请跟我讲一下整个过程，比如，从什么时候开始，这成为了你的重点，整个过程是怎样的。

在很早以前，也就是在ChatGPT之前，我们在OpenAI有这些指令遵循模型，这就是当时的想法，我们有基础模型，人们可以用复杂的方式提示它们。但是，它们也有点难以提示。你必须，它们基本上会自动完成。所以你必须用一些例子来设置一个非常好的提示。因此，OpenAI的人们正在研究，只是采用基础模型并使它们更容易提示，这样如果你只是写一个问题，它就会回答这个问题，而不是给你更多的问题或其他东西。所以，我们有这些指令遵循模型，它们有点像基础模型，但使用起来更容易一些。那些是最初在API中部署的，或者在GPT-3之后，那些是下一代模型。

与此同时，肯定有很多人在考虑聊天。谷歌有一些论文，比如他们有Lambda和早期的Mina。所以他们有这些聊天机器人，它更像是，就像你有一个，它更像是一个真正专门用于聊天任务的基础模型，非常擅长聊天。而且，至少，从论文中的例子来看，它更多地用于一些有趣的应用程序，比如，模型会扮演某种角色并假装是那个角色。它的功能不是那么强大，比如，比如帮助我重构我的代码。确实，有人正在考虑关于聊天的问题。我曾参与过一个名为WebGPT的项目，该项目主要研究聊天，它主要依赖于网页浏览和检索来进行问答。当你回答问题时，它真的希望能够处于聊天状态，因为你总会想要问一些后续问题，或者有时你需要澄清一些问题，模型也应该提出一个澄清问题，因为问题可能是模棱两可的。因此，在我们完成第一个版本后，很明显，下一个版本应该是对话式的。

无论如何，我们开始研究如何创建一个对话式的聊天助手。这个项目是基于GPT 3.5的，它在2022年初完成了训练。这个模型在语言和代码方面表现得相当出色。我们很快就意识到，它在编码帮助方面表现得相当出色，这是我们感到兴奋的事情之一。因此，我们致力于这个项目。

我们花了一年多的时间研究这个项目，我们还有一个浏览功能，但我们最终淡化了这个功能，因为模型的内部知识非常好，我们并不需要浏览功能，这并不是最有趣的事情。然后，我们开始考虑将它用于beta测试，或者向朋友和家人发布一段时间。我们正在考虑公开发布。

然而，当时，GPT 4实际上在8月份完成了训练。实际上，OpenAI的旗舰RL项目是指令跟随项目，因为这是被部署到生产中的模型。因此，GPT 4的第一次微调使用了整个堆栈。这些模型表现得非常好。在看到GPT 4的微调指导后，每个人都对此感到非常兴奋。这些模型确实非常好，它们偶尔会给你惊人的输出，但它们也有一些问题，模型显然非常不可靠。有时它会产生很多幻觉，有时会给你非常不正常的输出。所以它显然还没有为黄金时段做好准备，但它显然非常好。

是的，所以我想，在那之后人们可能会暂时忘记聊天，因为这像是一个替代分支。但是后来我们进一步推动它，最终将所有数据集混合在一起，例如指令和聊天数据，并尝试获得两全其美的东西。而且，我认为，我们的聊天模型显然更简单，更易于使用。这有点像模型了解自己的局限性，自动表现出更明智的行为。这实际上是我们在开发过程中让我感到兴奋的事情之一，我意识到很多人们认为是语言模型缺陷的东西，比如明显的幻觉，可能无法完全修复，但是你可以用相当简单的方法取得很大进展。

另外，关于聊天的另一件事是，当我们有这些指导模型时，比如完成这段文字的任务，但以一种好的方式或一种有用的方式，这是一个定义相当模糊的任务。因此，我认为这项任务对于模型和负责数据标记的人来说，都是相当困扰的。然而，对于聊天，我认为人们有一种直觉，他们知道一个有用的机器人应该是什么样的。因此，我认为向人们解释模型应该做什么会更为简单。是的，我认为，如果模型具有更连贯的个性，就像让机器人表现出明智的行为一样，会更为稳健。这是相当有趣的。

是否有人可以使用公开提供的微调API来制作ChatGPT？

答案并不完全肯定。他们可以，但我不记得哪些模型可以用于微调。假设我们当时有3.5版本可用于微调，你就可以制作出相当接近的产品，但我不确定你是否能够只进行一次微调迭代。如果你有纯粹的人类书面数据，然后你对此进行微调，我认为你可能需要进行多次迭代。

例如，如果你不打算进行强化学习，我们曾经做过的，你可能需要进行某种迭代监督微调，让人类编辑模型生成的输出。因为如果你使用人类生成的数据进行训练，即使质量真的很高，模型也很难完美地拟合数据，因为它可能不是模型能够输出的东西。所以你需要做一些迭代的事情，这看起来更像强化学习。我认为如果你这样做了，你就可以得到一些非常接近的东西，但这将是一项不平凡的任务。

我们还有另一个用强化学习训练的指令跟随模型，它是在ChatGPT之前发布的。我认为如果你在它上面放一个类似的包装器，你会得到一些相当接近的东西。但它就像那个模型，就像你只是用聊天提示它，但是那个模型在优势上有一些不同。就像那个模型在写作和诗歌等方面相当擅长，但它在了解其局限性以及事实性等方面并不那么擅长。

退一步来说，我记得我曾经在某处听到过你说GPT-2，与你在2019年的预期相比，你对它印象非常深刻。那么，人工智能的发展速度比你预期的快还是慢？

我会说，自GPT-2以来，它的发展速度比我预期的要快。我相当相信，扩展，预训练等等是个好主意。但是，当GPT-2完成时，我会说我并没有完全相信它，它会彻底改变一切。就像我在GPT-3之后真正改变了我正在做的事情以及我的团队正在做的事情。所以在那之后，我们聚在一起说，哦，是的，让我们，让我们，这个语言模型的东西真的很好用。让我们看看我们能在这里做些什么。但是，在GPT-2之后，我还不太确定。

尤其是如果我们之前谈论的东西，RL开始与更智能的模型更好地协同工作，并且花费在训练上的一小部分计算，即训练前与训练后，在未来显着改变以有利于训练后。

是的，对此确实存在一些争议。目前，这个比例显得相当不平衡，但你可以认为，与网络上的大部分内容相比，该模型生成的输出质量相当高，甚至更高。因此，让模型自我思考，而不仅仅是通过训练来模仿网络上的内容，这更有意义。我认为这是有第一原理论证的。此外，我想说，我们通过后训练获得了很多收益。因此，我对此并不确定。我希望我们能继续推动这种方法，并可能增加我们投入的计算量。

目前，GPT-4的ELO分数比最初发布的分数高出一百分。这是否都是因为你所说的这些改进是由后训练带来的？

是的，我想说我们的大部分改进都是由后训练带来的。这很有趣。因此，有很多不同的改进轴。就像你可以考虑数据质量、数据数量，只是对整个部署和收集新数据的过程进行更多迭代，并改变你正在收集的注释类型。所以有很多因素堆积起来，但它们加在一起会给你带来相当不错的有效计算能力提升。

这是一个巨大的提升。这真的很有趣，训练后还有这么多的改进空间。

那么，什么造就了真正擅长做这种研究的人呢？我听说这非常挑剔，但是，你拥有什么样的直觉，让你能够找到这些方法来处理数据并设置这些环境？

我想说，我现在已经有了相当多的经验，比如，从堆栈的不同部分，比如，RL算法，显然，因为我从研究生院开始就一直在研究这些算法，比如，数据收集，注释过程，比如使用语言模型进行语言游戏。所以我只是涉猎了这些东西，我想说那些在这种研究方面做得很好的人，对整个堆栈有一些看法，并且对它的不同部分非常好奇。而且，也要考虑一下，你既要实证，又要使用实验，让实验更新你的观点，但你也想从第一原理来思考，假设，学习，比如什么类型的数据才是理想的收集对象之类的。

因此，由于自GPT-4以来似乎没有一个模型看起来明显更好，因此似乎存在一种假设，即我们可能遇到了某种瓶颈，而这些模型实际上并没有很好地推广，你会遇到某种数据墙，超过这个数据墙，通过记忆大量的预训练数据所解锁的能力实际上并不会帮助你获得比GPT-4更聪明的东西。你认为这个假设是错误的吗？

我想我们已经讨论过一些关于泛化的例子，从西班牙语到英语等等，但是，好吧，也许这是一个连续的问题，但是，我想到的一个例子是语言的转移，代码、推理和代码。如果你训练一堆代码，它会在推理和语言方面变得更好。如果是这样，那真的是这样吗？你是否看到过这样的事情，这表明不同模式之间存在着信用正向转移。因此，当你尝试对大量的视频和图像进行训练时，这个模型会变得更聪明，它会从合成数据中学习并提升自身的智能。那么，模型解锁的能力是否与你输入的训练语料库的具体标签和数据类型极其相似呢？

是的，确实如此。我会尽力回答所有这些问题。

首先，我们是否即将遇到数据瓶颈的问题？我不会从GPT-4发布以来的时间中得出太多结论，因为训练这些模型并进行所有准备工作以训练新模型（例如生成模型）确实需要一段时间。所以，我不会从这个事实中得出太多结论。我想说，由于数据量有限，肯定会带来一些挑战，但我不希望我们立即遇到数据瓶颈。但我希望，随着我们越来越接近它，预训练的性质会随着时间的推移而有所改变。

就从不同类型的预训练数据进行概括而言，我想说，对这种类型的问题进行科学研究非常困难，因为你不能创建那么多预训练模型。所以也许，你不能训练一个像GPT-4大小的模型。你无法在GPT-4规模上进行消融研究。也许你可以训练大量的GPT-2大小的模型，或者甚至是一个使用不同数据混合的GPT-3大小的模型，看看你得到了什么。所以我不知道任何结果，或者像公开的，像消融这样的公开结果，涉及代码数据和推理性能等等。所以我非常想知道这些结果。

我实际上很好奇，如果其中一件事是模型随着规模的扩大而变得更聪明，那么在GPT-2级别模型上进行消融，这表明没有那么多的转移，这为GPT-4级别模型中类似域集上的迁移水平提供了多少证据？

对。您可能无法得出结论，如果迁移在GPT-2大小下失败，那么在更大的规模下也会失败。所以可能是，对于较小的模型，是的，对于较大的模型，您会学习这些更好的共享表示，或者较小的模型必须过于依赖记忆，而较大的模型可以学习如何进行正确的计算。所以我希望，这在某种程度上是正确的。

这可能有一个非常简单的答案，但是对于更大的模型，您在相同数量的数据上训练它们，它们会变得更聪明，或者相反，它们可以获得相同数量的智能，您必须在更少的数据上训练它们。为什么，为什么会这样？就像它拥有更多参数，看到的东西更少，现在它同样聪明。为什么会这样，为什么会这样？

我认为没有人能很好地解释参数计数的缩放定律。有些，我甚至不知道什么是最好的，这种心理模型是什么。比如，如果你有一个更大的模型，显然你会有更大的容量，但是，所以，你最终应该能够得到更低的损失。我想问，为什么更大的模型会更高效？

我可以给你一个大致的解释。你可以将模型视为一系列不同电路的集合，用于进行计算。你可以想象它正在执行一系列并行计算，输出是这些计算的加权组合。如果你有更多的模型宽度，或者你有更深的模型，实际上宽度和深度有些相似，就像残差网络一样，你会发现深度可以做一些类似于宽度的事情，比如更新残差流中的内容。

你可以说，你正在并行学习所有这些事情。你正在并行学习所有这些不同的计算，而在更大的模型中，你有更多的计算。所以你更有可能找到一个幸运的计算，最终获胜，猜对了很多次，权重增加。这有点像某些算法的工作方式，比如混合模型或乘法权重更新算法。

你可以想象有一种混合，我不想说是专家的混合，因为它意味着不同的东西，但基本上是专家的加权组合和一些学习门控。实际上，我可能说得有点不准确，但你可以想象这样的情况。拥有一个更大的模型会让你有更多机会获得正确的功能。

这不仅仅是你有一个完全不相交的函数，比如你正在采取线性组合，它更像是一个库，你可以以某种方式将函数链接在一起。这有一些可组合性。所以我只想说，更大的模型有一个更大的不同计算库，包括许多处于休眠状态并且只在某些时候使用的东西。但它有更多的空间来寻找，比如寻找那些电路来做一些有用的事情。

我想从当前的研究问题中退一步，了解未来几年将发生的模式情景。我们在对话开始时谈论的是进展非常快的情况，但就模式场景而言，你在某个时候解锁了长远的强化学习，但正如你所说，可能存在其他瓶颈。那么发生了什么，这些模型有多好？它们是如何部署的？它们中还有哪些其他模式，在什么阶段解锁这些模式等等？我只是想了解你对未来几年的更广泛看法

我希望，随着时间的推移，或者很快，我们能够添加新的模式。我希望通过预训练和后训练的结合，这些功能通常会不断改进，这将开辟新的用例。现在，人工智能仍然不是经济的重要组成部分，只有很小一部分工作可以得到人工智能的帮助。所以我预计这个数字会随着时间的推移而不断上升，这不仅是因为模型在不断改进，还因为人们正在弄清楚如何将它们集成到不同的流程中。因此，即便我们将模型冻结在当前状态，我相信你仍会看到它们的应用方式有着显著的增长。我预计会有许多应用，例如，我希望人工智能能够得到更广泛的应用，我希望它能够应用于更多的技术，比如技术复杂的任务。例如，正如我之前给出的编程示例一样，进行更长期的项目，同时也帮助进行各种研究。因此，我希望我们能够以各种方式使用人工智能来加速科学的发展。

此外，仅仅因为你可能拥有模型，比如了解特定领域的所有文献，并且能够筛选大量数据，比一个人有耐心做的还要多。因此，我希望我们基本上可以，是的，我希望形式因素基本上是人们仍然在推动这一切，而你有你可以使用的，有用的助手。你可以直接指出对你有用的许多不同问题。每个人都有所有这些，人工智能，帮助他们做更多的事情，完成更多的事情。

但显然，在某个时候，他们会比所有人做得更好，无论他们想做什么。这个过程会是什么样子？现在，他们显然只是在帮助你。在某种程度上，他们可以为你做事，甚至为你经营整个公司，或者其他什么。到那时，它会是一个顺利的过程吗？到那时，我们希望我们的系统与用户足够一致，这样他们就可以指望公司按照他们期望的方式运行，等等？

是的，我认为，我们可能不想立即让人工智能管理整个公司。我们可能希望有人监督这些重要的决定并发号施令。所以即使这些模型足够好，可以自己经营一家成功的企业。所以是的，在某种程度上，可能会有选择。我认为人们仍然会有不同的兴趣和他们想要的东西......对于他们想让他们的人工智能从事什么样的有趣追求有不同的想法。人们可以做很多事情......人工智能不一定具有内在的......任何内在的欲望。除非我们将其纳入系统中，否则还没有实现。因此，我希望即使人工智能变得非常有能力，人们仍然是人工智能最终行动的驱动力。

然而，我想知道经济平衡是否与此相去甚远，即在公司中是否存在类似阿姆达尔定律的情况。阿姆达尔定律指出，流程中最慢的部分就是会成为瓶颈的部分。因此，即使人工智能使公司所有非人类部分的效率提高10倍，公司也不能再提高效率，因为它仍然会受到这一步骤的瓶颈影响。因此，如果一家公司决定继续让人类参与所有你真正希望人类监督的事情，那么他们就会被其他公司击败。如果一个国家决定走这条路，其他国家就会打败它。我希望这不是事实，但我想知道这是否是一种让人类参与其中的可持续计划。

我认为，如果我们想让人类参与其中，这似乎是合理的。然而，如果事实证明，有人参与的公司在竞争中败给了没有人参与的公司，那么我认为我们显然需要某种监管，禁止没有人参与整个公司的运营。

但是，世界上有这么多公司，任何国家都是如此，更不用说全世界了。我想知道，对公司进行监管是否更好，并且规定，你必须让人类参与重要流程，但你必须定义什么是重要流程。你必须监控每一家公司。你还必须与每个有公司的国家进行合作。如果这是一个问题，是否应该在模型部署之前就解决这个问题，这样你就会处于这样一种境地：你决定建立一个公司，并最终采用这些模型。它基本上会做你想让它做的事情，你不需要有人参与其中。这个问题有意义吗？我想我只是想知道在这种情况下，我们如何实际监控每家公司是否都有人参与其中？

是的，你要么让每个国家都同意这种监管制度，要么你需要所有的模型基础设施或模型提供商都同意这种要求。所以这肯定不是一件容易的事。所以我想，这是向前看的。所以在看到类似的东西之前，很难想象这个世界。

例如，有一些问题，比如，我们真的相信人工智能运营的公司在各方面都更好吗？或者我们认为它们大多数时候都更好，但偶尔它们会出现故障，因为人工智能在某些方面仍然缺乏样本效率，比如处理非常古怪的情况。所以实际上，人工智能运营的公司有更高的尾部风险，因为它们更有可能出现大规模故障。所以我想可能会有一些类似的实际问题，这些问题也会决定事情的发展。

也许如果你只是要求人们对各种责任负责，这也会稍微改变激励机制。所以如果事实证明人工智能在管理一切方面都表现得更好，而且它们也完全仁慈，我们已经完全解决了协调问题，它们比人类更善于对人类负责，那么我会说让人工智能管理公司也许是可以的。然而，我认为这可能还是一个遥远的未来。我倾向于认为我们更可能面临的情况是：在短期内，人工智能运营的实体看起来表现得更好，但实际上，它们仍然存在一些严重的问题。实际情况可能会促使我们更倾向于让人类参与其中，至少在不久的将来是这样。

好的，这是我们今天在 RLHF 中必须处理的一个问题，即你必须汇总许多不同人类的偏好。未来更强大的系统可能会使这个问题更加明显。但是，当你说我们希望这些最终将完全取代人类的 AI 系统成为这些公司的一部分时，这意味着什么？这是否意味着它们基本上会做用户希望它们做的事情？这是否意味着它们必须产生某种令我们作为 OpenAI 利益相关者感到满意的全球性结果？这具体意味着什么？

如果这些模型被用于这些更高风险的用例，那么我们必须以与现在截然不同的方式考虑 RLHF。所以我想说我们还没有为此做好准备，或者目前的方法可能还不够充分。但我想说我们需要在所涉及的不同利益相关者的需求之间做出妥协。

因此，我们有一份名为“模型规范”的文档要发布。这是关于我们希望我们的模型在 API 和 ChatGPT 中如何表现。我们试图谈论这个问题，其中涉及不同的利益相关者，有时他们可能想要的东西之间存在冲突。

在我们的案例中，我们将利益相关者视为用户或最终用户。这意味着坐在 ChatGPT 或其他应用程序前面的人。开发人员，就像使用 API 的人一样，他们可能正在使用他们的应用程序为其他最终用户提供服务。平台，即 OpenAI，我们不希望模型给我们希来法律风险等等。然后是其他人类，包括可能不是用户或客户或任何人的人。

因此，很明显，用户可能会要求模型做一些我们认为对其他人有害的事情。所以我们可能不得不拒绝。顺便说一句，这不一定是优先顺序。我们有四类左右的利益相关者。实际上，你也可以说，也许在未来，我们会说模型本身。所以我想说我们还没有到那一步。但无论如何，我们有这些不同的利益相关者。有时他们有相互冲突的需求，我们必须就如何解决这些冲突做出一些决定。但如何做到这一点并不总是很明显。所以我想说我们必须仔细考虑……我们必须仔细考虑权衡。

基本上，粗略的启发式方法是，我们主要希望模型遵循您的指示并对用户和开发人员有所帮助。但是当这影响到其他人的幸福或生活方式时，这就成了问题。我们必须阻止某些类型的使用。但我们不想太……我们主要希望模型只是人们意愿的延伸，并按照他们说的做。我们不想太家长式。我们希望保持中立，不把我们的意见强加给人们。我们的主要目标是让人们能够利用模型去做他们想做的事情。

我有幸提前阅读了相关规范，我认为这是一个问题，即如何将这些规范有效地转化为模型的行为方式。然而，我对这种权衡的合理性印象深刻。这是有道理的，因为它专门针对实际的边缘情况进行说明，而这些并非每个人都能轻易理解的事情。在这种情况下，你确实在寻找边缘情况。

我们希望这个模型具有很高的可操作性，这样它就不仅仅是一堆听起来不错的原则。每个例子都能告诉你一些关于一些不明显的情况以及通过这种情况给出的理由。

现在，我有一些关于研究本身状态的问题。众所周知，在社会科学中，这些研究真的很难复制。这是一个关于有多少科学是真实的，有多少是这些制造出来的定制实验的问题。当你阅读普通的机器学习论文时，你是否觉得它像一篇非常扎实的文献？它是否经常让你感觉像是在社会科学中的p-hacking？

虽然每个人都对机器学习文献有所抱怨，但总的来说，我认为与社会科学等其他领域相比，它是一个相对健康的领域。这是因为它有坚实的基础，它在很大程度上基于实用性和让事情正常运转。如果你发表了一些无法轻易复制的研究，那么人们就会忘记它。人们普遍认为，你通常不只是报告某人论文中的数字，你还会尝试重新实现他们的方法，并在相同的训练数据集上将其与你的方法进行比较。所以我认为，如果你发表的方法很难实现或非常挑剔，它们往往会被遗忘。因此，人们实际上会尝试开源他们的工作。

我认为存在各种不利的激励因素。人们受到激励，使基准方法（例如他们正在比较的方法）变得更糟。还有其他轻微的病态，比如试图让你的方法在数学上看起来很复杂。但总的来说，我觉得这个领域取得了进展。我可能希望看到更多的科学和尝试理解事物，而不是更多地在基准上攀爬并试图提出新方法。最近有相当多这样的事情，但是是的，我认为我们可以更多地使用它们。我认为这对于学术界来说是一件好事。

另外，关于社会科学，换个角度来说，我实际上非常高兴看到更多使用基础模型进行模拟社会科学的研究。因为这些模型具有整个世界的概率模型，你可以设置模拟问卷或对话。你可以查看任何事物之间的关联，任何你能想到的特征，你都可以看到它们与其他特征之间的关联。因此，如果人们能够通过以不同的方式提示基础模型并查看关联内容，复制社会科学中一些更显著的结果（如道德基础等），那将非常酷。

斯坦福的实验，他们进行的是Ash一致性测试。如果语言模型也能被复制，那将会是一件非常有趣的事情。对于在大型实验室进行的其他研究，我想了解的是，作为实际计算乘数，有多少研究是增加或减少了获得特定结果所需的计算量？又有多少研究是使学习过程更稳定和构建基础设施？

我想提出的更广泛的问题是，自从 GPT-4 以来，是否感觉使用相同数量的计算，你可以训练出更好的模型？或者感觉好像，哦，我们已经确保使用 GPT-5 可以更好地以更具可扩展性的方式进行学习，但这并不意味着我们现在可以用 GPT-3.5 之类的预算来训练 GPT-4？

在提高效率方面，我们肯定一直在进步。只要你有一个一维性能指标，你就会发现不同的改进可以相互替代。因此，你可能会发现训练后和训练前都会改善指标或类似改进。他们对所要改进的指标的概况会略有不同。但如果到最后你只有一个数字，它们就会在某种程度上互相替代。所以对于像人类评估这样的东西，比如人类喜欢什么，我们在两方面都取得了很大进展，比如训练前和训练后以及改进。

关于 RLHF 的几个快速问题。显然，RLHF 对于使这些模型有用很重要。所以也许脑叶切除术的描述是不准确的，但从某种意义上说，所有这些模型，一旦它们被放入聊天机器人形式，就会有非常相似的说话方式。他们真的想深入研究事物。他们想把事情变成要点。他们似乎经常有这种正式而枯燥的说话方式。有人抱怨他们没有那么有创意，就像我们之前谈论的那样，它只能做押韵诗，直到最近才押韵，我想。这是 RLHF 目前发生的特殊方式的结果吗？如果是这样，那么是因为评估者是谁吗？是因为损失函数吗？为什么所有聊天机器人看起来都是这个样子？

是的，我想说，我们有很多……我想说我们正在积极尝试改进这一点，让写作更生动、更有趣。我认为我们已经取得了一些进展，比如改进了 ChatGPT 的个性。所以它更有趣，当你试图和它闲聊的时候，它会更好。它不那么机械化。我想说，是的，这是一个有趣的问题，一些抽搐是怎么产生的，比如 delve 这个词。我最近发现自己用了这个词。所以我不知道它是否从模型中影响了我，还是什么。但实际上，我认为......还可能会发生一些有趣的效果，语言模型提供商之间可能会发生无意的提炼，如果你雇用某人去做标记任务，他们可能只是将其输入到模型中。他们可能只是调出他们最喜欢的聊天机器人，输入信息，让模型完成任务，然后复制粘贴回去。因此，这可能解释了一些收敛现象。但同时，我认为我们所观察到的一些现象，正是人们所喜欢的。我相信人们确实喜欢要点，他们喜欢结构化的回应，人们确实经常喜欢他们得到的大量信息，这些信息来自模型。所以，我认为目前还不完全清楚，有多少只是特定选择和训练后过程设计的怪癖，有多少实际上是人们真正想要的内在因素。

它确实似乎比一些人想要的更冗长。也许只是因为在标记阶段，评分者会更喜欢更冗长的答案。但我想知道它是否是固有的，因为它是如何预先训练的，停止序列不会经常出现，它真的想继续下去。

标签中可能存在一些导致冗长的内容的偏见，例如我们倾向于一次训练一条消息而不是完整的交互。因此，如果您只看到一条消息，那么只有澄清问题或简短回复并邀请跟进的内容看起来会不如涵盖所有可能性的内容完整。

还有一个问题是，人们的偏好是否会根据模型输出的速度而改变。显然，如果您坐在那里等待标记出来，您会希望它直奔主题。但是，如果它只是立即为您提供大量文本，您可能实际上并不关心是否有一堆样板。或者，如果有一堆您要浏览的东西，您宁愿将它们全部放在那里。

我认为奖励模型是一个非常有趣的人工制品，因为它是我们最接近人们想要什么、他们有什么偏好的集合的东西。当你考虑更智能的模型时，我们会有一个希望，你可以给出我们想要的东西的清单，而不是像《联合国权利宣言》中那样琐碎而明显的事物。另一方面，我想我听到你指出，我们的许多偏好和价值观都非常微妙，因此它们可能最好通过这些成对的偏好来体现。

当你想到 GPT-6 或 GPT-7 级别的模型时，我们是否给它更多的书面说明，还是我们仍在做这些潜意识的偏好？

这是个好问题。我认为这些偏好模型确实了解了很多关于人们偏好的微妙之处，而这些微妙之处很难在说明书中表达出来。

显然，你可以编写一本包含大量比较示例的说明书，这就是模型规范所具有的。它有很多例子，并附有一些解释。目前尚不清楚描述偏好的最佳格式是什么。我猜，无论你能从捕捉模糊偏好的大数据集中得到什么，你都可以将其提炼成一个更小、更短的文档，该文档主要捕捉想法。

我认为更大的模型确实会自动学习人们可能会发现的很多概念。他们会从所有预训练数据中学习人们会发现有用和有帮助的东西。他们会有一些复杂的道德理论。但当然，仍然有很大的空间来抓住不同的风格或不同的道德观。所以我认为，如果我们要写一份文档，或者如果我们要调整这些模型，我们所做的就是抓住一种特定的风格，一种特定的道德观。你仍然需要一个相当长的文档来准确捕捉你想要的东西。

训练后的模型，其护城河的规模有多大会更好？目前，公司正通过我们的模型的规模等因素来区分自己。那么，是否存在一个大的护城河能够解决您之前提到的所有这些数据的棘手问题呢？

我认为，确实存在这样的护城河，因为这是一项极其复杂的任务。你需要有大量的专业人士来完成这项工作。因此，这需要大量的隐性知识和组织知识。我认为，训练后创建一个真正具有人们关心的所有功能的模型是相当复杂的。这需要相当复杂的努力，这需要大量的研发积累。因此，我认为这使得它有点像护城河，要立即启动它并不是一件容易的事。

看起来，那些进行最认真的预训练工作的公司也在进行认真的训练后工作。所以，似乎有可能复制或启动更多这样的工作。然而，也有一种力量使得它不那么像护城河，那就是你可以提炼模型，或者你可以拿别人的模型来克隆输出，或者你可以用别人的模型作为评判标准来进行比较。我认为大公司可能不会这样做，因为这违反了服务条款政策，而且这也会对他们的自尊心造成一定打击。但我希望一些小公司会这样做，以便起步。这在很大程度上会让你陷入困境。我想这已经超出了护城河的范畴。

那么，中等水平的突袭者是什么样的？他们在哪里工作？他们的政治观点是什么？他们的知识水平如何？

我会说，这差别很大。我们肯定会雇佣具有不同技能或不同类型的任务或项目的突袭者。我认为一个不错的思维模型就是看看那些在Upwork和其他类似平台上的人，看看谁在远程工作中做一些零工。这是一个相当国际化的群体，美国有相当多的人。我们雇佣不同的人来做不同类型的标签，比如我们是否更专注于写作或喜欢STEM任务。因此，从事STEM任务的人更有可能在印度或其他中等收入或中低收入国家，而更喜欢英语写作和作文的人则更倾向于像美国人。所以是的，我想说，有时我们需要为某些活动聘请不同的专家。有些人非常有才华，我们甚至发现，他们在完成这些任务方面至少和我们这些研究人员一样优秀，他们比我们细心得多。所以我想说，我们现在拥有的人非常熟练和认真。

关于这种停滞不前的叙述，我听说的一件事是，这些模型能够帮助你处理特定事物的能力与在超级智能微调数据集中拥有非常接近匹配的标签有关。这是真的吗？比如，如果它能教我如何正确使用FFmpeg，就像有人在做、弄清楚、查看输入并查看你需要添加哪些标志。而有些人正在弄清楚并努力做到这一点。是的，是的。那么，你是否需要雇佣所有这些在所有这些不同领域都拥有领域专业知识的标签滚动者呢？如果这是真的，那么让这些模型随着时间的推移变得越来越聪明，似乎将是一项更大的挑战。

确实如此。

你并不完全需要那个模型。因为，你可以从泛化中获得很多东西。因此，如果你的模型像基础模型一样，已经在大量文档、大量带有shell脚本的代码等上进行过训练，那么它已经看到了所有的FFmpeg手册页和大量的bash脚本等。这使得它与基础模型非常相似，即使只是给基础模型一个很好的小样本提示，你也可以让它回答这样的查询。

并且，即使你没有在它们上面训练它，即使你没有在任何STEM（科学、技术、工程和数学）领域上训练它，只要训练一个偏好模型以获得有用性，它也会在某种程度上推广到STEM领域。因此，你不仅不需要如何使用FFmpeg的示例，甚至可能不需要任何与编程有关的东西来在编程领域获得一些合理的行为。

也许最后一个问题是，我们已经以不同的方式触及了这一点，但要把它放在一起。所以你说你正在对更多的多模态数据进行训练，大概就像这些东西了解屏幕的样子，并能够以更连贯的方式与之交互。而且你也会沿着地平线强化学习（RL）做到这一点。因此，他们将能够充当系统中的代理，以更加集成的方式成为你工作流程的一部分。你期望它是什么样子？那么接下来会怎样呢？

假设到今年年底或明年，你会拥有一个类似于助手的东西，可以在屏幕上与你一起工作。首先，这看起来是合理的吗？然后它会如何发展呢？

我肯定会，是的，我希望事情朝着那个方向发展。目前还不清楚什么才是最好的形式，是放在电脑上帮你做某事的夹子，还是更像云端的一个乐于助人的同事。所以我们会看看哪种形式效果最好。我希望人们能尝试所有这些形式。

是的，我希望像......是的，一个乐于助人的助手或乐于助人的同事的心理模型能够变得更加真实，你可以分享更多的日常工作或......而不是只给它一次性的查询，你会有一个你正在做的整个项目，并且它知道你迄今为止在该项目上所做的一切。你可以告诉它……它甚至可以主动提出建议。也许你可以告诉它，哦是的，记得问我这件事以及我是否取得了任何进展。所以我认为我们缺少的是主动性。

是的，我真的很想看到更好的……不再进行一次性查询，而是使用类似搜索引擎的模型，一种更智能的搜索引擎，更多地是与模型合作完成整个项目。它知道我所做的一切。它会主动建议我尝试一些事情，或者在后台进行工作。

是的，这真的很有趣。顺便说一句，这是最后一个问题。你的...你的中位时间表是什么？当它取代了你的工作。

它取代我的工作，这大概五年吧。是的，这个过程发生得非常迅速，而且非常有趣。

好的，John，这个话题确实非常引人入胜。我非常感谢你能抽出时间来讨论这个问题。我认为这可能是人工智能流程中非常重要，但大多数人对此了解不多的一个环节。因此，深入探讨这个问题并听取你的观点，对我来说是非常有趣的。

我要感谢你邀请我参加这个播客，讨论这些有趣的话题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.