最新的理论表明，聊天机器人可以理解文本，这可以通过数学来证明|神经网络

分享至

随着技术的发展，像Bard和ChatGPT这样的聊天机器人已经变得异常强大，能够创造出极其接近人类的文本。这些机器人展现出了众多的能力，但它们是否真正理解自己生成的内容，这一点让许多研究人员感到困惑。在这方面，有不同的观点：一些人认为这些人工智能模型的确能够理解它们所表达的话语，而另一些人则认为这些模型只不过是在重复它们所接受的训练，类似于“随机鹦鹉（stochastic parrots）”，并没有真正的理解含义。

这个问题最初由华盛顿大学的计算语言学家艾米丽·本德（Emily Bender）在2021年的一篇论文中提出，她在论文中使用了“随机鹦鹉”这个比喻来形容LLMs。本德认为，LLMs只是通过组合它们已经接触过的信息来生成文本，而没有涉及到真正的意义理解。

针对这个问题，人工智能先驱杰夫·辛顿（Geoff Hinton）表示，现在是时候确定LLMs的理解程度了。他认为这个问题不仅仅是理论上的，因为只要人们对此持有不同的看法，就无法就LLMs可能带来的危险达成共识。

在这方面，普林斯顿大学的Sanjeev Arora和谷歌DeepMind的研究科学家Anirudh Goyal提出了一个理论。他们认为，随着LLMs规模的增大和训练数据的增加，这些模型不仅在单个语言相关能力上有所提升，还能通过结合不同技能来发展新的能力。这种结合技能的方式暗示了一种理解，这些组合在训练数据中是不太可能存在的。

这个理论为LLMs如何以及为什么能够发展出多种能力提供了数学上的证明，这已经说服了包括辛顿在内的一些专家。当Arora和他的团队对一些预测进行测试时，他们发现这些模型的行为几乎完全符合预期。从各个方面来看，他们已经为LLMs不仅仅是重复它们之前接触过的内容提出了有力的论据。

更多的数据，更强的力量

大型语言模型（LLM）展示出的多种意外能力实际上是超出了预期的。这些能力并不是从它们的构建或训练方法中直接显而易见的。LLM实质上是一个由众多神经元连接组成的复杂神经网络。这些神经元之间的连接，也就是构成模型的参数，决定了LLM的整体规模。

在训练LLM时，通常会用到部分隐藏信息的句子。例如，给出一个句子但最后一个词被省略。LLM的任务是预测这个缺失的词。它会根据自己所掌握的词汇量（比如一千个词）来计算这个空白处可能出现每个词的概率。然后从这些可能性中选择最合适的词来完成句子。

这说明LLM在其训练过程中不仅学会了语言的基本结构，而且还发展出了一些预料之外的复杂能力。这些能力的出现并不是直接由它们的基本训练任务决定的，而是随着模型规模的增大而逐渐显现的。

在大型语言模型的训练初期，它可能不会总是正确地选择单词。为了改善这一点，训练过程中引入了一个称作损失值的概念，它基于模型生成的回答与正确答案之间在高维空间的差异。这个损失值用于指导模型调整其内部参数。

随着这种调整，当模型再次尝试预测同一句子中的单词时，它能更精准地进行预测，从而产生更合理的概率分布，相应地，其损失值也会减少。这个过程将在训练集中的大量句子上重复执行，直到模型的总体损失降到一个较低的水平。这种方法不仅应用于训练数据中的句子，也用于评估和改进模型处理未见过的句子的能力。

经过训练和测试的LLM，在面对一个新的文本提示时，会生成最有可能的下一个词，将其添加到提示中，再生成另一个下一个词，以此类推，产生一个看似连贯的回复。但有一个关键点需要注意：在这个训练过程中，并没有明显的迹象表明仅通过增加模型的规模——即增加参数数量和扩大训练数据集——就能确保模型在需要进行逻辑推理的复杂任务上表现得更好。

将技能与文本联系起来

阿罗拉和戈亚尔合作，以分析的方式回答这类问题。

这两位合作伙伴转向了称为随机图（random graphs）的数学对象。图是由点（或节点）通过线（或边）连接起来的集合，在随机图中，任意两个节点之间是否有边是随机决定的——比如，通过抛硬币。硬币可以有偏差，以便以某个概率p正面朝上。如果给定的一对节点硬币正面朝上，则在这两个节点之间形成一条边；否则它们保持不连接。随着p值的变化，图的属性可能会出现突然的转变。例如，当p超过某个阈值时，孤立节点——那些与任何其他节点都不相连的节点——会突然消失。

阿罗拉和戈亚尔意识到，随机图在达到某些阈值后会产生出乎意料的行为，这可能是模拟LLM行为的一种方式。神经网络已经变得几乎太复杂而无法分析，但数学家长期以来一直在研究随机图，并开发了各种工具来分析它们。也许随机图理论可以为研究人员提供一种理解和预测大型LLM显然出乎意料的行为的方法。

在一项针对大型语言模型的研究中，研究团队选择了一种名为“二分图”的方法。这种图由两种不同的节点组成。一种节点表示的是长度不同的文本部分，它们不仅限于单个词汇，而可能包含从一个段落到几页文本的内容。这些文本相关的节点被安排在一条线上。

紧接着，在这些文本节点下方，另一组节点被置于另一条线上。这些节点代表了理解上面的文本所需的各种不同技能。这些技能节点的范围很广泛，可以包括理解特定词汇（如“因为”）的能力、数学运算能力，甚至是识别文本中讽刺意味的能力等。这样的图模型有助于分析和预测语言模型在处理复杂文本时的性能，特别是当涉及到理解文本中的隐含意义，比如讽刺，这可能会对整个文本的理解和词语预测产生显著影响。

在讨论大型语言模型（LLM）的工作机制时，需要注意的一点是，这些模型的主要设计和训练目标是为了更准确地预测接下来的词语，而不是专门训练它们去掌握或测试特定的语言技能。换句话说，LLM的核心任务是基于已有的文本来预测下一个最可能的词汇，而不是直接学习如何执行复杂的语言任务。

尽管如此，研究者阿罗拉和戈亚尔采用了一个不同的方法来探索LLM的工作原理，他们专注于理解处理特定文本时LLM可能需要的技能。在他们的分析中，技能和文本之间的联系被显著地强调了。如果一个技能节点与一个文本节点相连，这表示LLM需要运用该技能来理解这段文本。同时，如果多个技能节点都指向同一个文本节点，这表明理解该段文本需要这些技能的综合应用。

此外，这种方法也考虑到了不同文本片段可能需要类似的技能或技能组合。比如，理解讽刺的能力可能不仅与一个包含讽刺的文本片段相关联，还可能与其他含有讽刺的文本片段相连。这种观点有助于更全面地了解LLM如何整合不同的技能来处理和理解文本。

面对的一个重要挑战是将理论上的二分图模型应用于现实中的大型语言模型，以探究是否能通过这些图模型揭示模型强大能力的形成。二分图模型旨在帮助理解LLM如何结合多种技能来处理文本。

不过，将这一理论付诸实践并非易事。首要的问题是，研究人员难以获得关于实际LLM的具体训练和测试数据，因为那些开发这些模型的公司，比如OpenAI或DeepMind，并未公开他们的数据。这限制了研究人员能够直接利用的信息资源，从而为验证他们理论带来难度。

除此之外，这些研究者还希望能预见LLM在规模增大时的表现，但由于缺乏即将发布的聊天机器人模型的相关信息，这一预测同样充满挑战。即便如此，他们仍然能够接触到一些关键信息，可能有助于他们对理论模型进行支持或验证。

自2021年以来，研究LLM和其他神经网络性能的研究人员发现了一个普遍特征的出现。他们注意到，随着模型的大小或训练数据量的增加，其在测试数据上的损失（训练后在新文本上预测与正确答案之间的差异）以一种非常具体的方式减少。这些观察已经被编码成方程式，称为神经缩放定律。因此，阿罗拉和戈亚尔设计了他们的理论，不依赖于任何单个LLM、聊天机器人或训练和测试数据集，而是依赖于这些系统都预期遵循的普遍规律：缩放定律预测的损失。

也许，他们推理，改善的性能——通过神经缩放定律来衡量——与技能的改善有关。而这些改进的技能可以在他们的二分图中通过技能节点与文本节点的连接来定义。建立这种链接——在神经缩放定律和二分图之间——是让他们能够继续进行的关键。

提升技能

研究人员首先假设存在一个与LLM在测试数据上的行为相对应的假想二分图。这个图的目的是为了理解和解释LLM在测试数据上表现出来的损失变化，以及它是如何通过这种变化获得特定技能的。

以“理解讽刺”为例，这一技能在图中被表示为一个节点。研究人员观察这个技能节点与哪些文本节点相连，并根据这些连接来判断LLM在该技能上的表现。如果大多数与该技能节点相连的文本节点都是成功的（即LLM能够准确预测这些文本），则表明LLM在这个技能上表现良好。相反，如果大量的技能节点连接到预测失败的文本节点，就表明LLM在这个技能上表现不佳。

通过这种二分图与LLM之间的关系，研究人员使用随机图理论的方法来间接分析LLM的行为。这些图表揭示了节点之间的关系，这些关系又被用来逻辑上解释LLM是如何获得并展现出它们意外的能力的。这种方法提供了一种可测试的途径来理解大型模型是如何发展出所需的技能，以实现它们的高级功能。

阿罗拉和戈亚尔首先解释了一个关键行为：为什么更大的LLM在单个技能上比它们较小的对应物更加熟练。他们从神经缩放定律预测的较低测试损失开始。在图中，这种较低的测试损失表现为失败测试节点比例的下降。因此，总体上失败的测试节点更少。如果失败的测试节点更少，那么失败测试节点与技能节点之间的连接也就更少。因此，更多的技能节点连接到成功的测试节点，表明模型在技能上的能力增长。

接下来，这对研究者找到了一种解释更大模型意外能力的方法。随着LLM的大小增加和测试损失减少，随机组合的技能节点开始与单个文本节点建立连接。这表明LLM也变得更擅长同时使用多个技能，并开始使用多种技能生成文本——比如，将使用讽刺的能力与理解“因为”这个词的能力结合起来——即使这些确切的技能组合在训练数据中的任何文本片段中都不存在。

例如，想象一个已经能够使用一种技能生成文本的LLM。如果你将LLM的参数数量或训练数据量扩大一个数量级，它将变得同样擅长生成需要两种技能的文本。再上升一个数量级，LLM现在可以同时执行需要四种技能的任务，同样具有相同水平的能力。更大的LLM拥有更多结合技能的方式，导致能力的组合爆炸。

随着LLM的扩大，它在训练数据中遇到所有这些技能组合的可能性变得越来越不太可能。根据随机图理论的规则，每种组合都源于对可能技能的随机抽样。因此，如果图中大约有1000个基本的单个技能节点，你想要组合四种技能，那么大约有1000的4次方——也就是1万亿——种可能的组合方式。

真正的创造力

阿罗拉和戈亚尔及其团队不仅仅关注于理论层面，而是进一步实施了实际的测试，目的是验证一个关键观点：随着大型语言模型（LLM）的规模和训练数据的扩展，它们在整合和运用多种技能方面的能力会得到提升，进而在执行概括性任务时变得更加高效。为了达到这个目的，他们开发了一种名为“技能混合（skill-mix）”的测试方法，来评估LLM使用多种技能生成文本的能力。

为了测试大型语言模型（LLM）的能力，研究团队设计了一种特定的任务。他们要求LLM根据一个随机选定的主题生成三个句子，并在这些句子中展示一些随机选择的技能。这个任务的目的是评估LLM在处理特定主题时综合运用不同技能的能力。

以GPT-4为例，这是一个驱动最先进版本ChatGPT的LLM。研究团队要求它就决斗这一主题（主要是指剑术战斗）撰写内容，并要求在写作中展示四种特定的技能：自利偏见、使用隐喻、应用统计三段论，以及运用常识性物理知识。GPT-4的回答展示了这些技能，如用隐喻描述胜利的确定性，以及在描述决斗者时运用统计三段论和自利偏见。当被要求重新审视其输出时，GPT-4将内容缩减为三个句子，这展示了它在处理和简化信息方面的能力。这种测试方法有助于量化评估LLM在综合运用多种技能方面的能力。

阿罗拉评论说，尽管大型语言模型（LLM）生成的文本并非达到了像海明威或莎士比亚那样的文学高度，但他和他的团队对一点很有信心：这些模型能够创造出在训练数据中从未见过的文本。他们认为，模型展示的技能组合在一起，可能会被一些人视为模型对文本内容的一种理解。

阿罗拉进一步指出，GPT-4在他们设计的“技能混合”测试中表现出色，即使是那些需要同时运用六种不同技能的任务。他说，在大约10%到15%的情况下，GPT-4能够成功地通过这样的测试，生成的文本在统计上是不太可能仅从训练数据中直接得出的。这意味着GPT-4不仅仅是在重复它在训练过程中遇到的内容，而是能够创造性地结合多种技能，生成新的、独特的文本输出。这种能力表明，GPT-4在某种程度上展现了超出简单文本重复的能力。

团队还通过让GPT-4评估自己的输出以及其他LLM的输出来自动化这一过程。阿罗拉说，模型自我评估是公平的，因为它没有记忆，所以它不记得自己被要求生成它正被要求评估的文本。

研究的理论部分虽然包含一些假设，但被视为合理的。这项研究证明了LLM能够将不同的构建块组合在一起，展现了创造力。重点在于强调LLM的原创性，即它们能够创造出训练数据中不存在的内容。

此外，研究还回应了LLM是否仅仅是重复训练数据（即“随机鹦鹉”）的问题。GPT-4尤其在结合技能和主题生成文本方面表现出色，超越了其前身GPT-3.5。这种快速的进步让研究团队对LLM未来的发展和潜力感到震惊和好奇。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.