智能的关键不在参数而在时间：重新定义AI计算模型|算法|拟合|智能体|图灵机|新论文

分享至

智能并非关于参数数量，而是关于时间。

当我们让大语言模型求解复杂多项式方程时，它不仅返回答案，还会运用"思维链"来推导解决方案。从某种意义上说，大语言模型表现得像一台计算机，一台用于计算解决方案的机器。但这台机器与近90年前阿兰·图灵描述的通用计算模型截然不同。

在什么意义上大语言模型可以被视为计算机？它能否具备通用性，即像图灵机一样能够解决任何可计算的任务？如果可以，它又是如何从有限数据中学会这种能力的？

当前的机器学习理论对回答这些问题帮助有限，因此我们需要新的工具。在之前的Amazon Science文章中，我们论证了AI智能体及其驱动的大语言模型是转导推理引擎，尽管它们是按照经典机器学习理论的归纳模式训练的。归纳寻求泛化，即在未来数据上表现得如同在过去数据上一样的能力。要实现泛化，就必须避免记忆化，即避免过拟合训练数据。

这在理论上是可行的，条件是过去和未来的数据都来自同一分布。然而在实践中，这样的条件无法验证，而且通常不适用于商业、金融、气候科学甚至语言等领域的高价值数据。这使得我们无法解释大语言模型如何学会可验证地解决通用可计算任务。

相比之下，转导寻求通过推理过去的数据来为新问题制定解决方案。转导不是希望过去的解决方案能够泛化，而是能够在推理新解决方案时检索出重要的记忆片段。在转导中，记忆化不是污点而是价值。在转导推理过程中使用测试数据和记忆来制定解决方案不是过拟合，而是自适应的、特定查询的计算——即推理。

归纳泛化是在时间紧迫时被迫采用的行为。这种自动的、反应性的行为在认知心理学中有时被称为"系统1"。而转导需要查看所有数据并执行特定查询的可变长度推理时间计算——大语言模型中的思维链推理，其长度取决于查询的复杂性。这种深思熟虑的行为通常被称为"系统2"，这是我们希望通过学习培养的。从这个意义上说，转导学习是元学习的一种特殊形式，或者说是学会推理。

1964年，Ray Solomonoff描述了一种通用最优算法，可以通过转导推理解决任何问题，前提是假设内存和时间是无限的：通过图灵机执行所有程序，然后平均那些能够重现观察数据的程序的结果。这将给出通用最优答案——但通常需要永远的时间。如果我们想要的不仅是通用最优而且是通用快速的算法呢？

1973年——在引入NP完全性概念的同一篇论文中——Leonid Levin导出了这样一种算法。不幸的是，Levin所谓的通用搜索在实践中不可行，也无助于我们理解大语言模型；其中一个原因是它不涉及任何学习。尽管如此，Levin指出了时间在解决计算任务中的关键重要性。后来，在1986年，Solomonoff暗示了学习如何帮助减少时间。

在一篇新论文中，我们扩展了这些想法，展示了减少推理时间如何诱导训练模型进行转导操作——即推理。在努力减少推理时间的过程中，模型不仅学习训练数据的统计结构，还学习其算法结构。然后它可以用无穷多种方式重新组合学到的算法方法来解决任意新问题。

这一洞察对AI模型的设计和训练方式有影响。特别是，它们应该被设计为预测推理时额外成本的边际价值，其训练目标应包括复杂性成本，以迫使它们在推理期间最小化时间。

这种学习方法颠覆了经典统计学习理论。在经典统计学习理论中，最大的危险是过拟合，所以目标是正则化解决方案，即最小化训练模型从过去数据中保留的信息（除了对减少训练损失重要的信息）。另一方面，在转导推理中，目标是最大化保留的信息，因为它可能在解决未来问题时派上用场。

超越参数规模的局限性

过去几年大语言模型的性能提升主要来自规模化：增加模型参数数量提高了在基准数据集上的准确性。这使得许多人推测进一步增加模型参数数量可能迎来"超级智能"时代，AI模型的认知能力超越其人类创造者。

在我们的论文中，我们论证相反的观点：超过某种复杂性，AI模型进入我们所称的学者症候群，学习变得不必要，在基准测试上的更好性能伴随着"洞察力"的下降。极限情况是Solomonoff在1964年描述的算法，任何任务都可以通过暴力破解来解决。

如果规模不能带来智能，什么能呢？我们认为答案是时间。

这个答案有一定的直观吸引力。智能概念从根本上是主观的并依赖于环境。虽然智能难以描述，但其缺失却不那么难以描述。无法适应环境速度是我们称之为非智能特征（TONIs）的许多行为之一。TONIs是那些存在时就否定智能的行为，无论人们如何定义智能。

许多TONIs都与时间有关。对同一任务的重复实例花费相同的（非最小）时间和精力，却没有更好的结果，这是一个TONI。无法分配与目标相称的资源，从而为简单任务花费与复杂任务相同的努力，也是如此。开始一个已知需要比宇宙寿命更长时间才能给出任何可用答案的任务是另一个TONI。

基于这种直觉，我们如何量化AI模型中智能与时间的关系？第一步是评估模型参数中包含的信息量；然后我们可以看到它如何受到时间约束的影响。

算法信息理论的新应用

测量信息的标准方法是Claude Shannon在1948年一篇里程碑式论文中提出的，该论文本质上创建了信息理论领域。Shannon将随机变量的信息内容定义为其分布的熵。对其值的不确定性越大，信息内容就越高。

然而，根据这个定义，给定数据样本的信息内容不是样本本身的属性；它是其抽取来源分布的属性。对于任何给定样本，有无穷多个可能抽取它的分布。如果你只有一个样本——比如一串0和1——你如何计算其信息内容？

在1960年代，Solomonoff和Andrey Kolmogorov独立地解决了这个问题，提出了信息的替代概念——算法信息，可用于描述任意二进制字符串的信息内容。对于给定字符串，可以编写一个程序，在某台计算机上运行时输出该字符串。事实上，可以编写无穷多个这样的程序并在多台计算机上运行每个程序。

在通用图灵机上运行并输出特定数据的最短可能程序是该数据的属性。该程序是算法最小充分统计量，其长度是该数据的算法信息（Kolmogorov-Solomonoff复杂度）。

在1948年的论文中，Shannon还定义了一个称为互信息的指标，它量化了通过观察相关变量可以推断出另一个变量值的信息。这个概念也可以扩展到算法信息理论：两个数据字符串之间的算法互信息测量如果能够访问另一个字符串，生成一个字符串的程序会短多少。

优化性能的新框架

如果我们不知道模型训练数据的抽取分布，也不知道模型的未来输入是否会从同一分布中抽取，我们如何量化模型的未来性能？

在我们的论文中，我们假设大多数任务可以通过组合和变换——以无穷多种可能方式——一些最终有限但先验未知的方法集合来解决。在这种情况下，我们可以证明优化性能是最大化模型训练数据与未来任务之间算法互信息的问题。

然而，找到生成特定二进制字符串的最短可能算法是一个难以处理的问题（除了最短的字符串）。因此计算模型训练数据与未来任务之间的算法互信息也是难以处理的。

尽管如此，在我们的论文中，我们证明了模型找到新任务解决方案的速度与解决方案和训练数据之间的算法互信息存在基本关系。具体来说，我们证明了时间与算法信息成反比。

其中h是新任务的解决方案，D是模型训练的数据集，I(h : D)是数据和解决方案之间的算法互信息。

这意味着在训练期间，最小化模型执行推理任务所需的时间将最大化其权重中编码的算法信息。减少推理时间确保即使模型参数数量增加，它们也不会陷入学者症候群，即通过暴力破解而不是任何洞察或学习来解决问题。

时间成本的主观性

您可能注意到将推理时间与算法信息联系起来的方程没有指定任何度量单位。这是因为即使"时间"的值也是主观的。在池塘喝水的斑马不会先验地知道被捕食者发现需要多长时间。如果逗留太久，它会成为猎物；如果恐慌离开，它会脱水。

同样，对于AI模型，没有单一的时间成本来训练，相应地也没有大语言模型进入学者症候群的唯一规模。对于某些任务，如科学发现，时间常数是几个世纪，而对于其他任务，如算法交易，则是毫秒。我们期望智能体能够适应其环境，在某些情况下为特定类别的任务生成更小的专门模型，即便如此，也要为用户（他们是智能体环境的一部分）提供控制，以根据应用的上下文和领域调整时间成本。

时间成本已经（部分且隐含地）纳入训练大语言模型的过程。在预训练期间，时间成本实际上设置为最小值，因为模型根据通过训练数据的单次前向传递的输出进行评分。为思维链推理微调模型需要标注数据，其高成本对较短的"真实"推理轨迹施加偏见。因此，大语言模型已经反映了组装训练集的标注者的主观时间成本。

然而，为了使用户能够根据环境成本在推理时调节资源，模型应该被训练来预测相对于预期最终回报的额外一步计算的边际价值。此外，它们需要被训练为以目标复杂度为条件，以学习如何在客户指定的成本或界限内提供答案。

有越来越多的努力教会模型时间的价值，这样它们可以适应手头的任务（有或没有人类监督）。这些肯定会产生更好的性价比，但理论预测在某个点上，考虑时间成本实际上会提高新任务的绝对性能。对于可验证的任务，学会推理来自寻求产生正确（验证）答案的最短思维链。最终，对时间施加成本不应损害推理性能。

重新定义计算模型

将这些想法与现代AI联系起来需要重新思考计算的含义。大语言模型是随机动力系统，其计算元素（上下文、权重、激活、思维链）不类似于经典、极简计算模型（如通用图灵机）中的"程序"。

然而大语言模型是计算模型——最大化模型。它们像图灵机一样是通用的，但在许多方面，它们是对立的，通过完全不同的机制运作。可以使用两级控制策略"编程"这样的随机动力系统：高级、开环、全局规划和低级、闭环反馈控制。

该策略可以通过AI Functions实现，这是本周作为Amazon的Strands Labs的一部分发布的开源库，这是一个用于构建AI智能体的GitHub存储库。现有编程语言可以用库中的函数进行扩充。这些是该语言语法中的普通函数，但它们的主体用自然语言而不是代码编写，并受前置和后置条件约束。这些使得高级、开环规划和验证成为可能，在AI编写任何代码行之前，如果AI生成的代码未能通过所有条件，它们会产生自动本地反馈循环。最小化时间（转化为成本）是结果智能体设计和评估的核心。

Q&A

Q1：什么是转导推理？它与传统的归纳学习有什么区别？

A：转导推理是通过推理过去数据来为新问题制定解决方案的方法。与传统归纳学习不同，转导不是希望过去解决方案能够泛化，而是能够在推理新解决方案时检索出重要的记忆片段。在转导中，记忆化是价值而非污点，使用测试数据和记忆来制定解决方案是自适应计算而非过拟合。

Q2：为什么说时间比参数数量更重要？

A：研究表明，超过某种复杂性后，AI模型会进入"学者症候群"，仅通过增加参数数量会导致学习变得不必要，模型通过暴力破解而非洞察来解决问题。而减少推理时间能够最大化模型权重中编码的算法信息，使模型学会真正的推理而非简单的记忆和重复。

Q3：AI Functions是什么？如何实现智能体的编程？

A：AI Functions是Amazon发布的开源库，用于构建AI智能体。它通过两级控制策略实现：高级开环全局规划和低级闭环反馈控制。现有编程语言可以用库中的函数扩充，这些函数的主体用自然语言编写并受前置后置条件约束，实现自动规划验证和反馈循环。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.