Modeling rapid language learning bydistilling Bayesian priors into artificial neuralnetworks
贝叶斯先验提炼到人工神经网络中建模快速语言学习
https://www.nature.com/articles/s41467-025-59957-y
![]()
![]()
人类能够从极其有限的经验中学习语言。在认知科学中,开发能够解释这种能力的计算模型一直是一项重大挑战。现有方法在解释人类如何在受控环境中快速泛化方面取得了成功,但通常过于受限,难以有效处理自然主义(真实世界)的数据。我们表明,通过一种弥合两种主流建模传统之间鸿沟的方法,可以从有限的自然主义数据中进行学习:即贝叶斯模型与神经网络。该方法将贝叶斯模型的归纳偏置(即指导泛化的因素)提炼到一个具有灵活表征能力的神经网络中。与贝叶斯模型类似,该系统能够从有限数据中学习形式化的语言模式;与神经网络类似,它也能从自然出现的句子中学习英语句法的某些方面。因此,该模型提供了一个统一的系统,既能快速学习,又能处理自然主义数据。
在极其广泛的情境中,人们能够从有限的经验中做出丰富的泛化。这种能力在语言领域尤为明显,使语言成为关于学习机制争论的经典场景。仅凭少量例子,人们就能学习新词的含义¹⁻³、新的句法结构⁴⁻⁷以及新的音系规则⁸⁻¹¹。认知科学的一个核心挑战,就是理解人们如何能从如此稀少的证据中推断出如此丰富的语言知识¹²,¹³。这一难题已被广泛讨论,因而积累了多个不同的名称,包括“刺激贫乏论”(poverty of the stimulus)¹⁴、“柏拉图问题”(Plato’s problem)¹⁵,以及“语言习得的逻辑问题”(the logical problem of language acquisition)¹⁶。
解释快速学习的一种流行方法是使用基于贝叶斯推理的概率模型¹⁷⁻²¹。这些模型对假设如何被表征和选择做出了明确的假设,从而产生强烈的归纳偏置(inductive biases)——即决定学习者如何超越自身经验进行泛化的因素²²。因此,贝叶斯模型特别适合刻画“从少量样本中学习”的能力。例如,Yang 和 Piantadosi 最近提出的一个贝叶斯模型²³表明,仅凭 10 个或更少的例子,就有可能学会句法的许多重要方面。然而,当贝叶斯模型被应用于更大规模的数据集时,它们在假设的设定上面临重大挑战:这些假设既要足够灵活以捕捉数据,又要保持计算上的可处理性。
另一种有影响力的建模方法是使用神经网络²⁴⁻²⁶。这类方法很少对高层结构做出预设,从而具备捕捉现实数据细微差别所需的灵活性。这些系统用数值连接权重的矩阵来表示假设,并通过数据驱动的学习过程,找到最适合当前任务的连接权重。当数据充足时,这种方法极为成功,产生了诸如近期语言模型 ChatGPT²⁷ 等最先进的系统。然而,神经网络的这种灵活性伴随着较弱的归纳偏置,使其在数据稀缺的情境中表现不佳。
我们认为,要解释从自然主义(真实世界)数据中进行快速学习的能力,需要将表征(representations)与归纳偏置(inductive biases)解耦。原则上,这两个因素是相互独立的,但在历史上,特定类型的归纳偏置总是与特定类型的表征捆绑在一起(见图 1a):适用于快速学习的强归纳偏置,历来伴随着对表征形式的强约束(如贝叶斯模型);而弱表征约束(即能灵活处理复杂的自然主义数据)则历来伴随着弱归纳偏置(如神经网络)。原则上,将这两个因素解耦,就有可能构建一个兼具强归纳偏置和弱表征约束的系统,使其像人类一样,在不牺牲构建更复杂假设能力的前提下实现快速学习。然而在实践中,究竟什么样的系统能同时具备这两种特性,目前仍远非显而易见。
![]()
在本研究中,我们展示了如何将贝叶斯模型的归纳偏置“蒸馏”(distill)到神经网络中。我们的方法利用了元学习(meta-learning)领域近期²⁸,²⁹的技术进展。元学习是一种机器学习技术,系统通过接触多种任务,自动发现一种归纳偏置,从而更轻松地学习新任务³⁰,³¹。在我们的元学习应用中,这些任务是从一个贝叶斯模型中采样的,从而将该贝叶斯模型的归纳偏置蒸馏到神经网络中。我们将这一过程称为“归纳偏置蒸馏”(inductive bias distillation),其结果是一个兼具贝叶斯模型强归纳偏置和神经网络灵活性的系统。
我们使用这种方法构建了一个语言学习模型。之所以选择这一案例,是因为语言学习是一个经典问题,长期以来被认为需要结构化的符号表征,因此对基于神经网络的方法构成了严峻的考验。在数据有限的情境下(例如从小量例子中学习人工形式语言),我们模型的表现接近 Yang & Piantadosi 的贝叶斯学习器——该模型是首个被证明能在未针对特定语言现象进行大量定制的情况下,仅凭有限数据学会此类语言的模型。因此,尽管我们的模型是一个神经网络,但其蒸馏而来的归纳偏置使其在神经网络通常难以胜任的环境中取得了成功,达到了此前只有使用符号表征的模型才能实现的性能水平。此外,由于我们的模型本质上是神经网络,它还足够灵活,能够处理贝叶斯模型难以应对的情境:从一个包含 860 万词的语料库中学习英语句法的某些方面。我们的结果表明,融合贝叶斯模型与神经网络各自优势不仅是可能的,而且具有显著益处。
结果
模型:归纳偏置蒸馏
如图 1b 所示,归纳偏置蒸馏通过三个步骤将一种归纳偏置(称为“目标偏置”)蒸馏到一个模型(称为“学生模型”)中。
第一步,用一个贝叶斯模型来定义目标偏置,该模型的先验分布(prior)给出一个任务分布。
第二步,从该分布中采样大量任务。
第三步,学生模型通过元学习(meta-learning)从这些采样任务中学习,从而获得有助于更轻松学习新任务的归纳偏置。
通过控制贝叶斯模型,我们就能控制学生模型通过元学习所获得的归纳偏置。
这种方法具有高度通用性:目标偏置可以由任何可采样的分布来刻画,而学生模型可以是任何能够进行元学习的系统。在我们的具体案例中,每个任务都是一种语言,因此被蒸馏的归纳偏置是在语言空间上的一个先验分布³²。我们的学生模型是一个神经网络,这意味着我们将贝叶斯模型中的语言先验蒸馏到了神经网络中。该方法扩展了我们此前的概念验证工作³³:此处我们使用一个结构化的概率模型来定义归纳偏置,并在人工语言和自然主义语言两种情境下对模型进行了测试。在本节余下部分,我们将详细描述在语言学习案例中所采用的具体形式的归纳偏置蒸馏方法。
步骤 1:刻画归纳偏置
我们的起点是 Yang 和 Piantadosi 提出的用于在形式语言(formal languages)上构建先验的模型²³。形式语言³⁴⁻³⁷ 是由抽象规则定义的一组字符串。例如,集合 {AB, ABAB, ABABAB, …} 就是一个形式语言,由表达式 (AB)+ 定义,表示一个或多个 AB 的重复。用于定义形式语言的机制受到自然语言结构的启发。(AB)+ 的情形类似于英语中嵌套介词短语所体现的尾递归(tail recursion):如果我们将 A 视为一个介词,B 视为一个名词短语,那么 (AB)+ 就能捕捉介词与名词短语交替出现的字符串,例如 “under the vase on the table in the library”(在图书馆桌子上的花瓶下)。通过将语言结构转化为精确的抽象形式,形式语言长期以来为语言的数学分析提供了便利³⁸⁻⁴¹。
在我们的研究中,形式语言的数学特性使其非常适合用于定义语言上的分布。遵循 Yang 和 Piantadosi 所采用的一般方法,我们指定了一个形式化的基本元素(primitives)集合,并构建了一个模型,该模型以概率方式组合这些基本元素,从而生成语言的定义。我们所使用的基本元素主要取自正则表达式(regular expressions)⁴² 中的标准组件——正则表达式是一种特定的形式语言表示法。这些基本元素的例子包括“拼接”(concatenation)和前述的“递归”基本元素“plus”(表示一个或多个重复)。例如,由我们基本元素定义的一种语言是 concat(A, plus(C), or(F,B)),它表示由一个 A 开头,后接一个或多个 C,再接 F 或 B 的字符串集合:{ACF, ACB, ACCF, ACCB, ACCCF, …}。正则表达式的表达能力是有限的:已有证明表明,它们无法捕捉自然语言句法的某些方面⁴³。为克服这些限制,我们以增强系统表达能力的方式对基本正则表达式基本元素进行了扩充。有关我们所用基本元素的完整描述,请参见“方法”部分和补充方法(Supplementary Methods)。
我们对语言的完整分布是通过一个概率模型(其结构类似于概率上下文无关文法)来指定的,该模型定义了对我们所有可能的基本元素组合的概率分布。这种方法为使用较少基本元素定义的语言分配较高的概率,而为描述更复杂的语言分配较低的概率。因此,我们希望通过该模型蒸馏的归纳偏置,是倾向于那些能用我们选定的基本元素简洁表达的语言。通过使用概率模型来指定目标偏置,我们使该偏置具备了可解释性和可控性——如果像 Abnar 等人⁴⁴所做的那样,用神经网络来定义目标偏置(即在不同类型神经网络之间迁移归纳偏置),这些性质将无法保证。
步骤 2:采样数据
既然我们已将归纳偏置刻画为一个语言上的分布,下一步就是从该分布中采样语言,以便学生模型能够从这些语言中进行元学习。这一步是直接的,因为该分布是作为一个生成模型定义的,这自然允许我们从中采样语言,然后从每种语言中进一步采样具体的字符串。尽管操作简单,但这一步在概念上至关重要:它通过将目标偏置具体化为数据,弥合了我们的概率模型与神经网络之间的鸿沟——数据成为两种本截然不同的模型之间的共同基础。
步骤 3:应用元学习
归纳偏置蒸馏的最后一步是让学生模型从我们采样的数据中进行元学习,从而赋予其目标偏置。我们所使用的学生模型是一种长短期记忆神经网络(LSTM;参考文献 45)。已有形式化研究证明,LSTM 能够处理多种类型的形式语言⁴⁶,并且在自然语言处理任务中也取得了显著的实证成功⁴⁷⁻⁴⁹。我们也尝试使用 Transformer⁵⁰——另一种在语言任务中表现优异的神经网络——但我们发现,对于 Transformer,蒸馏效果不如 LSTM 显著,很可能是因为在捕捉我们基本元素所依赖的某些形式语言机制方面,LSTM 的表现优于 Transformer⁵¹。
我们的 LSTM 执行的任务是“下一个词预测”(next-word prediction)⁵²,也称为语言建模:给定一个序列,LSTM 的目标是根据前面的词预测序列中的每一个词。例如,若序列为 ABA,模型首先需预测第一个词(A);然后在已知第一个词为 A 的条件下预测第二个词(B);接着在前缀 AB 的条件下预测第三个词(A);最后在前缀 ABA 的条件下生成一个特殊的序列结束符。对于大多数语言而言,该任务无法被完美解决;例如在英语中,“The” 之后可能跟随许多不同的词。因此,模型对下一个词的预测是一个在所有可能词符(tokens)上的概率分布(理想情况下,为最可能的后续词分配最高概率)。我们选择下一个词预测任务,是因为先前研究发现,该任务在教会神经网络掌握语言的语法特性方面非常有效⁵³⁻⁵⁶,并且有观点认为它在人类语言处理中扮演着核心角色⁵⁷,⁵⁸。
在描述元学习之前,有必要先说明标准学习(standard learning)。神经网络由大量数值参数(如连接权重)定义。在标准学习中,网络从某些初始参数值(通常是随机值)开始,然后被提供大量目标任务的示例。每处理一个示例后,网络的参数都会进行调整,使得若再次看到相同示例,其表现会略有提升。经过多次这样的更新后,网络应获得能够有效执行该任务的参数值。
已有多种元学习方法被证明可提升神经网络的泛化能力⁵⁹⁻⁶⁴。我们所采用的形式是“模型无关元学习”(Model-Agnostic Meta-Learning, MAML;参考文献 28)。MAML 可被视为一种层次化贝叶斯建模的方式⁶⁵,因此非常契合我们蒸馏贝叶斯先验的目标。直观地说,在我们的 MAML 应用中,网络会接触多种语言,从而学会如何更轻松地学习新语言。MAML 过程中被更新的,是网络的初始化参数(即在学习特定语言之前所采用的初始参数值)。如果 MAML 成功,那么最终得到的初始化参数应编码了一种归纳偏置,使模型能够从相对少量的例子中学会我们分布中的任意语言。由于我们控制了语言的分布,也就控制了元学习所获得的归纳偏置。图 2 更详细地展示了这一过程,完整的 MAML 算法见补充方法(Supplementary Methods)。我们将经过归纳偏置蒸馏的神经网络称为“先验训练神经网络”(prior-trained neural network),因为它通过训练获得了特定的先验。先验训练(prior-training)表面上类似于另一种称为“预训练”(pre-training)的方法,但两者在实现目标上存在重要差异;详见“讨论”部分。
![]()
需要强调的是,在归纳偏置蒸馏中,元学习并非关于人类如何获得其归纳偏置的假设。尽管人类在某些情况下确实进行元学习⁶⁶⁻⁶⁸,但我们并不声称人类的语言归纳偏置必定通过元学习产生,也不声称这些偏置是以 MAML 所采用的形式(即通过连接权重的初始设置)编码的。相反,我们纯粹将元学习作为一种工具,用于构建具有特定归纳偏置的模型。关于元学习作为人类先验来源的讨论,参见参考文献 69。
我们使用归纳偏置蒸馏的目标,是将贝叶斯模型的强归纳偏置与神经网络的表征灵活性结合起来。为了检验我们的模型是否融合了两种方法的优势,我们在两种情境下对其进行了评估:一种是传统上贝叶斯模型表现良好而神经网络表现不佳的情境;另一种则恰恰相反。
学习形式语言
我们首先评估模型从少量样本中学习形式语言的能力——这是贝叶斯模型表现良好而标准神经网络表现较差的领域。我们使用了 Yang 和 Piantadosi 用于评估其贝叶斯学习器的相同 56 种形式语言。对于每种评估语言,我们用从该语言中抽取的 n 个字符串对模型进行训练,n 的取值范围从 1 到 10,000,按对数尺度分布。为了量化训练后的模型对目标语言的掌握程度,我们计算模型的 F 分数(F-score)——这与 Yang 和 Piantadosi 使用的指标相同。F 分数衡量的是:模型赋予高概率的字符串集合,与真实语言中高概率字符串集合之间的匹配程度(参见“方法”部分)。我们还将先验训练网络(prior-trained networks)与标准神经网络进行比较:后者具有与先验训练网络完全相同的架构,但其权重是随机初始化的,而非通过归纳偏置蒸馏获得。
这一情境对神经网络构成了重大挑战,因为这些形式语言是以离散符号方式定义的。长期以来,神经网络被认为在本质上与符号处理截然不同。事实上,认知科学中的一个核心难题正是:人类心智虽以神经网络为基础,却能够执行符号功能⁷⁰⁻⁷⁴——这一现象如此令人困惑,以至于 Smolensky 和 Legendre 将其称为“认知的核心悖论”(the central paradox of cognition)⁷⁵。因此,该情境为“强归纳偏置可以被蒸馏进神经网络”这一主张提供了一个严峻的检验。
尽管我们的模型是一个神经网络,但其数据效率与 Yang 和 Piantadosi 的符号化贝叶斯学习器相当(见图 3)。相比之下,标准神经网络对数据的需求要大得多:要达到相同性能水平,它所需的样本数量约为贝叶斯学习器的 10 倍。标准神经网络与先验训练神经网络在架构和学习特定形式语言的程序上完全相同,唯一的区别在于:前者未经过归纳偏置蒸馏,而后者经过了。因此,蒸馏过程成功地赋予了我们的模型对学习形式语言有用的归纳偏置。尽管神经网络通常被认为学习缓慢,但这些结果表明,“学习缓慢”并非神经网络的固有属性。
![]()
除了在数据效率上接近贝叶斯学习器外,先验训练网络在时间效率上甚至更优。贝叶斯学习器学习一种形式语言所需时间从 1 分钟到 7 天不等;而我们的神经网络最多只需 5 分钟,有时甚至仅需 10 毫秒。贝叶斯学习器本身并非缓慢——考虑到其假设空间的复杂性,它在同类学习器中堪称极快,Yang 与 Piantadosi 的软件包恰当地命名为 “Fleet”(意为“迅捷”)。然而,神经网络所具备的灵活并行处理能力,使其即使面对如此高效的贝叶斯学习器,也能实现显著加速。有关这些时间对比的更多细节,参见补充方法(Supplementary Methods)。
学习自然语言
接下来,我们评估模型从一个包含 860 万词的英语文本语料库⁷⁶中学习自然语言的能力。该语料库取自 CHILDES 数据库⁷⁷,由英语母语父母对其子女所说的话语组成,因此代表了人类在习得英语语法结构时所接收的语言输入类型。由于该数据集的规模和自然语言的复杂性,Yang 与 Piantadosi 的贝叶斯学习器在此情境下无法在计算上可行地应用。然而,由于我们的模型具有更高的时间效率,加之神经网络本就适用于处理大规模自然主义数据集(近期如 ChatGPT²⁷等大型语言模型的成功即是明证),处理该数据集成为可能。
我们通过在保留的测试集上计算“困惑度”(perplexity)来评估模型在此语料库上的表现。困惑度是评估下一个词预测任务的标准指标:困惑度越低,表示模型在给定上下文条件下预测下一个词的能力越强。困惑度的绝对数值难以解释,因此为了更清晰地定位我们模型的性能,我们采用了一个强有力的基线:平滑的 5-gram 模型(这是目前性能最好的非神经网络系统,用于下一个词预测)。据文献⁷⁶报道,在该数据集上,平滑 5-gram 模型的困惑度为 24.4。
我们的先验训练神经网络达到了 19.66 的困惑度,显著优于 5-gram 基线。如图 4a 所示,这一困惑度(19.66)略优于标准神经网络所达到的 19.75(双侧 t 检验,自由度 = 77.4,t = 13.87,p < 0.001,Cohen’s d = 3.10,均值差异的 95% 置信区间为 [0.073, 0.097]),也优于此前文献中报道的最佳神经网络模型的困惑度 19.69⁷⁶。这些结果表明,尽管我们的模型具有强归纳偏置,它仍然保留了从自然主义数据集中高效学习所需的灵活性。
![]()
那么,我们模型的强归纳偏置是否对自然语言学习产生了人类可解释的影响?前一段落可能让人觉得答案是否定的,因为先验训练网络的困惑度仅比标准网络略好。然而,即便蒸馏而来的归纳偏置对学习产生了实质性影响,前述评估也很可能无法体现这一点。归纳偏置的作用是在训练数据不足时引导学习者。而在前述评估中,测试集与训练集来自同一分布,且训练集规模庞大(860 万词),因此训练数据本身可能已提供了足够强的信号来处理测试集,使得归纳偏置几乎没有发挥作用的空间。
为了更准确地揭示归纳偏置的作用,我们应在训练数据信息不足的情境下评估模型。本节余下部分讨论两种此类情境:一是学习者可获得的训练数据更少;二是学习者必须进行分布外泛化(out-of-distribution generalization),即泛化到与训练集分布不同的新样本。
限制训练数据量
为检验当 CHILDES 训练数据量减少时,蒸馏而来的归纳偏置是否会产生更明显的效果,我们在数据集的不同比例上训练模型——从完整数据集的 1/64 到全部数据。在神经网络中,数据量会与模型规模相互作用,共同决定模型性能:通常情况下,参数更多的模型泛化能力更强,但在训练数据过少、不足以让大型模型为其所有参数学习到有效值的情况下,较小的模型有时表现反而更好。因此,我们还通过改变隐藏层大小(即网络内部向量表征的维度)来调整模型参数数量。
结果(图 4b)表明,在许多情况下,归纳偏置蒸馏显著改善了在英语数据上训练的模型的困惑度,且从未显著降低性能。整体结果模式较为复杂,呈现出一条大致呈对角线的条带区域,在该区域内归纳偏置蒸馏带来的收益最大:它在“小模型+少量数据”或“大模型+大量数据”的组合中效果最为显著。关于这一模式的详细讨论,参见补充讨论(Supplementary Discussion)。
测试分布外泛化能力
人类语言习得的一个显著特征是:我们能够学会那些经验中几乎未提供直接证据的规则。考虑以下句子。在英语中,一个陈述句,如 (1a),可以通过将句中的某个短语(如 the banker)替换为 who 并将其移至句首,转化为疑问句,如 (1b)。这一普遍规则存在例外⁷⁸:当 who 对应的词位于一个并列结构(conjunction)内部时,以这种方式构成的疑问句是不合语法的,如 (2b) 所示。尽管在日常对话中几乎不会出现像 (2b) 这样的语境,但英语母语者仍能可靠地习得这一限制规则。
(1)
a. The judge and the spy will visit the banker.
b. Who will the judge and the spy visit?
(2)
a. The judge will visit the spy and the banker.
b. *Who will the judge visit the spy and?
我们此前使用的评估集是自然发生文本的一个样本。因此,对于许多语言现象而言,该评估集中可能包含极少能体现这些现象重要性的句子。结果就是,模型在该评估集上的表现并不能告诉我们它是否真正学会了语言学家通常关注的语言现象。
为了检验模型是否学到了特定的语言现象,之前的研究⁷⁹,⁸⁰ 提出了一种基于“最小对”(minimal pairs)的评估范式——即成对的句子,用于突出所考察的语法规则。例如,如果一个学习者能识别出句子 (1b) 比 (2b) 更合乎语法,这就表明该学习者已掌握上述疑问句的约束规则。本文所考虑的神经网络是下一个词预测模型,会对所有可能的词序列分配一个概率。因此,我们可以通过比较模型对最小对中两个句子所分配的概率高低,来应用最小对评估:若模型赋予合语法句子更高的概率,则说明它可能已学到相关规则。
我们使用了四个最小对数据集(详见“方法”部分)。每个数据集都针对若干语言现象,包括上述的疑问句约束等。在本分析中,我们回到标准网络与先验训练网络均取得最佳困惑度的设定下进行评估——即在完整数据集上训练,且隐藏层大小为 1024。
在全部四个最小对数据集上,先验训练神经网络相比标准网络均取得了虽小但具有统计显著性的提升(见图 5a)。补充说明 4(Supplementary Note 4)提供了每个数据集中各项具体语言现象的结果;总体而言,有些现象上先验训练网络明显优于标准网络,但在另一些现象上则相反,且难以辨识出清晰的规律来说明哪些现象更适合哪种模型(有一个例外——递归(recursion)——将在下一小节讨论)。
![]()
递归与启动效应(Recursion and priming)
上一小节中的最小对结果在解释上存在一定困难。这一情况或许并不令人意外,因为那些评估中测试的大多数语言现象与我们所蒸馏的归纳偏置并无明确关联。因此,我们并没有充分理由预期蒸馏过程会在这些现象上带来帮助或损害。
在本小节中,我们转而考察两种与我们的目标偏置联系更明确的现象:递归(recursion)和启动效应(priming)。
我们使用的基本元素之一——“plus” 基本元素——通过允许结构单元无限制地重复,从而支持句法递归。例如,plus(AB) 描述了包含一个或多个 AB 的字符串集合:{AB, ABAB, ABABAB, …}。因此,我们可以合理预期,蒸馏而来的归纳偏置应能改善模型对英语中递归结构的处理能力,例如处理多重强化副词(如 “the mountain is very very very tall”)或多重所有格(如 “my cousin’s friend’s sister’s neighbor”)。(注:一些学者根据假设生成相关句子所依赖的不同机制,将重复区分为“递归”和“迭代”两类⁸¹,⁸²。在本研究中,我们仅讨论表层字符串,而不涉及生成它们的算法,因此将这两类重复统一归入“递归”范畴下进行讨论。)
两个最小对评估集(SCaMP: Plausible 和 SCaMP: Implausible)包含了针对递归的刺激项,例如以下例子(更多示例见补充说明 5)。每组刺激项包含一对句子,其结尾部分相同(以下划线标出),但在其中一个例子中(每对中的第一个),该下划线部分是合法的句子结尾,而在另一个例子中则不是。我们计算每个模型对下划线部分所分配的概率;若模型对合法情形分配的概率高于非法情形,则视为正确。每对句子都涉及某种程度的递归(在以下例子中,每增加一层就添加一个额外的介词短语)。如果一个模型能很好地处理递归,那么当递归层级增加时,其准确率不应显著下降。
![]()
在我们进行的十二项递归评估中,大多数情况下,先验训练网络对深层递归的处理优于标准网络(见图 5c),这支持了如下假设:蒸馏而来的归纳偏置有助于模型学习英语中的递归结构。事实上,SCaMP 数据集中针对递归的子集,正是图 5a 中先验训练网络在这些数据集上整体优于标准网络的主要原因。当排除这些递归子集后,SCaMP-Plausible 数据集上的得分变为:先验训练网络为 0.731,标准网络为 0.733(p = 0.237);而 SCaMP-Implausible 数据集上的得分变为:先验训练网络为 0.718,标准网络为 0.713(p < 0.001)。有关这些统计结果的更多细节,参见“方法”部分。
我们在此考虑的另一个基本元素是同步基本元素(synchrony primitive),它能够使序列中的多个部分保持同步。与我们的分析最相关的是,该基本元素可以捕捉一类形式语言:其中每个序列包含某个字符串的两次重复——例如 ACCDACCD 或 BDABDA。英语单个句子的句法中并不存在此类模式,但这种模式确实出现在相邻句子对中:在我们的语料库中,有 2.8% 的句子与其前一句完全相同。(请记住,该语料库包含父母对孩子所说的话语;显然,父母经常重复句子。)例如,语料库中的前 6 个句子是:
![]()
这类重复倾向不仅仅是语料库的统计特性;语言使用者在句子加工过程中也会利用这种重复,这一点已被“启动效应”(priming)所证实——即语言使用者倾向于产出⁸³,⁸⁴并预期⁸⁵,⁸⁶那些与他们最近遇到的句子相似的句子。与人类一样,神经网络语言模型也表现出启动效应⁸⁷⁻⁸⁹。
由于我们的同步基本元素(synchrony primitive)促进了支撑启动效应的那种平行结构(parallelism),我们假设:蒸馏而来的归纳偏置应能增强模型表现出启动效应的程度。为检验这一假设,我们计算模型在两种情境下对句子(以下划线标出)所分配的困惑度:
- 无启动情境(unprimed setting):句子孤立出现,如 (7a);
- 有启动情境(primed setting):句子前有一遍完全相同的重复,如 (7b)。
模型的启动效应越强,其困惑度从无启动情境到有启动情境的下降幅度就应越大。本分析专为检验我们关于启动效应的假设而设计,并不属于图 5a 中所用的任何最小对数据集。
![]()
我们发现,在我们研究的全部四个条件下,先验训练的神经网络比标准网络表现出更大的启动效应(priming)程度(图5b)。这一结果支持了我们的假设,即我们提炼的归纳偏差使模型更倾向于被启动。
分析提炼的归纳偏差
我们的归纳偏差提炼目标是赋予神经网络与目标贝叶斯模型相匹配的归纳偏差。我们迄今的实验表明,提炼过程确实赋予了有用的归纳偏差,但仍存在一种可能性:这些偏差可能有用,但并非我们预期的那些——它们可能在不匹配贝叶斯模型的情况下仍有作用。为了探究这种可能性,我们进行了额外实验,通过改变目标偏差来观察先验训练网络的行为是否相应变化。我们考虑了三种不同的目标偏差。第一种是贯穿全文使用的“所有原语”情况,其中神经网络在使用包含递归和同步等原语集定义的形式语言上进行元训练。另外两种是基于修改版本去除一个原语的情况:“无递归”设置使用除递归外的所有原语,“无同步”设置使用除同步外的所有原语。
当我们在学习形式语言的任务上评估这三种先验训练网络时,结果以与它们元训练分布差异平行的方式变化(图6a)。首先,我们在需要递归但不需要同步的8种形式语言集合上评估这些系统;这8种语言是前面评估的56种形式语言的子集。“无递归”情况的表现远差于“所有原语”和“无同步”情况,体现在它需要更多训练样本才能达到较高的F分数。随后,我们在需要同时具备递归和同步的8种形式语言集合上评估这些系统。此时,“无递归”和“无同步”表现相似,且均显著差于“所有原语”。(注:我们也考虑过在只需要同步而不需要递归的语言上评估,但评估集合中没有此类语言,且实际困难阻碍了该集合的扩展;见补充方法)。这些结果支持了如下结论:归纳偏差提炼确实赋予了目标偏差,因为从目标偏差中移除某个原语会导致先验训练系统在包含该原语的语言上表现更差。
![]()
随后,我们通过重复前述自然语言递归和启动评估,将这些修改后的先验训练系统应用于自然语言。在递归评估中,正如预期,“无递归”情况的平均表现差于“所有原语”情况(图6b),尽管在某些个别递归评估中“无递归”优于“所有原语”(见补充图S1)。出乎意料的是,“无同步”情况的表现也差于“所有原语”情况,这表明同步原语对这些递归评估有帮助;这可能是因为递归评估不仅涉及递归,还涉及短语之间的长距离关系(例如在上文例(5)的句子中,the book与is blue之间的关系),而同步可能有助于此类长距离关系,因为同步创造了序列中相隔甚远元素相互依赖的机会。
在启动评估中,我们发现三种先验训练网络的表现彼此相似,且均优于标准网络(图6c)。这一结果表明,先验训练系统中观察到的启动效应增强并非如我们先前假设的那样源于同步原语,而是源于先验训练分布的其他方面,例如(举例来说)对离散、符号模式的普遍倾向。
总之,当我们在形式语言上评估先验训练模型时,目标偏差的性质以完全符合预期的形式调控了性能。当我们在自然语言上评估时,结果则不那么清晰:递归结果基本符合预期,但启动结果并非如此。需要注意的是,我们的目标偏差是在形式语言上定义的,这意味着自然语言远远超出元训练阶段使用的分布。我们认为这些结果与以下结论一致:归纳偏差提炼在元训练过程使用的分布内(在我们的案例中,即形式语言分布)稳健地赋予了目标偏差,但当该目标偏差被应用于元训练分布之外时(例如在我们对系统进行自然语言评估时),其效果则较难预测——这一结论与先前研究发现一致,即神经网络在其训练分布内表现一致,但在分布外泛化时较不可预测90,91。
我们已经证明,先验训练的神经网络(通过将贝叶斯先验提炼到神经网络中创建)能够从少量样本或复杂自然主义数据中有效学习。标准的贝叶斯模型和标准的神经网络仅在其中一种设置中有效,而在另一种中无效。我们的结果说明了将归纳偏差的强度与表征承诺的强度分离的可能性和重要性:我们的模型具有以连续向量表征实例化的强大归纳偏差,这种组合使它们——如同人类一样——能够既快速又灵活地学习。
归纳偏差提炼提供了一种桥接认知分析不同层次的方法。Marr92提出认知科学应考虑三个分析层次:计算层次,提供心灵所解决问题的抽象特征以及它所使用解决方案的描述;算法层次,描述心灵用于执行该解决方案的算法;以及实现层次,描述该算法如何被实现。贝叶斯模型通常被视为计算层次的提案,刻画人们拥有的归纳偏差(即给定哪些数据,人们选择哪些假设?),但对这些归纳偏差如何实现保持不可知93–95。神经网络则更多与算法层次(在某些情况下,与实现层次)对齐。因此,我们的实验展示了归纳偏差提炼如何将计算层次上提出的归纳偏差连接到算法层次上提出的模型。
在我们的案例研究中,Yang和Piantadosi23的工作为我们提炼的归纳偏差提供了自然的灵感。在更一般的情况下,我们应如何识别适合转移到神经网络的适当偏差?一个有价值的归纳偏差来源是认知的贝叶斯模型,它们通过明确定义捕捉人类归纳偏差的先验分布来捕捉人类学习的方面17。从这些先验中采样元学习任务,提供了一种简单的路径来提取人类归纳偏差并将其转移到机器中。Binz等人96最近指出,元学习可用于使神经网络适应其环境,从而将理性认知模型扩展到更复杂的设置。归纳偏差提炼提供了一种实现这一目标的互补策略,在其中我们通过先验分布定义归纳偏差,然后通过将该先验提炼到神经网络中来创建理性模型的近似。
还有几种与其他归纳偏差提炼相关的建模方法。我们在这里简要提及这些方法;详细讨论见补充讨论。首先,先验训练表面上类似于流行的现有预训练方法,在预训练中,网络先在大规模通用数据上训练,然后在特定任务上进一步训练97,98。预训练确实会影响模型的归纳偏差99–102,但我们发现预训练在我们的设置中表现不佳;见补充笔记1。有些大型预训练模型(如ChatGPT)可能在我们的评估中表现良好,但这些系统作为语言学习模型并不合适,因为它们在不现实的大量自然语言上进行预训练。其次,先验数据拟合网络(PFNs;参考文献103–106)是一种训练用于近似贝叶斯推理的神经网络;然而,PFNs与我们的方法不同,因为它们基于学习而非元学习,并且尚未应用于序列化、符号化领域如语言。在同时发展的工作中,Lake和Baroni63以及Zhou等人64也使用元学习作为将概率模型的归纳偏差融入神经网络的方式。我们的工作与这些方法的不同在于我们使用的元学习类型(基于梯度的,而非基于记忆的元学习)、我们研究的领域(语言而非指令或视觉概念),以及我们提供了一个通用配方,用于使用元学习将概率模型的归纳偏差提炼到神经网络中;Lake和Baroni以及Zhou等人展示了特定任务分布的元学习如何导致特定归纳偏差,但并未提供这种通用框架。最后,称为贝叶斯神经网络和贝叶斯深度学习的方法107–110听起来与归纳偏差提炼相关,但它们实际上有不同的目标——即通过对模型参数的不确定性明确估计来增强神经网络。
通过归纳偏差提炼,我们证明了将神经网络的表征与贝叶斯模型的归纳偏差相结合是可能的。与贝叶斯模型一样,所得到的系统能够从少量样本中学习形式语言模式。与神经网络一样,它也能以比标准贝叶斯方法高得多的时间效率进行学习,使我们能够在比以往可能更大的规模设置中研究目标归纳偏差(即从数百万词的自然语言中学习英语句法的方面)。我们希望桥接这些建模方法之间的分歧,将使我们能够解释人类学习的快速性和灵活性。
方法形式语言原语
我们对形式语言的分布主要使用标准正则表达式原语42定义:
原子字母表符号(A, B, …)
Σ:字母表中的任意符号
ε:空串
concat:连接
or:随机选择两个串中的一个
plus:Kleene plus,它产生一个表达式的一个或多个实例
为了克服正则表达式在表达能力上的形式限制34,我们对基本正则表达式原语进行了两项增强。首先,标准的Kleene plus原语启用尾递归,其中一个表达式的多个实例依次连接(例如,重复AB以产生ABAB)。然而,它并不启用嵌套递归(也称为中心嵌入),在其中多个实例的一个表达式被嵌套插入到每个其他实例中(例如,将AB嵌套插入AB以产生AABB)。我们通过引入一个索引参数来泛化Kleene plus,从而指定递归材料插入的位置:plus(AB, 0, 0.5) 在索引0(串的起始)处插入AB的新副本,从而产生尾递归:{AB, ABAB, ABABAB, …}。表达式plus(AB, 1, 0.5) 则通过在现有A和B之间插入AB的新副本来创建嵌套递归:{AB, AABB, AAABBB, …}。该表达式的最后一个参数是插入AB新副本的继续概率;将此值设置为0.5意味着,在该语言中,串AB的概率为0.5,串AABB的概率为0.5 × 0.5 = 0.25,等等。
我们对原语集进行的第二项增强是添加一种同步机制——受同步文法11–13启发——它允许序列的不同部分被同步。例如,以下定义了一种语言,其中每个序列具有三个部分:
![]()
同步模式显示,第一部分和第三部分被同步(ID为0),而中间部分独立(ID为1)。中间部分始终是字符串CC。第一部分和第三部分是由A、B和D组成的序列,其中第一部分中每一个A的位置,在第三部分对应位置为B;第一部分中每一个B的位置,在第三部分对应位置为D。该语言中的示例字符串包括ACCB和AABACCBBDB。
在定义了这些原语之后,我们可以通过概率性地组合原语来形成语言描述,从而采样一种形式语言,其概率选择方式受Chi114的启发。
具体使用的概率模型详见补充方法。
我们使用了与Yang和Piantadosi不同的原语集,因为我们发现,虽然他们的原语在Yang和Piantadosi所用场景(在假设之间进行选择)中非常有效,但它们并不适合归纳偏差提炼。具体来说,在归纳偏差提炼中,语言分布通过向学习者展示来自该分布的样本而被提炼到学习者中。在从Yang和Piantadosi的先验分布中采样的10,000种语言中,我们发现大多数语言是退化的:94.4%的语言仅包含一个唯一字符串,98.6%的语言不包含长度大于1的字符串。因此,将这一分布提炼到学习者中需要不现实的大量样本,才能展示足够多的非平凡语言示例,故我们选择了能产生更高比例非平凡语言的原语。
我们尝试用我们的原语运行Yang和Piantadosi的代码,但发现其性能在使用这些原语时比使用Yang和Piantadosi的原语时更差,可能是因为我们的同步机制使假设空间对他们的学习者来说难以搜索。因此,为了以最有利的方式呈现每种方法,我们呈现的Yang和Piantadosi模型结果使用了他们的原语集;对于每种语言,我们使用了其补充材料中列出的四个候选假设中后验概率最高的那个。
元训练
![]()
![]()
请注意,我们对MAML的使用并没有遵循这个基本方程,因为我们采用了三种额外的优化技术,这些技术在之前的工作中被发现能够使训练更快地收敛,即多步损失、AdamW优化器和基于余弦的学习率调度器。有关我们使用的MAML算法的完整定义(包括这些优化技术),请参见补充方法。
![]()
该模型是一个具有0.1的dropout的2层LSTM,输入和输出词表示之间有权重共享,隐藏层大小为1024(除非另有说明)。我们还尝试了简单地在相同的数据集上预训练我们的模型(即将所有25,000种语言合并为一个单一的下一个词预测数据集),但我们发现这种方法的性能远不如使用MAML;见补充说明1。我们在PyTorch版本2.2.1+cu121120中实现了我们的模型,元训练由higher版本0.2.1121的包促进,一些训练函数基于Transformers库版本4.38.2122的代码。
![]()
![]()
我们使用F分数作为我们的衡量标准,以便能够将预先训练的网络的性能与Yang和Piantadosi报告的他们贝叶斯学习者的数据进行比较,因为F分数是Yang和Piantadosi使用的衡量标准。为了从我们的模型中产生,我们在相关数据集上训练了模型,然后从中抽取了100万个序列。在某些情况下,我们使用0.5的温度重新加权这些概率,作为优先考虑模型最有信心的序列的一种措施,并且在某些情况下我们还使用了核采样来截断每个下一个令牌的分布,使其达到前0.99概率质量,作为减少噪声的另一种措施(有关这些措施使用时间的详细信息,请参见补充方法)。这些超参数是在不在56种语言评估集中的语言验证集上进行调整的。
自然语言数据:伦理考虑
我们在自然语言上的实验涉及两个数据集——参考文献76中的训练语料库和Zorro数据集124——它们又基于CHILDES数据库77,该数据库包含父母与孩子之间自然对话的记录。由于CHILDES可能包含私人数据的可能性,我们咨询了普林斯顿机构审查委员会的一名成员,以获得使用该数据集的追溯性伦理批准。他回应说,CHILDES数据库可以在网上自由获取,因此不符合私人(即个人为特定目的提供的信息,并且个人可以合理地期望这些信息不会被公开)的定义。
自然语言训练
在我们的元训练阶段,模型仅使用了10的词汇量大小,但我们的英语语料库的词汇量大小为17,096。因此,为了将我们的模型应用于英语,我们丢弃了其初始嵌入层和最终输出层,用适当大小的随机初始化层替换它们。尽管我们在元训练的每个情节中使用的优化器是随机梯度下降,但我们在所有自然语言训练中(包括在先前训练的网络中元学习后的自然语言训练阶段)使用了AdamW优化器,因为在初步实验中,我们发现它的表现优于随机梯度下降。为了选择在此数据集上训练模型的超参数,对于图4b中的每个单元格,我们对学习率、dropout和周期数的超参数进行了广泛的搜索。我们分别对先前训练的网络和标准网络进行了这种超参数搜索(对每种类型的网络使用完全相同的搜索,以确保公平),并使用最适合它的超参数训练每种类型的模型。有关这些超参数的值,请参见补充方法,有关超参数的进一步讨论,请参见补充说明3。
为了评估模型在下一个词预测上的表现,我们使用困惑度。困惑度定义如下,其中W是用于评估模型的词序列,N是W的长度:
![]()
针对性的语言评估
Zorro评估集未作修改,直接使用了参考文献124中的版本。原始的BLiMP数据集125包含许多不在我们模型词汇表中的单词,因此我们使用作者的代码仅使用在模型训练集中至少出现10次的词汇表中的单词重新生成数据集,生成了我们标记为BLiMPCH(BLiMPCHILDES的缩写)的数据集。 我们还想比较我们的模型在合理与不合理的句子上的表现。在Zorro数据集中,句子被故意设计成语义上不合理的,而BLiMP句子往往是语义上合理的。然而,这些数据集在许多其他方面也有所不同,因此它们不能在合理性维度上提供受控的比较。相反,我们生成了两个新的数据集,它们在结构上是相同的,但在单词选择上有所不同,以确保更大或更小程度的合理性。结果是一个新的数据集SCaMP(选择性类别最小对立),它有一个语义上合理的版本和一个语义上不合理的版本。我们针对递归和启动的额外评估是从生成这两个新最小对立数据集的同一代码库中生成的。
统计
所有统计数据都是使用R(版本4.1.3)计算的。对于图5a中显示的p值,我们使用了两种方法:模型级测试和项目级测试。如下所述,两种类型的测试都同意在所有情况下都得到p < 0.001(图5a中显示的结果)。 模型级p值基于双侧双样本t检验。对于四个数据集中的每一个,我们获得了每种模型类型的40次重新运行在该数据集上的准确性,结果得到两个向量,每个向量都包含40个准确性值;然后使用t检验比较这两个向量。Zorro比较得到的t值(77.9自由度)= 5.30,p < 0.001,Cohen’s d = 1.19,平均差异的95%置信区间= [0.007, 0.016]。BLiMPCH比较得到的t值(77.9自由度)= 3.62,p < 0.001,Cohen’s d = 0.810,平均差异的95%置信区间= [0.0016, 0.0054]。SCaMP:合理比较得到的t值(73.4自由度)= 4.41,p < 0.001,Cohen’s d = 0.986,平均差异的95%置信区间= [0.006, 0.016];移除递归子集后,这些结果变为t值(74.4自由度)= -1.19,p = 0.237,Cohen’s d = -0.267,平均差异的95%置信区间= [-0.004, 0.001]。SCaMP:不合理比较得到的t值(68.2自由度)= 5.35,p < 0.001,Cohen’s d = 1.20,平均差异的95%置信区间= [0.008, 0.019];移除递归子集后,这些结果变为t值(77.1自由度)= 3.79,p < 0.001,Cohen’s d = 0.847,平均差异的95%置信区间= [0.003, 0.008]。 项目级p值基于配对双侧双样本t检验。对于四个数据集中的每一个,我们获得了每种模型类型的40次重新运行在该数据集中每个项目上的正确比例,结果得到两个向量,其长度等于数据集中的项目数;然后使用配对t检验比较这两个向量。Zorro比较得到的t值(45,999自由度)= 17.75,p < 0.001,Cohen’s d = 0.037,平均差异的95%置信区间= [0.010, 0.013]。BLiMPCH比较得到的t值(68,999自由度)= 6.49,p < 0.001,Cohen’s d = 0.0092,平均差异的95%置信区间= [0.0024, 0.0045]。SCaMP:合理比较得到的t值(66,999自由度)= 22.72,p < 0.001,Cohen’s d = 0.033,平均差异的95%置信区间= [0.010, 0.012];移除递归子集后,这些结果变为t值(48,999自由度)= -3.06,p = 0.002,Cohen’s d = -0.005,平均差异的95%置信区间= [-0.003, -0.001]。SCaMP:不合理比较得到的t值(66,999自由度)= 27.11,p < 0.001,Cohen’s d = 0.041,平均差异的95%置信区间= [0.013, 0.014];移除递归子集后,这些结果变为t值(48,999自由度)= 8.70,p < 0.001,Cohen’s d = 0.014,平均差异的95%置信区间= [0.004, 0.006]。
原文:https://www.nature.com/articles/s41467-025-59957-y
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.