Direct Fit to Nature: An EvolutionaryPerspective on Biological andArtificial Neural Networks
适应自然:从进化视角看待生物神经网络和人工神经网络
https://www.cell.com/action/showPdf?pii=S0896-6273%2819%2931044-X (2020)
![]()
![]()
进化是一种盲目的拟合过程,通过该过程,生物体逐渐适应其环境。大脑是否也使用类似的暴力拟合过程来学习如何感知世界并对其采取行动?近期人工神经网络的进展揭示了在数百万次观测中优化数百万个突触权重的强大能力,从而在现实世界情境中稳健地运作。这些模型并非学习简单、人类可解释的规则或对世界的表征;相反,它们利用局部计算,在高维参数空间中对任务相关的流形进行插值。与直觉相反,类似于进化过程,过参数化的模型可以是简单且简约的,因为它们为学习各种各样的函数提供了一种通用而稳健的解决方案。这一新型的“直面拟合”(direct-fit)模型对心理学和神经科学中的许多理论假设提出了根本性的挑战。同时,这种视角的转变也与发生心理学(发展心理学)和生态心理学建立了意想不到的联系。
引言
在每一刻,大脑都在整合关于世界的动态、多维信息,以产生丰富且依赖于情境的行为。面对如此复杂的任务,实验神经科学家传统上会设计受控实验,将问题的维度降低到由实验者构想出的少数几个因素(Fisher, 1935)。这种还原论的研究范式基于一个核心假设:支撑我们诸多认知功能的神经计算可以脱离具体情境,并被分解为少数几个潜在特征;这些特征是人类可解释的,能够被单独操控;并且,将这些特征逐个重新组合起来,就能获得对大脑与行为的令人满意的理解。
与此同时,在神经科学和心理学实验室之外,人工神经网络(ANNs;见框1)在许多任务上已达到人类水平的行为表现,例如人脸识别(如 Taigman 等,2014)、语言处理(如 Radford 等,2019)、复杂游戏(如 Jaderberg 等,2019)以及运动学习(如 Levine 等,2018)。这一研究范式实际上放弃了传统的实验设计和简单可解释的模型,转而高度重视行为(即任务表现),并拥抱复杂性。这类模型通过在数百万个样本(“大数据”;LeCun 等,2015)上优化数百万个参数(“大”模型),直接从现实世界结构中学习如何识别人脸或回应自然语言查询。尽管使用人工神经网络对认知过程进行建模可追溯至联结主义和平行分布式处理(PDP)理论,但现代神经网络与经典联结主义模型显著不同——后者倾向于依赖规模相对较小、输入经过严格控制且具有可解释性的模型(如 Rumelhart 和 McClelland,1986;McClelland 和 Rogers,2003)。
![]()
在本文中,我们探讨人工神经网络如何学习执行复杂的认知任务,以及这种解决方案对认知神经科学家是否具有相关性。我们以人脸识别和语言处理为例——这两项认知任务已在认知神经科学中被广泛研究(见框2)。研究者已使用数百种实验操控手段来探查支撑人脸识别和语言处理的神经机制,每种操控都试图分离出支撑这些功能的少数几个相关因素。作为一个领域,尽管我们在识别与实验变量共变的神经变量方面取得了巨大成功,但我们距离真正理解在真实生活情境中支撑此类行为的神经计算仍相去甚远,而且我们常用的简化模型通常无法与人工神经网络相媲美。
认知神经科学家传统上主张行为在约束神经信息处理模型方面具有特殊地位(Krakauer 等,2017)。我们同意这一观点,但需附加一个警示:人为设计的实验操控可能无法提供足够丰富的行为情境来检验我们的模型。我们认为,人工神经网络的进展正是源于对行为和任务表现之首要地位的严格坚持,并怀有(以及商业激励驱动的)雄心——构建能够泛化到现实世界情境的模型。
与生物神经网络(BNNs)类似,人工神经网络也被训练用于在真实生活情境中对真实的多维数据执行有意义的操作。在不同物种和模型之间,生物神经网络与人工神经网络在回路架构、学习规则和目标函数方面可能存在显著差异(Richards 等,2019)。然而,所有网络都使用一种迭代优化过程,在给定输入或环境的情况下追求某个目标——我们将这一过程称为“直面拟合”(direct fit)(这一术语受吉布森(Gibson)“直接知觉”(direct perception)概念的启发,详见下文;Gibson, 1979)。我们借鉴了机器学习中过参数化模型强大能力的类比——尽管这种能力正日益显现,但学界仍在激烈争论它们是否能为理解生物有机体的底层神经编码提供任何洞见(如 Lake 等,2017;Marcus,2018a)。
我们认为,神经计算植根于一种“暴力式”的直面拟合,它依赖过参数化的优化算法来提升预测能力(泛化能力),而无需显式地对世界底层的生成结构进行建模。我们首先区分两种泛化形式:外推(extrapolation)和内插(interpolation)。传统上,由于内插具有局部性(非生成性),被视为一种较弱的泛化形式。在此,我们主张,在直面拟合和大规模真实世界数据的背景下,内插能够提供一种无需“心智”却极为强大的泛化形式(甚至可能无需依赖外推)。
内插与外推
统计学教科书通常将过参数化模型与过拟合联系起来,并将其与“理想拟合”(也称为“适当拟合”或“恰到好处的拟合”)模型以及欠拟合模型进行对比(见图1A–1C)。欠拟合模型是指参数过少,无法捕捉观测数据的底层结构,因此预测或泛化能力较差(图1A)。过拟合模型则足够灵活,能够拟合甚至记忆训练样本的结构(包括无结构的噪声以及训练集特有的偶然特征),以至于无法学到泛化所需的真正结构(图1C)。而理想拟合模型则通过揭示少数潜在因素或规则,学习数据的底层生成性或全局结构(图1B)。与欠拟合和过拟合模型不同,理想拟合模型具备泛化能力:能够准确预测训练期间从未见过的新观测值。
![]()
我们认为,这种教科书式的观点需要修正,以考虑到在数据丰富的环境中,过参数化模型能够提供一种无需“心智”却极为强大的泛化形式。任何模型都是为解决特定类型的问题而设计的,而当我们从在受控实验环境中优先采样有限参数空间,转向在以性能为导向的真实生活场景中利用大数据对广阔参数空间进行密集采样时,所要解决的问题会发生根本性变化。
基于贫乏数据的泛化
当数据范围相对于世界可能状态的范围较窄时(图1E),过参数化模型往往会学习训练数据特有的偶然特征,而无法在该范围之外进行外推。我们在使用图1A–1C这类示意图讲授入门统计学时,脑海中所设想的正是这种经过精心筛选的、狭窄的采样窗口。例如,在图1E的外推区域中,只有揭示了底层生成性抛物线规则(y = q₀ + q₁x + q₂x²)的理想拟合模型,才能有效预测新观测值。相比之下,欠拟合和过拟合模型在预测外推区域内任意新数据点时都将毫无用处。换言之,这种生成性的理想拟合模型提供了泛化的终极形式,它依赖于对生成观测数据所用底层规则的完整理解。然而,基于外推的泛化要求这些生成规则在训练区域之外依然成立(例如,在模拟数据中)。当参数空间的不同区域存在复杂的非线性关系和变量交互作用时,从如此有限的数据进行外推注定会失败。(关于参数空间均匀性的这一假设是否成立,很难通过实证加以评估,且在不同研究领域中可能差异极大;此处我们仅为了模拟目的而从一个简单分布中采样,但显然我们周围的世界并不符合如此简单的生成过程。)
这种“狭窄窗口”的视角(图1E)——即通过人为设计、高度受控的实验所收集的数据,揭示出能够预测各种情境下观测结果的底层生成规则——在包括物理学、化学、神经科学和心理学在内的众多学科科学家心中占据着特殊地位。有趣的是,许多计算神经科学家、认知与发展心理学家以及心理语言学家在构建关于神经编码的理论时,也采用了这种狭窄窗口的图像。这就产生了一种张力:实验者使用人为设计的刺激和实验范式来揭示优雅的编码原理(例如 Hubel 和 Wiesel,1962),但这些原理是否真能捕捉自然情境下的神经反应,仍不清楚(Felsen 和 Dan,2005;Olshausen 和 Field,2005;Hasson 和 Honey,2012;Hamilton 和 Huth,2018)。这本身并非实验设计的缺陷;设计巧妙的实验事实上也能揭示“直面拟合”的原理。然而,使用人为且不具代表性的操控所进行的实验其泛化能力有限,这一点常常被忽视(Brunswik,1947)。
从历史上看,这些实践及其内在张力部分可追溯至认知心理学中的一个论点:大脑并未从环境中接收到足够丰富的数据以应对问题空间(Chomsky,1965)。因此,为了在新情境中预测新结果,人们假定神经编码必须依赖于隐式的生成规则(无论是后天习得的还是先天固有的)。
基于大数据的泛化
对问题空间进行密集采样(图1F)可以彻底颠覆预测问题的本质,将一个原本依赖外推的问题转变为一个以内插为基础的问题。这一点在图1G中得以体现:当我们向内插区域(绿色区域)添加训练期间未见过的新观测点(黑色三角形)时,情况便清晰可见。与直觉相反,在内插区域内,经过充分正则化的过参数化模型(图1D)——我们称之为“直面拟合”(direct-fit)模型(见下文)——能够达到与理想拟合模型同样良好的预测性能(在数据变异性并非源于随机噪声的情况下,甚至可能表现更优)。
内插是一种局部过程,它并不依赖于对整体生成性原理的显式建模。它使用简单的局部启发式方法(例如最近邻或平均)将当前观测置于过去观测的上下文中。此外,如下文将要讨论的,过参数化模型提供了新的计算工具,能够从大数据中学习复杂的多维统计规律,而这些数据中可能并不存在明显的生成结构。
总结这一点:内插利用局部计算,将新观测置于过去观测的上下文中;它并不依赖于对整体生成性原理的显式建模。与外推不同,内插曾被认为只提供一种较弱的泛化形式,因为它只能在已有观测的上下文范围内预测新数据点。因此,当我们思考大脑时,传统上假设内插无法提供足以支撑复杂行为的泛化能力,因为大脑的任务是从少量示例中外推,以应对近乎无限可能的观测(图1E)。但这一问题仅在训练空间范围狭小或数据贫乏时(如在高度受控的实验中)才会出现。然而,转向大数据后,问题的框架发生了转变(图1F):如果我们利用数百万个自由参数对参数空间进行密集采样,从而稳健地拟合数百万个示例,那么基于简单内插的预测便展现出惊人的能力(见框2)。
框2. 面部识别与语言模型:直面拟合的两个实例
我们认为,生物神经网络(BNNs)和人工神经网络(ANNs)同属于直面拟合优化模型这一大家族。然而,在不同的生物与人工网络中,其电路架构、学习规则和目标函数存在显著差异。尽管机器学习文献中经常涌现出新的计算范式,但可能模型的空间极其广阔,且大部分尚未被探索。
为使“直面拟合内插”这一概念具体化,我们简要描述两种现代ANN:一种是使用外部监督目标函数训练的深度卷积神经网络,用于从图像中识别人脸(Schroff 等, 2015);另一种是使用自监督目标函数学习语言模型的Transformer网络(Radford 等, 2019)。在这两种情况下,模型均不依赖人为设计的特征,而是通过对密集采样的训练数据优化目标函数来学习一个嵌入空间。请注意,在外部监督案例(FaceNet)和自监督案例(GPT-2)中,目标函数最终均由人类行为所主导。
面部模型(FaceNet)
该人脸识别模型(Schroff 等, 2015)假设世界上所有面部身份都嵌入在一个多维欧几里得空间中(这是外部世界的一个属性)。虽然精确的维度数量未知,但经验上我们需要嵌入空间具有足够高的维度,才能捕捉个体身份之间的所有变化。该模型接收经过裁剪以隔离人脸的面部图像(表示为220×220像素、三通道彩色图像),并学习从145,200维像素空间到紧凑的128维身份空间的映射。该模型表现最佳的一个变体是一个拥有22层(总计1.4亿参数)的深度卷积神经网络,采用随机梯度下降与反向传播算法进行训练。端到端学习由一个目标函数引导(三元组损失),该函数最小化属于同一身份的人脸在嵌入空间中的距离,并强制不同身份之间保持一定间隔。此目标函数有效地将属于同一人的所有面部图像压缩至128维嵌入空间中的共同位置,同时忽略图像空间和输入层中无信息量的维度。
根据直面拟合框架,该模型的泛化能力(即正确分类熟悉及新面孔图像的能力)受限于训练集的密度与多样性(即图1E、1F和4所示的内插区)。如果训练集覆盖了现实世界中面部变异性的整个空间(包括身份、表情、视角、光照、遮挡等),并且样本足够密集,模型便能学习一个嵌入空间,从而有效对任何新面孔进行内插,将其归类到正确的身份簇中。当网络在包含2亿张人脸图像、涵盖800万个不同身份的异常密集训练集上训练时,可获得超人类、近乎完美的泛化能力。重要的是,该模型在未包含于训练集中的100万张新面孔测试集上仍能实现95%–99%的准确率(Malpass 和 Kravitz, 1969; O’Toole 等, 2018)。然而,若我们将训练集限制为仅包含西方人脸,系统性排除东亚人脸,则该相同网络将表现出“其他种族效应”(other-race effect),从而通过收缩内插区引入偏差。沿着这一思路,人类并非面孔专家,而是擅长识别他们熟悉的约5000张面孔的专家(Jenkins 等, 2018; Young 和 Burton, 2018)。我们预测,如果我们用同样网络在包含5000个身份及数百万样本的集群上进行选择性训练(更贴近人脑的实际输入),模型将学会一个稀疏、受限的身份空间区域,从而展现出更接近人类的表现。而在实验室环境中,仅用20个身份的受限数据集训练同一网络,将导致一个受限的“过拟合”模型,只能识别来自该狭窄训练范围内的新图像(图4)。
从本例中可以得出几个教训:首先,泛化能力受内插区限制,而内插区由训练集的特性(即密度与多样性)决定。其次,学习任务的难度受任务相关流形复杂性的约束——该流形可通过高维嵌入空间近似(例如,连续、平滑、低维的流形可能促进学习)。请注意,这些是外部世界的属性(如训练集中所体现),而非网络本身的严格属性。仅关注解释128维嵌入层的特定结构性质可能是误导性的,原因有三:第一,嵌入层只是冰山一角:嵌入空间是过度参数化、直面拟合学习过程的结果,而模型的行为表现是架构、目标函数、学习规则、训练集等共同作用的产物;我们若想理解神经网络如何工作,就不能忽视训练样本或产生嵌入空间的计算范式(相关论点参见 Jonas 和 Kording, 2017; Lillicrap 和 Kording, 2019; Richards 等, 2019)。第二,在直面拟合学习与穷尽采样的背景下,嵌入空间的结构通常反映外部世界中与任务相关的结构。第三,鉴于真实输入的多维性(例如,FaceNet的145,200维像素输入)以及世界中人脸空间流形的多维性(例如,100+维),试图通过高度受控实验寻找低维、心理学上可解释的神经响应特征,可能会使我们误入歧途。
框2(续)
语言模型(GPT-2)
该语言模型(Radford 等, 2019)假设人类在特定语境下使用语言的方式中存在足够的规律性,从而能够学习各种复杂的语言任务(Wittgenstein, 1953)。再次强调,模型的质量将受到训练期间所提供样本的密度与多样性的约束。具体而言,该模型采用基于注意力机制的“Transformer”架构(Vaswani 等, 2017),包含48层和超过15亿参数,用于执行序列转录任务。简单来说,Transformer 可被视为一对耦合的编码器和解码器,其中输入被移位至解码器的下一个元素(即下一个词或字节)。关键在于,编码器和解码器组件均能选择性地关注序列中邻近位置的元素,从而有效整合上下文信息。该模型在超过800万份文档(总计40吉字节文本)上进行了训练。尽管采用了自监督的序列到序列学习目标,该模型在多种语言任务上表现优异,例如预测长句的最后一个词、问答、摘要和翻译,在某些情况下接近人类水平的表现。上下文预测是一种认知上吸引人的自监督目标函数,因为它在人类发展的各个阶段都易于获取。此外,这种自监督目标函数仍然受到现实世界中人类行为的塑造,这些行为为学习者提供了结构化的语言输入,揭示了自监督与外部监督之间纠缠的关系。然而,与人类不同的是,该模型仅能基于相对狭窄的行为语境(即前文词语)进行预测,缺乏人类所拥有的动作、视觉线索(参见 Vinyals 等, 2015)和社会提示(见框3)。其在多个词语间学习时间依赖关系的能力,仍无法与人类在数小时、数天乃至数年内积累并整合广泛分布的多模态信息的能力相媲美。令人惊讶的是,尽管存在训练集和目标函数的局限,此类模型(例如 Devlin 等, 2018)也可能从输入结构中隐式地学习到语言的一些组合性质,如语法(Linzen 等, 2016; Belinkov 等, 2017; Baroni, 2019; Hewitt 和 Manning, 2019)。
直面拟合与人工神经网络
并非所有过参数化模型都会过拟合数据。过参数化模型可分为两类:“爆炸式过拟合”(explosive overfit)和“直面拟合”(direct fit)。在爆炸式过拟合的情况下(图1C),模型记住了所有训练数据点,但在其他区域却严重偏离数据的底层结构,既无法内插也无法外推。而直面拟合模型同样依赖过参数化来匹配数据结构。然而,与爆炸式过拟合模型不同的是,直面拟合模型通过正则化过程,在优化与训练数据结构对齐的同时避免了爆炸式过拟合(图1D)。这种正则化可能会压缩冗余信息,施加稀疏性或平滑性的先验,但关键在于,它可以通过通用的、局部的计算来实现,并不需要对数据潜在特征进行任何显式建模。
作为直面拟合过程的一个例子,我们将使用标准的人工神经网络(ANN)架构来建模两个低维过程。关于人工神经网络及其与生物神经网络(BNNs)关系的简要讨论,见框1。我们将使用两种架构:一种是标准的全连接人工神经网络,用于测试空间上的内插与外推;另一种是循环神经网络(RNN),用于测试时间上的内插与外推。
人工神经网络在内插区与外推区的泛化能力
为说明直面拟合模型的特性,我们首先在一个包含10,000个训练样本的数据集上训练了一个人工神经网络(ANN)。这些样本(绿色点)是从一个简单的正弦函数中采样得到的偶数点,并加入了方差(见图2)。该ANN被训练用于根据x轴值预测y轴值(模拟一个空间任务)。该网络结构包括一个输入神经元、三个全连接隐藏层(每层300个神经元)和一个输出神经元。即使这样一个仅包含902个神经元的小型网络,也构成了一个过参数化模型,拥有约180,600个可调参数(权重)。模型通过随机梯度下降法结合标准反向传播进行训练。
所有训练样本均来自一个受限的参数空间(−5 < x < 5),我们将其定义为“内插区”。训练完成后,该模型被用于预测10,000个新样本(偶数x值;蓝色点)的y值,这些新样本的取值范围更广(−15 < x < 15),超出了内插区,延伸至“外推区”。我们的目标是衡量该直面拟合模型对拟合过程中未见过的新测试样本进行内插和外推的能力。
从构造上看,一个理想的正弦函数(图2A中的黑线)——仅含一个自由参数的模型——能够在内插区和外推区对所有蓝色点实现最优预测。然而,ANN仅能在内插区内准确预测训练期间未见过的新观测值(图2A)。当我们观察图2A中的测试数据点时,可以清楚地看到:直面拟合模型具备内插能力,但不具备外推能力。该模型并未生成任何明确的规则来描述内插区之外(即“范围”之外)的数据应呈现何种形态,因此在外推区对新样本的预测效果很差。然而,在内插区内,ANN对训练期间未见过的新观测值的预测能力与理想拟合模型相当。这一点在图2A的放大区域中清晰可见:预测值(蓝色点)与生成数据所用的正弦函数(黑线)几乎完全重合。
![]()
内插区与训练集密切相关,但并不等同。内插区对应于训练样本所覆盖的参数空间区域,但其中可包含无限多个训练期间未观测到的新样本。
在此案例中,尽管ANN并未真正学会外推所需的理想正弦函数,但它仍能通过优化拟合,在内插区内实现高质量的预测。有人或许会认为,ANN在内插区内“隐式地”学会了正弦函数,但关键区别在于:这种对正弦函数的隐式表征,仅仅是输入数据结构和拟合过程所产生的偶然或涌现性副产品。我们可以探查ANN中是否存在类似正弦函数的表征,但这些表征之所以存在,仅仅是因为我们在训练数据中注入了它们;ANN实际上只是学会了如何在训练集所覆盖的范围内对新观测进行内插。类比而言,即使在某些实验中,某种对实验变量的描述能够解释神经反应中相当大比例的方差(Marom 等,2009),声称大脑以某种根本方式“表征”了该实验变量,也可能是误导性的。
我们在时间维度(而非空间维度)上展示了类似的行为:训练一个循环长短期记忆神经网络(LSTM;Hochreiter 和 Schmidhuber,1997)来学习正弦波序列(图2B)。在此情况下,我们不再使用全连接ANN学习x与y值之间的空间关系,而是训练LSTM根据前100个y值(在1秒输入窗口内采样,绿色部分)预测后续的y值序列。该网络在频率为2.5至4.5 Hz(训练区;排除恰好为3 Hz和4 Hz的样本)的不同正弦函数上进行训练。为评估网络的内插与外推能力,我们要求训练好的网络预测在训练期间未采样的新频率下未来100个y值的序列——这些新频率要么位于内插区(即2.5–4.5 Hz之间),要么位于外推区(即低于2.5 Hz或高于4.5 Hz)。结果表明,LSTM能够预测训练期间未见过的新正弦波的后续100个y值,但仅限于内插区内的频率(例如图2B中的3 Hz和4 Hz)。当预测外推区频率(即图2B中的1、2、5和6 Hz)下的新序列时,LSTM则无法成功外推。
“没有免费午餐”(No Free Lunch)定理指出,针对某一任务的优化必然会导致在其他任务上的性能下降(Wolpert 和 Macready,1997)。此处我们看到,引入不同的网络架构或许能提升对特定频率正弦函数的预测能力,但这并不能从根本上解决外推问题,因为网络仍未学会外推至所有正弦波所需的理想、基于规则的正弦函数,而只是学会了在训练集覆盖范围内对新观测进行内插。尽管在丰富数据上训练的日益复杂的模型或许最终能近似人类大脑对广泛分布的时空结构所表现出的卓越鲁棒性,但无论是人工神经网络(ANNs)还是生物神经网络(BNNs),都仍受“没有免费午餐”定理的约束。它们通过针对问题空间的狭窄区域进行优化,学习的是临时性的解决方案,而单一架构无法在所有领域都表现卓越(Gomez-Marin 和 Ghazanfar,2019)。同理,进化所产生的生物体是针对特定生态位(如深海或沙漠)约束条件优化的结果,但并不会找到能在全球各地都适用的“精心设计”或全局最优解。
直面拟合的鲁棒性
理想的正弦函数使我们能够外推至无限多个新值。相比之下,过参数化的直面拟合模型只能用于预测受限内插区内新观测的值。在此,我们人为地限定了数据的底层结构,使得生成观测的过程仅需一个参数即可刻画。类比认知心理学,这相当于将实验设计约束为仅系统性地变化单一刺激特征(例如Gabor滤波器的空间频率),而将所有其他环境变量保持恒定。我们从一个简单模型出发生成观测数据,希望从中恢复出训练数据所采样的原始生成规则。事实上,在这种条件下探查过参数化模型时,我们所恢复的仅仅是构建实验范式或训练集时所使用的任务维度本身(Gao 等,2017;Stringer 等,2019)。
与在模拟环境和定义明确的实验设置中表现优异的理想拟合模型不同,直面拟合模型为建模大数据提供了强大手段——在这些大数据中,潜在结构是多维的、复杂的,并且难以用少数几个因素进行建模。例如,考虑图2C所示的世界:底层的正弦函数仅适用于一个狭窄范围的训练样本(−5 < x < 5),但超出该特定范围后,正弦函数便不再描述数据结构。也就是说,当数据在更广范围的训练样本中采样(−15 < x < 15)时,它们表现出一致且稳定的行为,但这种行为与正弦波截然不同(为强调这一点,我们使用一个简单的随机游走算法生成这些样本,该算法按构造生成的是任意函数)。
与图2A类似,我们重新训练了同一个过参数化ANN,使其拟合从更广参数空间(−15 < x < 15)中采样的30,000个偶数值观测(绿色点)。由于其灵活性和适应性,该过参数化ANN模型现在能够内插并准确预测该更广训练区内30,000个模型未曾见过的新观测值(蓝色点)。请注意,与理想拟合模型不同,直面拟合模型在面对这一更广范围的训练样本时并未灾难性地失效——该模型具有足够的表达能力,能够拟合其所观察到的任何稳定数据结构。事实上,如图1E和1F所示,直面拟合模型在大数据情境下蓬勃发展,其内插区随着训练集范围的扩大而扩展。
通过拓宽内插区,模型无法外推的缺陷变得越来越不构成实际障碍(Feldman,2019;Radhakrishnan 等,2019)。同样的直面拟合方法可扩展至拟合任意复杂的数据结构(Cybenko,1989;Funahashi,1989;Hornik 等,1989;Raghu 等,2017)。过参数化模型稳健拟合复杂数据结构的能力,在内插区内提供了无与伦比的预测力,使其特别适用于那些不存在简单理想模型的多维、真实世界情境。最终,随着我们开发出新的网络架构和学习规则,我们预测这些模型的性能将仅受限于其训练观测的范围和任务本身的复杂性(图1F)。换言之,当数据结构复杂且多维时,一个能够在真实世界参数空间内基于内插进行预测的“无心智”直面拟合模型,远优于一个无法解释数据中大部分方差的传统理想拟合显式模型。
“黑箱”论点
当应用于合适的数据并使用恰当的目标函数时,直面拟合优化过程能够为我们提供强大的功能性模型,这些模型通过内插来预测真实世界情境中新观测的值。如图2所示,这些模型并未显式编码数据的生成结构,也缺乏将能力外推至先前未见情境的能力。
批评者常常贬义地将过参数化的直面拟合模型称为“黑箱”模型:即那些在给定正确输入时能产生正确输出,却无法解释其内部运作机制的模型(Ashby, 1956;McCloskey, 1991)。例如,人类的面孔识别网络包含数百万个神经元和数十亿个突触权重,作为一个整体,它能够在不同视角和情境下识别成千上万人的面孔(Jenkins 等,2018)。同样地,商业人脸识别软件利用深度神经网络,在既未硬编码、也未试图“解释”其模型所依赖的潜在面部特征或规则的情况下,便实现了(超)人类水平的识别准确率(Taigman 等,2014;Schroff 等,2015)。因此,有人可能会争辩说,这类人工神经网络只是复制了原始问题,又为面孔识别制造了一个额外的黑箱模型——仿佛大脑本身还不够“黑箱”似的。
我们认为,人工神经网络其实并无任何不透明之处——它们是完全透明的“玻璃箱”。物理学家理查德·费曼(Richard Feynman)曾在他的黑板上写下一句名言:“我无法创造的东西,我就无法理解。”我们根据明确的架构规范构建人工网络;我们使用明确的学习规则、有限的训练样本以及明确定义的目标函数来训练这些网络;我们可以直接访问网络中的每一个权重。鉴于其前所未有的透明度,我们为何仍将ANN视为黑箱模型?
原因在于,我们根深蒂固地假设:ANN必须学习一套人类可解释的信息处理规则。这正是我们传统的“理解”标准。然而,当我们探查过参数化的人工(以及生物)神经网络中数百万个可调权重的分布时,并未轻易发现此类规则,于是便将这些模型降格为“黑箱”(Lillicrap 和 Kording,2019)。
与聚焦于拟合模型参数可解释性的常见“黑箱论”相反,我们认为,直面拟合神经网络模型这一大家族实际上为理解神经编码提供了一个简洁的框架。ANN可以从三个组成部分来理解:网络架构、学习规则和目标函数(Richards 等,2019)。尽管生物神经网络(BNNs)在上述三个方面与ANN存在显著差异(见框1和框3),但两者同属直面拟合模型家族。BNN是数十亿年进化在复杂世界中作用的结果,而ANN尚处于起步阶段。尽管如此,ANN提供了一个概念验证:神经系统可能依赖于对海量样本的“无心智”拟合,从而实现强大的基于内插的泛化性能。
直面拟合的ANN和BNN在设计规范上具有令人惊讶的简洁性,但这种简洁性并不能保证我们最初所追求的那种可解释性。
直面拟合模型并不学习用于外推的规则,而是利用局部内插,根据新样本在多维嵌入空间中与过去样本的邻近程度来确定其值(见框2)。从这一视角看,BNN和ANN属于一类弱表征模型:它们能够通过直面拟合优化过程学习输入与输出之间的映射,同时对世界底层结构保持有效“不可知”(agnostic)。当这些模型似乎“学会”了某些简单、心理学上可解释的变量时,我们应格外谨慎。人们很容易将自己的直觉或民间心理学解释强加于拟合后的模型,但这是误导性的。如果一个通用网络学会了某种规则,那么该规则很可能内在于训练数据本身,因此与其说是网络的有意义属性,不如说是数据的属性(见图2)。这些可解释的规则是偶然出现的,是拟合过程的涌现性副产品。此类规则的偶然涌现并非网络的“目标”,网络也并未“使用”这些规则进行外推。事实上,这种思维方式类似于达尔文之前的生物学目的论思维和“想当然的故事”(just-so stories)(Gould 和 Lewontin,1979;Mayr,1992)。进化或许是最普遍、最广为人知的生物拟合过程范例:它在对问题底层结构及其最优解完全“盲目”的情况下,学会了如何在世界中行动。
进化中适应性拟合的力量
大多数生物过程并非以“理解世界底层结构”这一明确目标为导向。进化论旨在解释复杂的生物体(从阿米巴原虫到植物、真菌、鱼类和哺乳动物)以及复杂的生物机制(如光合作用、鳃、翅膀和视网膜)如何在不显式理解所面临问题、也不理解解决方案的情况下,演化以适应其局部生态位(Darwin, 1859)。进化研究的是不断变化的、盲目的、局部的过程,通过这些过程,物种随时间推移而改变,以适应其不断变化的局部环境(Fisher, 1930;Williams, 1966)。
进化论试图解释地球上所有生物所经历的这种盲目而局部的拟合过程(图3)。这些生物拥有共同的起源,其演化依赖于少数几个基本过程(Lewontin, 1970;Gould, 1982):
![]()
(1) 通过基因突变、基因调控与表达、遗传漂变、内共生或杂交等方式实现的“变异基础上的过度繁殖”;
(2) 通过亲代向子代垂直传递遗传物质,以及在单细胞和/或多细胞生物之间水平传递遗传物质而实现的“遗传”;
(3) 遗传密码所具有的“组合能力”,能够支撑多样化的形态和生物体复杂性;
(4) 通过自然选择和人为外力、性选择、亲缘选择及群体偏好等机制实现的“选择”;
(5) 支持系统发育树逐步多样化与精细化所必需的“时间”——这一过程已在超过35亿年间逐代累积展开。
进化论运用少数几条简单原理,解释了大量现象之间紧密的联系。因此,进化论本身是简单且简约的。然而,在具体实现上,进化却是低效且代价高昂的,因为当今的生物体是经过数十亿年局部内插演化而来的。此外,与物理学中的自然定律不同——后者使我们能够外推并预测宇宙不同角落的事件——进化是一个局部过程,难以用于外推至下一步的演化。例如,预测地球生命之树在100万年后的具体分支形态是极其困难的。同样,我们无法轻易根据一套全新的环境约束条件预测某个生物体的形态;也就是说,进化论无法用于外推地球之外、宇宙其他角落生态位中的系统发育树。
那么,这种缺乏外推能力是否削弱了进化论的解释力?
我们是否应该承认,仅仅因为我们无法从这一拟合过程中获得一组有限的、直观的、心理学上可解释的生物模体(motifs)和生物体,就说明我们其实并不理解进化?
直面自然
进化论最具批判性和颠覆性的进步,在于它消除了对某种“智能”力量引导变化的需要(Dawkins, 1986;Dennett, 1995)。同样,直面拟合神经网络也消除了对有意图或可解释规则来引导学习的需求(Dennett, 2017)。人工神经网络(ANN)并不要求工程师将人类可解释的规则(例如关于面孔构型的规则)注入网络,工程师也不应将自己的解释强加于网络所找到的解决方案之上。进化论告诉我们,通过自然选择引导的、无数次重复的盲目变异过程,如何产生了我们在自然界中观察到的丰富多样的生物体和生物机制。与自然选择类似,ANN 和 BNN(生物神经网络)所属的这一类模型,依据目标函数优化参数,以盲目地拟合世界中与任务相关的结构,而并不以显式学习其底层生成结构为目标(见表1)。事实上,进化算法常常为复杂问题找到反直觉的解决方案,尤其是在存在多个重叠或冲突目标的情境下(Holland, 1992;Bäck, 1996;Eiben 和 Smith, 2015)。
一个生物体的基因组,类似于特定的 ANN 架构,隐式地编码了关于世界统计特性及目标函数的某些结构性假设(Maynard Smith, 2000;Godfrey-Smith, 2007;Adami, 2012;Zador, 2019)。基因组与神经网络都是高度表达性的、分布式的编码架构(Quackenbush, 2001;Raghu 等, 2017)。从这个意义上说,为执行特定行为而适应的网络解决方案,类似于在进化引导下适应特定生态位的生物体。正如 ANN 在外推任务上会失败一样,一个被移植到其物种未曾适应的生态位之外的生物体,也可能无法存活。
进化没有在理想化、高度受控的参数空间(如实验者的实验室)中运作的奢侈条件,生物学习体也同样如此(Anderson 和 Chemero, 2016)。因此,与深度学习中的优化类似,自然选择驱动的进化高度重视行为和任务表现;其所产生的表型是否具有可解释性,不过是幸运的巧合罢了。
成功实现直面拟合需要什么?
过参数化模型因其超强表达能力而臭名昭著,容易在无结构的随机训练集上强加出想象出来的结构。例如,有研究(Zhang 等, 2017)表明,ANN 可以被训练成完全记忆一组物体标签与一组随机打乱、与标签不匹配的图像之间的任意关联。在这种情况下,网络记住了整个任意训练集,在训练数据上达到了接近 100% 的分类准确率,但对新的、未见过的测试图像完全无法泛化(即内插能力很差)。随后,研究者使用完全相同的图像和标签集训练同一个深度网络,但这次图像与正确的标签相匹配。与随机标签条件类似,网络在训练集上同样达到了接近 100% 的分类准确率,但这一次模型并未过拟合;相反,它能够泛化,并正确标注训练期间未见过的新测试图像。
这两种情况使用了完全相同的刺激、网络架构、学习规则和目标函数,却产生了截然不同的模型,其区别何在?这一谜题的答案不在于模型本身的特征,而在于外部世界的属性。过参数化模型要实现泛化,需满足五个条件:
(1) 必须拟合一个具有结构的世界;
(2) 该世界必须被密集且广泛地采样;
(3) 模型必须支持高维编码空间;
(4) 模型必须具备正确的目标函数;
(5) 模型必须在优化过程中实施有效的正则化,以避免爆炸式过拟合。
世界的结构
世界绝非随机。它遵循物理、生物、社会等领域的规律,而心智正反映了这种结构。然而,与理想拟合模型不同,神经系统并未显式定义少数几个相关的信号维度。一个拥有充分采样的过参数化直面拟合模型,足够灵活,能够整合多维信号以进行内插。
举一个说明性的例子:想想你身边人们的面孔。我们走到哪里都带着自己的脸,尽管会缓慢衰老,但我们在不同情境和时间跨度下仍保留足够多的特征,使他人能以约 97% 的准确率识别我们(O’Toole 等, 2018)。然而,当信号不稳定时,直面拟合模型很可能失败。例如,在一个我们偶尔随机交换面部特征、或所有人拥有完全相同面孔的世界中,人脸识别任务将困难得多。对我们熟悉世界结构的剧烈、质性偏离,很可能导致基于内插的泛化出现灾难性失败。不过,我们希望极少(甚至永远不会)遇到需要此类外推的情境(尽管迫在眉睫的气候崩溃可能是个例外)。
对世界的密集采样
在现实生活中,感官信号通常是嘈杂且动态变化的。例如,尽管我们的面部特征相对稳定,但在不同光照条件下、从不同角度观察、化不同妆容或发型,或被不同物体遮挡时,我们的外貌可能大相径庭。要使直面拟合(direct fit)有效,我们需要对广阔的参数空间进行密集采样(图4),以确保稳健的内插能力。例如,如果我们仅用正脸图像训练一个模型,那么它对侧脸的泛化能力就会很差,因为侧脸图像在视角维度上超出了内插区(Srivastava 和 Grill-Spector, 2018)。然而,如果我们充分采样了不同视角、不同光照条件以及不同程度遮挡下的图像,我们就能在所有这些维度上实现内插。同样地,如果仅用一个人的面孔图像训练模型,它将无法识别世界上其他任何人。如果用数百万张西方人的面孔训练模型,它很可能能识别西方面孔,但对外推至东亚面孔的表现会很差(Malpass 和 Kravitz, 1969;O’Toole 等, 2018)。从这一视角看,大脑本身未必是“面孔识别”的专家,而更准确地说,它是“识别其所经常遇到的面孔”的专家(Ramon 和 Gobbini, 2018;Young 和 Burton, 2018)。也就是说,我们的面孔识别行为并不必然意味着大脑学习了一个理想化的、低维的面孔模型,并借此外推至全新的、不熟悉的面孔。相反,我们在一个足够宽广的参数范围内对“面孔空间”进行了密集采样,大致覆盖了我们日常所遇的绝大多数面孔,从而实现了内插(详见框2)。
![]()
高维编码空间
要使直面拟合有效,我们需要调整数百万个参数,以适应世界复杂且多维的结构。在人工神经网络(ANNs)中,这些参数对应于大量简单计算单元之间的突触权重。在实践中,这种高维多变量编码空间通常以分布式嵌入(distributed embeddings)的形式捕捉世界的结构。世界的任何特征都由众多计算单元共同表征,而每个计算单元也参与编码世界的多个特征。这种分布式编码方案具有若干有用特性,包括高容量与高表达力、对噪声的鲁棒性(例如“优雅退化”),以及最关键的一点:在向量空间中天然具备近似连续性,从而原生支持基于内插的泛化(Hinton 等, 1986)。另一方面,这种编码方案使得解释任一单元或神经元的功能调谐变得困难(例如 Ponce 等, 2019)。现代ANN已展现出这种编码方案的强大与多功能性:多种看似不同的“任务”均可通过在同一个高维嵌入空间中进行内插来完成(例如 Eliasmith 等, 2012;O’Toole 等, 2018;Radford 等, 2019;Raffel 等, 2019)。
生态目标函数
过参数化模型通常具有超强表达力,几乎可以拟合数据或世界中的任何维度。然而,大多数维度对生物体而言很可能几乎没有(甚至完全没有)功能性优势。目标函数驱动模型权重的优化,使其拟合到那些具有功能意义的维度(Marblestone 等, 2016)。目标函数有两种类型:内部引导型(有时被称为无监督,但我们更倾向于使用“自监督”一词)和外部引导型(通常称为监督学习,但我们更偏好“外部监督”这一术语)。只有少数目标函数能够产生支持适应性行为的模型,而这类目标函数可能在个体大脑之间、甚至跨代际传播(在社会性生物中传播得更快)。相反,无信息量的目标函数可能毫无用处、代价高昂,总体回报也更低。例如,一个包含10,000张人脸图像的训练集理论上可被划分为2¹⁰⁰⁰⁰种组合,但其中仅有少数划分具有功能意义。有用划分的例子包括性别、身份或年龄;而不太有用的划分可能包括发型、眼睛颜色、鼻子形状、睫毛长度,或美人痣、水泡、雀斑等的数量与位置。大多数ANN都可以被训练以优先关注这些特征中的任意一种,并在我们为其指定相应目标函数时表现得极为出色(Marblestone 等, 2016)。通过允许系统在对世界全局底层结构基本“盲目”的情况下收敛到功能性解决方案,学习中的适应性目标函数与下文将讨论的生物学中的选择压力密切相关。
有效的正则化过程
正则化本质上是在优化过程中施加先验,以防止爆炸式过拟合。我们再次可以类比进化:遗传变异主要以渐进方式发生、对基因突变具有鲁棒性,以及生理上的约束(既来自形态结构,也源于资源有限)共同对拟合过程起到正则化作用。事实上,基因组可能对学习施加了异常强大的先验(Zador, 2019)。
直面拟合模型与认知心理学的三个基本假设相矛盾
自诞生以来,认知科学一直反对过参数化的直面拟合模型,并主张认知是在三个基本约束下实现的。
第一,大脑的计算资源是有限的,其底层神经编码必须针对特定功能进行优化(例如 Chomsky, 1980;Fodor, 1983)。
第二,大脑的输入是模糊且过于贫乏的,若无先天知识则无法学习(例如 Chomsky, 1980)。
第三,浅层的外部监督和自监督方法不足以支持学习(例如 Pinker, 1994)。
简言之,以语法学习为例,人们认为语言输入和反馈信息都不足以支撑学习,因此语言习得必须依赖硬连线的(即非习得的)计算模块,以支持我们外推的生成能力(Chomsky, 1965;参见 Pullum 和 Scholz, 2002;Ramscar 和 Yarlett, 2007;Christiansen 和 Chater, 2008)。将大脑视为使用直面拟合优化的生物神经网络(BNN),挑战了上述三个假设,并为学习提出了新的路径。
计算资源并非稀缺
每立方毫米的大脑皮层包含数十万个神经元和数百万个可调节的突触权重,而生物神经网络(BNNs)利用复杂的回路基序,在众多尚未被充分理解的皮层区域中进行层级化组织(Felleman 和 Van Essen, 1991)。因此,相对于BNN,ANN是简化且微小的。然而,与理想拟合模型相比,拥有数百万参数的ANN和拥有数十亿参数的生物网络,其规模显得极其庞大。尽管大脑确实受到布线和代谢约束的限制,但只要我们对所讨论的计算机制仍缺乏充分理解,就不应轻易断言计算资源稀缺(Levy 等, 2004)。尽管鉴于ANN的表达能力,从大数据中学习简单任务的能力在实践上可能近乎无限,但其他架构约束仍可能对系统在世界中学习与行动的能力施加结构性限制(比如你不能同时用嘴咀嚼和说话)。这类约束可能包括:需要在不同模态和时间尺度上整合信息,同时在每一时刻选择并执行一小套连贯的行为(Musslick 等, 2017)。
输入并非贫乏
直面拟合依赖于对参数空间的密集而广泛的采样,以获得可靠的内插能力。我们的一个核心洞见是:密集采样改变了问题的本质,并揭示了基于内插的直面拟合学习的强大能力(见图1和图2)。量化进入大脑的输入是一项复杂而费力的任务(Sivak, 1996)。然而,近期的测量表明,输入可能是极其庞大且丰富的(Zyzik, 2009)。例如,我们每年可能接触到成千上万个日常类别的视觉样本,而每次接触中,每个类别又可能以数千种视角被采样,从而为视觉系统提供了极为丰富的训练集。同样,在语言方面,研究估计儿童每年接触数百万个词语(Roy 等, 2015)。人工神经网络(ANNs)在发现世界中反直觉结构方面所展现出的意外强大能力,提示我们凭直觉对世界统计结构的量化可能严重低估了其丰富性。我们有多大把握断言多模态输入实际上并不丰富呢?
浅层自监督与外部监督足以支持学习
监督可以由外部力量引导,例如其他社会主体。即使在机器学习中严格的外部监督范例中,“正确”标签通常也是由人类标注者(即生物神经网络,BNNs)提供的。在缺乏外部监督的情况下,大脑(以及ANNs)可以依赖自监督的目标函数,例如在空间上进行预测(如跨图像块;Doersch 等, 2015;Pathak 等, 2016)、在时间上进行预测(如跨视频帧;Lotter 等, 2016;Wang 和 Gupta, 2015),或相对于自身运动或动作进行预测(Agrawal 等, 2015;Pathak 等, 2017)。事实上,在预测的语境下,身体(包括大脑中相邻的计算单元)和世界本身提供了丰富的反馈(见框3)。这与神经科学中的“预测编码”(predictive coding)概念相呼应——该理论在过去二十年中日益受到重视(Rao 和 Ballard, 1999),并已成为近期以优化为导向的大脑功能理论的核心支柱(Friston, 2010;Clark, 2013;Heeger, 2017)。
直面拟合模型与生态心理学学派
詹姆斯·吉布森(James Gibson)创立了生态心理学学派,提出了“直接知觉”(direct perception)这一关于视觉知觉的替代理论,但该理论曾被许多认知科学家拒绝,最终被遗忘。根据吉布森(1979)的观点,大脑的目标并非从嘈杂的视网膜图像中重建世界,而是直接从丰富的输入中检测出行动所需的相关信息。生态心理学学派做了大量工作,展示了视觉输入的丰富性,以及行动如何引导个体从环境中选择相关信息。然而,该学派对传统强表征性计算方法的批判在学界引发了反感与怀疑,因为人们认为,若缺乏可行的计算模型,支持直接知觉的论点显得模糊且不科学(Ullman, 1980;参见 Pezzulo 和 Cisek, 2016)。
有趣的是,历史出现了奇特的转折:ANN的进展和“直面拟合”理念恰恰为生态心理学学派提供了其所缺失的计算框架。作为一种最小化目标函数的算法过程,直面拟合使神经网络能够学习从外部输入到有意义行为的映射,而无需以人类可解释的方式显式表征底层规则和原理。
生态心理学学派承担的一项主要任务,是根据动物为适应环境并生存所需的信息,刻画每种动物的目标函数——这一概念被吉布森称为“可供性”(affordances)(Gibson, 1979;Michaels 和 Carello, 1981)。对猫而言,一把椅子可能提供一个跳上厨房台面的中间平台;而对人类而言,它则提供一个坐着吃饭的表面。与进化类似,适应世界并无唯一正确的方式;不同的直面拟合网络在不同目标函数的引导下,可在同一生态位中使用,以更好地拟合环境的不同方面。此外,正如生态心理学学派所主张的,信息被定义为在生物体与其生态位互动中涌现的可供性。与计算神经科学中常见的强表征方法不同,直面拟合方法学习的是促进行为的任意函数,能够将感觉输入直接映射到运动输出,而无需显式重建世界或学习关于外部世界潜在结构的显式规则。
例如,马尔(Marr, 1982)虽对吉布森的视觉理论持肯定态度,但因不满该理论对信息处理的模糊处理,转而提出视觉的目标是恢复世界的几何表征。相比之下,直面拟合框架与吉布森对视觉目标的理解一致:即恢复世界中能为生物体提供适应性行为的那些信息。
吉布森认为,动物与其环境纠缠在一个封闭的“知觉-行动”反馈回路中:它们为行动而知觉,也为知觉而行动。此外,行动与可供性受到环境结构和生物体生理的塑造与约束。同样,从直面拟合的视角看,神经网络隐式地学习环境结构只是达成目的的手段,而这种学习最终由内部目标驱动——这些目标将知觉与行动对齐,以提升适应性适合度(见框3)。
先天与后天
进化与神经网络之间的联系为“先天与后天”(nature versus nurture)之争提供了全新视角。到目前为止,我们讨论了生物(及人工)神经网络如何通过直面拟合优化过程直接从示例中学习世界的结构。然而,学习特定功能的能力受到三大因素的强烈约束:(1) 身体结构、外周神经系统以及感觉受体的特性;(2) 神经回路的架构;(3) 预先布线的网络与开放式可塑性之间的平衡。因此,没有任何生物神经网络(BNN)可被视为“白板”(tabula rasa),因为这三个因素在不同物种间各不相同,并且均由进化“盲目地”调优(Zador, 2019)。
身体结构每种生物都具有特定的形态(如骨骼系统、运动系统和感觉系统),这限制了其可供性以及适应生态位的方式。由于进化是渐进进行的,生物当前的形态会约束后代可能发生的适应(这是一种正则化形式)。此外,感觉器官的特性限制了生物所能利用的信息类型。例如,蝙蝠拥有独特的骨骼结构和回声定位系统,使其神经网络能够学会在黑暗中飞行导航和捕猎。这类网络的外周结构经由进化优化而成,虽仅有极小程度的可修改性,却是塑造学习能力的骨干。
神经回路架构与马尔(Marr, 1982)对硬件与软件的区分不同,BNN和ANN中的回路架构与计算紧密耦合。存在多种不同架构,每种都针对特定的临时任务进行了优化。例如:
引入卷积滤波器使网络能够学习空间中的模式(Krizhevsky 等, 2012);
引入循环连接使网络能够检测时间上的模式(Graves 等, 2013);
引入短时与长时控制器使网络能够调整信息累积的时间尺度(El Hihi 和 Bengio, 1996;Hermans 和 Schrauwen, 2013);
引入注意力机制使网络能够增强相关信息(Luong 等, 2015;Xu 等, 2015);
引入基于上下文的记忆存储(如可微神经计算机)使网络既能存储情景上下文,又能跨样本泛化(Graves 等, 2016)。
引入新的架构基序很可能提升ANN的性能。在BNN中,神经回路的架构由进化优化而成,从水母中高度弥散的神经网,到昆虫的一系列神经节,再到哺乳动物复杂的皮层下与皮层结构(Satterlie, 2011;Striedter, 2005)。对不同生物神经回路架构、学习规则和目标函数的详细比较映射是一个活跃的研究领域,我们仍可从进化在各类神经系统和生物体中提供的解决方案中学到很多(Nieuwenhuys 等, 1998;Liebeskind 等, 2016)。
进化预布线进化可以对网络的突触权重进行预训练和优化。例如,视网膜是一种经由进化优化的专用神经回路,能将光信号转化为神经信号,并对输入图像进行相当复杂的预处理(Carandini 和 Heeger, 2011)。视网膜回路的架构是固定的(Briggman 等, 2011),且由于不接收来自皮层的自上而下调制信号,其神经可塑性程度相较于皮层较低。同样,昆虫和哺乳动物大脑中的许多神经回路都是预先布线的,出生时即可运作(Gaier 和 Ha, 2019)。与其他物种不同,人类的大部分学习发生在出生之后,尽管某些预训练的优化无疑促进了学习(Zador, 2019)。有趣的是,类似的优化过程(如过度生成与选择)也可能引导发育过程中的可塑性(Changeux 和 Danchin, 1976;Edelman, 1993)。
进化与学习之间的类比重新定义了先天与后天之争。发展心理学中的主流观点(如 Spelke 等, 1992;Spelke 和 Kinzler, 2007;Marcus, 2018b)认为,学习依赖于关于世界结构的先天知识(如语法、客体恒存性、数量感等)。相比之下,直面拟合视角认为,大脑要在世界中有效运作,几乎不需要领域特定的模板或对这些底层规则的先天显式知识(如 Arcaro 等, 2017)。如果这些能力可以在发育过程中从世界中提取出来,那么将其硬编码将是低效的。我们的可供性受身体和大脑的约束,而我们的身体与神经网络的布线方式与我们能学到什么之间存在着密切关系。将进化与学习都视为在不同时间尺度上运行的高度相关的优化过程,有助于缓和这场争论的对抗性色彩。
心理学在哪个层面涌现?
我们通常认为,人类的认知能力超越了内嵌于直面拟合(direct-fit)模型中的那种“无心智”(mindless)能力。尽管直面拟合模型能够进行内插,但其能力似乎显得“虚假”,缺乏对塑造世界的底层规则与过程的显式理解。相比之下,人类认知在最佳状态下,为我们提供了理解世界底层结构并寻求全局规则的工具——这正是外推至质性全新情境所必需的理解能力。我们的思维能够将词语重新组合成新句子、整合记忆,并创造虚构故事。尽管当前的语言模型(例如Transformer)可以说已能使用直面拟合方法生成语法结构正确且上下文敏感的段落,但它们似乎仍缺乏深思熟虑地生成语义上有意义文本的能力。此外,我们的思维还发展出数学与逻辑系统,以及机械工具,用以掌握知识并扩展我们在世界中理解与行动的能力——这些能力似乎超出了直面拟合过参数化模型的范畴。
我们认为,认知与计算神经科学犯了一个错误:将外推标准和理想拟合模型不加区分地整体强加于大脑。这种思维方式借用人类心智最卓越的一些能力(有时被称为“系统2”;Evans, 1984),来解释大脑如何毫不费力地执行其众多认知任务(即“系统1”)。尽管人类心智激励我们去触摸星辰,但它却根植于系统1中那数十亿个“无心智”的直面拟合参数之中。因此,直面拟合的内插并非终极目标,而是理解高阶认知架构的起点。系统2别无其他基础可依。系统1中的许多过程与其他动物共享(如知觉系统),有些则是人类独有的(如语法学习),但所有这些过程都是以自动、快速且通常无意识的方式执行的。引导这些系统学习的暴力式直面拟合内插,与进化类似,其解释人类诸多认知功能的能力可能远超我们此前的想象(例如,在不强加基于规则的推理的前提下,从自然文本中学习句法;见框2)。
我们仍不清楚,归因于系统2的人类认知能力在多大程度上真正超越了系统1那种快速而自动的程序。每天都有新的ANN架构通过直面拟合程序被开发出来,以学习并执行更复杂的认知功能,例如驾驶、翻译语言、学习微积分或预订餐厅——这些功能传统上被认为属于系统2的管辖范围。然而,与人类不同,这些人工网络在需要跨情境泛化和外推的情境中表现得极为糟糕(Lake 等, 2017)。
心理学家不应再将效率、简洁性和可解释性不加区分地强加于所有神经系统,而应追问:我们独特的人类认知能力如何从数十亿个直面拟合模型权重中提取出关于外部世界的显式且紧凑的知识?尽管识别人脸、说话、阅读和驾驶的能力可能根植于对自然的“无心智”拟合,但我们从这些嵌入表示中抽象并言语化信息的能力,使我们得以构建社会结构、发现自然规律,并重塑世界。
高阶认知功能如何从暴力式、过参数化的生物神经网络(BNNs)中涌现,很可能将成为未来认知研究的核心问题。要发展出下一代具备感知与行动能力、同时还能以我们的方式理解并交流世界结构的“有感知能力”的人工神经网络(ANNs),这种理解或许是必要的。
结论
历史上,我们一直依据低维的、心理学上可解释的标准来评估科学模型,因而低估了“无心智”的过参数化优化在真实生活情境中解决复杂问题的强大能力。我们有选择性地在神经编码中搜寻显式的、低维的知识。作为通用逼近器,ANN所展现出的表达能力应令实验神经科学家感到不安。我们通常使用受控的、低维的刺激和任务来探查脑-行为关系,寻求优雅且人类可解释的设计原则。此处与进化(以及历史上关于智能设计的论点)的类比尤为犀利:尽管在实验操控下,直观的设计原则可能从神经数据中浮现,但这些因素只是灵活的直面拟合学习系统在建模自然世界时所产生的偶然属性,而所谓的“设计”实际上是由实验者强加的。
如果我们用理想设计原则或突变数量来评估进化所产生的生态系统,我们会发现它们既低效又难以理解。同样,如果我们以拟合参数数量或训练样本数量来评判BNNs(和ANNs),我们也会视其为不优雅且不可解释。但可解释性并不严格等同于优雅或简洁。进化论已向我们展示了:在自然选择引导下的无心智、迭代过程,具有构建能有效应对世界的生物体的强大能力。事实上,直到最近,进化仍是唯一已知能创造出自我组织、高度适应的世界模型的无心智过程(Langton, 1995;Bedau, 2003)。人类已开始在某些情况下创造模型并模拟生物体,尽管这些模型仍相当有限,却能出人意料地出色执行特定行为。此类模型所需的创造过程与进化过程相似,本不应令人惊讶。进化论的重要性在于,它使我们转向了一种此前未被充分重视的生物学解释与理解方式。
ANN正开始揭示:在密集采样的真实世界参数空间中,由目标函数引导的无心智、过参数化优化所具有的巨大力量。尽管相对简单,这一成就要求我们重新调整理解BNNs的标准,并可能迫使我们重新审视实验方法的基础假设。试图通过人为设计的实验操控,从直面拟合神经网络(无论是生物的还是人工的)中恢复简单、人类可解释的规则或表征,或许永远无法获得我们所寻求的那种理解。直面拟合视角强调了世界结构与大脑结构之间的紧密联系。这一观点蕴含着某种乐观主义,因为它为理解神经编码提供了全新的窗口。进化论提供了一个相对简洁的框架,用以理解令人难以置信的多样现象;若声称进化论不够简约,将是误导性的。同样,指导行为的神经机制所遵循的原则,可能比我们庞大的、零散的神经表征与认知过程分类学所暗示的更为简单。我们希望,这一视角的启示能够揭示还原论方法的不足,并推动该领域转向更具生态性、整体性的方法,以研究生物体与环境之间的联系。
https://www.cell.com/action/showPdf?pii=S0896-6273%2819%2931044-X
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.