网易首页 > 网易号 > 正文 申请入驻

深度学习概览:统计学视角

0
分享至

A Brief Tour of Deep Learning from a Statistical Perspective

深度学习概览:统计学视角

https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B


关键词:深度学习,神经网络,模式识别,优化

摘要

我们揭示深度学习的统计学基础,旨在促进深度学习与统计学界之间的对话。我们强调二者交叉领域的核心主题;概述关键神经网络模型,包括前馈神经网络、序列神经网络及神经隐变量模型;并将这些思想追溯至其在概率论与统计学中的根源。此外,我们还指出深度学习中若干有望获得统计学贡献的研究方向。

  1. 引言近年来,被称为深度学习(Deep Learning, DL)(Hinton & Salakhutdinov 2006;LeCun 等 2015;Schmidhuber 2015;Goodfellow 等 2016)的一系列技术,在计算机视觉(Krizhevsky 等 2012)、语音识别(Dahl 等 2012)以及自然语言处理(NLP)(Manning 2015)等领域的预测问题上取得了显著进展。此类成功通常归因于以下因素:具有数百万参数的高度表达性模型、大规模标注数据集、可扩展的优化算法、支持自动微分的软件以及硬件创新。然而,深度学习的诸多基础与统计学中广为人知的概念密切相关,例如对数似然函数、分层建模、潜变量及正则化方法。尽管存在这种概念上的重叠,统计学界与深度学习界仍相对割裂。其中一个原因可能是:统计思维在深度学习中的作用尚未得到广泛承认或宣传。工业界利益相关者往往更强调工程技术成就与技术进步,这可能使统计学者误以为自身缺乏推动研究前沿所需的专业能力。此外,深度学习文献承袭了其认知科学根源所遗留的术语(如“神经元”“激活函数”),并发展出自身特有的行话(如“注意力机制”)。这种缺乏共通语言的现状,可能劝退那些虽有好奇心、却试图阅读深度学习论文的统计学者。

本文旨在通过揭示深度学习的统计学基础,为两大领域搭建沟通桥梁。具体目标有二:

  1. 以广大具备统计学背景的读者易于理解的方式,阐释深度学习的概念、方法与研究趋势;
  2. 识别深度学习中统计研究者可贡献新理论、新模型与新方法的潜在研究方向。

过去已有诸多文献致力于建立此类联系。例如:20世纪90年代至21世纪初,有若干论文聚焦于非深度神经网络(NN)(White 1989;MacKay 1992;Cheng & Titterington 1994;Neal 1994;Ripley 1996;Stern 1996;Lee 2004);近期则有专门关联深度学习的综述(Mohamed 2015;Efron & Hastie 2016;Polson & Sokolov 2017;Yuan 等 2020;Bartlett 等 2021;Fan 等 2021)。尽管所有此类综述(包括本文)不可避免地存在一定程度的内容重叠,但本文通过在广度与深度之间取得平衡(即一次“简明巡览”),对现有文献形成有益补充。鉴于深度学习领域工作极为庞杂,试图进行全面综述并不现实——例如,本文未涵盖深度强化学习。希望深入了解深度学习的读者,可进一步阅读 Goodfellow 等(2016)或 Murphy(2022)等教科书。

深度学习与统计学不仅在术语和方法论上不同,更重要的是在视角上存在差异。深度学习强调以数据驱动的预测准确性来验证模型,而统计学则更注重模型的可解释性和不确定性量化。这一区别并非新近提出:Breiman(2001)曾著名地论证过这一点,Welling(2015)为深度学习时代更新了该论点,Efro(2020)则提供了最新视角。在统计学背景下自然的问题,如渐近一致性或后验集中性,在深度学习中则远不那么相关(甚至可以说完全无关),因为深度学习模型通常拥有成千上万、甚至数百万个参数。本质上,深度学习者倾向于关注预测值 ŷ,而非参数估计值 θ̂。

深度学习之所以侧重预测,至少部分可追溯至其模式识别的起源及对表征学习的强调:在高维输入情形下,通常需将其转换为有助于预测的(中间)表征(即特征)。例如,在图像分类与语音识别领域,研究者长期采用两阶段流程构建分类器:首先人工设计有用的函数(如滤波器、模板)以从信号中提取特征;继而基于预定义特征训练分类模型。深度学习的一项重大贡献在于,以端到端训练的单一模型取代该两阶段流程——模型直接从原始信号(像素、音频)出发,经由逐层变换得到中间表征,并最终映射至输出。深度学习最显著的成功案例,即出现在此类依赖特征提取的感知型低层信号(图像、语音、文本)预测任务中。

此外,“通过组合简单构建模块来构建模型”这一思想,在深度学习与统计学中均为基础性概念,但两领域对“组合性”(compositionality)的理解与实现路径迥异。在统计学中,存在悠久传统——将随机变量作为基本构件,从而可构建似然函数以表征复杂的数据生成机制;实现组间与层级间统计信息共享;刻画动态时序过程;或捕捉随机效应与交互作用。相较之下,深度学习中尽管深度模型的输入–输出映射可具有概率含义,其内部构建模块通常为确定性函数,并以分层方式组合,辅以卷积等运算操作。此类确定性兼具优势与局限:一方面,它赋予建模者更大灵活性,免除了对分布假设的依赖;另一方面,则使不确定性量化更具挑战性。值得注意的例外是深度潜变量模型(见第4节讨论),其内部表征结合了随机变量与确定性变换。

两领域在规模层面亦存在显著差异:模型复杂度的规模、数据集的规模,以及计算的规模。对内部表征学习的需求,促使深度学习研究者采用包含海量可学习权重的复杂神经网络架构;而此类复杂性又进一步催生了对更大规模数据集的需求。更多数据有助于学习更复杂(且潜在预测性能更优)的内部表征,因此当前图像、语音与语言建模领域的前沿模型,往往需在数百万至数十亿数据点上进行训练(Bommasani 等 2022)。相比之下,在诸多典型统计分析问题中(尤其如医学等应用领域),如此规模的数据集常常完全不可得。此外,为应对模型与数据的极大尺度,深度学习还需依赖重大的工程进展:支持高层模型定义的自动微分技术、用于高效优化的随机梯度方法,以及用于高效线性代数计算的图形处理器(GPU)。这些技术对深度学习的实用性均起到了关键作用。

  1. 基于前馈架构的视觉模式识别

人工神经网络(NN)的早期发展深受认知神经科学及人类视觉感知思想的影响(McCulloch & Pitts, 1943)。到20世纪80年代末至90年代初,神经网络转向更具实用性的应用方向,其中手写数字识别成为一项具有挑战性的基准任务,并引发了美国邮政署的关注(LeCun 等, 1989)。进入21世纪后,进展一度放缓;但在2012年ImageNet基准竞赛中,深度学习取得突破性实证成功(Krizhevsky 等, 2012),加之2010年代初期其他一系列实证成果,再度引发学界广泛关注。自此,深度神经网络(DNN)已成为众多系统中的关键组成部分,广泛应用于语言建模(Devlin 等, 2019)、自动驾驶(Grigorescu 等, 2020)、围棋对弈(Silver 等, 2017)以及蛋白质折叠预测(Jumper 等, 2021)等问题中,从而巩固了深度学习在过去十年中作为机器学习与人工智能领域核心方法论的主导地位。

因此,我们从视觉模式识别入手展开讨论,特别是将图像分类为 K 个类别或类别的任务。我们假设最简单的设定:每张图像仅包含 K 个候选对象中的一个(且仅一个)。作为示例,我们采用著名的美国国家标准与技术研究院改进版(MNIST)图像分类数据集(LeCun 等,1998)。该数据集常用于教学目的,因其规模较小,可在普通笔记本电脑上轻松完成模型的训练与评估。每张 MNIST 图像 x n
的分辨率为 28 × 28 像素,可表示为一个二维矩阵,其中每个元素为一个像素值,其强度 x ∈ [ 0 , 1 ] 。图 1a 展示了该数据集中每个数字类别的样本图像。标准数据集共包含 N = 70,000 张图像–标签对,通常划分为 50,000 张训练图像和 10,000 张测试图像,其中 10,000 张图像用于超参数调优与验证。


2.1 前馈神经网络








我们可以将隐藏层 b 解释为自适应的非线性基函数。这些允许模型自身将原始特征空间转换为更适合分类任务的表示。这种内部表示学习的概念(Bengio et al. 2013a)可以说是NN成功的最重要特征。图2b展示了在MNIST上训练的四隐藏层NN的第一个隐藏层学习的特征。这种可视化类似于图2a中的GLM。NN学习的是局部边缘检测器的特征,而不是GLM的全局模板。这使得模型能够逐层构建特征层次结构。第二个隐藏层将这些特征组合起来,依此类推。这种行为使NN在低级原始信号上最有效,因为隐藏层可以逐渐将信息聚合到更高层次的抽象中,例如,在分类的背景下,学习在输出层预测中有用的区分特征。


2.2. 最大似然和随机优化

在定义了前馈NN之后,我们现在转向模型拟合。DL模型通常使用最大似然估计进行训练,通常对于分类问题,假设独立同分布。对数似然可以写成



尽管有这种正则化,统计学家可能仍会担心神经网络(NNs)的过拟合问题,因为它们参数过多。在小数据集情境下,使用保留验证数据集(或采用多折交叉验证)是防止过拟合最有效的策略。例如,一个有用的策略是提前停止:当使用迭代优化过程训练网络时,我们持续训练神经网络,直到验证集的准确率开始下降——这表明过拟合已经开始。然而,即使没有大量保留数据可用,神经网络仍可避免过拟合。这是因为,正如经典偏差-方差理论先前所暗示的那样,过参数化对泛化能力的危害并不像人们想象的那么严重。我们在第5.1节中将对此进行更深入的讨论,但即使在过参数化的线性模型中,也能观察到良好的泛化能力(Hastie等,2022)。

回到对数似然函数,最大化 ℓ(W₁, ..., Wₗ) 是一个非凸优化问题,由于不变性和不可识别性,其权重参数没有唯一解。尽管面临这些挑战,基于梯度的相对简单的方法仍是训练神经网络最广泛使用且经验上最成功的方法。梯度上升是一种一阶迭代方法,用于最大化(或等价地,若在负目标函数上执行,则为梯度下降),它通过更新一组初始参数(随机初始化)并朝着目标函数增长最快的方向迈出一步来实现。给定一个对数似然函数 ℓ,单个参数 w 从第 t 次迭代到第 t+1 次迭代的更新通过以下方式执行:


其中 α 是一个标量学习率(即步长)。

计算上述完整梯度需要对 N 个数据点中的每一个求梯度之和,对于包含数百万高维数据点的训练集而言,这可能代价高昂。然而,可以通过仅在数据的一个子集(可能非常小)上评估似然函数来获得梯度的一个有噪声的估计值。定义一个随机小批量数据集 ℬ 为从完整观测集中抽取(例如,无放回抽样)的 B 个数据点组成的子集。然后,我们可以使用小批量似然函数 ℓ̃ 代替完整梯度(基于全部 N 个数据点),执行随机梯度下降(SGD)(Robbins & Monro 1951, Bottou 2010):


该方法被称为“随机”方法,因为梯度估计现在是一个随机变量。我们将导数乘以 N/B,以便使似然函数的尺度与完整数据集的情况相同,这也可以被视为对学习率 α 的一种调整。SGD 背后的关键思想是,当 B 远小于 N 时,人们可以进行多次有噪声(但计算成本更低)的参数更新,在每一步都沿着一个有噪声的梯度方向移动,并且在实际运行时间上可能比使用完整梯度的步骤收敛得更快。

图3展示了使用100、10和1个数据点计算梯度更新所训练的神经网络的优化过程。虽然这三种变体从相同的对数似然值(y轴)开始,但对于1个和10个数据点的曲线,其作为优化算法所看到的总数据点数量(x轴)的函数,能够更快地取得进展。尽管它们使用的是有噪声的梯度估计,但估计中仍包含足够的信号,使得计算上的收益超过了估计中的噪声。在这种情况下,最终所有方法都收敛到大致相同的对数似然值(超过图表右侧边界),尽管在其他情况下,不同的噪声水平可能会引入不同的归纳偏差。


虽然将一种粗糙的一阶方法应用于深度网络的训练看似天真得毫无希望,但经验上发现SGD是一种可靠的优化策略。事实上,深度学习(DL)的成功证明了SGD或许更令人惊讶的成功。在2012年之前,人们曾推测神经网络的实用性会因其受SGD局限性的制约而受限(Cheng & Titterington 1994)。对于为什么随机梯度下降有效及其作用机制的更全面理解,目前仍是活跃的研究领域,但初步证据表明,梯度估计中引入的噪声实际上可能是有益的——例如,有助于逃离鞍点,而鞍点构成了神经网络优化曲面上的大多数临界点(Pascanu等,2014)。

很自然会问,为什么深度学习依赖一阶信息而非二阶信息(即Hessian矩阵)。事实上,在神经网络研究的早期,二阶方法就曾受到关注(Parker 1987, Becker & LeCun 1989),并且当然在统计学中以Fisher评分的形式被广泛应用。然而,现代神经网络中庞大的参数数量使得计算和存储所有二阶导数变得不切实际。此外,条件矩阵通常可能是奇异的。出于这些原因,一阶随机梯度方法,特别是其自适应变体,已成为训练深度神经网络(DNNs)的默认实用选择(Duchi等,2011;Kingma & Ba 2014)。这类方法有多种不同的变体,但大多数通过存储梯度的经验矩(通常是第一阶和第二阶)并利用这些矩来调整下一步的更新。尽管SGD取得了成功,但优化神经网络并非没有障碍。为了进一步阐明优化机制,假设 w 是位于神经网络某中间层的一个参数。通过链式法则展开似然函数关于 w 的导数,我们得到


该导数是通过将信息从对数似然函数 ℓ 乘法式地向后传递,经过隐藏表示 bₗ,直至待更新的参数 w 而得到的。由于这一直观认识——即信息在神经网络中向后传播——基于梯度的神经网络优化方法被称为“误差反向传播”(backpropagation of errors),或简称“反向传播”(backprop)(Parker 1985, Le Cun 1986, Rumelhart等 1986)。随着神经网络变得越来越深[例如,He等(2016)训练了具有1000多层的神经网络],中间导数 ∂bₗ/∂bₗ₋₁ 保持良好条件至关重要。例如,如果仅有一个项趋近于零,则由于反向传播的乘法构造,神经网络中所有较浅层的参数都将接收到一个零梯度。这个特定问题被称为“梯度消失”,它可能导致最理想情况下收敛缓慢。

对于较大的值,也存在相反的问题,称为“梯度爆炸”。

回到我们对激活函数 σ(·) 的讨论,逻辑函数曾是一种流行的选择,但近年来已不再受青睐。要理解其原因,请注意逻辑函数的导数为 σ' = σ(1 - σ),因此当 σ ≈ 0 或 σ ≈ 1 时,梯度信号开始消失,这种效应被称为饱和。像修正线性单元(ReLUs)这样的修正型激活函数(Maas等 2013)在单个或两个方向上都没有有界范围,从而避免了导致梯度消失的那种饱和现象。然而,仅改变激活函数通常不足以缓解优化中的病理问题。对隐藏单元或其预激活值进行归一化也已成为常见做法(Ba等 2016, Salimans & Kingma 2016, Klambauer等 2017)。这种正则化的最流行实例被称为“批量归一化”(batch normalization)(Ioffe & Szegedy 2015)(简称 batch norm)。粗略地说,该方法将标准 z 变换 (a - μ̂)/σ̂ 应用于每个内部层的预激活值 a,其中 μ̂ 和 σ̂ 是当前训练批次在特定层上的经验均值和标准差。

2.3. 不确定性量化

鉴于神经网络中参数数量庞大,值得考虑如何量化和控制模型不确定性。到目前为止,在我们的讨论中,我们关注的是诸如随机梯度方法等框架,它们寻求参数的点估计——即,优化一个目标函数。一个显而易见的替代方案是转向贝叶斯方法,即对参数设置先验分布,获得后验分布,并利用后验预测分布进行预测


其中 x* 是一个新观测值,D 是训练集。这是一种非常有吸引力的方法,用于解决因模型欠定而带来的几乎不可避免的模型不确定性问题。然而,贝叶斯方法在深度学习(DL)中的有效实现面临两个障碍(Izmailov等,2021)。第一个障碍是为权重设置有意义的先验分布。鉴于权重缺乏可识别性,甚至缺乏语义解释,很难设置一个超越简单鼓励稀疏性或收缩性的先验。第二个主要障碍是,即使找到了一个好的先验,对于任何实际规模的神经网络,后验推断都是具有挑战性的。变分方法可以扩展到相当大的神经网络,但由于变分族通常被错误指定,因此存在固有的偏差。将马尔可夫链蒙特卡洛(MCMC)方法扩展到大型深度网络,目前仍是贝叶斯深度学习研究的一个活跃焦点(Izmailov等,2021)。

基于频率学派的推断方法也可以应用。自助法(bootstrap)可能首先浮现在脑海中,但研究表明,简单地训练一组具有不同初始化的网络,在不确定性量化方面比自助法更有效(Lakshminarayanan等,2017)。事后校准技术(Guo等,2017)也常用于纠正模型误设。第三种有前景的方法是共形预测(Shafer & Vovk 2008, Angelopoulos等,2020),它提供了构建关于真实标签(边际)覆盖率的无分布保证的工具。图4通过一个一维回归任务(在此背景下比分类更适合可视化)展示了这些推断过程的一些情况。图4比较了一个点估计的神经网络(图4a)与一个通过MCMC获得后验的贝叶斯神经网络(图4b)。图中显示了预测方差,正如预期的那样,MCMC解在数据被观测到的地方会缩小其不确定性,而在其他地方则会扩大不确定性。图4c和图4d展示了近似模型不确定性的常用策略。


尽管并不完美,变分推断(variational inference)与集成方法(ensembling)是目前为数不多能够扩展到大型神经网络的不确定性量化方法。

2.4 卷积层及其他层类型

为求简洁,我们此前仅介绍了全连接(fully connected)的权重变换方式,用于计算每一层的隐藏激活。然而,不出所料,其他多种网络架构也已被提出。其中尤为流行的一类是卷积层(convolutional layer):对于图像形式的输入,采用二维权重矩阵(称为滤波器,filters),在输入图像上进行空间卷积操作,从而保证对输入信号的平移不变性(translation invariance)。每个不同的隐藏单元各自拥有一个专属的卷积滤波器——换言之,各自对应一种特征检测器。

卷积层广泛用于目标检测任务,尤其适用于假设目标可能出现在输入图像任意位置的情形。以 MNIST 数据集为例,其中所有数字均居中放置;即便如此,若数字可能出现在图像的其他区域,那么采用卷积神经网络(CNN)便是必不可少的。尽管在 MNIST 上,良好的性能并不严格依赖平移不变性,但使用卷积神经网络仍可将测试错误率降至约 0.3%,相较之下,非卷积的前馈神经网络约为 1%,而逻辑回归广义线性模型(logistic GLM)则高达约 7.6%。

当然,其他类型的数据也需要采用不同的层结构设计。例如,我们可能希望将神经网络应用于天文学中的某项任务:将星系分类为椭圆星系、旋涡星系和不规则星系等类型。由于空间中的天体并无天然的朝向,因此在此类任务中常采用旋转等变神经网络(rotationally equivariant NNs)(Cohen 等,2018)。再举一例,对关系型数据建模时,使用图神经网络(graph NN)可显著获益(Wu 等,2020);该方法已被应用于诸多领域,包括量子化学(Gilmer 等,2017)、计算机程序合成(Allamanis 等,2017)以及蛋白质折叠(Jumper 等,2021)。

3. 序列模型

接下来,我们将注意力转向用于序列数据的深度学习(DL)模型,这扩展了上一节中讨论的前馈模型。我们主要关注对形如 y₁, ..., yₜ, ..., yₜ 的类别序列进行建模,其中 t 可以表示相对位置或时间。每个 yₜ = (yₜ₁, ..., yₜK) 是一个 K 维指示向量。从预测的角度来看,我们感兴趣的是自回归分解形式 p(y₁, ..., yₜ) = Πₜ₌₁ᵀ p(yₜ | y <ₜ),其中 p(yₜ | y<ₜ) 是在位置 t 处、基于序列历史 y<ₜ="y₁," ..., yₜ₋₁ 条件下的 k 个类别的分布。尽管下文的主要焦点是类别序列,但正如我们后文将讨论的,序列深度模型的一般思想也适用于其他序列和时间序列建模问题。< pan>

在机器学习中,类别序列建模的一个非常常见的应用是在自然语言处理(NLP)领域,其中类别代表字符或单词。在此背景下,深度学习模型被称为语言模型,近年来已彻底革新了 NLP 领域(Brown 等,2020;McClelland 等,2020)。常见的应用包括:根据前面的上下文 y <ₜ₊₁ 预测下一个字符或单词 yₜ₊₁;根据先前的上下文生成新文本 y'ₜ₊₁, y'ₜ₊₂, ...;对整段文本进行分类;或将一个句子从一种语言翻译成另一种语言。尽管针对这些任务的深度学习方法在细节上有所不同,但它们有许多共同的特点。< pan>

3.1 示例:在字符级别建模文本

为了说明序列深度学习模型中的一些基本概念,我们首先聚焦于一个相对简单的问题:学习一个能够预测英文文本中下一个字符,并能根据部分序列生成新文本的神经网络模型。对于这个问题,K 个类别对应小写和大写字母 a-z/A-Z、数字 0-9、标点符号以及各种其他符号,具体类别数通常在 K=50 到 100 之间,取决于特定模型词汇表中包含的符号种类。³ 作为下文讨论中的运行示例,我们采用由知名统计学研究者撰写的若干公开可用的 arXiv LaTeX 文件的合集作为文本来源,该数据集包含 96 个唯一字符,总长度超过 150,000 个字符。

对这类数据建模的一种简单的传统方法是使用 m 阶马尔可夫模型,其参数数量为 O(Kᵐ),在 NLP 中被称为 n-gram 模型,其中 n = m + 1。历史上,这类 n-gram 模型的变体被广泛用于文本建模(Halevy 等,2009),但在捕捉高阶依赖关系方面显然存在局限性。另一种选择是使用状态空间模型,可能配备一个实值的低维状态变量 zₜ,其动力学为关于 t 的线性高斯函数,并与

在每个位置 t 上从状态空间到类别观测的变换相耦合。然而,高斯动力学的参数化假设很可能缺乏足够的灵活性,无法有效表示自然语言序列中出现的各类依赖关系。

在这种背景下,深度学习的一项关键创新是循环神经网络(RNN)[也称为 Elman RNN (Elman 1990)] 的发展,它作为一种改进优于诸如 n-gram 这样的观测空间模型。RNN 建立在状态空间模型的概念之上,标准 RNN 的状态方程和观测方程通常定义为


其中,xₜ 是模型在位置 t 的输入,在自回归建模情境下,xₜ = yₜ₋₁(例如,前一个字符或单词),而 zₜ ∈ ℝᵇ 是一个维度为 b × 1 的隐藏状态向量。输入 xₜ 和输出 yₜ₋₁ 均为维度 K × 1 的指示向量;例如,对于上述 K=96 的字符数据集,每个向量中对应特定字符的分量值为 1,其余所有分量值为 0。一个标准惯例是将初始隐藏状态向量 z₁ 定义为全零向量,因此序列的第一个 RNN 计算单元的输入为 x₂ = y₁,隐藏状态向量为 z₂ = σ(Wx₂),输出为 p(y₂|y₁) = g⁻¹(Az₂)。

该 RNN 模型的参数是维度分别为 b × K、K × b 和 b × b 的权重矩阵 W、A 和 H。类似于前馈网络中的隐藏单元,σ(·) 是一个非线性递归激活函数(例如,logistic 或 ReLU),它赋予模型非线性动力学特性,而 g⁻¹ 是一个输出链接函数,它将隐藏(确定性)状态 zₜ 的线性变换映射到输出域(通常是一个多项式 logit,与具有类别输出的前馈模型相同)。更一般地,对于实值观测,g⁻¹ 可以映射到某个参数形式 p 的 p(yₜ | y <ₜ) 的均值,并附加一个噪声项 vₜ,这类似于标准的状态空间建模方法。< pan>

图5a 提供了在位置 t 处 RNN 状态方程和观测方程的可视化表示。RNN 与第2节中的前馈模型有一些相似之处,但关键区别在于,隐藏变量 zₜ 现在既是当前输入 xₜ 的函数,也是来自前一位置的隐藏状态变量 zₜ₋₁ 的函数,从而基于序列的历史以递归方式为当前预测提供上下文。通过在每个输入和输出之间垂直堆叠额外的隐藏递归层,可以创建图5a 中简单 RNN 单元的深层版本。


图5b 展示了一个应用于我们字符建模问题的 RNN 示例。具体而言,对于部分序列 “pred”,我们看到在每个位置,模型结合了来自前一位置的隐藏状态和观测字符,以生成当前隐藏状态,进而产生模型输出。观测数据(在此例中,是单词 “predict” 的一个子序列)显示在顶部,表示模型的真实目标输出。参数(权重矩阵)θ = W, A, H 在模型的不同位置 t 上共享。该模型的个体权重数量按 O(Kb + b²) 的规模增长,避免了诸如 n-gram 等观测层面模型的 O(Kⁿ) 参数爆炸问题——当类别数 K 很大时(例如,词级语言模型中 K ≈ O(10⁵)),即使 n 相对较小,这类模型也会变得不切实际。

一旦我们知道了 RNN 模型的参数,就可以以生成式自回归的方式使用它来模拟序列:在每个时间步 t,从当前条件分布中采样一个输出 y'ₜ,然后将其作为位置 t+1 的输入,与 zₜ 结合以生成下一个隐藏状态向量 zₜ₊₁,再从 t+1 时刻的新条件输出分布中采样 y'ₜ₊₁,依此类推。观测层面的动力学 pₜ(yₜ₊₁ | yₜ, zₜ) 并不是关于 t 的齐次函数,而是历史(由 zₜ 总结)的函数,这与(例如)固定阶马尔可夫模型不同。

3.2 估计循环神经网络的参数

图5b 中 RNN 模型的未知参数 W、A 和 H 的学习方式与深度学习前馈模型中类别输出的学习方式类似,即通过最大化一个类别条件对数似然:


该求和通常针对多个序列(例如,多个句子)进行,其中每个序列被视为条件独立于其他序列——此处为简化起见,我们将对数似然写作一个长度为 T 的单一序列。与训练前馈模型类似,正则化项通常也会被添加到对数似然中。在深度学习中,鉴于 RNN 模型通常包含大量参数,使用一阶梯度方法来训练序列深度模型也是一种常见做法。由于在许多自然语言处理应用中,模型是在海量文本数据上进行训练的——例如,整个维基百科或大规模公共网页爬取数据——这导致在模型训练过程中会使用数十亿个词,因此使用小批量的随机梯度下降(SGD)同样被广泛采用。

从图5b 我们可以看到,原则上,对数似然相关的梯度(每个参数)可以通过将相关信息从后续预测反向传播(即“随时间反向传播”)至模型的早期部分来计算(例如,参见 Jurafsky & Martin 2022, 第9章)。在实践中,为了使这种方法切实可行,长文本序列通常会被划分为多个较短的片段。然而,与前馈模型一样,在基于梯度的 RNN 模型训练中也可能出现显著的数值问题(例如,不稳定的梯度)。这促使了改进的 RNN 计算单元的发展,这些单元能对信息沿隐藏单元链传递的方式施加更直接的控制。例如,Hochreiter & Schmidhuber (1997b) 通过引入更复杂的RNN 计算单元提出了长短期记忆(LSTM)单元,该单元可以控制或门控信息向前和向后传递的数量(与图5a 中所示的标准单元相比)。除了改善 RNN 的优化特性外,LSTMs 还能提高隐藏状态表示过去序列信息的有效性。目前,深度学习中大多数现代 RNN 应用都使用 LSTM 单元或类似的门控信息思想(Cho 等,2014)。

为了说明这些概念,我们使用之前描述的 LaTeX 文本拟合了一个 RNN,该文本包含 K=96 个唯一字符和一个长度为 152,499 个字符的文本序列,隐藏层维度 b=128,并使用 SGD 优化条件对数似然。图6 展示了该模型在不同历史子序列条件下生成的条件分布的示例 [即预测]。随着序列历史的推进,RNN 能够捕捉到预测不确定性,从单词 “prediction” 开始时的高不确定性,逐渐过渡到末尾的低不确定性。


我们也可以以生成式方式从该模型中模拟字符序列,例如:


我们看到,虽然训练好的 RNN 已经捕捉到了字符依赖性的许多局部特征(包括一些 LaTeX 语法),但生成的较长文本缺乏句法和语义连贯性,读者无需担心 RNNs 很快就能撰写统计学论文。然而,随着更多训练数据的使用以及超越相对简单的 RNN 的更先进模型的出现,现代深度语言模型现在已能够生成令人惊讶地连贯的文本(Brown 等,2020)。

3.3 循环神经网络概念的推广

上述基本的 RNN 模型可以通过多种方式进行扩展和泛化。其中一种变体是输入序列 x 和输出序列 y 之间存在一对一对应关系,但它们来自不同的词汇表。例如,在自然语言处理(NLP)中,输入是一个词序列,而输出序列则对应于每个词的预测词性(名词、动词、形容词等)。另一个常见的 NLP 任务是构建一个模型,为整个序列 x₁, ..., xₜ 分配一个类别标签 y,其中训练数据由(序列,标签)对组成,例如,为一篇评论分配正面、中性或负面标签 [即情感分析问题 (Wang 等,2018)]。一个更具挑战性的 NLP 任务涉及将

一个序列映射到另一个序列,其中两个序列的长度可以不同 [也称为序列转导 (sequence transduction) (Graves 2012)]。这类序列映射问题正是诸如机器翻译(将一种语言中的句子映射到另一种语言中的句子)或自动化聊天机器人(在对话中根据人类生成的句子生成回应句)等问题的核心。针对此类问题的一种著名深度学习方法是使用两个耦合的 RNN [即序列到序列(seq-to-seq)方法 (Sutskever 等,2014)],其中一个 RNN(编码器)在 RNN 链末端生成第一个序列的隐藏表示 z,第二个 RNN(解码器)则以该编码后的表示 z 作为输入,并生成第二个(输出)序列。尽管上述各种模型的建模细节有所不同,但这些模型的训练过程在很大程度上与前文所述的标准自回归 RNN 类似:使用随机梯度方法最小化负对数似然(或其某种正则化变体),同时需密切关注与序列长度和梯度消失相关的计算及数值问题。

像 RNNs 这样的执行序列处理的模型,在记忆相关信息方面(例如,跨多个句子)可能会遇到困难。考虑对文本 “Rose lives in the Netherlands... She enjoys speaking [X],” 进行建模,其中 [X] 是待预测的词。“Netherlands” 是预测下一个词(即她讲荷兰语)的一个强线索,但对于一个模型而言,要检索该信息可能很困难,这取决于“...”部分序列包含多少内容。注意力(attention)的概念 (Bahdanau 等,2015) 旨在通过允许神经网络直接访问先前时间步的信息来打破这种依赖。然而,仅靠注意力本身并不一定能打破 RNN 计算的序列性质。为了实现并行化计算,Vaswani 等 (2017) 引入了 Transformer 模型。其核心思想是使用掩码——指示变量,允许某些输入被纳入计算,而其他输入则不被纳入——从而保留自回归结构。如物体识别所描述的常规架构设计决策同样适用,因为人们必须选择例如序列顺序、层数、层宽度等。

虽然 RNNs 和基于注意力的模型主要针对文本等类别序列开发,但这些模型背后的基本概念适用于更广泛的涉及序列和时间的预测问题。例如,RNNs 已被调整用于开发统计学家熟悉的模型,如时间序列预测 (Wang 等,2019b;Hewamalage 等,2021;Lim & Zohren 2021)、连续时间点过程 (Mei & Eisner 2017;Chen 等,2020) 以及生存分析 (Ranganath 等,2016;Wang 等,2019a)。此外,还有一系列不断增长的研究工作,致力于弥合 RNNs 与更传统的统计模型之间的差距,例如随机 RNNs (Krishnan 等,2017)、深度状态空间模型 (Rangapuram 等,2018) 以及贝叶斯 RNNs (McDermott & Wikle 2019),以及使用由神经网络参数化的常微分方程模型来处理连续时间和不规则采样时间序列的方法 (Chen 等,2018)。在这些领域,深度学习模型的发展尚未看到伴随文本数据 DL 模型发展而出现的那种预测性能上的显著提升,部分原因是许多典型应用领域(如医学、经济学和气候学)无法获得用于构建深度学习模型的海量数据。

4. 潜变量模型与图像生成

到目前为止,我们的重点一直放在监督学习上。但自神经网络研究早期以来,无监督学习就一直备受关注,其动机主要源于人工智能和认知科学领域的思想。例如,神经网络能否模仿人类从周围世界的感知信号(如音频、视觉)中学习结构的能力?作为一个具体例子,请看图7a中显示的数字图像。这些图像看起来像MNIST数据集中的图像吗?(可参考图1a)。尽管它们在视觉上与MNIST相似,但它们并非来自该数据集,而是由一个拟合了MNIST数据的神经网络生成的样本。

接下来请看图7b。这些图像并非真实人物的照片。相反,这些图像也是由一个神经网络生成的,该网络是在一个名为CelebA的名人图像数据集上训练的。这些都是深度学习中所谓的“生成式建模”的案例:其主要目标是生成新颖的样本,这些样本在外观上应足以令人信服地成为训练集的一部分。该任务类似于(非参数)密度估计,我们希望尽可能忠实地捕捉真实的分布 P(x)。正如我们将看到的,对于这类模型中的一些,我们确实可以访问一个密度估计器;而对于另一些,则无法访问。然而,通常更强调的是从模型中抽取样本的质量,因为密度估计和样本质量并不总是相关联(Theis等,2016)。

基于无监督学习的模型应用范围广泛,从降维到数据合成不等,尽管该领域内的许多兴奋点源于构建智能系统的愿望。其直觉是,如果我们的模型能够完美地捕捉训练分布,那么它们必然理解了数据。相比之下,仅执行判别功能(例如分类器)的模型则在执行一项较简单的认知任务——就像识别高质量艺术作品比创作它更容易一样。虽然统计学领域也试图构建能尽可能高保真度表示数据的模型,但一个主要区别在于,这些神经生成模型是建立在完全“数据不可知”(data agnostic)的基础上的。很少(甚至没有)会做出专门定制的建模决策,而是设计基于神经网络的模型,使其能力尽可能强大和丰富,以适应计算能力的限制。

4.1 基于自编码器的降维

为引入这一类模型,我们考虑降维(dimensionality reduction)任务:即希望学习数据的一种新表示,以去除噪声及其他无关信息。主成分分析(PCA)、流形学习(manifold learning)和聚类等,都是此类任务中广为人知且已被深入研究的方法。正如第2节中所讨论的,深度神经网络(DNNs)本质上也通过其隐藏层的学习过程完成降维。但在此情境下,降维是针对监督信号(例如类别标签)进行的,其目标是保留对预测有用的信息,而非对数据本身作一般性概括。

自编码器(autoencoder, AE),亦称“迪亚波罗网络”(diablo network)或“自联想器”(auto-associator)(Bourlard & Kamp 1988;Baldi & Hornik 1989;Cottrell 1989;Hinton & Salakhutdinov 2006),是为无监督学习与降维设计的最简单神经网络架构。自编码器的目标是:从对原始数据的一种有损表示出发,重建出原始数据本身。具体而言,该模型以一个观测值 x 为输入,计算至少一个隐藏层 h,再尝试仅根据 h 重构出原始观测 x。

含多个隐藏层的自编码器可形式化定义如下:


其中,x̃ 是输入 x 的预测重构结果。g⁻¹ 再次是一个链接函数,用于将输出映射到数据的定义域。W、b 和 σ 的定义与前馈神经网络中的相同。自编码器通过最小化 x 与 x̃ 之间的一个适当重构损失(例如,||x - x̃||)来拟合参数 W₁, ..., Wₗ。一个简单的单隐藏层自编码器的示意图可见于图8a。


尽管自编码器缺乏概率解释,但可以通过注意到在特定条件下它们等价于主成分分析(PCA)来为其提供理论基础(Baldi & Hornik 1989)。当满足以下条件时:(a) 重构误差为平方损失,(b) σ 是恒等函数,且 (c) 只有一个隐藏层,并且权重矩阵满足 W₁ = W₂ᵀ——即权重矩阵被绑定在一起——此时,自编码器执行的就是 PCA。在这种受限情况下,隐藏单元的数量作为信息瓶颈的角色是明确的:它对应于相应 PCA 中所使用的特征向量数量。

4.2 用于生成式建模的概率自编码器

如果自编码器(AE)能被赋予概率解释,那么它将既能执行降维,又能生成样本。后者对于合成数据以及向用户说明信息损失程度而言非常有用。一种为自编码器提供概率化表述的简单变体是去噪自编码器(denoising autoencoder, DAE)(Vincent 等,2008, 2010)。与直接将 x 输入第一层不同,DAE 的输入是 x 的一个扰动版本:x' ~ P(x'|x),其中 P(x'|x) 是噪声模型。高斯噪声就是一个例子:x' ~ N(x, Σ)。Bengio 等(2013b)表明,DAE 可以被解释为一个转移算子,它生成一个遍历性的马尔可夫链,该链的渐近分布即为数据生成分布 P(x)。Vincent (2011) 还通过分数匹配(score matching)提供了另一种概率解释。

更直接的概率解释可以通过将类似自编码器的架构视为潜变量模型来获得。这一方向上最早的工作是密度网络(density network)(MacKay & Gibbs 1999),可以将其视为一种非线性因子分析,其中神经网络作为非线性部分(McDonald 1962; Yalcin & Amemiya 2001)。MacKay & Gibbs (1999) 定义了一个潜变量 z,并假设数据由一个由神经网络参数化的条件分布生成:

其中 p(z) 表示潜变量的先验分布。一个具有 L 层参数 W = {W₁, ..., Wₗ} 的神经网络以 z 为输入,输出条件分布的均值。MacKay & Gibbs (1999) 使用重要性抽样(importance sampling)来估计边际似然 p(x; W) = ∫zp(x|z; W)p(z)dz,并以此目标拟合神经网络权重。

然而,MacKay & Gibbs (1999) 的方法无法扩展到大型神经网络。这类模型一度失宠,直到 Kingma & Welling (2014) 和 Rezende 等 (2014) 注意到,神经网络也可用于对潜变量进行推断,并且整个架构可以通过端到端微分进行训练。这一洞见催生了一种统一的模型,称为变分自编码器(variational autoencoder, VAE)。其核心思想是定义一个推断网络,以形成后验近似:

其中 φ(x) 是后验近似的参数(作为给定 x 的函数),U₁, ..., Uₗ 是推断神经网络的参数。两个网络(生成网络和推断网络)均可使用重参数化随机证据下界(reparameterized stochastic evidence lower bound)同时进行训练:


其中,s 索引蒙特卡洛期望中的样本,KLD[q(z; φ)||p(z)] 表示近似后验分布与先验分布之间的 Kullback-Leibler 散度。最关键的是,r(ε; φ(x)) 代表一种重参数化方法,它允许我们通过一个固定的分布 q(ε) 从 q(z; φ(x)) 中抽取样本。此类函数的一个例子是正态分布的位置-尺度形式:ẑ = r(ê; μφ(x), σφ(x)) = μφ(x) + σφ(x) ⊙ ê,其中 ê ~ N(0, 1)。另一个例子是使用 q(z) 的累积分布函数(CDF)进行逆变换抽样。以这种方式表示随机变量 z 使得端到端微分成为可能,因为我们现在可以访问关于推断网络参数的偏导数:∂ẑ/∂Uᵢ = (∂ẑ/∂φ)(∂φ/∂b'ₗ)...(∂b'ᵢ/∂Uᵢ)。图8b 展示了 VAE 的结构图,其中推断网络和生成网络通过 r(ê; φ(x)) 组合在一起。当将推断过程和生成过程视为一个统一的计算管道时,所得到的结构类似于传统的自编码器(AE),这也是 VAE 得名的原因。VAE 是最早展示出能够生成高保真样本能力的现代生成模型之一,如图7a 所示。VAE 也可以执行密度估计,但仅能通过蒙特卡洛积分实现近似。


4.3 其他类型的神经生成模型

目前已发展出多种其他深度生成模型,我们在此简要概述其中几类。

其中最受欢迎的一种是生成对抗网络(Generative Adversarial Network, GAN)(Goodfellow 等,2014)。

GANs 将密度建模任务重新表述为一个对抗性博弈,其中生成器神经网络(generator NN)试图模拟数据,使得判别器神经网络(discriminator NN)无法区分生成的样本与真实观测样本。其基本假设是:如果判别器无法区分两者,则生成器必定是一个良好的数据模型。该概念在精神上类似于近似贝叶斯计算(ABC)(Rubin 1984),后者通过某种统计量或度量将模拟数据与观测数据进行比较,并保留那些生成模拟的参数——前提是该统计量在某个阈值之内。在 GANs 中,判别器充当了比较虚假数据与真实数据的度量工具。ABC 与 GANs 的主要区别在于,GANs 是通过对对抗过程进行微分训练的,将其视为一个优化目标。Mohamed & Lakshminarayanan (2017) 从一个广义框架的角度讨论了 GANs,展示了各种适当的评分规则可导致有效的判别器。GAN 框架也可用于模型参数的近似推断(Mescheder 等,2017;Tran 等,2017),尽管由于 GANs 无法提供密度估计,使其用于推断变得困难。



5. 深度学习研究前沿的若干选题

以上综述涵盖了深度学习(DL)中一些较为成熟确立的方面。在本文的最后一节中,我们将讨论深度学习中若干涉及开放性研究问题的课题,这些课题可能对统计学者尤为相关。

5.1 深度学习理论

尝试从理论上刻画深度神经网络(DNNs)的工作,主要聚焦于以下三个方面:其表达能力(expressive power)、优化景观(optimization landscape)的特性,以及其对未见数据的泛化能力(generalization ability)。

关于表达能力,Cybenko(1989)曾证明:采用S型(sigmoidal)激活函数的网络架构具有万能近似(universal approximation)性质。然而,这类近似结果可能要求神经网络拥有指数级数量的隐藏单元;近年来,研究者们正尝试刻画实现特定近似精度所需的深度(Yarotsky, 2017)与宽度(Lu 等,2017)。此外,还有平行方向的研究致力于理解深层网络与浅层网络所能表示的函数类之间的差异。例如,Baldi & Vershynin(2019)与 Eldan & Shamir(2016)等人的结果表明:相较于浅层网络,深层网络所能表示的函数总量可能更少,但其函数结构更复杂、更“高级”。

尽管DNNs作为万能近似器的性质早已被证实,但该结论并不保证通过随机梯度下降(SGD)这一优化方法所能实际到达的函数类别。因此,对DNN优化景观的研究引起了广泛兴趣。多年来,人们曾担忧神经网络优化会不可避免地陷入大量局部极小值(Cheng & Titterington, 1994)。然而,随着近期研究提出一种观点——即损失曲面的临界点主要由鞍点(saddle points)而非局部极小值构成(Dauphin 等,2014;Kawaguchi, 2016)——这一担忧在一定程度上得以缓解。其直觉依据在于:要构成一个真正的局部极小值,优化曲面需在所有维度上同时上升,这在高维空间中极不可能;相比之下,鞍点则更为常见。因此,如何高效逃离鞍点成为研究重点(Jin 等,2017)。

除对临界点进行分类外,极小值本身的性质也备受关注——尤其是极小值是平坦宽阔型(wide and flat)还是陡峭狭窄型(narrow and sharp)(Hochreiter & Schmidhuber, 1997a;Keskar 等,2017)。其背后直觉是:平坦极小值区域对应着一大片在性能上近似等价的参数集合,因此更可能对新数据具有良好泛化能力。

最后,理解DNN泛化性能之“谜”仍是当前极为活跃的研究课题:尽管DNN作为模型具有强大表达能力,并可通过优化拟合复杂函数,但它们如何避免过拟合?传统通过参数数量计数(如信息准则)来衡量模型复杂度的方法,在判断神经网络是否过拟合训练集时明显失效。事实上,经典的偏差–方差权衡在神经网络中已被证实不再成立。最新研究表明,存在一种双下降(double descent)曲线现象:考虑将一个深度网络的泛化误差(测试误差)绘制成模型复杂度(例如参数总数)的函数。当模型复杂度增加时(x轴),泛化误差(y轴)起初呈现预期的偏差–方差U形曲线(欠拟合→最佳拟合→过拟合)。然而,一旦模型复杂度达到足以完全插值(interpolate)训练数据的程度(即训练误差为零),泛化误差反而可能再次下降(故称“双下降”),并可降至最低点——此时最优模型(按泛化误差衡量)的参数数量远超训练样本数。

此类现象过去在过参数化模型中已有观察(Duin, 2000);当前,“双下降”已成为深度学习领域一个极为活跃的研究方向(Belkin 等,2020;Nakkiran 等,2021;Viering & Loog, 2021)。尽管如此,理论进展(毫不意外地)仍主要集中于更简单的非神经模型上(Hastie 等,2022;Bartlett 等,2020;Mei & Montanari, 2022)。

5.2 可解释性、因果性、公平性与可信性

深度神经网络(DNNs)常被批评是“黑箱”(black boxes)。典型DNN的复杂性使得人们难以理解其预测机制、难以判断其在何时或为何表现不佳,以及难以厘清模型所隐含的假设(Lipton, 2018)。近期关于可解释性(interpretability)的研究(Doshi-Velez & Kim, 2017;Guidotti 等, 2018)大体可归为三个主要方向:

  1. 开发理解既有架构的方法
  2. 设计结构上更易解释的模型
  3. 设计探究影响模型拟合之数据模式的方法

作为第一类的例证,可通过考察神经网络输出对其输入特征的梯度,来理解各特征对预测的重要性(Simonyan 等, 2014)。第二类的一个例子是,用决策树近似神经网络所编码的知识,以期同时获得前者的预测能力与后者的可解释性(Letham 等, 2015)。第三类中,Aamodt & Plaza(1994)与 Kim 等(2016)利用统计工具开展模型批评(model criticism),以发现未被典型样例解释的数据模式,从而揭示输入空间中缺乏良好解释的区域。

与可解释性密切相关的是因果推断(causal inference)(Pearl, 2009)。由于因果推断依赖于灵活的函数逼近能力,深度学习为现有半参数推断框架提供了极具吸引力的工具箱。例如,在潜在结果(potential outcomes)框架下,Shi 等(2019)提出一种用于估计处理效应(treatment effects)的神经网络;在结构方程框架下,Xia 等(2021)提出了基于神经网络的结构因果模型。展望未来,Schölkopf 等(2021)强调了若干发展方向,包括利用神经网络的表示学习能力,从低层次观测中识别高层次因果变量。

深度学习模型的公平性(fairness)也引发广泛关注,其目标在于确保决策过程中的非歧视性、正当程序与可理解性(Zemel 等, 2013;Mehrabi 等, 2021)。政策制定者、监管机构与权益倡导者已对机器学习可能带来的歧视性影响表达了担忧,并呼吁加强技术研究,以防范在自动化决策中无意嵌入偏见。近期工作倾向于在因果推断框架下形式化公平性问题(Kusner 等, 2017):例如,将模型公平性评估转化为对反事实的推理——如若被预测个体的种族或性别不同,分类器的预测结果会如何变化?

对深度学习尤为相关的是偏差(bias)问题,即因某些人口群体在训练数据中代表性不足,导致模型预测出现系统性差异。鉴于图像与文本领域的深度学习模型通常基于数百万甚至数十亿样本训练,此类偏差可能隐含于数据集中,难以察觉与消除,由此催生了对深度学习去偏方法(debiasing methodologies)的近期研究兴趣(Savani 等, 2020)。此外,差分隐私(differential privacy)(Dwork, 2011)与差分公平性(differential fairness)(Foulds 等, 2020)的概念亦具相关性——二者分别旨在约束单个数据点或特征对模型拟合结果的影响上限。

由于DNN绝大多数用于参数化条件分布,人们更深切担忧的是:模型是否仅接收“适当”的输入——即与原始训练集同分布的输入。自1990年代初起,神经网络的验证(verification,亦称 validation)已受到关注(Bishop, 1994);该问题的主流方法多采用可满足性(satisfiability)视角(Zakrzewski, 2001),以证明DNN的误差是有界的。另一类方法则致力于在输入特征空间的特定区域内,为模型的鲁棒性(robustness)——通常表现为类别预测的不变性——提供理论保证(Wong & Kolter, 2018;Zhang 等, 2019)。此类工作对抵御对抗样本(adversarial examples)尤为关键:对抗样本指人为设计的、微小(常不可察觉)的输入扰动,其意图是导致模型做出错误预测(Goodfellow 等, 2015)。

另一个流行趋势是:向模型暴露与训练集差异显著的样本,并优化模型,使其在此类样本上的预测分布具有高熵(即高度不确定性),以此增强模型对外分布(out-of-distribution)输入的识别能力(Malinin & Gales, 2018;Hafner 等, 2019;Hendrycks 等, 2019)。

5.3 层级建模与元学习

如同在统计学中(例如贝叶斯层级建模),发展层级建模框架(hierarchical modeling frameworks)——即允许跨数据集与子任务共享知识与统计信息强度的框架——也是深度学习(DL)中一个活跃的研究方向。鉴于神经网络本质上只是非线性函数,它们可通过如下方式被整合进贝叶斯层级建模:用神经网络将某一层次的随机变量参数化为更高层次随机变量的函数。我们在第4.2节中讨论的变分自编码器(VAE)或许是这一思想最简单的实例。Johnson 等(2016)进一步拓展了该思路,使得可利用一般图结构来定义潜变量。

深度学习中的元学习(meta-learning)(Finn, 2018)与学会学习(learning to learn)(Heskes, 2000;Andrychowicz 等, 2016)概念,虽与统计学中的层级建模联系尚不够严格,但仍具有相似之处。以其中一种变体为例:情景式元学习(episodic meta-learning)(Lake 等, 2015;Santoro 等, 2016;Finn 等, 2017;Ravi & Larochelle, 2017),其目标是定义并估计一类模型,使其能泛化到多个任务上——包括数据极少的任务,或不同于训练任务(但仍存在某些概念重叠)的新任务。元学习方法通常采用任务特异性模型,而这些专用模型通过某种参数绑定机制实现跨任务的信息共享。生成此类任务特异性模型的一种途径是使用超网络(hypernetwork)(Ha 等, 2017):即一个神经网络,其输出是另一个神经网络的参数。

6. 结论

在对深度学习的简要巡览中,我们介绍了前馈、序列与无监督架构的基础知识。尽管具体技术细节必将随时间演进,但只要预测是核心任务、且需借助多层次表示从数据中提取信号,深度学习就将持续蓬勃发展。

尽管已取得巨大成功,深度学习仍需进一步创新,以满足现代应用场景对可解释性、不确定性量化、可靠性与安全性等方面的严苛要求。从自动驾驶、金融到医疗健康,统计学中那些经受检验的方法——如模型验证与模型批评——在确保深度学习模型可信部署过程中,很可能发挥关键作用。

鉴于深度学习在模型规模与数据规模上已达到统计学尚未普遍应对的新高度,统计学界正迎来一个自我丰富与拓展的契机——通过直面这些新兴挑战,推动学科前沿发展。我们希望本文能促进相关讨论,在统计学、数据科学与深度学习的交叉地带催生新的创新。

原文: https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哥伦比亚加强总统佩特罗安全保护

哥伦比亚加强总统佩特罗安全保护

国际在线
2026-01-04 16:31:11
“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

每日经济新闻
2026-01-04 01:17:06
亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

田先生篮球
2026-01-04 10:28:43
长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

江山挥笔
2026-01-04 16:28:59
新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

知社学术圈
2026-01-04 15:47:09
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
这代人,不想急了

这代人,不想急了

虎嗅APP
2025-12-31 20:06:51
演都不演了!田朴珺删光合影,怒斥对方自私,王石彻底成“笑话”

演都不演了!田朴珺删光合影,怒斥对方自私,王石彻底成“笑话”

查尔菲的笔记
2026-01-04 15:08:02
委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

红星新闻
2026-01-04 17:57:14
抓获马杜罗的美军三角洲部队什么来头?主要执行突袭、抓捕、营救人质等短期、小规模高强度作战任务,组织架构、人员等信息属绝密

抓获马杜罗的美军三角洲部队什么来头?主要执行突袭、抓捕、营救人质等短期、小规模高强度作战任务,组织架构、人员等信息属绝密

扬子晚报
2026-01-04 17:45:18
打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

财话连篇
2026-01-04 17:16:33
见完中国特使不到24小时,马杜罗被美国强掳,拉美局势即将右转?

见完中国特使不到24小时,马杜罗被美国强掳,拉美局势即将右转?

邱震海
2026-01-04 17:26:40
42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

车窗起雾q
2026-01-04 11:37:31
韩国第一夫人刚到北京就把人美到!穿宝蓝色大衣挽着李在明,真甜

韩国第一夫人刚到北京就把人美到!穿宝蓝色大衣挽着李在明,真甜

时尚丽人风行
2026-01-04 16:42:22
双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

红星新闻
2026-01-04 19:54:28
《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

育儿读书乐
2026-01-03 13:24:01
“i茅台”连续4天秒空,茅台批发价再度跌破1499元

“i茅台”连续4天秒空,茅台批发价再度跌破1499元

第一财经资讯
2026-01-04 10:48:26
中俄先进武器为何失灵?委内瑞拉事件揭开现代战争核心逻辑

中俄先进武器为何失灵?委内瑞拉事件揭开现代战争核心逻辑

创作者_b3jm
2026-01-03 22:47:03
神秘账户精准押注“马杜罗被抓”,一天狂赚超1200%

神秘账户精准押注“马杜罗被抓”,一天狂赚超1200%

都市快报橙柿互动
2026-01-04 16:20:19
被绑走后,马杜罗援兵终于赶到,15国召开会议,美方妄想赚中国钱

被绑走后,马杜罗援兵终于赶到,15国召开会议,美方妄想赚中国钱

时时有聊
2026-01-04 19:56:39
2026-01-04 21:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1126文章数 18关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

中企在拉美花22个月建成的铜矿无法投产:总统换人了

头条要闻

中企在拉美花22个月建成的铜矿无法投产:总统换人了

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

手机
旅游
亲子
艺术
公开课

手机要闻

荣耀Magic8 Air曝光:大R角+eSIM,性能、外围拉满!

旅游要闻

井冈山2026年元旦文旅活动亮点纷呈

亲子要闻

给婴儿喂安眠药后续:月嫂单位被扒,黑幕曝光,孩子状态让人担忧

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版