Estimation of Over-parameterized Models from an Auto-Modeling Perspective2206.01824v5
从自动建模角度估计过参数化模型
https://www.tandfonline.com/doi/full/10.1080/01621459.2025.2455192?af=R
https://arxiv.org/abs/2206.01824v5
![]()
![]()
摘要
从模型构建的角度出发,我们提出了一种新的范式来拟合过参数化模型。在哲学层面上,这种思维方式旨在将模型拟合到未来的观测数据,而非仅仅局限于已观察到的样本。在技术层面,给定一种生成未来观测数据的插补方法,我们通过优化基于样本对应值和自适应对偶函数的期望损失函数的近似值,来将过参数化模型拟合到这些未来观测数据上。所需的插补方法也是使用相同的估计技术开发的,结合了自适应的m-out-of-n自助法。我们通过多正态均值问题、n < p的线性回归以及基于神经网络的MNIST数字图像分类来展示其应用。数值结果证明了其在这些多样化应用中的卓越性能。尽管本文主要是阐述性的,但它对相关理论方面进行了深入探讨,并在最后对一些开放性问题进行了评论。
关键词:自助法、交叉验证、未来观测、图像分类、重采样
1 引言
过参数化模型(如神经网络)在统计分析中发挥着至关重要的作用。其主要优势在于能够灵活且高效地近似各种结构中的非线性函数。然而,过参数化模型的应用也面临一些挑战(参见Nalisnick等,2019)。主要挑战出现在模型估计过程中,通常涉及基于观测数据最小化损失函数(Vapnik,1991)。在这种情况下,模型在观测数据上表现出的看似乐观的性能往往无法推广到总体数据,导致众所周知的过拟合问题,这是由于泛化差距的存在而产生的。过拟合问题也是定义过参数化的主要特征之一(参见Oneto等,2023)。
传统上,为了提高过参数化模型的有效性并缓解其相关挑战,预测导向的模型选择是必不可少的。预测方法的实现通常基于交叉验证这一简单而有效的思想,关键参考文献包括Stone(1974,1977)、Geisser(1975)以及Efron和Tibshirani(1994,第255页及相关参考文献)。在现代机器学习时代,正则化技术(Bühlmann和Van De Geer,2011)通常用于校准,通过使过参数化模型“更简单”来防止过拟合。正则化过程通常涉及选择超参数,这使得模型选择本质上成为超参数优化的任务。
尽管当前拟合过参数化模型的框架简单且总体有效,但它仍存在一些局限性。首先,模型估计和模型选择的过程是分离的。这种分离通常需要限制候选模型的数量以确保计算可行性。例如,在L1惩罚模型中,通常采用网格搜索方法来探索有限的超参数值范围(以下用λ表示)。这种方法可能导致估计模型的不一致性,这种不一致性源于候选集选择的变化。其次,超参数调优过程可能无法很好地适应观测数据。例如,在K折交叉验证等方法中,相同的调优超参数被用于K个模型,每个模型基于不同的观测数据拟合,最终模型则使用完整的观测数据(参见Tibshirani和Tibshirani,2009及相关参考文献)。此外,最近的研究(如Bates等,2024)指出了交叉验证的问题,表明其可能无法充分估计预测误差。更重要的是,当使用高维超参数以充分发挥过参数化模型的潜力时,似乎需要新的方法。
在此,我们从模型构建的角度出发,提出了一种新的框架——自动建模(Auto-Modeling,AM),用于估计过参数化模型。在哲学层面上,这种思维方式旨在将模型拟合到未来的观测数据,而非仅仅局限于已观察到的样本。在技术层面,给定一种生成未来观测数据的插补方法,我们通过优化期望损失函数的近似值,将过参数化模型拟合到这些未来观测数据上。这种优化基于经验对应值和一个自适应对偶函数,该函数通过可估计的超参数扩展了惩罚函数。所需的插补方法也是使用相同的估计技术开发的,结合了自适应的m-out-of-n自助法。
所提出的估计框架本身似乎适用于使用自助法(bootstrap methods)创建填补模型,其中自助总体(bootstrap population)用作未来观测,而自助样本(bootstrap samples)用作观测数据。然而,由于标准的“n中取n”自助法在高维问题中存在困难(参见Jiang等人,2024年,以及其中的参考文献),我们采用了一种基于自适应“m中取n”自助法的填补方法。值得注意的是,所提出的最终估计方法是一种真正的在过度参数化背景下结合基于重采样的结果的方法;详见注释2。
自适应方法(AM)通过多种应用进行了说明,包括多正态均值问题、n
在本文的其余部分,我们在第2节全面探讨了所提出的AM框架。第3节讨论了所需的数值算法。第4节提供了相关的理论结果。第5节给出了该方法在三个不同示例中的应用。第6节以一些总结性评论作为结尾。
总体框架
2.1 研究背景
因此,为了实现最佳预测,我们的主要估计目标是找到某个 θ 属于 Θ(n)。
值得注意的是,集合包含了那些通过Kullback-Leibler(KL)散度(Lehmann, 1983;Pardo, 2018)衡量与真实总体 P 最接近的模型。从学习理论中的总体风险最小化角度来看,类似的观念在Vapnik(1991)中也有讨论。
2.2 一种新的模型估计方法
设 表示由样本 定义的经验分布。作为式(3)的经验对应物,该方法被称为经验风险最小化(Empirical Risk Minimization, ERM)。ERM旨在找到 θ^ERM,以最小化经验损失 。然而,对于过度参数化的模型,ERM存在泛化差距。为了减少泛化误差,ERM通过所谓的正则化技术进行了改进。Bühlmann和Van De Geer(2011)对正则化技术进行了全面综述。
正如第1节所详细阐述的,现有的框架(如ERM)可能存在某些局限性。这促使我们寻找一种近似解来解决
![]()
在第3节中提出了一个有效的迭代算法,用于寻找解 。关于 的理论性质的进一步讨论在第4节中给出。关于公式(8)相对于标准正则化的效率的详细讨论在补充材料S.8中给出。
此外,我们框架中的对偶函数并不局限于具有封闭形式的惩罚函数;例如,它可以与模型结构相关。在补充材料S.13中提供了一个涉及树模型的示例。在这些情况下,使用网格搜索方法来确定对偶参数 λ 仍然是必要的,并且开发能够处理高维参数的方法变得至关重要。
由于在实践中无法获得 P,我们用一个填补的总体 Q 来近似它。这导致了以下用于模型参数 θ 的点估计的算法。
在第2.3节中提出了一种填补方法,通过应用相同的估计方法来创建这样一个填补总体 Q,其中所需的 是通过K折数据分割和自适应“m中取n”自助法重采样获得的。
2.3 通过数据分割和自适应重采样进行填补
在本文中,我们主要关注在给定观测协变量 X=x 的情况下对 Y 的填补。更具体地说,我们通过多重填补生成未来的观测值。
![]()
![]()
![]()
![]()
以一种简单高效的方式检验条件(12),引导我们使用Kolmogorov–Smirnov检验(KS检验,Massey(1951);亦可参见Liu(2023))来评估填补模型的有效性。具体而言,通过KS检验比较(12)中概述的填补分布与标准均匀分布所得到的p值,作为衡量有效性的指标。这种衡量反过来又成为选择合适的重采样方案来估计填补模型的关键指导。
正如Bickel和Sakov(2008)以及Jiang等人(2024)所研究的那样,通过自适应选择重采样数据量m(允许重复),“m中取n”自助法可以成为捕捉参数估计不确定性的有力工具,尤其是在高维设置中。在AM的背景下,m的值对于调节“我们对未来总体的了解程度”至关重要。m值越小,预期的不确定性就越大。更具体地说,我们考虑设置m=⌈α~n~⌉,其中α~是用于控制重采样数据量的比例,从而影响填补模型实现(12)的有效性。通过第5节中讨论的应用示例展示了不同m值对这种有效性的影响。进一步的说明在补充材料S.7.1中提供。基于目标(12),以下算法提供了一种高效且直接的方法,使用一个小的候选集来选择α~。在我们的实验中,只要候选集覆盖了合理的范围(例如,从0.2到1.5),结果就被证明对候选集的网格密度具有鲁棒性。补充材料S.7.2中通过较大的p值以及相应的分位数-分位数(Q-Q)图进一步支持了算法3,这些结果表明对(12)的有效近似,从而实现了令人满意的填补。
![]()
一旦获得令人满意的α~,就可以轻松应用算法2来估计填补模型并生成未来的观测值,只需选择重采样方案r(⋅)为“m中取n”自助法,其中m=⌈α~n⌉。关于标准自助法填补方法(固定m=n)的局限性的讨论,见补充材料S.9。
为了清晰起见,所提出框架的主要组成部分的图形化表示在图1中给出。一个简单的示例在补充材料S.1中提供。AM的清晰性和计算效率在以下注释中进一步阐述。
![]()
注释2.估计过程(算法1)也可以被看作是将各个填补模型组合成一个单一模型,类似于自助法(bootstrap)和贝叶斯平均。这种方法特别适用于过度参数化的模型,其中自助法和类似贝叶斯平均的有效性是值得怀疑的。
注释3.所提出的填补方法在概念上与现有的集成技术相似,特别是Bagging和Stacking,这些技术在统计学和机器学习领域已经得到了广泛认可(Breiman, 1996; Wolpert, 1992)。然而,与集成方法不同,我们的方法是基于统计建模的动机,并且只保留一个模型。由于这一关键区别,我们的方法在模型的解释和推断方面都具有显著的优势。
注释4.填补和估计方案在计算上是高效的,并且不会超过通常与广泛使用的交叉验证框架相关的计算成本。第3节中高效的数值方法确保了拟合一个AM模型的计算复杂度与固定超参数的标准模型估计程序相当,这些程序通常用于交叉验证。鉴于这种效率,整个AM填补-估计过程,包括算法1、2和3,在计算上与在(B−1)+|α~|种不同的超参数组合上进行K折交叉验证是一致的。这里,|α~|表示在算法3中使用的候选α~值的数量。值得注意的是,在实践中,我们有B+|α~|≤10。B−1这一项的出现是因为通过算法3选择α~本质上产生了一个用于生成未来观测的填补模型。在第5节中的神经网络模型示例中,在同一台个人电脑上运行,AM在B+|α~|=9的情况下大约需要18分钟,而使用交叉验证调整一组6个超参数大约需要10分钟,这反映了与理论分析接近的相对计算成本。此外,与交叉验证类似,AM可以很容易地并行化。AM框架相对于交叉验证的另一个显著的计算优势是其适用于估计极大型模型。在这种情况下,AM框架允许使用计算资源需求较低但仍然有效的模型进行填补,与交叉验证相比,显著降低了总体计算成本。
3 数值优化方法
在本节中,我们为AM估计器开发高效的数值优化算法。为了便于分析,我们假设损失函数和对偶函数的正则性条件均已满足,具体细节见补充材料S.2.1。由于填补步骤(通过算法2和3实现)和估计步骤(通过算法1实现)涉及相同的优化问题,因此本节将重点关注估计步骤。具体而言,我们的目标是求解
![]()
![]()
![]()
![]()
可以开发出许多算法4的变体。例如,通过将 θ 和 λ 的更新步骤替换为随机梯度下降(SGD)更新或ADAM更新(Kingma和Ba,2014),可以轻松获得算法4的随机变体,即随机坐标下降算法。这种变体在第5.3节的神经网络应用中被使用。在本文的所有数值示例中,算法4及其变体都产生了令人满意的收敛结果。这些数值方法的形式化理论性质将在其他地方报告。
4 理论考虑
4.1 模型有效性与估计有效性
现代过度参数化模型在大数据中的成功应用,使我们相信,考虑样本量增加的建模过程以及引入关于潜在建模策略的新有效性概念(或许更准确地说是有效性)是十分重要的。正是在这一背景下,我们在本节中制定了有效性的数学定义,以确保第4.2节中呈现的结果清晰明确;有关类似观点,请参阅注释1。
使用Kullback-Leibler(KL)散度,记为 DKL(⋅,⋅),我们通过模型误差来衡量模型 {Pθ:θ∈Θ(n)} 的最优效率。
![]()
从概念上讲,定义1放宽了通常用于建立模型渐近“正确性”的关于模型精确正确设定的规范假设,该假设通常适用于任何有限样本量。以下的命题1和命题2将说明这种模型有效性的定义与传统统计假设之间的关系。首先,我们引入模型一般性的概念,供后续参考。
![]()
![]()
![]()
命题3的证明在补充材料S.2.2中给出。根据上述定义,可以得出结论:使用有效的模型(定义1)进行有效的估计(定义3)会导致在Kullback-Leibler散度意义上渐近的“正确性”,即 。
4.2 AM的估计有效性
在这里,我们证明在温和的条件下,所提出的AM估计器根据定义3是有效的。需要注意的是,AM的目标函数(8)涉及两个分布:一个用于未来总体,另一个用于经验分布。在第2.2节和第2.3节中介绍的AM填补-估计方案需要使用不同的数据样本分别代表这两个分布。为了简化,使用修改后的符号,我们定义AM算子 Aθ:Pfut×Pemp→Rp,其中 Pfut 表示未来总体,而 Pemp 表示经验分布。该算子通过求解(8)得到一个向量,表示估计的参数。利用这些简化的符号,AM填补-估计框架在图2中进行了说明。为了便于理论分析,假设每个优化过程,如由AM算子 Aθ 表示的,都能给出其目标函数的全局最优解。与其他模型估计方法类似,追求AM目标函数的全局最优解取决于数值优化算法,特别是优化器。然而,这一方面超出了我们当前讨论的范围。
![]()
![]()
![]()
5 应用
5.1 多正态均值的同时估计
![]()
![]()
重要的是要注意,在这种情况下,设定 λ2=⋯=λl 会将对偶函数简化为 π(θ,λ)=λ(ηl−η1),其中 λ≥0。显然,这种简化形式并不理想,因为它为参数估计提供了更少的灵活性;详见第6节。这表明,对于低维超参数调整可行的网格搜索方法的交叉验证(CV)在这种模型设定下会失败。针对这一问题的AM框架的技术和实现细节在补充材料S.4中提供。
利用估计的参数 ,给定 yi 时 μi 的后验均值被用作 μi 的点估计值,即 。均值预测误差(Mean Prediction Error, MPE),相当于平均总平方误差,计算公式为 。
需要注意的是,尽管 g-建模将 η1,…,ηl 视为固定值,这主要是为了计算上的可行性。理论上,通过允许节点密度趋近于无穷大,g-建模可以实现与我们提出的建模方法相同的灵活性。然而,正如补充材料S.10.4所展示的,将节点密度增加到必要水平以上并不会带来性能提升。因此,在本节中,我们展示的是具有最优足够节点密度的 g-建模的结果。
除了 g-建模外,我们还考虑了狄利克雷过程混合模型(Dirichlet Process Mixture Models, DPMM,Li等人,2019;Ross和Markwick,2023)、经典的最大似然估计器(Maximum Likelihood Estimator, MLE),以及James-Stein估计器。
![]()
在所有模拟研究中,考虑了三种不同的样本量,分别为 n=10,20, 和 50。对于每种情况,生成了 M=500 个数据集。最大似然估计(MLE)、James-Stein(JS)估计器、多重收缩James-Stein(MJS)估计器、狄利克雷过程混合模型(DPMM)、g-建模和AM方法被应用于每个数据集,并计算了均值预测误差(MPE)。在 M 个数据集中,对相应的估计值取MPE的平均值。对于AM方法,我们将未知点的数量设置为 l=n,并使用算法2进行填补,其中 B=5 和 K=5,而重采样参数 由算法3选择。
![]()
表1总结的结果表明,尽管狄利克雷过程混合模型(DPMM)在最初的、较为简单的例子中优于AM,但在更具挑战性的两个例子中,AM超越了所有其他方法,包括DPMM。这些结果展示了AM在多正态均值问题中捕捉复杂数据生成结构的能力。在这些具有挑战性的场景中,AM优于g-建模和DPMM的表现,也表明了当应用类似的模型结构时,AM具有较高的估计效率。关于底层 μ 不遵循正态分布的情况的额外数值结果在补充材料S.10.6中提供。
5.2 The n < p Linear Regression
![]()
![]()
![]()
![]()
![]()
结果总结在表2和表3中。我们可以看到,无论使用哪种对偶函数,AM在均方误差(ME)方面都显著优于所有其他方法。
![]()
此外,AM在所有设置下均能以95%的水平提供令人满意的预测区间覆盖范围,而所有其他方法均显示出显著的覆盖不足。
5.3 神经网络在图像分类中的应用
为了将所提出的方法应用于神经网络模型,我们考虑了使用著名的MNIST数据集(LeCun等人,1998)进行图像分类的数值示例。MNIST数据库是一个包含手写数字的大型数据库,通常用于训练各种图像处理系统。训练样本和测试样本的大小分别为60,000和10,000。对于每个手写数字(0-9),图像大小为28×28像素,像素值以0到255的灰度级测量。因此,对于每个观测值,xi 表示图像,而 yi 表示标签或数字。分类问题是根据 xi 预测 yi。
AM的填补-估计方案(在第2.3节中提出,并在此示例中应用)为了更清晰起见,这里简要总结如下。填补过程(算法2)涉及估计能够为训练数字图像预测新标签的模型。这些训练图像及其新预测的标签构成了最终估计过程中(使用算法1)使用的填补未来观测值。从概念上讲,数据集中的每张图像都与多个可能不同的标签相关联,这有助于有效防止模型过度拟合单一标签。
为了研究所提出方法的效率,使用了两种不同的神经网络结构。第一种结构是一个具有两个全连接层的前馈神经网络。两个隐藏层的节点数分别选择为400、800和1600。最后一层使用多变量逻辑链接,并返回10个标签的概率。这种经典结构通常用于文献中评估模型训练策略。第二种结构描述于Jarrett等人(2009)中。它是通过将卷积神经网络(CNN)特征提取器的输出作为第一种结构的输入获得的。特征提取器由两个卷积层构成,分别具有32和64个通道,每个卷积层后面都跟有一个2×2的最大池化层。每个CNN层的滤波器大小选择为5×5,全连接层中的隐藏节点数选择为200。所有结构中均使用了修正线性单元(ReLU)激活函数。
对于每个模型,将模型中所有可训练的参数表示为 θ1,…,θp。AM的对偶函数被定义为L1和L2惩罚函数的对应物。
![]()
为了与其他方法进行比较,我们在完整的数据集上训练了相同的模型结构,并使用了固定的标量(或未加权)惩罚项,这些在神经网络训练中被广泛使用。我们记录了在合理范围内的惩罚值所得到的最佳结果。此外,我们还结合了早停技术(Early Stopping)和广泛使用的Dropout方法。为了将我们框架的有效性与加权对偶函数的影响区分开来,我们进行了额外的估计过程。在这个过程中,我们通过在公式(21)中设置 λ1=⋯=λp 来消除这一混杂因素,从而创建了我们所称的未加权对偶函数。
![]()
所有方法使用四种不同模型的测试误差结果在表4中呈现。使用AM时可以看到显著的性能提升。值得注意的是,AM的性能超过了Dropconnect(Mobiny等人,2021;Wan等人,2013),这是一种当前最先进的正则化技术,其模型结构与Wan等人(2013)和Mobiny等人(2021)中报告的相同。与他们的方法相比,AM不仅展示了更快的收敛速度,还提供了更直接的实现方式。AM的估计过程及其结果参数的详细情况在补充材料S.6.4中描述。作为AM的一个附带好处,它可以检测错误标记的数据(详细内容见补充材料S.6.5)。
作为补充说明,本文中介绍的填补算法并未创建新的图像(x),而使用能够生成新图像的填补算法可能会进一步提升性能。例如,像随机变形(Simard等人,2003)这样的数据增强方法在实践中已被证明是有效的,可以用来生成更多的图像。近年来流行的一种技术,生成对抗网络(GAN,Goodfellow等人,2020),也为这一方向提供了一种潜在的策略。为了保持简单,这里没有进行这类扩展实验,相关结果将在其他地方报告。
6 结论性评论
本文从模型构建的角度提出了一种有前景的过度参数化模型估计方法。预计未来的发展可以聚焦于其应用,提升机器学习和统计学中过度参数化和非过度参数化模型的性能。例如,多正态均值示例中的数值结果表明,当与所提出的估计方法结合时,过度参数化有效地增强了模型的灵活性和适用性。这反过来又提高了对未来观测进行预测的效率。这些见解与深度神经网络成功的广泛共识是一致的。我们相信,对这种现象在实际流行的统计模型中的进一步研究可能会带来有趣且有价值的理论进展。这些进展可能会增强并超越传统的基于似然推断的方法。
从技术角度来看,可以在对偶函数的设定和填补方法方面探索进一步的改进。由于本文的主要关注点在于建模的基础方面,我们选择实施一种强调模型检验的自适应自助法方法。尽管这种数据驱动的实现已经显示出潜力,但它可能仍然会在稳健性和效率方面遇到意外的局限性,这在重采样方法中很常见,尤其是在高维问题中(Liu等人,2024)。因此,探索替代的填补方法可能是值得的。例如,合成数据生成技术可能特别有用,因为它们在各种任务中都显示出有效性,特别是在处理复杂模型和高维数据方面(Liu等人,2024;Shen等人,2024;Tian和Shen,2024)。此外,考虑到第5.3节中的图像分类示例以及Box关于建模作为迭代过程的观点(Box,1980),研究所提出的方法反过来如何改进这些模型也可能是有趣的;详见补充材料S.12。
逐步地,开发更高效的计算技术将增强我们所提出方法的成功,特别是在实现对大数据集更有效和有效的分析方面。最后,包括共形预测在内的统计推断方法(参见Cella和Martin(2022)以及其中的参考文献)可以在我们所提出的框架内有效地应用和发展。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
原文链接:https://arxiv.org/abs/2206.01824v5
https://www.tandfonline.com/doi/full/10.1080/01621459.2025.2455192?af=R
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.