ICML 2023 | 重新审视判别式与生成式分类器的理论与启示|贝叶斯|预训练|icml|logistic

分享至

本文介绍本组近期发表在ICML 2023上的理论工作。

论文题目： Revisiting Discriminative vs. Generative Classifiers: Theory and Implications 论文链接： https://arxiv.org/abs/2302.02334 代码链接： https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers

一、概述

近年来，深度表征学习（deep representation learning）已经在计算机视觉、自然语言处理、多模态任务等众多领域取得了长足的进展。一个基本的范式是先在大量（有标注或无标注）数据上预训练一个模型，然后在具体的下游任务迁移上对模型进行微调。在迁移过程中，一个常用的方法是线性评估（linear evaluation/ linear prediction），即将网络除最后一层外的预训练参数全部冻结，仅对最后一个线性层进行微调。线性评估由于其轻量简便，在模型日益增大的时代显得越发重要。

重新审视线性评估的训练过程，我们可以将网络倒数第二层之前看成一个固定的特征提取器，基于在下游任务上提取到的特征，我们对最后一个线性层进行微调。这完全等价于给定特征的情况下，训练一个多分类逻辑斯特回归（multiclass logistic regression）。一个问题自然地涌现了出来：这是最佳的选择吗？

于是，在本文中，我们挑战了线性评估中默认采用多分类逻辑斯特回归的设定，探索其他线性分类器在迁移中的潜在优势。具体地，我们考虑了一个极其简单的生成式线性分类器，即朴素贝叶斯（naive Bayes），并将其与默认的逻辑斯特回归进行对比。

这样的idea重新回顾了一个经典的机器学习课题，即生成式学习与判别式学习的对比。事实上，逻辑斯特回归与朴素贝叶斯间的对比已经在2002年的NIPS被吴恩达等人研究过[1]，他们发现朴素贝叶斯需要更少的样本来训练至收敛，并在很多数据集上观察到了"two regimes"现象，即由于朴素贝叶斯能够更快的收敛，当样本量较少时，朴素贝叶斯总能在性能上击败逻辑斯特回归。如下图所示，其中为样本量，error为分类错误率，虚线为逻辑斯特回归，实线为朴素贝叶斯：

但是，受时代影响，他们的论文存在如下限制：

理论上，他们仅考虑了二分类的情况，这与多分类的实际应用不同。
理论上，讨论逻辑斯特回归时，他们假设经验风险最小化（Empirical risk minimization）能够被用在0-1 loss上。而优化0-1 loss实际上是一个N-P hard的问题。
实验上，受于时代限制，他们只能在低维手工特征上观察实验现象。"two regimes"现象在深度表征时代仍否成立，仍不清楚。
弱弱提一句，作者搜遍全网也没搜到他们的具体证明。

对应地，我们充分考虑了这些问题，重新探讨了逻辑斯特回归与朴素贝叶斯间的对比。我们的亮点如下：

理论上，我们证明了多分类的情况，这与实际相符。
理论上，我们去除了假设经验风险最小化（Empirical risk minimization）能够被用在0-1 loss上的强假设，直接分析了实际使用的multiclass logistic loss（即交叉熵损失）。
为了实现第二点，我们引入了 -consistency的技术。特别地，我们提出了一个新的multiclass-consistency分析框架，它具有紧的保证。并针对具体的logistic loss得到了具体的 -consistency bound。
实验上，我们在大量视觉预训练模型（包括有监督和自监督）上进行实验，在很多情况都重新发现了"two regimes"现象，这表明当下游任务缺乏样本时，利用朴素贝叶斯做线性评估是有前景的。
我们把二分类情况下的具体证明也补充在附录了。

二、主要的理论结果 2.1 一些符号与定义（避免乱码，还是贴图）

notations

2.2 我们的目标

我们最终关心的是朴素贝叶斯和逻辑斯特回归关于0-1 loss的样本复杂度，即需要多少样本，训练得到的分类器和最优分类器（无穷样本下）的差距能够被控制在一个小范围内。具体地，我们需要分别bound以下两个估计误差（estimation error）：

2.3 朴素贝叶斯

朴素贝叶斯部分，我们的假设与论文[1]保持一致。事实上，如果能把之前论文[^1]二分类的证明自己补全，多分类的证明其实就是将其中定义的一些关键量做多分类的推广，具体的证明思路是较为类似的。我们在此只对证明思路做一个high level的介绍，具体细节可见我们的论文。

因为朴素贝叶斯的参数是根据训练集可以直接利用闭式解计算的，而无穷样本下，最优的朴素贝叶斯的参数也只是训练得到参数的期望。所以，我们利用经典的集中不等式（如(Hoeffding不等式）就可以推出训练所得参数与最优参数之间距离的高概率界。当参数与最优参数的距离被bound时，我们可以进一步bound住两者泛化误差的差距，即目标式。最终（非正式的）结果如下：

所以我们可以认为，只需要（为数据维度）的样本，朴素贝叶斯就可以收敛到无穷样本下最优的形式。

2.4 逻辑斯特回归

逻辑斯特回归部分，我们去除了论文[1]中直接对0-1 loss做经验风险最小化的假设。我们基于实际深度表征学习的情况，引入了一个更弱的假设，即，对于logistic loss，最优逻辑斯特回归的泛化误差是接近贝叶斯误差（即任意可测函数能达到的最小损失）的。预训练模型抽取的特征是接近线性可分是这个假设的一个充分条件，而这已经在理论[2]和实验[3]中都得到一定印证。

为了bound逻辑斯特回归关于0-1 loss的估计误差

我们的推导分为两步。

2.4.1 关于logistic loss的估计误差

我们先考虑 logistic loss，利用经典的推导技术（如Rademacher complexity），我们可以很容易推得关于它的估计误差。

2.4.2 利用 -consistency bound链接 logistic loss和0-1 loss

目前的问题在于，如何从关于logistic loss的估计误差（）推导得到0-1 loss的估计误差（）。在这里，我们自然地引入了 -consistency bound的概念，它天然地用于连接两个不同loss的估计误差：

令为logistic loss，为0-1 loss，一旦我们找到，我们便可以利用已求得的来bound住。利用我们构建的通用的multiclass -consistency分析框架（将在下文介绍），并带入具体的logistic loss，我们可以得到如下结论：

综合假设和以上两个结果，我们可以最终得到逻辑斯特回归的样本复杂度：

2.5 Multiclass -consistency framework

现在，我们来介绍一下提出的 Multiclass -consistency framework。 -consistency bounds的开山之作是ICML 2022，论文[^4]提出了一个通用的二分类的 -consistency framework，并将其具体应用在众多典型loss及其对抗场景，得到了非常多的结果。尤其重要的是，该二分类框架具有紧的保证。该团队紧接着就在NeurIPS 2022[5]针对很多loss推得了多分类的 -consistency bounds。但一方面，这一工作是基于case by case的构造性证明，并没有统一框架的指导，同时也不具备紧的保证。另一方面，对于我们关心的，也是实际中用的最多的logistic loss，该论文并没有进行探讨。我们的框架优越性在于：

发现了二分类框架的一个非平凡的推广形式，它完全包含ICML 2022[^4]的结论，同时也享受着紧的保证。进一步地，我们将该框架应用到logistic loss上，首次得到了multiclass logistic loss的-consistency bound。我们将框架内容展示如下：

值得一提的是，在ICML 2023中，我们发现该创始团队的新文章[6]也分析了广义的multiclass logistic loss（orz，好险），对于狭义的multiclass logistic loss，他们的结果与我们完全一致，故也享受着紧的保证。

2.6 理论结果总结

基于更弱的假设，我们重新发现了论文[1]中样本复杂度 vs 的结论。这意味着朴素贝叶斯需要更少的样本收敛，当样本量较少时，朴素贝叶斯有可能取得更好的性能。

三、实验

3.1 模拟实验

我们在混合高斯分布上验证我们的理论。对于固定的特征维数，我们增加样本数量，直到两个模型接近相应的渐近误差，这在实验中是可估计的。例如，五分类的实验结果如下图所示：

3.2 深度表征实验

我们在多个预训练的视觉模型上进行了训练，囊括了有监督预训练和自监督预训练（对比学习，基于重建式的）。值得注意的是，在所有情况下，朴素贝叶斯比逻辑回归更快地接近其渐近误差，这与我们的理论结果一致。在多数的模型下（主要是监督式训练的模型），我们也观察到了“two regimes”现象，这表明了当下游任务训练数据有限时朴素贝叶斯的前景。如下图所示，在样本量较少的情况下，及其简单的朴素贝叶斯也有机会取得更好的性能。

参考文献

[1]: Ng, A. Y. and Jordan, M. I. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In NIPS 2002.

[2]: HaoChen, J. Z., Wei, C., Gaidon, A., and Ma, T. Provable guarantees for self-supervised deep learning with spectral contrastive loss. In NeurIPS 2021.

[3]: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. In ICML 2021.

[4]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. H-consistency bounds for surrogate loss minimizers. In ICML 2022.

[5]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. Multi-class H-consistency bounds. In NeurIPS 2022.

[6]: Mao, A., Mohri, M., and Zhong, Y. Cross-entropy loss functions: Theoretical analysis and applications.

文章来源：知乎文章链接：https://zhuanlan.zhihu.com/p/641042101

Illustration From IconScout By nanoagency

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.