网易首页 > 网易号 > 正文 申请入驻

ICML 2023 | 重新审视判别式与生成式分类器的理论与启示

0
分享至

本文介绍本组近期发表在ICML 2023上的理论工作。

论文题目: Revisiting Discriminative vs. Generative Classifiers: Theory and Implications 论文链接: https://arxiv.org/abs/2302.02334 代码链接: https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers
一、概述

近年来,深度表征学习(deep representation learning)已经在计算机视觉、自然语言处理、多模态任务等众多领域取得了长足的进展。一个基本的范式是先在大量(有标注或无标注)数据上预训练一个模型,然后在具体的下游任务迁移上对模型进行微调。在迁移过程中,一个常用的方法是线性评估(linear evaluation/ linear prediction),即将网络除最后一层外的预训练参数全部冻结,仅对最后一个线性层进行微调。线性评估由于其轻量简便,在模型日益增大的时代显得越发重要。

重新审视线性评估的训练过程,我们可以将网络倒数第二层之前看成一个固定的特征提取器,基于在下游任务上提取到的特征,我们对最后一个线性层进行微调。这完全等价于给定特征的情况下,训练一个多分类逻辑斯特回归(multiclass logistic regression)。一个问题自然地涌现了出来:这是最佳的选择吗?

于是,在本文中,我们挑战了线性评估中默认采用多分类逻辑斯特回归的设定,探索其他线性分类器在迁移中的潜在优势。具体地,我们考虑了一个极其简单的生成式线性分类器,即朴素贝叶斯(naive Bayes),并将其与默认的逻辑斯特回归进行对比。

这样的idea重新回顾了一个经典的机器学习课题,即生成式学习与判别式学习的对比。事实上,逻辑斯特回归与朴素贝叶斯间的对比已经在2002年的NIPS被吴恩达等人研究过[1],他们发现朴素贝叶斯需要更少的样本来训练至收敛,并在很多数据集上观察到了"two regimes"现象,即由于朴素贝叶斯能够更快的收敛,当样本量较少时,朴素贝叶斯总能在性能上击败逻辑斯特回归。如下图所示,其中 为样本量,error为分类错误率,虚线为逻辑斯特回归,实线为朴素贝叶斯:

但是,受时代影响,他们的论文存在如下限制


  1. 理论上,他们仅考虑了二分类的情况,这与多分类的实际应用不同。



  2. 理论上,讨论逻辑斯特回归时,他们假设经验风险最小化(Empirical risk minimization)能够被用在0-1 loss上而优化0-1 loss实际上是一个N-P hard的问题。



  3. 实验上,受于时代限制,他们只能在低维手工特征上观察实验现象。"two regimes"现象在深度表征时代仍否成立,仍不清楚。



  4. 弱弱提一句,作者搜遍全网也没搜到他们的具体证明。


对应地,我们充分考虑了这些问题,重新探讨了逻辑斯特回归与朴素贝叶斯间的对比。我们的亮点如下:


  1. 理论上,我们证明了多分类的情况,这与实际相符。



  2. 理论上,我们去除了假设经验风险最小化(Empirical risk minimization)能够被用在0-1 loss上的强假设,直接分析了实际使用的multiclass logistic loss(即交叉熵损失)。



  3. 为了实现第二点,我们引入了 -consistency的技术。特别地,我们提出了一个新的multiclass-consistency分析框架,它具有紧的保证。并针对具体的logistic loss得到了具体的 -consistency bound。



  4. 实验上,我们在大量视觉预训练模型(包括有监督和自监督)上进行实验,在很多情况都重新发现了"two regimes"现象,这表明当下游任务缺乏样本时,利用朴素贝叶斯做线性评估是有前景的



  5. 我们把二分类情况下的具体证明也补充在附录了。


二、主要的理论结果 2.1 一些符号与定义(避免乱码,还是贴图)

notations

2.2 我们的目标

我们最终关心的是朴素贝叶斯和逻辑斯特回归关于0-1 loss的样本复杂度, 即需要多少样本,训练得到的分类器和最优分类器(无穷样本下)的差距能够被控制在一个小范围内。具体地,我们需要分别bound以下两个估计误差(estimation error)

2.3 朴素贝叶斯

朴素贝叶斯部分,我们的假设与论文[1]保持一致。事实上,如果能把之前论文[^1]二分类的证明自己补全,多分类的证明其实就是将其中定义的一些关键量做多分类的推广,具体的证明思路是较为类似的。我们在此只对证明思路做一个high level的介绍,具体细节可见我们的论文。

因为朴素贝叶斯的参数是根据训练集可以直接利用闭式解计算的,而无穷样本下,最优的朴素贝叶斯的参数也只是训练得到参数的期望。所以,我们利用经典的集中不等式(如(Hoeffding不等式)就可以推出训练所得参数与最优参数之间距离的高概率界。当参数与最优参数的距离被bound时,我们可以进一步bound住两者泛化误差的差距,即目标式 。最终(非正式的)结果如下:

所以我们可以认为,只需要 ( 为数据维度)的样本,朴素贝叶斯就可以收敛到无穷样本下最优的形式。

2.4 逻辑斯特回归

逻辑斯特回归部分,我们去除了论文[1]中直接对0-1 loss做经验风险最小化的假设。我们基于实际深度表征学习的情况,引入了一个更弱的假设,即,对于logistic loss,最优逻辑斯特回归的泛化误差是接近贝叶斯误差(即任意可测函数能达到的最小损失)的。预训练模型抽取的特征是接近线性可分是这个假设的一个充分条件,而这已经在理论[2]和实验[3]中都得到一定印证。

为了bound逻辑斯特回归关于0-1 loss的估计误差

我们的推导分为两步。

2.4.1 关于logistic loss的估计误差

我们先考虑 logistic loss,利用经典的推导技术(如Rademacher complexity),我们可以很容易推得关于它的估计误差。

2.4.2 利用 -consistency bound链接 logistic loss和0-1 loss

目前的问题在于,如何从关于logistic loss的估计误差 ( ) 推导得到0-1 loss的估计误差 ( ) 。在这里,我们自然地引入了 -consistency bound的概念,它天然地用于连接两个不同loss的估计误差:

令 为logistic loss, 为0-1 loss,一旦我们找到 ,我们便可以利用已求得的 来bound住 。利用我们构建的通用的multiclass -consistency分析框架(将在下文介绍),并带入具体的logistic loss,我们可以得到如下结论:

综合假设和以上两个结果,我们可以最终得到逻辑斯特回归的样本复杂度:

2.5 Multiclass -consistency framework

现在,我们来介绍一下提出的 Multiclass -consistency framework。 -consistency bounds的开山之作是ICML 2022,论文[^4]提出了一个通用的二分类的 -consistency framework,并将其具体应用在众多典型loss及其对抗场景,得到了非常多的结果。其重要的是,该二分类框架具有紧的保证该团队紧接着就在NeurIPS 2022[5]针对很多loss推得了多分类的 -consistency bounds。但一方面,这一工作是基于case by case的构造性证明,并没有统一框架的指导,同时也不具备紧的保证。另一方面,对于我们关心的,也是实际中用的最多的logistic loss,该论文并没有进行探讨。我们的框架优越性在于:

发现了二分类框架的一个非平推广形式,它完全包含ICML 2022[^4]的结论,同时也享受着紧的保证。进一步地,我们将该框架应用到logistic loss上,首次得到了multiclass logistic loss的-consistency bound。我们将框架内容展示如下:

值得一提的是,在ICML 2023中,我们发现该创始团队的新文章[6]也分析了广义的multiclass logistic loss(orz,好险),对于狭义的multiclass logistic loss,他们的结果与我们完全一致,故也享受着紧的保证。

2.6 理论结果总结

基于更弱的假设,我们重新发现了论文[1]中样本复杂度 vs 的结论。这意味着朴素贝叶斯需要更少的样本收敛,当样本量较少时,朴素贝叶斯有可能取得更好的性能。

三、实验

3.1 模拟实验

我们在混合高斯分布上验证我们的理论。对于固定的特征维数 ,我们增加样本数量 ,直到两个模型接近相应的渐近误差,这在实验中是可估计的。例如,五分类的实验结果如下图所示:

3.2 深度表征实验

我们在多个预训练的视觉模型上进行了训练,囊括了有监督预训练和自监督预训练(对比学习,基于重建式的)。值得注意的是,在所有情况下,朴素贝叶斯比逻辑回归更快地接近其渐近误差,这与我们的理论结果一致。 在多数的模型下(主要是监督式训练的模型),我们也观察到了“two regimes”现象,这表明了当下游任务训练数据有限时朴素贝叶斯的前景。如下图所示,在样本量较少的情况下,及其简单的朴素贝叶斯也有机会取得更好的性能。

参考文献

[1]: Ng, A. Y. and Jordan, M. I. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In NIPS 2002.

[2]: HaoChen, J. Z., Wei, C., Gaidon, A., and Ma, T. Provable guarantees for self-supervised deep learning with spectral contrastive loss. In NeurIPS 2021.

[3]: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. In ICML 2021.

[4]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. H-consistency bounds for surrogate loss minimizers. In ICML 2022.

[5]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. Multi-class H-consistency bounds. In NeurIPS 2022.

[6]: Mao, A., Mohri, M., and Zhong, Y. Cross-entropy loss functions: Theoretical analysis and applications.

文章来源:知乎 文章链接:https://zhuanlan.zhihu.com/p/641042101

Illustration From IconScout By nanoagency

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国8000元以上手机市场份额排名:苹果只有一个对手!

中国8000元以上手机市场份额排名:苹果只有一个对手!

CNMO科技
2026-02-19 09:50:12
为何欧洲在美俄乌谈判中的态度越来越强硬?

为何欧洲在美俄乌谈判中的态度越来越强硬?

高博新视野
2026-02-21 18:17:09
王濛表态:只要祖国需要,我随时到场,敢签保2块金牌的生死状

王濛表态:只要祖国需要,我随时到场,敢签保2块金牌的生死状

风过乡
2026-02-21 09:09:53
“专科男生古茗8小时”事件引发广泛嘲讽,认知能力备受质疑。

“专科男生古茗8小时”事件引发广泛嘲讽,认知能力备受质疑。

特约前排观众
2026-02-20 00:20:06
中俄舰艇都到了,美军还打不打伊朗?特朗普摊牌,一句话非比寻常

中俄舰艇都到了,美军还打不打伊朗?特朗普摊牌,一句话非比寻常

影孖看世界
2026-02-21 16:40:12
研究显示:“猎鹰9”火箭解体致高空大气锂原子浓度飙升10倍

研究显示:“猎鹰9”火箭解体致高空大气锂原子浓度飙升10倍

界面新闻
2026-02-20 16:34:02
53岁柯蓝和瞿颖在泰国过春节,俩人都是李亚鹏前女友,李宗翰也在

53岁柯蓝和瞿颖在泰国过春节,俩人都是李亚鹏前女友,李宗翰也在

观察鉴娱
2026-02-20 11:30:57
哈尔滨冰雪大世界临时闭园两天,游客称兵马俑冰雕融化成“星星人”,客服回应

哈尔滨冰雪大世界临时闭园两天,游客称兵马俑冰雕融化成“星星人”,客服回应

极目新闻
2026-02-21 15:12:38
1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

寄史言志
2026-01-20 13:57:07
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
沉迷宏大叙事,就是最大的愚蠢

沉迷宏大叙事,就是最大的愚蠢

浪子说
2026-02-21 18:14:37
致3人受伤!日本福冈再现持刀杀人事件,中领馆提醒

致3人受伤!日本福冈再现持刀杀人事件,中领馆提醒

第一财经资讯
2026-02-20 15:59:59
爱泼斯坦在巴黎的帝国,全靠这个女人一手打造?

爱泼斯坦在巴黎的帝国,全靠这个女人一手打造?

新欧洲
2026-02-20 20:12:38
怒斥湖人骗犯规,泰伦卢你在干嘛...

怒斥湖人骗犯规,泰伦卢你在干嘛...

柚子说球
2026-02-21 20:43:48
春晚女主持人长相有多重要?看董卿和龙洋5年前同框主持就知道了

春晚女主持人长相有多重要?看董卿和龙洋5年前同框主持就知道了

真的八卦小学弟
2026-02-13 17:00:08
7死!贝加尔湖事故起因,是游客到湖中心看蓝冰,司机疑强闯裂缝

7死!贝加尔湖事故起因,是游客到湖中心看蓝冰,司机疑强闯裂缝

火山詩话
2026-02-21 05:50:20
1998年刘平平成植物人,王光美悲痛至极,坚持不准任何人踏入病房

1998年刘平平成植物人,王光美悲痛至极,坚持不准任何人踏入病房

妙知
2026-02-21 10:22:14
清算开始了!柯文哲向民进党这一跪,直接把黄国昌逼上了绝路

清算开始了!柯文哲向民进党这一跪,直接把黄国昌逼上了绝路

生活魔术专家
2026-02-21 19:11:15
至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

吴蒂旅行ing
2026-02-21 12:10:01
阿森纳周薪榜:30万镑顶薪无争议,28万镑巨薪成笑话?谁值谁亏?

阿森纳周薪榜:30万镑顶薪无争议,28万镑巨薪成笑话?谁值谁亏?

田先生篮球
2026-02-20 19:35:21
2026-02-21 21:24:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

教育
艺术
本地
游戏
时尚

教育要闻

家庭教育中,低认知和高认知家长的区别?

艺术要闻

270亿美元!全球最大城市公园一期项目,今年完工

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

《无主4》官方"自爆"AI写作痕迹:给你再润色一个版本

一年中最不能错过的推送,超适合过年看!

无障碍浏览 进入关怀版