网易首页 > 网易号 > 正文 申请入驻

AI研习丨针对长尾数据分布的深度视觉识别

0
分享至

摘 要

本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展,主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析,并针对长尾数据分布的深度视觉识别的未来方向进行了探讨。

关 键 字

长尾数据分布;深度学习;机器学习;视觉识别;计算机视觉

0 前言

在机器学习及其在视觉识别的应用中,我们处理的标准数据通常都有一个基本假设,即该数据集各类别对应的样本数量是近似服从均匀分布的,即类别平衡。但现实生活中的数据往往呈现较极端的不平衡现象,如日常生活经常看到云朵和狗等物体,却鲜见概念车甚至传说中的“外星生物”,这样的自然规律使得真实数据的分布通常呈现出“长尾”分布的形态,如图1所示。可以看到常见(但少量)的物体类别在视觉识别的图像中出现的频次占主导地位,而罕见(却大 量)的物体类别出现的频次占比微乎其微。在机器学习和视觉识别的实际应用过程中,长尾分布在某种程度上可以说是比正态分布更加广泛存在的一种自然分布,现实中主要表现在少量个体做出大量贡献(少量类别的样本数占据大量样本比例),人们经常提到的“二八定律”(Pareto法则)就是长尾分布的形象概括。

图 1 长尾数据分布示意图

长尾分布数据的极度不平衡,给机器学习和视觉识别带来了巨大挑战。类别的极度不平衡导致模型学习非常容易被“头部”类别主导而产生过拟合;同时模型对于“尾部”数据的建模能力极其有限,从而在模型测试阶段表现出对长尾数据(尤其“尾部”数据)预测精度不理想的缺陷。特别是在借助深度学习模型进行的视觉识别应用中,尾部数据的数量缺失还使得深度模型的训练难以充分进行,导致特征学习很难达到理想程度,进而影响整个深度模型的泛化表现。此外,深度 模型基于batch的训练特性带来的模型“遗忘” 问题,在长尾数据分布情况下尤为突出,愈加影响了特征学习的整体质量。

近年来,针对长尾数据分布的深度视觉识别逐渐成为机器学习、计算机视觉和模式识别领域的热门研究课题,在诸多视觉感知任务,如细粒度图像识别、人脸识别、安防监控、车辆识别、商品识别等均有广泛应用。本文主要以长尾数据分布下的深度视觉识别为主题,重点探讨其常用数据集及应用、经典机器学习解决方案和深度学习解决方案,下面分别从这三方面介绍长尾数据分布下深度视觉识别的研究进展。

1 常用数据集及应用

长尾分布下的视觉识别领域最为著名和常用的数据集为iNaturalist系列,其中iNaturalist 2017和iNaturalist 2018最为令人熟知。iNaturalist系列数据集是美国加州理工、康奈尔大学和Google等机构联合构建的,以植物、鸟类、昆虫和菌类等13个自然生物大类下属的上千种物种细分类类别组成的细粒度级别图像数据集(fine-grained dataset),图像量多达近百万张。以iNaturalist 2017为例,该数据集共计5089类细粒度物体,其中样本数最多的头部类别含2101张样例图像,样本数最少的尾部类别仅有4张样本(见图 2),其数据分布呈现显著的长尾分布状态。而iNaturalist 2018则多达8142类细粒度类别,样本最多的头部类别样本数多达2917张,最少者仅有一张图像,呈现出更为极端的长尾现象。这两个著名的标准数据集,一方面验证了长尾分布的现实意义;另一方面其数据复杂性和显著的长尾分布特性,使得它成为长尾分布视觉识别研究中的标准测试“演武场”。此外,围绕iNaturalist,相关组织者基本每年都在CVPR上组织全球视觉识别挑战赛,值得一提的是,我们的团队获得了2019届iNaturalist旗舰赛事的世界冠军。

图 2 iNaturalist 2017 数据集示例

除天然的iNaturalist外,在人脸识别、通用物体识别和场景分类等应用中均有对应的长尾分布形态数据集。例如,针对人脸识别长尾分布问题构造的MS1M-LT(2万余类别),针对通用物体识别长尾分布问题构造的ImageNet-LT(1000类)、 CIFAR-10-LT(10类)、CIFAR-100-LT(100类),以及针对场景分类长尾分布问题构造的Places-LT (365类)等。各数据集的详细对照信息如表1所示。

表 1 数据集的详细对照信息

2 经典机器学习解决方案

经典统计机器学习在处理长尾分布带来的挑战时,往往借助一些处理传统类别不平衡问题,以及处理代价敏感学习问题的技术手段和解决方案。现有技术大体上有三类做法,第一类重采样法,即通过采样方式缓解长尾分布带来的样本极度不平衡;第二类重权重法,即通过改变学习权重来调整不同样本数类别的学习比重;第三类后处理法,即在模型学习后调整分类器参数的做法。

2.1 重采样法

重采样法是对训练集中不同类别训练样本数目直接进行调整,进而保证各类别样本数目平衡的一类方法,主要有“欠采样”和“过采样”两种。“欠采样”法,顾名思义,即去除一些样本较多的头部类别的样例,使得所有类别样本数目基本一致,然后在平衡后的数据上再进行学习;而“过采样” 则会复制一些样本较少的尾部类别的样例,从而达到各类别样本数目一致的状态,之后进行学习。

2.2 重权重法

重权重法除应用在长尾数据分布学习任务外,还常应用于代价敏感学习,实际操作时通常在目标函数(或损失函数)上针对尾部类别的训练数据施加较大惩罚,借此克服类别不平衡带来的问题。一般而言,损失函数中的惩罚因子大小与类别对应样本数成反比,即样本数越多的类,其惩罚因子越小;样本数越少的类,其惩罚因子越大。

近期,Cui等在传统重权重法基础上提出了一种基于“有效样本数”的重权重方法,替代了之前根据样本数目比例确定惩罚权重的做法,在诸多长尾分布数据集上取得了较好的精度。接着, Cao等也提出了一种基于margin的重权重法,一方面表明不同样本数的类别应对应不同margin;同时提出对于尾部类别须引导学习器得到较大margin,方能在长尾分布数据上取得满意性能。

3 深度学习解决方案

众所周知,深度学习是处理视觉识别应用的利器。长尾数据分布除影响深度模型分类器学习的同时,其极端的不平衡特性还给特征表示学习带来了巨大负面影响。针对长尾数据分布的深度学习解决方案主要分为三类,第一类是二阶段训练法,即通过两个阶段的训练,先后兼顾特征学习和分类器学习,从而克服长尾分布带来的类别极度不平衡问题;第二类是新型损失函数,即构造新式损失函数缓解类别不平衡;第三类是特征学习和分类器学习解耦,即将学习目标不同的二者解耦,各司其职,互无影响,进而协同起来提升模型预测精度。

3.1 二阶段训练法

深度学习应用中较常用的一种技巧是finetuning,针对长尾数据分布的二阶段训练法便源于此。具体而言,二阶段训练法将基于长尾数据分布的模型训练过程分为两个阶段:第一个阶段供给深度神经网络的训练数据仍服从原始长尾分布,从而确保特征表示学习的效果;而第二阶段为缓解长尾分布带来的极度不平衡,此时会使用重采样或重权重法构造类别平衡的训练数据,同时配合较小的学习率进行二阶段fine-tuning。

3.2 新型损失函数

该类方法主要聚焦在如何设计新型损失函数来指导深度网络学习,比较经典的代表性算法为Range loss和Focal loss。2017年,Zhang等首先用切分实验的结果解释了长尾分布带来的性能损失,并受此启发提出Range loss来增加类间距离同时减小类内距离,在此基础上该损失函数还可避免模型训练被头部数据主导,且会惩罚由尾部数据(因样本不足)带来的类内松散问题。

另一代表性方法Focal loss 提出之初是为了解决一阶段的通用物体检测模型,在物体检测任务中带来的类别不平衡问题;随后研究者发现,Focal loss在处理长尾分布数据时也有较好表现。Focal loss的设计思想与重权重法一致,本着尽量减小头部数据主导作用的想法,该损失函数在传统的深度学习交叉熵损失函数前添加一个权重项,进而调节不同样本数目类别的学习权重,即

图 3 双分支神经网络

4 结束语

长尾数据分布在日常生活的诸多应用场景广泛出现,但目前针对长尾数据分布,特别是深度学习方向的研究工作还处于起步阶段,未来还有很大的研究和发展空间。现有的针对长尾数据分布的深度视觉识别的研究,主要集中在比较直接的损失函数设计,以及传统机器学习技术(如类别不平衡和代价敏感方法)的应用上,最近一段时间将特征学习和分类器学习解耦的思路逐渐崭露头角变成主流,相信不久的将来,结合更加深入分析深度神经网络本质特性的解决长尾数据分布问题的网络结构和解决方案会被陆续提出。当 然,除了视觉识别任务之外,如何处理视觉检测等任务中的长尾数据分布问题也是值得进一步深入研究的课题。

( 参考文献略 )

2020年 第10卷 第5期 机器学习及其应用专题

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夏天必吃它!7月正当季,1润肠,2通便,3解暑,别不懂错过了

夏天必吃它!7月正当季,1润肠,2通便,3解暑,别不懂错过了

江江食研社
2026-07-02 17:30:08
“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

三农老历
2026-07-01 01:28:08
左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

医学科普汇
2026-07-02 18:35:06
世界杯083西班牙VS奥地利深度前瞻:地面传控遇上高位逼抢

世界杯083西班牙VS奥地利深度前瞻:地面传控遇上高位逼抢

懂球帝
2026-07-02 16:01:14
辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,直击美痛点

辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,直击美痛点

梦想的现实
2026-07-01 12:53:21
新研究认为,普京发动全面入侵乌克兰的战争以来,双方军队伤亡人数超过200万

新研究认为,普京发动全面入侵乌克兰的战争以来,双方军队伤亡人数超过200万

互联网大观
2026-07-02 12:56:20
全球拒接奥运,奥委会关注中国,中方回应2036台北见

全球拒接奥运,奥委会关注中国,中方回应2036台北见

烟雨洛神生
2026-06-23 22:54:59
新股华润新能上市交易,中签号码186万个,破发惊吓还是打新惊喜

新股华润新能上市交易,中签号码186万个,破发惊吓还是打新惊喜

数据挖掘分析
2026-07-02 06:59:41
痛心!青海海东突发惨烈车祸,皮卡违规载15人,8人不幸离世

痛心!青海海东突发惨烈车祸,皮卡违规载15人,8人不幸离世

周道社会百态
2026-07-02 12:43:21
穿白无垢打网球?大坂直美温网作妖记:成绩烂了只能靠衣服蹭热度

穿白无垢打网球?大坂直美温网作妖记:成绩烂了只能靠衣服蹭热度

白露文娱志
2026-06-30 16:27:39
2-0!美国将止步16强?大胆:主裁敢将东道主的射手王红牌罚下

2-0!美国将止步16强?大胆:主裁敢将东道主的射手王红牌罚下

足球大腕
2026-07-02 10:55:51
大满贯爆大冷!女乒第2位大种子惨败,伊藤美诚轰11-2,蒯曼丢局

大满贯爆大冷!女乒第2位大种子惨败,伊藤美诚轰11-2,蒯曼丢局

桃叶渡春
2026-07-02 00:17:03
桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

蓝鲸新闻
2026-07-01 09:45:46
台当局好狠:大陆军舰逼近日本,台高层马上放话,彻底豁出去了!

台当局好狠:大陆军舰逼近日本,台高层马上放话,彻底豁出去了!

素衣读史
2026-07-02 18:41:59
台湾唯一南美“友邦”巴拉圭发表声明

台湾唯一南美“友邦”巴拉圭发表声明

安安说
2026-07-02 11:03:01
西安赛格跳楼事件刷屏:网传跳楼原因,我看到了商户最戳心的困境

西安赛格跳楼事件刷屏:网传跳楼原因,我看到了商户最戳心的困境

胡侃社会百态
2026-07-02 03:08:05
飞天、金鹰、白玉兰三奖大满贯的演员

飞天、金鹰、白玉兰三奖大满贯的演员

阿废冷眼观察所
2026-07-02 04:12:12
莫迪拒赴伊朗葬礼!派俩边缘人砸场子,惹怒德黑兰,中俄成了靠山

莫迪拒赴伊朗葬礼!派俩边缘人砸场子,惹怒德黑兰,中俄成了靠山

梦史
2026-07-02 18:22:25
亨利:法国队最关键的球员应该是奥利塞,他无球表现无人能及

亨利:法国队最关键的球员应该是奥利塞,他无球表现无人能及

画夕
2026-07-01 20:50:03
日本被坑惨,高市早苗访问印度3天,更像去找莫迪兴师问罪

日本被坑惨,高市早苗访问印度3天,更像去找莫迪兴师问罪

影孖看世界
2026-07-02 15:12:57
2026-07-02 19:27:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
4147文章数 1489关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

冒死救出起火特斯拉女司机的理想车主找到了 本人发声

头条要闻

冒死救出起火特斯拉女司机的理想车主找到了 本人发声

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

亲子
健康
时尚
旅游
军事航空

亲子要闻

分年龄段选购儿童被子指南:不同成长阶段核心需求与选型方向梳理

这4类消化病患者 吃粘食管住嘴

月入3万,时代红利砸向文科生

旅游要闻

藏在曲靖乡野的大地裂缝,洞内常年恒温,夏天进去不用开空调!

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版