网易首页 > 网易号 > 正文 申请入驻

AI模型性能上不去?这真的不怪我,ImageNet等数据集每100个标签就错3个!

0
分享至

作者 | 贝爽、陈彩娴

编辑 | 青暮

标签错误会破坏基准的稳定性,然而,令人没想到的是,大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如,把“狮子”标记成“猴子”,把“青蛙”标记成“猫”。

众所周知,机器学习数据集的标记并不是完全正确的,但是目前还没有系统的研究来量化机器学习数据集是否存在大量错误。MIT和亚马逊的研究人员近期就尝试了这项研究。

机器学习数据集包括训练数据集和测试数据集,在以往的研究中,我们主要关注训练数据是否存在系统误差,而忽视了被引用最多的测试数据集。这些测试集是我们用来衡量机器学习进展的基准。

在这项研究中,MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误,并进一步确定了它们如何影响ML基准的稳定性。这10个数据集包括: MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet ,它们不仅涉及图像数据集,还包括了文本、音频数据集。比如AudioSet是音频数据集,20news、IMDB和Amazon是文本数据集。

下图就展示了一些被错误标记的样本。比如在CIFAR-10中的一张“青蛙”的图片被标记成了“猫”。

图像数据集的标签错误示例

所有10个ML数据集上的所有标签错误演示如下:

在这个网站里,可以通过选择数据集和特定类别来查看被错误标记的数据。网站中相当详尽地列出了所有他们找到的标签错误,可谓是像素级找茬了。

相关链接:https://labelerrors.com/

比如,当选中ImageNet和Tiger Cat时,我们能看到ImageNet将老虎标记成了虎猫。

虎猫的真实模样:

研究人员将相关成果发表在论文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上,我们接下来简单介绍一下论文的主要内容。

1

主要发现

(1)ML测试集中的错误有多普遍?

研究人员估计10个数据集的平均错误率为3.4% ,例如2916个标签错误在ImageNet中占比6%;39万个标签错误在亚马逊评论中占比4%。此外,即使在MNIST数据集——已被成千上万的同行评审用于ML研究的基准测试,在其测试集中也包含了15个(人类验证的)标签错误。

(2)哪个ML数据集错误最多?

QuickDraw测试集的错误标签达到了500万个,约占整个测试集的10%。

(3)高容量模型更容易过拟合错误标记数据

高容量/复杂模型(例如ResNet-50)在含错误标记的测试数据(即传统测量的数据)上表现良好,低容量模型(如ResNet-18)在手动更正标记的数据上有更好的表现。

这可能是高容量模型在训练时过度拟合训练集的错误标签,或在调整测试集上的超参数时过度拟合测试集所导致的结果。

(4)多少噪声会破坏ImageNet和CIFAR基准测试的稳定性?

在含有更正标签的ImageNet上: 如果错误标记的示例仅占6%,那么ResNet-18的性能表现将优于ResNet-50。 在含有更正标签的CIFAR-10上:如果错误标记的示例的占比为5%,那么VGG-11的性能表现优于VGG-19。

传统意义上,ML从业者需要根据测试的准确性来选择部署模型。通过这项研究,研究者指出,在正确标记的测试集上判断模型可能更有用。因此,研究者提出了几个建议:

  • 更正测试集标签

  • 测试数据集是否受到不稳定基准的影响

  • 考虑对带有噪声标签的数据集使用更简单/更小的模型

2

研究方法

那么,这些错误是怎么被发现的呢? 主要分为两个步骤,即算法识别和人工验证。

置信学习

在所有10个数据集中,研究人员首先通过置信学习算法进行初步识别标签错误(准确率可达54%),然后再通过众包的形式进行人工验证。 需要说明的是,由于置信学习框架不与特定的数据模式或模型耦合,它支持在多种数据集中发现标签错误。

置信学习(CL)已成为监督学习和弱监督中的一个子领域,用于:

  • 描述标签噪声

  • 查找标签错误

  • 学习噪声标签

  • 发现本体论问题

CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。

从上图可以看出,CL 需要两个输入:

  • 样本外预测概率(矩阵大小:类的样本数)

  • 噪声标签(矢量长度:示例数)

出于弱监督的目的,CL 包括三个步骤:

  • 估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声

  • 查找并删除带有标签问题的噪音示例

  • 去除训练误差,通过估计潜在先验重新加权实例

关于置信学习的更多细节,可以查看这篇博客:

https://l7.curtisnorthcutt.com/confident-learning

研究人员曾经用置信学习在2012 ILSVRC ImageNet训练集中发现的标签错误示例。

他们发现,这些错误可分为以下三类:

  • 多标签图像(蓝色):图像中有两个或两个以上标签。

  • 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类。

  • 标签错误(红色):存在比给定类标签更适合某一示例的类标签。

人工验证

接下来是人工验证。研究人员基于算法识别的错误标签,进一步采用众包平台Mechanical Turk展开了研究。在三个(Caltech-256、QuickDraw和Amazon Reviews)含大量错误标签的数据集中,研究人员随机检查了部分样本(分别是8.6%、0.04%、0.02%),对其它数据集则对所有识别到的错误标签进行检查,如下表所示。(注意,由于ImageNet测试集不公开,所以这里使用的是ILSVRC 2012 ImageNet验证集)

研究者向验证人员展示了这些错误标记的数据,并询问他们,这些数据的标记应该是:(1)给定标签,(2)CL预测标签,(3)上述两个标签都对,(4)两个标签都不对。

为了协助验证人员,验证的界面中还展示了原标签类别和CL预测类别的训练集示例,如下图所示。

Mechanical Turk的工作界面显示了CIFAR-100的一个示例(图片带有给定错误标签“ cat”)。界面中会展示错误类别“cat”的训练集示例,以及CL预测类别“frog”的训练集示例。

如下表所示,Mechanical Turk验证确认了普遍存在的标记错误,并对标签问题的类型进行了分类。

这些修正是否全部都对呢?并不是。在某些案例中,验证人员也会同意错误的标签。由于研究人员只验证了一小部分数据集,所以检测到的错误标签可能也只是一小部分。

最后,研究人员还提供了清洗过的测试集:

https://github.com/cgnorthcutt/label-errors/tree/main/cleaned_test_sets

这些清洗版测试集纠正了大部分的标签错误。

研究人员表示,希望未来的基准测试能够使用这些改进的测试数据,而不是原来含有错误标签的数据集。


  • https://www.reddit.com/r/MachineLearning/comments/mfsn18/r_pervasive_label_errors_in_test_sets_destabilize/

  • https://l7.curtisnorthcutt.com/label-errors

  • https://l7.curtisnorthcutt.com/confident-learning


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
台统一方案或出乎意料:若美国发动代理人战争,中国将启天津模式

台统一方案或出乎意料:若美国发动代理人战争,中国将启天津模式

独坐山巅前
2026-04-04 01:41:45
伊朗媒体:苏莱曼尼女儿否认他的亲属在美被捕

伊朗媒体:苏莱曼尼女儿否认他的亲属在美被捕

财联社
2026-04-05 06:19:45
一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

最金华
2026-04-04 22:40:48
印度一名政府女雇员在家中遭性侵,嫌犯以讨要饮用水为由进入住所,实施性侵后将其双手捆绑,并进行殴打和折磨,警方正全力抓捕嫌犯

印度一名政府女雇员在家中遭性侵,嫌犯以讨要饮用水为由进入住所,实施性侵后将其双手捆绑,并进行殴打和折磨,警方正全力抓捕嫌犯

潇湘晨报
2026-04-04 14:50:12
郑丽文访问大陆前,连胜文公开提醒“谨言慎行”,赖清德气急败坏

郑丽文访问大陆前,连胜文公开提醒“谨言慎行”,赖清德气急败坏

南宗历史
2026-04-05 12:23:01
一夜之间,非北京球迷都成了足球规则专家,国安到底得罪了谁?

一夜之间,非北京球迷都成了足球规则专家,国安到底得罪了谁?

体坛鉴春秋
2026-04-05 10:48:47
绝不走委内瑞拉的老路,中国无视特朗普威胁,紧急援助运抵古巴

绝不走委内瑞拉的老路,中国无视特朗普威胁,紧急援助运抵古巴

闻香阁
2026-04-05 08:08:39
篮球巨星深陷嫖娼风波,对方特殊身份令人咋舌,到底真相几何?

篮球巨星深陷嫖娼风波,对方特殊身份令人咋舌,到底真相几何?

干史人
2026-03-30 22:05:03
修理工来家修水管,进门一脸好奇:你家装修和楼上一模一样

修理工来家修水管,进门一脸好奇:你家装修和楼上一模一样

清茶浅谈
2025-04-05 22:30:05
53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

懂球帝
2026-04-03 10:06:10
烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

史海流年号
2026-04-03 08:25:33
与辉同行致歉,自费千万先行垫付退款

与辉同行致歉,自费千万先行垫付退款

映射生活的身影
2026-04-03 08:50:09
医美女王翻车!偷税47.55亿被罚,换血骗局遭曝光,更多黑料被扒

医美女王翻车!偷税47.55亿被罚,换血骗局遭曝光,更多黑料被扒

潮鹿逐梦
2026-04-03 16:09:46
暴雨、大暴雨、大风!假期出行,紧急提醒

暴雨、大暴雨、大风!假期出行,紧急提醒

环球网资讯
2026-04-05 07:34:09
赵心童10-1希金斯!改写34年历史,与世界第1争冠,决赛胜率100%

赵心童10-1希金斯!改写34年历史,与世界第1争冠,决赛胜率100%

球场没跑道
2026-04-05 08:58:12
清明前后,这8种蔬菜不要买?菜贩子的“真心话”到底该不该信

清明前后,这8种蔬菜不要买?菜贩子的“真心话”到底该不该信

江江食研社
2026-04-04 20:30:08
随着北京国安1-2,青岛海牛1-0,中超最新积分榜出炉

随着北京国安1-2,青岛海牛1-0,中超最新积分榜出炉

凌空倒钩
2026-04-04 18:11:44
1955 年饶漱石遭开除党籍,历多年关押服刑,晚年于农场度余生

1955 年饶漱石遭开除党籍,历多年关押服刑,晚年于农场度余生

唠叨说历史
2026-03-24 11:17:11
毛主席钢笔字的惊艳之作,书法界大揭秘!

毛主席钢笔字的惊艳之作,书法界大揭秘!

书画相约
2026-04-03 08:51:56
2026-04-05 13:19:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7170文章数 20743关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

专家:美国对伊朗发动战争是本世纪最大战略失误之一

头条要闻

专家:美国对伊朗发动战争是本世纪最大战略失误之一

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

数码
游戏
家居
教育
军事航空

数码要闻

好用的剃须刀哪款好?品牌十大排名不同需求精准适配,剃须更舒适

《战争机器5》配音演员分享自己的6代剧情创意

家居要闻

温馨多元 爱的具象化

教育要闻

博士扩招潮,来了

军事要闻

美军又一架战机坠毁 此前F-15E被击落

无障碍浏览 进入关怀版