一项新研究发现,许多用于训练人工智能模型的热门图像数据集都充斥着测试图像或近似重复的图像,这使得模型可以通过记忆答案而不是学习来作弊。这种泄漏现象普遍存在,但通常未被发现,从而悄无声息地抬高了分数,并给在网络规模数据上训练的模型带来了不公平的优势。
参加驾驶考试时,通常不会提前告知你考试的具体路线。如果你事先知道(而且你有点缺乏诚信),你可能会通过反复练习这条路线来“优化”考试,而不是培养能够胜任任何路线的更广泛的驾驶技能。
在机器学习模型的训练中,这对于测试分割来说是一个合理的类比——将训练集数据分为(通常)70% 用于训练模型的数据,剩下的 30% 用作“野外”数据。
由于模型从未见过自然界的数据,如果模型在这些数据上表现良好,则可以认为它是有效且高性能的;如果不是,则模型可能在均衡的集合上过度拟合- 或者数据需要额外的管理和定义。
无论如何,不根据训练数据评估模型是当前人工智能研究和开发方法的基石。
01
请再说一遍
根据日本的一份新研究论文,计算机视觉和生成人工智能研究领域在确保测试数据不会污染训练数据方面的努力远远不及 LLM 研究人员;在测试中,研究人员发现,他们研究的每个超大规模视觉数据集,包括那些支持当前一些最大的生成人工智能系统的数据集,在某种程度上都允许其测试数据交叉到其训练数据中——这意味着在这些分割上训练的模型的基准和性能报告不会比偷偷将婴儿床带入考场的人的考试结果更准确,也不会反映真正新颖数据的真实表现。
研究人员发现的数据交叉污染示例,训练数据和测试数据中都存在重复或近似重复的数据点。来源:https://arxiv.org/pdf/2508.17416
在上图中,从新论文中,我们看到在各种模型的核心训练数据和测试数据中都发现了重复或近似重复的数据点的例子——足以使模型在这些数据上的性能无效,并略微提高其总体得分,从而促进模型实际上可能没有达到的泛化水平的出现。
更复杂的是,污染似乎发生在多种可能的场景中,包括“预训练”阶段,即使用较旧的祖先模型的权重来“启动”新模型。如果上游的较旧模型与正在进行预训练的新数据集包含一些相同的数据,那么即使 70/30 或 80/20 的分割是正确的,也可能发生交叉污染。
02
累积效应
即使在最新的数据集中,这种情况也几乎肯定会发生:视觉/语言数据集的范围在过去五年中已经大大扩展,不仅吸收了网络上的最新图像数据,而且还重新收集了那些较旧的历史数据集中的大部分相同数据。
此外,用于搜索和过滤数十亿张重复和近似重复图像的自动化程序现在面临着如此繁重的任务,以至于策展本身——其时间和金钱方面的成本——现在必须在预算限制的背景下考虑
同时,图像重复是诸如Common Crawl之类的大规模收集背后的临时网络拖网的必然结果,因为人们普遍做法是重新发布和重新压缩图像,并应用诸如裁剪甚至翻转之类的编辑(例如,当图像可能在未经许可的情况下被使用时,为了逃避检测)。
作者观察到*:
数据泄露是一个普遍存在的问题,在大多数视觉数据集中都普遍存在。数据泄露会削弱模型的泛化能力,这在比较基于不同数据集训练的模型时尤其成问题,导致不公平的比较。
我们敦促数据集设计者仔细考虑这些评估的影响。为了进行更公平的模型评估,我们建议使用同时考虑硬泄漏和软泄漏的重复检测器。
“理想情况下,泄露的图像应该从训练集中删除,如果不可能,至少应该从测试集中删除。”
该论文详细阐述了研究人员对大量流行数据集进行的一系列测试——每一项测试都显示出一定程度的污染。
这篇新论文的标题是《视觉数据集中的数据泄漏》,来自大阪大学的三位研究人员。
03
方法
该论文的作者从三个维度定义了泄漏:模态、覆盖范围和程度。
模态区分是否仅图像泄露,还是图像和标签都暴露;覆盖度识别重叠发生在同一数据集内还是跨不同数据集;程度定义重复内容是完全相同还是仅仅相邻。
关于泄漏,本研究考虑的两种情况是数据集内泄漏(评估图像重新出现在同一数据集的训练分割中)和数据集间泄漏(来自一个数据集的评估图像出现在用于训练的不同数据集中)。
就程度而言,定义的两个级别是软泄漏(图像不相同但表现出微小的变化)和硬泄漏(图像在训练和评估过程中完全相同)。
研究人员从图像检索的角度解决泄漏检测问题,使用图像编码器将每幅图像表示为特征向量。查询集是评估数据,而集合是训练集。
对于较小的数据集,使用余弦相似度将每个查询向量直接与所有训练向量进行比较。对于较大的数据集,构建了Faiss 索引以实现更快的K 最近邻(KNN) 搜索。
由于编码器需要捕捉足够的视觉信息来检测细微的相似性,但在面对大量数据时仍要保持高效,因此作者依赖于数据集创建者提供的预计算CLIP特征,例如支持稳定扩散和后续项目的 LAION 集合。
作者指出,允许 CLIP 使用其对数据集的精炼理解(而不是大规模轮询实际文件)大大加快了这一过程,并提高了比较的一致性。
04
数据和测试
新作品测试中使用的 CLIP 图像编码器是最初用于筛选 LAION 的默认CLIP ViT-B/32。为了确定不同图像之间是否相关,在AutoFaiss下使用了 KNN 方法。
数据集分为三类:预训练数据集——用于训练通用模型的大型网络抓取集合;训练数据集——较小的、通常带有注释的集合,用于直接模型调整;基准数据集——手动注释,专门用于评估。
分析涵盖了七个数据集中的二十个部分:Microsoft COCO被用作训练和评估集,包含训练、验证、测试和未标记的部分;Flickr30k专门用作基准;Google 概念字幕(GCC) 集合被视为预训练源,其验证部分也用于评估。
此外,ImageNet用于训练和基准测试,而LAION-400M数据集仅用于预训练。
OpenImages v4贡献了训练和基准数据,TextCaps提供了训练和测试分割以供评估。
谷歌开放图像数据集(Open Images dataset)中的图像标注示例,已在新研究中进行了验证。来源:https://arxiv.org/pdf/1811.00982
为了评估该方法在图像通过调整大小、裁剪或类似的非语义转换进行细微改变时检测泄漏的效果,作者在 Flickr30k 上进行了测试,随机选择了 5,000 张图像作为查询,并使用整个数据集作为参考集合。
每个查询图像在编码之前都会进行变换(即进行非语义修改,例如调整大小或裁剪),然后使用余弦相似度与集合中最相似的项目进行匹配;只有当原始图像被检索为最佳结果时才计算匹配。
比较的三个编码器分别是ResNet-152;DINOv2 ViT-B/14;和 CLIP ViT-B/32。
使用了四种类型的非语义图像变换:几何(翻转和旋转);裁剪(从每个边缘移除 20、50 或 100 个像素);像素化(高斯模糊、添加噪声或下采样至 128 或 256 像素);和颜色(灰度、反转或红色、绿色或蓝色叠加)。
从补充材料中,应用于数据的转换的示例——也是数据增强预处理中的典型例程。
然后,作者测试了图像检索中的泄漏情况:
对经过各种非语义转换的 5,000 张 Flickr30k 查询图像进行泄漏检测的准确率。
所有三个编码器在未改变的图像上都实现了完美的性能,并且 CLIP 在裁剪、水平翻转、噪声和调整大小方面保持可靠,在像素级和颜色变化方面优于 ResNet。
DINOv2 表现出对颜色变换的强大弹性(作者认为这可能是由于其自我监督设计),但在几何编辑和裁剪方面明显较弱——这两者在重复数据集中都很常见。
由于 LAION 已经包含 CLIP 嵌入,并且考虑到其一致的稳健性和速度,因此选择 CLIP 作为主要分析的默认编码器。
05
硬泄漏和软泄漏
通过不同的余弦相似度阈值来评估性能,以区分精确和近似重复的图像(硬泄漏和软泄漏)。
选择 0.98 的阈值来定义硬泄漏,从而不会出现误报并能完美检测相同的图像。
对于软泄漏,阈值设为 0.95,以便在保持接近于零的假阳性率的同时,检索出更多近似重复项。由于精确度优先于召回率,因此结果为保守估计:
使用受试者工作特征曲线 (ROC) 来指导泄漏检测的硬阈值和软阈值的选择。在转换和未转换条件下,AUC 得分均较高,表明即使存在微小的改变,也能可靠地将近似重复图像与不相关的图像区分开来。
06
数据集内泄漏
数据集内泄漏是通过识别同一数据集内训练和评估分割之间的图像重叠来计算的。只有同时包含基准和训练或预训练分割的数据集才符合条件,因此分析范围缩小至 COCO、GCC、ImageNet、OpenImages 和 TextCaps。
对于 COCO,测试集与训练集、评估集和未标记子集进行比较,验证集与训练和未标记子集进行比较。
在 ImageNet 测试集和验证集的数据集内泄漏率最高,硬泄漏高达 1.58%,软泄漏略低于 2%。紧随其后的是 GCC 和 COCO,COCO val2017 的软泄漏为 3%,其测试集的软泄漏在 1.35% 到 1.38% 之间。OpenImages 的硬泄漏率较低,为 0.05%,但软泄漏在测试集和验证集中均超过 1.3%。TextCaps 的整体泄漏率最低,为 0.69%,未检测到硬泄漏:
数据集内泄漏率,显示每个评估分割与其相关训练数据重叠的比例。
关于这些结果,作者指出†:
“这些结果表明,所有分析的数据集中都存在数据集内泄漏,无论是硬泄漏还是软泄漏。
“鉴于数据泄露可能会损害模型评估,并且数据集是专门为此目的而设计的,因此数据集内泄露是一种设计上不应该存在的风险。
“然而,我们在所有数据集中都发现了多个实例。”
07
数据集间泄漏
为了测量数据集间泄漏(即模型在一个数据集上训练并在另一个数据集上评估),使用了四个数据集作为训练数据源:GCC 训练、ImageNet 训练、OpenImages 训练和 LAION。
这些与从 COCO 2014 测试和验证分割、Flickr30K、TextCaps 测试、OpenImages 测试和验证分割以及 ImageNet 测试和验证分割中提取的评估数据相匹配。
除 LAION 外,所有数据集均提取了 CLIP ViT-B/32 嵌入,LAION 提供了其预计算的嵌入。然而,由于这些嵌入与使用官方 CLIP 实现生成的嵌入略有不同,因此查询图像根据剪辑检索存储库中使用的方法进行了重新缩放,以确保兼容性。
检索是使用 KNN 搜索进行的,尽管 LAION 的规模需要划分为数百万个图像块,并且每个块单独进行索引:
基准数据集(列)和预训练数据集(行)之间的数据集间泄漏。左侧是“硬”泄漏(相同的图像),右侧是“软”泄漏(近似重复)。
所有基准数据集均存在跨数据集泄漏,且严重程度各有不同。LAION 的硬泄漏(相同图像)率最高,尤其是在 OpenImages 和 TextCaps 测试数据中,均超过 3%。OpenImages 对 COCO 数据集的硬泄漏贡献也较小。
尽管不那么严重,ImageNet 仍然包含来自每个基准测试的硬重复;而 GCC 显示出最低的整体硬泄漏,保持在 1% 以下。
软泄漏(近似重复)更为普遍:LAION 再次产生最高的比率,某些基准的重叠率高达 7.9%;OpenImages 和 TextCaps 是总体上受影响最严重的基准;而 Flickr30k 显示的泄漏最少。
尽管这种重叠可能只占评估集的一小部分,但作者指出,它们的存在可能会导致记忆并损害测试有效性:
泄露图像的示例。左侧为“硬”泄露情况,即图像在数据集内(顶部)或数据集之间(底部)完全相同;右侧为“软”泄露情况,即图像在视觉上几乎完全相同。
08
对下游评估的影响
本文接下来考虑数据泄漏如何影响下游评估(即在包含重复训练数据的基准上测试预训练模型时在标准任务上的表现)。
考虑了三项任务:零样本分类;监督分类;和文本图像检索。
对于每项任务,模型性能均基于基准数据集进行评估,该数据集已在预训练数据中识别出泄漏样本。结果在四个子集之间进行比较:完整基准数据集;泄漏样本子集;非泄漏样本子集;以及随机选择的与泄漏组大小相同的子集(用作对照)。
使用已知包含泄露图像的基准子集,测量了数据泄露对三个下游任务的影响。在零样本分类中,使用 LAION 预训练的模型在 ImageNet 评估集的泄露图像上取得了显著更高的准确率,这证实了即使在训练期间接触近似重复的图像也能带来显著的优势:
在 ImageNet 验证集上,有泄漏和无泄漏子集的零样本分类准确率。最后一列报告了相对于全集的准确率提升,突出显示的行对应于泄漏的子集。
对于监督分类,ImageNet 中的泄漏会导致性能急剧下降——除非泄漏的图像在两个分割中具有相同的标签,在这种情况下模型可以实现近乎完美的准确度,从而显示出强大的记忆效果:
在 ImageNet 验证集上,有泄漏和无泄漏子集的监督分类准确率。增益列显示相对于全集的变化。泄漏的子集已突出显示。
在图像到文本检索中,泄漏样本的性能再次得到改善,硬泄漏和软泄漏均导致更高的召回率,并且泄漏子集在运行过程中也产生更一致的结果:
在有泄漏和无泄漏的子集上,Flickr30k 上的图像到文本检索性能,泄漏的子集突出显示。
作者总结道:
“总的来说,我们[显示]一致的证据表明泄漏对视觉数据集中的公平模型评估构成了严重威胁,损害了最基本的机器学习原则之一:不根据训练数据评估模型。”
结论
该论文的一个令人震惊的方面(尽管这并不新颖)是需要使用 CLIP 来获取 LAION 中海量图像数据的嵌入,这代表着除了聚合之外无法通过任何其他方式处理的规模,处理标记化的元数据而不是在数据集更易于管理时可以检查的更详细的特征。
它清楚地表明了视觉语言模型的训练在多大程度上已经彻底超出了人类监督的界限和能力,或者超出了代表性子样本的任何形式的手动管理。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
设为星标 避免错过
虚拟世界没有旁观者,每个点赞都是创造历史的像素
关注我,一起探索AWM⁺
2025-08-15
2025-08-14
2025-08-13
商业赞助
点击下方 “目录” 阅读更多
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.