FREE-GRAINED HIERARCHICAL RECOGNITION
自由粒度层次识别
https://www.arxiv.org/pdf/2510.14737
《Free-Grained Hierarchical Recognition》针对现实中标注粒度不一致的问题,提出自由粒度层次识别(Free-Grained Hierarchical Recognition)新范式。其核心贡献包括:
问题定义:指出传统层次分类假设所有样本均有完整细粒度标签,而现实中标签粒度因图像质量、标注者能力等而异(如“Bird” vs. “Bald eagle”),需在异构监督下预测完整分类路径。
新基准构建:
- ImageNet-3L :基于认知心理学(Rosch 理论),重构 ImageNet 为结构清晰的三级层次(基本级–下属级–细粒度级),避免 WordNet 原始体系的冗余与不一致。
- ImageNet-F :利用 CLIP/BioCLIP 模拟人类标注行为,通过置信度剪枝生成混合粒度标签,构建大规模自由粒度训练集;同时提供 iNat21-mini-F、CUB-F 及合成数据集 CUB-Rand/Aircraft-Rand。
方法创新:
- Text-Attr :利用视觉-语言模型生成图像描述,提取
伪属性 作为跨层级共享的语义引导,缓解细粒度标签缺失问题。
- Taxon-SSL:将缺失标签视为无标签数据,通过层次结构约束的半监督学习传播视觉一致性。
二者可结合,显著优于现有层次分类 SOTA(如 H-CAST、HRN)。
关键发现:
现有方法在自由粒度设定下性能骤降(如 FPA 下降超 40%);
Text-Attr 在标签极度稀疏时更优,Taxon-SSL 在中等监督下表现更好;
引入 自由粒度推理 (按一致性动态停止预测),提升实际可用性。
该工作首次系统研究混合粒度监督下的层次分类,为现实场景中的可扩展、鲁棒层次识别提供了新基准、新方法与新视角。
![]()
摘要:
层次化图像分类旨在预测语义分类体系中的标签,但现有方法通常假设所有样本都具有完整、细粒度的标注——这一假设在实践中很少成立。现实世界中的监督信号在粒度上存在差异,受图像质量、标注者专业知识和任务需求等因素影响:一只远处的鸟可能仅被标注为“Bird”(鸟),而近景图像则可标注为“Bald eagle”(白头海雕)。我们提出了 ImageNet-F,这是一个从 ImageNet 中精心构建的大规模基准数据集,按照认知科学启发的方式划分为基本级(basic)、下属级(subordinate)和细粒度级(fine-grained)三个层次。我们以 CLIP 作为语义模糊性的代理,模拟反映人类标注行为的真实混合粒度标签。我们提出“自由粒度学习”(free-grain learning),允许不同样本具有异构的监督粒度。我们开发了两类方法:一是通过视觉-语言模型生成伪属性以增强语义引导,二是通过半监督学习增强视觉引导。这些方法与强基线模型相结合,在混合监督条件下显著提升了性能。我们的基准和方法共同推动了在现实约束下的层次化分类研究。
1 引言
层次化分类(Chang 等,2021;Chen 等,2022;Jiang 等,2024;Park 等,2025)旨在预测一个语义标签树,涵盖从宽泛到具体的各类别。这种更丰富的输出支持灵活应用:专家可能需要识别“Bald Eagle”(白头海雕),而普通用户可能只需知道“Bird”(鸟)。此外,预测完整层次结构有助于提升模型的鲁棒性与可扩展性,促使模型在不同层级间泛化,并能自然支持扩展,例如新增父类或子类。然而,现有方法(Chang 等,2021;Wang 等,2023)通常假设所有训练样本在所有层级上都具有完整监督,这在现实中几乎不成立。在实际场景中,标注粒度取决于图像清晰度、标注者专业水平或特定任务需求:一只远处的鸟可能只能被标注为“Bird”,而近景图像则可标注为“Bald eagle”(见图1)。
![]()
我们提出了 自由粒度学习 (free-grain learning),其中监督信号的粒度可以自由变化:训练标签可出现在固定分类体系的任意层级上,例如“Bird”(鸟)、“Bird of prey”(猛禽)或“Bald eagle”(白头海雕)。其核心挑战在于:如何从具有 混合粒度 (而非统一细粒度)标签的训练数据中,预测出完整的分类体系。该任务不仅反映了现实世界中标注质量与具体程度的多样性,还使得模型能够大规模地从未完全标注的数据中进行学习。此外,它还要求模型在语义标注粒度之间以及不同视觉样本之间进行整合,因为模型必须基于异构的监督信号,为每个样本推断出完整的分类体系。
然而,现有基准数据集并不适合这一任务(见表1)。CUB(Welinder 等,2010)和 Aircraft(Maji 等,2013)等小型数据集缺乏规模;而 iNaturalist(Van Horn 等,2021)仅限于生物学领域,不适合通用评估。更大的基准数据集如 ImageNet(Russakovsky 等,2015)和 tieredImageNet(Ren 等,2018)则继承了 WordNet(Fellbaum,1998)中噪声大、结构不一致的层次体系。如图2所示,其层次深度在5到19层之间大幅波动,某些类别甚至存在多条路径——例如,“Minivan”(小型货车)出现在四条不同路径中(深度12–15),而“Teddy bear”(泰迪熊)仅在深度7处出现一次。此类不一致性导致评估模糊:一个细粒度类别可能对应多个层次路径,且预测常需遍历冗长且重复的节点链(如“entity”(实体)、“object”(物体))。因此,ImageNet 和 tieredImageNet 上的大多数方法仅将评估限制在叶节点准确率上,并辅以“错误严重性”(mistake severity)等辅助指标(Bertinetto 等,2020;Garg 等,2022b;Jain 等,2023)。
![]()
为解决上述局限,我们构建了 ImageNet-3L,一个结构清晰的三级层次基准:基本级(basic,如 Dog(狗))、下属级(subordinate,如 Shepherd(牧羊犬))和细粒度级(fine-grained,如 German Shepherd(德国牧羊犬))(见图3)。该设计基于认知心理学(Rosch 等,1976;Rosch,1978)和民间分类学(folk taxonomies)(Berlin 等,1966),反映了人类最自然、最广泛识别的类别是基本级,而下属级和细粒度级则逐步捕捉更具体的区分。通过聚焦这一范围——从最直观到最细致——我们实现了语义上有意义的层次化预测,避免了原始 ImageNet 层次中那些抽象或冗余的层级(如“Physical Entity”(物理实体)),这些层级几乎无实际价值。
![]()
在 ImageNet-3L 的基础上,我们进一步构建了 ImageNet-F——一个模拟混合粒度标注的自由粒度基准。我们以 CLIP(Radford 等,2021)作为视觉–语义模糊性和标注者变异性的代理,根据预测置信度在不同层级上剪枝标签。由此生成了符合现实的监督模式——例如,远处的鸟被标注为“Bird”,中距离标注为“Bird of prey”,而近景则标注为“Bald eagle”(见图4)。最终数据集涵盖 645,480 张图像,包含 20 个基本类、127 个下属类和 505 个细粒度类(见表1)。我们采用相同策略,结合 BioCLIP(Stevens 等,2024),在 iNat21-mini 和 CUB 上分别构建了 iNat21-mini-F 和 CUB-F;此外,还创建了合成变体 CUB-Rand 和 Aircraft-Rand,用于在不同标签稀疏性和粒度条件下进行可控评估。
![]()
![]()
在自由粒度设定下直接应用时,现有的层次分类器(Chen 等,2022;Park 等,2025)性能严重下降——在 iNat21-mini 上,完整路径准确率最多下降 40%,凸显了该任务的挑战性。为应对这一问题,我们提出了三种额外策略:
1)从视觉–语言模型中学习伪属性(例如“短腿”、“断尾”),在细粒度标签缺失时提供语义线索;
2)将缺失粒度的标签视为无标签数据,采用半监督学习;
3)结合上述两种方法。
在多个数据集上,这些方法比层次化基线模型提升了 +4 至 +25 个百分点的准确率,为自由粒度学习建立了更强的基线。
贡献:
1)我们提出面向层次分类的自由粒度学习(free-grain learning),以捕捉现实世界中标签粒度的可变性;
2)我们发布了 ImageNet-F,其采用基于认知科学的三级层次结构,并构建了覆盖多个领域的其他自由粒度基准;
3)我们建立了强基线方法,通过融合语义引导与视觉引导,显著提升了模型性能。
2 相关工作
层次化分类的研究主要集中于两类场景:一是在大规模但结构不一致的分类体系(如 ImageNet)上进行叶节点预测(Karthik 等,2021;Zhang 等,2022);二是在 CUB 和 Aircraft 等小型数据集上进行完整分类体系预测(Chang 等,2021;Park 等,2025)。这些设定缺乏现实评估所需的规模、多样性以及标签稀疏性。相比之下,我们的工作首次支持在大规模数据上、在异构监督条件下进行完整分类体系的预测。
不平衡分类以及半监督/弱监督分类已被广泛研究(Liu 等,2019;Tarvainen & Valpola,2017;Robinson 等,2020),但大多局限于单一细粒度层级,或假设粗粒度标签完全可观测。而我们所处理的问题同时涉及层级内(intra-level)和层级间(inter-level)的不平衡,要求模型在部分监督缺失的情况下,对多个粒度层级做出一致的预测。完整的任务对比见表 2。
![]()
基础模型(如 CLIP,Radford 等,2021)已被用于通过文本提示实现零样本的扁平分类(Pratt 等,2023;Saha 等,2024)。相比之下,我们的方法仅在训练阶段利用文本信息,以学习跨粒度层级的视觉模式,而在推理阶段无需任何文本输入。
更多讨论及其他相关工作详见附录 B。
3 面向自由粒度识别的层次化数据集
3.1 为 ImageNet-3L 定义三级分类体系
我们将 ImageNet(Russakovsky 等,2015)基于 WordNet(Fellbaum,1998)的原始层次结构重新组织为一个一致的三级分类体系,明确遵循 Rosch 的类别化原则(Rosch 等,1976)。在 Rosch 的框架中,基本级(basic level)(例如 dog(狗)、car(汽车))是最自然且视觉上最具区分度的层级,它在普遍性与特异性之间取得平衡;这也是人们在日常识别和命名中最常使用的层级,不同于抽象的上位类别(如 animal(动物))或过于狭窄的下属类别(如 Pembroke(彭布罗克犬))。
我们在每个分支中将基本级作为最粗粒度的节点,下属级(subordinate)和细粒度级(fine-grained)(例如 Corgi(柯基犬)→ Pembroke)则提供逐级更精细的区分。然而,WordNet 中的一些链条(例如 artifact → … → vehicle → … → motor vehicle → car → ambulance)若将 car 视为基本级,则仅能获得两个可用层级。在此类情况下,我们将 Rosch 所定义的上位类别(例如 vehicle(车辆))提升为基本级。该类别与其他基本类别(如 craft(载具)、container(容器))在视觉上仍具有明显区分度,并确保了三级层次结构的完整性。
由此构建的分支能够支持三个语义连贯且视觉上有意义的层级,适用于层次化预测任务。
具体而言,我们采用以下系统性原则:1)强制有意义的结构:我们移除每个节点仅有一个子节点的路径,因为在这些路径中,粗粒度标签已完全决定了细粒度标签;同时排除层级少于三级的分支。2)最大化组内多样性:在每个基本类下的下属类候选中,优先选择拥有更丰富细粒度子类的类别——例如选择“parrot”(鹦鹉,含4个子类)而非“cockatoo”(凤头鹦鹉,仅1个子类)。3)细化模糊类别:将“Women’s Clothing”(女装)等模糊分组重新组织为语义清晰、功能明确的类别(如“Underwear”(内衣)),以提升分类清晰度。4)结合语言模型与人工审核:我们使用语言模型(如 ChatGPT(Achiam 等,2023))提出优化建议,并对所有决策进行人工审核,确保语义一致性。
将此整理流程应用于 ImageNet-1k,最终构建出一个结构化的基准数据集,包含 20 个基本类、127 个下属类和 505 个细粒度类,确保每个分支均支持有意义的层次化预测(完整类别列表见附录 A)。
3.2 面向 ImageNet-F、iNat21-mini-F 和 CUB-F 的语义标签剪枝
为构建符合现实的自由粒度训练数据集,我们利用大规模视觉–语言模型作为视觉–语义模糊性的代理,对层次化标签进行剪枝:对 ImageNet-F 使用 CLIP(Radford 等,2021),对 iNat21-mini-F 和 CUB-F 使用 BioCLIP(Stevens 等,2024)。尽管这些模型并非专门设计用于衡量模糊性,但其零样本预测置信度与视觉可区分性高度相关(见图4)。此外,由于实际标注受标注者专业知识或误差影响,该代理提供了一种实用的近似。
我们采用 CLIP 的提示集成策略(例如 “a photo of a [class]”, “art of a [class]”),并计算细粒度级和下属级的平均置信度。标签保留规则基于预测正确性:(1) 若细粒度和下属级预测均正确,则保留全部三级标签;(2) 若仅下属级正确,则保留至该层级;(3) 否则,仅保留基本级标签。此外,我们还按每类细粒度标签的移除比例,对下属级标签进行相应比例的剪枝。
(1) ImageNet-F:剪枝后,32.6% 的图像保留全部三级标签(基本 + 下属 + 细粒度),28.0% 保留两级(基本 + 下属),39.4% 仅保留基本级。每个类别的图像数量与原始 ImageNet 保持一致,不平衡仅源于标签粒度差异。(2) iNat21-mini-F:尽管 BioCLIP 在完整分类体系上训练,其在预测细粒度物种时表现良好,但在受限于粗粒度标签时表现较差。这一差距使得大量剪枝成为可能:22.5% 的图像保留全部三级(目 + 科 + 种),28.0% 保留两级,49.5% 仅保留“目”级。(3) CUB-F:采用相同流程,31.5% 的图像保留三级,23.3% 保留两级(目 + 科),45.2% 仅保留“目”级。
3.3 面向 CUB-Rand 和 Aircraft-Rand 的合成标签剪枝
为控制标签可用性,我们通过从 CUB(Welinder 等,2010)和 Aircraft(Maji 等,2013)中随机剪枝标签,构建了合成变体——CUB-Rand 和 Aircraft-Rand。与基于语义模糊性的现实剪枝不同,这种设计可系统性地调节监督信号,并模拟极端稀疏情况(例如仅保留 10% 的细粒度标签),从而在多样化的标签分布下对模型鲁棒性进行压力测试。尽管随机移除与图像难度无关,但它反映了实际因素,如标注者专业水平、成本或任务特定约束。我们用 a-b-c 表示标签可用性,其中 a%、b%、c% 分别表示保留的基本级、下属级和细粒度级标签比例(例如 100-50-10 表示保留 10% 的细粒度标签,以及 40% 仅含下属级的标签)。
4 面向层次化分类的自由粒度学习方法
4.1 问题设定
![]()
4.2 基线方法
由于当前尚无针对这一新设定的现有基线,我们提出了四个强大的基线方法,分别从不同角度切入该问题。
(1) 语义引导:文本引导的伪属性(Text-Attr)
我们的语义引导方法源于一个观察:尽管类别标签在层次结构的不同层级上有所不同(例如,Dog → Corgi → Pembroke),但许多视觉属性——如尾巴长度或耳朵形状——保持一致(见图5a)。为捕捉这些共享的语义线索,我们使用图像描述作为辅助监督。与用于零样本分类的类别名称提示不同,我们直接从图像中提取自由形式的描述,且不依赖于标签。
![]()
![]()
![]()
其中 sim(⋅,⋅)表示余弦相似度,τ为温度参数。该损失引导编码器捕捉跨层级共享的、与标签无关的显著特征。尽管该方法并未显式预测属性,但通过将图像特征与文本对齐,诱导出中间表征,我们称之为伪属性(pseudo-attributes)。这种与模型无关的方法可应用于任意架构。
最后,对于层次化监督,我们仅在具有可用标签的层级上应用该损失。给定 L 个层级上的层次化标签 y1,…,yL,模型在每个层级上计算相应的损失:
![]()
![]()
![]()
(3) 结合语义与视觉引导:Taxon-SSL + Text-Attr一个自然的下一步是将 Text-Attr 与 Taxon-SSL 结合,即将文本生成的嵌入融入 Taxon-SSL 的特征提取器中,从而在训练过程中联合利用语义引导和视觉引导。
(4) 最先进的层次化分类方法:H-CAST 与 HRN我们采用了两种具有代表性的模型:(4-1) 层次化残差网络(Hierarchical Residual Network, HRN)(Chen 等,2022):首个通过在树结构约束空间内最大化边缘概率,同时处理下属级和细粒度级监督的方法。(4-2) H-CAST(Park 等,2025):当前最先进的方法,旨在促进分类体系各层级间一致的视觉 grounding。该方法原本在完整监督下训练,我们通过公式 (2) 中的层级损失对其进行适配,仅使用可用的标签。
5 实验
数据集:我们使用所提出的 ImageNet-F、iNat21-mini-F 和 CUB-F 数据集,以及合成的 CUB-Rand 和 Aircraft-Rand 数据集进行实验。CUB 包含鸟类图像,涵盖 13 个目(如雁形目 Anseriformes)、38 个科(如鸭科 Anatidae)和 200 个物种(如绿头鸭 Mallard);Aircraft(Maji 等,2013)包含飞机图像,涵盖 30 个制造商(如波音 Boeing)、70 个系列(如波音 707)和 100 个具体型号(如 707-320)。
评估指标:遵循 Park 等(2025)的做法,我们评估准确率与一致性:
1)层级准确率(Level-accuracy):每个层级的 Top-1 准确率;
2)基于树的不一致性错误率(Tree-based InConsistency Error rate, TICE):测试样本中预测路径在层次结构中不一致的比例,越低越好,TICE = Nnic;
3)完整路径准确率(Full-Path Accuracy, FPA):所有层级预测均正确的测试样本比例,越高越好,我们将其作为主要指标之一,FPA = Nnac。
实现细节:我们使用 H-ViT(基于 ViT-Small 的层次化分类器)作为骨干网络,用于评估 Text-Attr 和 Taxon-SSL。为验证其在不同架构上的兼容性,我们还将 Text-Attr 应用于当前最先进的层次化模型 H-CAST(Park 等,2025),其容量相当。HRN(Chen 等,2022)则使用其原始的 ResNet-50 骨干网络,参数量超过两倍。所有模型训练 100 个 epoch,仅 ImageNet-F 因规模较大训练 200 个 epoch。完整架构与训练细节见附录 F。
结果 1:自由粒度学习下的性能下降
先前的层次化 SOTA 方法 H-CAST 在混合粒度标签下性能急剧下降。如图 6 所示,在 CUB-F 上,完整路径准确率从 84.9% 降至 45.1%;在 iNat21-mini-F 上,从 64.9% 降至 25.6%。这表明处理混合粒度标签及跨层级不平衡监督极具挑战,亟需专门应对的方法。
![]()
结果 2:在 ImageNet-F 上的性能
如表 3 所示,现有层次化方法在自由粒度设定下表现大幅退化:HRN 的 FPA 仅为 37.8%,H-CAST 表现更好(57.6%),但仍受缺失标签困扰。Text-Attr(H-ViT)在不依赖 H-CAST 视觉分组机制的情况下达到 55.5%;将其集成到 H-CAST 后,性能进一步提升至 63.2%,证明了大规模下语义引导的伪属性学习的有效性。Taxon-SSL 通过视觉引导优于 HRN,但仍不及 Text-Attr 方法,后者得益于 ImageNet-F 丰富的多样性和可靠的视觉–语义对齐。
结果 3:在 iNat21-mini-F 上的性能
在包含大量类别(10,000 类)的大规模 iNat21-mini-F 数据集上(表 3),传统层次化方法表现不佳(HRN 为 17.0%,H-CAST 为 25.63%)。Taxon-SSL 取得最佳性能(FPA 31.9%),凸显了在每类监督有限时,结构化标签传播的优势。Text-Attr 方法略低(FPA 27.9–30.0%),可能因该细粒度生物领域中文本多样性受限,但仍优于传统基线。
附录中还报告了 CUB-F(附录 C.1)、高缺失率合成数据集(附录 C.2)的结果,以及对 Text-Attr 特征、训练策略和架构设计的消融实验(附录 E)。
分析 1:Text-Attr 在标签稀疏时表现优异,Taxon-SSL 在标签中等可用时更优
我们在 ImageNet-F 上分析不同细粒度标签数量下的类别级性能。为隔离影响,我们比较了使用相同 ViT-Small 骨干的 Text-Attr(H-ViT)和 Taxon-SSL(不含 H-CAST 模块)。图 7 按细粒度训练样本数量排序显示各类准确率:Text-Attr 在标签稀缺类别中表现更优,因其利用文本描述作为额外监督;而 Taxon-SSL 在标签中等可用时表现更好,因其能在缺失层级间传播一致性。附录 D 提供了额外的 t-SNE(Maaten & Hinton, 2008)可视化分析。
分析 2:外部语义引导带来了什么优势?
为评估文本引导的效果,我们比较了 Taxon-SSL 与 Text-Attr(H-ViT)的显著性图(Chefer 等,2021)(图 8)。第一行中,图像含多个物体,Taxon-SSL 聚焦于人肩部导致错误分类,违反语义层次;而 Text-Attr 始终关注乐器并正确预测。第二行中,两者在细粒度层级均失败,但 Taxon-SSL 输出了无关类别,而 Text-Attr 通过关注卷毛和体型,选择了视觉相似的狗。结果表明,外部语义线索能引导模型关注跨粒度的有意义特征,提升层次一致性;而 Taxon-SSL 在监督稀疏或模糊时,可能偏向视觉显著但语义无关的区域。
![]()
分析 3:自由粒度推理
尽管我们的主要目标是在混合粒度监督下预测完整层次结构,但自由粒度推理在实践中同样关键:一个正确的粗粒度标签通常优于错误的细粒度预测(例如预测“dog”而非错误的犬种)。我们采用简单的一致性停止规则:当下一层级预测会违反分类体系时,即停止输出,确保返回最深的有效预测。如图 9(右)所示,Text-Attr(H-CAST)更频繁地达到更深层级且准确率更高。图 9(左)展示了示例:当“bird”正确但下属类预测错误时,停在基本级;当“dog → hound”正确但细粒度不一致时,停在下属级。这些结果凸显了自由粒度推理的实用价值,并推动构建明确评估该场景的基准。
![]()
6 总结
我们提出了在自由粒度监督下的新型层次化分类任务,其中模型从不同粒度的标签中学习,同时保持分类体系的一致性。为推动该设定的发展,我们构建了一个大规模基准数据集,并提出了两种简单而有效的基线方法。我们的 Text-Attr 方法通过跨层级共享特征来缓解标签不平衡问题,尽管它并未显式建模不平衡;未来工作可探索对不平衡感知的策略,以进一步提升性能。
原文链接:https://www.arxiv.org/pdf/2510.14737
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.