网易首页 > 网易号 > 正文 申请入驻

迈向可靠的领域泛化:来自PF2HC基准与动态评估的启示

0
分享至

Towards reliable domain generalization: Insights from the PF2HC benchmark and dynamic evaluations

迈向可靠的领域泛化:来自 PF2HC 基准测试和动态评估的启示

https://www.sciencedirect.com/science/article/pii/S0031320324006770



摘要
深度神经网络(DNNs)容易对训练集产生偏差,这导致其在分布外数据上的性能大幅下降。在领域泛化(DG)的文献中,许多方法被研究以在各种分布偏移下实现泛化。为了促进实际的DG研究,我们构建了一个大规模的非独立同分布中文字符数据集,称为PaHCC(印刷和手写中文字符),用于DG方法的真实应用场景(从印刷字体到手写字符的泛化,PF2HC)。我们在提出的PaHCC数据集上评估了18种DG方法,并证明当前算法在该数据集上的性能仍然不足。为了提高性能,我们提出了一种基于部首的多标签学习方法,通过将结构学习整合到统计方法中。此外,在动态评估设置中,我们发现了DG方法的额外属性,并证明许多算法存在性能不稳定的问题。我们主张DG研究者在未来的研究中不仅要关注在固定留一法协议下的准确性,还要关注在可变训练域中的算法稳定性。我们的数据集、方法和评估为DG社区带来了宝贵的见解,并可能促进现实和稳定算法的发展。

关键词:分布偏移、结构学习、数据集、评估

1. 引言
深度神经网络在许多经典数据集上取得了显著的性能,但在现实世界的应用中可能会经历显著的性能下降。原因之一是数据分布偏移。具体来说,在开放世界中,由于不可预测的环境变化以及数据收集过程中引入的偏差,测试数据的分布通常与训练数据的分布不一致。解决训练数据和测试数据之间的分布偏移问题,即领域泛化(DG)或分布外泛化(OODG),仍然是一个开放性问题。
在过去十年中,DG社区的研究者们从不同角度提出了许多方法来提高模型的泛化能力[1,2]。然而,DomainBed [3]基准测试表明,在相同的实验条件下,测试的十四种方法中没有任何一种同时超过了基线模型(ERM,经验风险最小化[4])。这反映了当前算法评估标准的不足,迫切需要努力发现潜在问题并增强这些标准。此外,目前社区广泛使用的数据集在实际部署中的分布偏移代表性不足[5]。现有的基准测试通常以明确定义的域变化组织,例如PACS数据集中的“照片、卡通、艺术绘画和素描”域。此外,其中大部分只包含少量类别,例如VLCS数据集中的五个对象。这些基准测试作为开发方法和进行分析的重要试验场。然而,它们通常无法描绘出实际应用中遇到的真实场景,这些场景以复杂的分布偏移和大量类别为特征。为了促进适用于实际应用的DG研究,我们需要补充能够捕捉真实世界偏移的数据集。

为了促进DG研究的实用性和通用性,我们构建了一个新的非独立同分布(Non-I.I.D.)图像数据集,用于中文字符识别场景,这一领域在之前的基准研究中尚未涉及[3,5]。与英文字母相比,中文字符具有庞大的词汇量和复杂的结构。对于传统的手写中文字符识别任务,需要收集大量的手写数据来训练模型,这需要耗费大量的人力和物力资源。此外,由于不同书写者书写风格的不一致性,不同书写者之间的泛化问题通常被认为是之前研究中的一个问题[6,7]。鉴于我们可以利用字体库轻松生成大量的合成印刷数据,如果能够仅使用合成印刷数据训练一个在不同书写者的手写字符上表现良好的鲁棒识别模型,这将具有极大的价值。基于此,我们提出了从印刷字体到手写字符的泛化任务(PF2HC),并构建了一个名为PaHCC(印刷和手写中文字符)的非独立同分布图像数据集,其中包含996478个样本和1000个类别。我们将合成印刷数据根据字体类型划分为三个域,并将所有扫描的手写数据视为测试域。
在提出的PaHCC数据集上,我们进行了广泛的评估实验。通过测试DomainBed [3]中包含的多种DG方法,我们表明,所有测试方法都不可避免地会学习中文字符像素值的统计信息。在本文中,我们提出通过整合结构学习来增强模型的泛化能力。具体来说,根据PaHCC数据集的特征,我们通过引入基于部首的多标签学习(RBML)为现有方法带来了显著且一致的性能提升。此外,我们通过改变训练域来探索现有评估标准的潜在问题。我们在PaHCC、PACS和DomainNet数据集上的动态评估实验揭示了许多DG方法存在性能不稳定的问题,并建议我们除了在常用的留一法协议下的准确性外,还应更多关注在可变训练域下的稳定性。
总之,我们的贡献如下:
• 为了补充现有的基准测试,用能够捕捉真实世界分布偏移的数据集,我们构建了一个大规模的非独立同分布中文字符数据集,用于实际的印刷到手写识别任务。
• 在PaHCC数据集上的广泛实验表明,现有的DG方法无法很好地处理这一任务。提出的RBML方法可以通过引入结构学习来实现更好的性能。
• 通过对PaHCC、PACS和DomainNet基准测试上的十八种DG方法进行动态评估,我们发现了DG方法的额外属性,这促使我们除了在留一法协议下的准确性外,还应更多关注算法的稳定性。
本文的其余部分安排如下。第2节回顾DG社区中现有的方法、公共数据集和评估标准。第3节介绍所提出的数据集。第4节描述所提出方法的细节。第5节展示实验结果,第6节总结。

2. 领域泛化
在本节中,我们对DG社区中现有的方法进行分类和综述。在我们的实验中,我们评估并分析了所选的十八种算法。为了全面把握,我们还简要介绍在领域泛化研究中常用的公共数据集和评估标准。

2.1 方法
近年来,研究者们从不同角度提出了大量的领域泛化方法,这些方法大致可以分为三类:数据操作、表示学习和学习策略[2]。
在过度参数化的深度神经网络(DNNs)中,数据增强通常被用作数据级正则化,以缓解模型的过拟合并提高泛化能力。由于其对数据驱动的DNNs性能有显著影响,许多研究集中在通过各种数据操作丰富训练数据的多样性,以利于领域泛化。早期的工作通过分类损失的梯度扰动输入样本[24,25],或借助生成模型合成新的训练样本[26,27]。最近,由于操作简单且计算成本低,原始数据在特征空间中的特征增强[28–30]越来越受到关注。此外,一些方法[31,32]通过在频域中解耦和混合不同样本的内容和上下文信息,然后将其转换回空间域来增强数据。
表示学习主要通过学习领域无关的表示来应对分布偏移。领域对齐是一种常见方法,它对齐源领域的边缘分布[19,33]或跨源领域的类别条件分布[8,34],并希望在源领域之间学到的不变性能够扩展到未见的测试领域。学习解耦表示[35,36]也是一种选择,可以看作是领域对齐的放松,允许部分特征是领域特定的,而其他特征是领域无关的。此外,一些工作从其他角度提出了理论或实验观点。Arjovsky等人[10]不是直接匹配源领域之间的表示分布,而是强制特征空间上的分类器对所有训练环境都是最优的,即不变风险最小化(IRM)。SagNet[23]通过调整模型对风格和内容的偏差来学习更具语义相关性的表示,从而减少领域差距。

除了数据操作和表示学习,许多研究还从模型优化的角度考虑领域泛化问题。一些方法通过结合通用的鲁棒机器学习算法来提高模型的鲁棒性,包括元学习[37]、集成学习[38,39]、对抗学习[8,9]和自监督学习[14]。此外,一些工作基于直觉设计了正则化策略。RSC[21]通过掩盖对应于大梯度的特征组件来避免学习错误的低级特征,从而增加模型训练的难度。GroupDRO[13]交错更新模型参数和每个组的权重。在更新模型参数时,损失更高的组贡献更大。AND-mask[20]在基于梯度下降的模型训练中,基于不同环境中梯度符号的不一致性,将参数梯度组件置零。
选定的方法。在本文中,我们遵循DOMAINBED基准测试[3],并纳入了一些近期的工作,包括十八种算法,这些算法是根据多年来的影响、已发布的性能以及包含上述各种DG策略的愿望而选择的。详细列表如表1所示。具体来说,Mixup[17]和SagNet[23]涉及数据操作,CORAL[22]、DANN[9]、CDANN[8]、MMD[19]、IRM[10]、VREx[12]、IB-ERM[18]、IB-IRM[18]、SelfReg[14]和SagNet[23]与表示学习相关。RSC[21]、GroupDRO[13]、SelfReg[14]、AND-mask[20]、SAND-mask[16]、SD[15]和Fish[11]涉及模型优化中的特殊考虑。


2.2 常用数据集
这里简要介绍DG社区中常用的六个公共数据集(PACS[40]、VLCS[41]、彩色MNIST[10]、DomainNet[42]和NICO[43])。这些数据集通常被人为划分为几个领域,每个领域内的数据在视觉形态上具有一致性。通常,所有领域共享相同的类别集。
PACS[40]包含7个类别(狗、大象、长颈鹿、吉他、马、房子、人),分布在四个不同领域(照片、艺术绘画、卡通、素描)中,共有9991张图像。它是一个简单且平衡的多领域数据集。所有图像的大小均为227×227。图1给出了一些数据集的示例。


Office-Home [44] 包含65个类别,共有15588张图像,分为四个领域(艺术、剪贴画、产品、现实世界)。特别是,艺术领域由素描、绘画、装饰等形式的艺术图像组成。该数据集包含通常出现在办公和家庭环境中的对象,是一个具有更微妙的领域变化、更多类别以及每个类别样本数量更少的具有挑战性的数据集,与PACS相比,其图像大小并不统一。图2给出了该数据集不同领域中的一些示例。


VLCS [41] 包含五个类别,共有10729张图像。它包括来自Caltech-101(C)数据集的以物体为中心的图像,以及来自PASCAL VOC2007(V)、LabelMe(L)和SUN09(S)数据集的以场景为中心的图像,每个数据集都被视为一个领域。所有图像的大小均为227×227。图3给出了一些VLCS数据集的示例。


彩色MNIST [10] 是一个合成的二元分类数据集(对于数字0-4,预测标签 ŷ = 0;对于数字5-9,预测标签 ŷ = 1),源自MNIST [45]。它在训练集中将类别标签与红色或绿色关联起来,并在测试集中反转这种相关性。该数据集旨在研究学习算法是否能够避免使用对泛化有害的虚假相关特征(在此例中为颜色)进行分类。图4给出了该数据集的一些示例。


DomainNet [42] 包含 345 个类别和 6 个域(剪贴画、信息图、绘画、速绘、真实图像、素描)。该数据集是一个大规模数据集,总计包含 586,575 张图像。其中,信息图域内图像尺寸差异显著,而其他域内图像尺寸差异较小。图5展示了该数据集的一些示例。


NICO [43] 包含来自动物和交通工具两个超类的共19个类别,总计近25,000张图像。在每个类别内部,图像被进一步划分为不同的情境(context),例如“在雪地里”、“在草地上”、“与人相伴”、“行走中”以及“躺卧中”。每种情境被视为一个域(domain)。图像尺寸并不统一。图6展示了该数据集的一些示例。


局限性:常用的公开数据集通常类别数量较少(如表2所示),这使其难以反映现实世界中的应用需求。当数据集类别数量较少时,建模域间差异相对容易;而类别数量较大时,域间差异与类内差异将共同影响模型性能,因而更能体现不同领域泛化(DG)方法的优势与不足。此外,公开数据集中的域偏移(domain shift)往往被清晰界定,而这在现实场景部署中未必总能成立。例如,许多研究工作探讨了由合成变换(如改变MNIST数字的颜色 [10])或由异构数据划分(如在真实照片、艺术绘画、卡通与素描之间进行泛化 [40])所引发的分布偏移。此类数据集为系统性研究提供了关键试验平台;但为推动方法在实际应用中的发展,我们仍需补充那些能捕捉真实世界中“野外”(in-the-wild)分布偏移的数据集。

2.3 设置与评估
领域泛化旨在提升模型对分布外(out-of-distribution)数据的泛化能力。现有领域泛化方法通常采用「留一域交叉验证」(leave-one-domain-out)协议进行评估:具体而言,对于一个包含 n 个域的数据集,选取其中 n − 1
个域作为源域(source domains),余下1个作为测试域(target domain);如此共可形成 n 种划分方案。在所有方案下所得的测试准确率及其平均值,被用作性能评估指标。表3提供了更直观的说明。


  1. 新数据集:PaHCC如前文所述,目前已涌现大量专门的领域泛化方法,旨在通过在多个可用的训练域(通常称为源域)上训练,提升深度模型在未知域上的泛化能力。然而,研究者通常仅在物体识别任务上评估所提出的领域泛化(DG)方法。常用的基准数据集往往是人为设计的,具有清晰的特性且类别数量较少,而这类设定在现实部署中并不总能成立。为实现更全面的评估,亟需补充更多能反映现实世界中自然出现的分布偏移的数据集。基于这一考虑,WILDS [5] 的作者整理了十个反映现实应用场景中自然分布偏移的数据集。然而,中文字符识别任务——其分布偏移与上述十项任务不同,且常导致模型性能显著下降——迄今尚未被纳入其中。

3.1 PF2HC任务

本文提出一项贴近实际的中文字符识别任务,即从印刷字体到手写字符的泛化(Printed Fonts to Handwritten Characters, PF2HC),以促进领域泛化研究。

在传统手写中文字符识别任务中,研究者通常需收集大量手写数据来训练模型;这种做法既与人类认知过程相悖,又带来高昂的数据采集成本。回顾中国人学习新汉字的过程:我们首先在教师指导下通过分析汉字笔画结构来认识印刷体字形,随后几乎无需额外练习,便能自然识别不同人书写的手写体。这表明人类具备出色的从印刷体到手写体的领域泛化能力。而对于基于深度学习的模型而言,为达成特定手写中文字符识别目标,往往需投入大量资源采集海量独立同分布(i.i.d.)手写数据。考虑到利用字体库可便捷生成大量合成印刷数据,仅凭合成印刷数据训练出稳健的识别模型,并使其在不同书写者的手写字符上表现良好,具有重要现实价值。

本文所提出的从印刷字体到手写字符的泛化任务(PF2HC),不仅能显著推动手写中文字符识别研究,同时也为领域泛化领域带来一种真实而具挑战性的问题设定。

3.2 数据库构建过程

针对上述兼具挑战性与实用性的PF2HC任务,我们构建了一个大规模“印刷与手写中文字符”(Printed and Handwritten Chinese Characters, PaHCC)分类数据集。我们选取GB2312-80标准中1000个常用汉字作为类别。得益于字符识别领域已有的积累,我们重组并整合了两个现有数据库的数据,构建出PaHCC数据集:

  • SCUT-SPCCI数据库² 包含由280种不同字体生成的合成印刷汉字图像,数据以 .ccb 格式文件存储;

  • CASIA-HWDB1.0–1.1³ [46] 包含从扫描手写文档页面中分割并标注的灰度图像,数据以 .gnt 格式文件存储。

我们依据各自格式说明,从两个数据库中解析出所选类别的数据,并将全部数据无损转换为.png格式图像保存,未对原始数据做任何修改。

对于合成印刷汉字图像,所有图像均为64 × 64尺寸的灰度图,图7(a)–7(c)展示了部分代表性样例;对于手写汉字图像,所有图像为灰度图,背景像素值设为0,图像尺寸不一,图7(d)展示了若干样例。


3.3 数据结构与统计
PaHCC 是我们的完整数据集,包含1000个类别、共计996,478个样本。其中,印刷体数据包含280,647张由约280种印刷字体生成的合成汉字图像。我们根据字体类型将其划分为三个域:标准印刷字体(域0)、变形印刷字体(域1)以及手写风格印刷字体(域2),分别如图7(a)–7(c)所示。我们将这三个域的印刷体数据作为训练域,并在第3.4节中分析它们之间的分布偏移。手写体数据包含来自720位书写者的715,831张扫描手写汉字图像;我们将全部手写数据视为测试数据,并在第3.4节中分析从印刷体到手写体的泛化挑战(即所提出的PF2HC任务)。图7直观展示了我们的数据划分方式。数据集的目录结构为:/domains/classes/samples,其中提供了作为真实标签(ground truth)的类别标签和域标签。表4给出了本数据集的细粒度统计信息。


考虑到完整数据集(PaHCC)规模庞大,我们还构建了一个含100个类别的小型版本(mini-PaHCC),以降低研究中的计算开销。我们的主要实验也基于该小型数据集展开。表5展示了mini-PaHCC数据集的细粒度统计信息。

3.4 数据集中的分布偏移
为反映本数据集中存在的分布偏移,我们参照WILDS基准测试 [5] 的做法,考察在PaHCC数据集上采用经验风险最小化(ERM, empirical risk minimization [4])训练所得模型的域内(in-distribution, ID)与域外(out-of-distribution, OOD)性能差距。为全面比较,我们还对三个常用公开数据集进行了相同测量。实验中,所有数据集均使用同一骨干网络(在ImageNet [48]上预训练的ResNet-18 [47]),且除将物体图像统一缩放至224 × 224、文本图像统一缩放至64 × 64(以适配任务需求)外,不使用任何数据增强。我们从训练域中随机抽取10%的数据用于评估ID性能,并预留一个未参与训练的域用于评估OOD性能。

根据表6的实验结果,除“D1, D2 → D0”设定外,OOD性能普遍低于ID性能——该异常情况源于其OOD测试数据相比训练数据更为简单(PACS数据集中的照片域和VLCS数据集中的CALTECH域也存在类似现象)。其中,ID性能表示来自与训练数据相同域的测试数据的准确率,而OOD性能则表示来自与训练域不同域的测试数据的准确率。ID与OOD性能之间的差异,反映出数据集内不同域之间存在的分布偏移,此类偏移会导致模型在未见域上的性能下降。


我们的数据集展现出更高的ID性能,表明在满足独立同分布(i.i.d.)假设的前提下,中文字符识别任务相较于通用物体识别任务相对简单。这一现象源于文本图像在颜色、背景、细节等方面相较于物体图像具有更简洁的模式结构。然而,这并不削弱本数据集中泛化挑战的重要性。与利用字体库生成的印刷体数据相比,扫描获取的手写体数据通常质量较低,原因包括扫描设备差异、书写者笔迹风格各异、书写工具不同等多种因素。这些因素导致在我们提出的PF2HC任务中,域内(ID)与域外(OOD)性能之间存在显著差距,如表6最后一行所示。

3.5 使用建议
我们的PaHCC是一个大规模、全面的中文字符数据集,可支持视觉模式识别中诸多具有挑战性的问题研究,包括模型的鲁棒性、可迁移性与可解释性等。具体建议如下:

(1)领域泛化(Domain Generalization):本数据集天然适用于领域泛化研究——其目标是通过在多个可用源域上训练,提升预测模型在未见域上的泛化能力。一种实用设置是:使用合成印刷数据进行模型训练,以手写数据进行测试,从而极大降低手写中文字符识别任务的数据采集成本。

(2)领域自适应(Domain Adaptation):与领域泛化类似,当允许利用测试数据的分布信息时,PaHCC亦可用于评估领域自适应方法。此外,也可仅使用合成印刷数据,并留出一部分作为测试集,以评估模型对不同印刷字体的鲁棒性;对手写数据亦可采取同样策略。

(3)结构理解型模型(Structure-understanding Model):PaHCC涵盖丰富多样的字体风格与字形变化,对深度模型的鲁棒性构成严峻挑战。然而,汉字本身蕴含独特的结构信息。若能借鉴人类学习与感知汉字的方式,使深度模型有效利用此类结构信息,则有望实现稳定而优异的识别性能。因此,PaHCC非常适用于开发具备结构理解能力的可解释模型。

(4)零样本学习(Zero-Shot Learning):针对手写中文字符识别任务,PaHCC可借助现成的合成印刷数据作为辅助信息,推动零样本学习相关研究。

(5)类增量学习(Class-Incremental Learning):由于PaHCC是一个包含1000个类别的大规模数据集,便于按类别对某一域的数据进行划分,从而支持类增量学习的研究。

  1. 借助结构学习促进领域泛化

本节强调:模型对物体结构的关注有助于提升其泛化能力。在现实应用场景中,无论物体的风格或背景如何变化,其结构始终是域不变的(domain-invariant);因此,模型若能准确把握物体的结构,将显著增强其在开放世界中的性能表现。结构学习在不同数据类型上具有不同的表征形式与学习难度:某些任务的数据天然蕴含明确的结构信息(例如汉字),可借助领域先验知识轻易获取并加以利用;而在另一些任务中,数据结构难以清晰界定或直接提取,需依赖辅助工具或采用隐式学习方式。

4.1 汉字上的结构学习
4.1.1 相关工作

在汉字中,“部首”(radicals)是笔画的组合,构成汉字的基本结构单元。过去十年间,众多方法 [49, 50] 已将部首作为关键先验知识,用于辅助汉字识别任务。特别地,由于大量汉字均由一个有限的部首集合组合而成,部首层级的汉字构成关系被广泛应用于训练中未见类别(unseen categories)的识别 [51, 52]。例如,文献 [53] 将古籍汉字识别建模为多标签分类问题,其中每个标签对应一个位置相关的部首;通过在已见与未见汉字之间共享同一标签集,所训练的预测模型无需未见类别的训练样本即可直接识别新汉字。受图像描述生成(image captioning)启发,DenseRAN [54] 将汉字图像识别转化为部首描述序列(即“表意部件描述序列”,Ideographic Description Sequence, IDS)的预测任务:先用CNN提取图像特征,再通过RNN将特征解码为IDS预测;其对未见汉字的识别,通过将IDS预测结果与字典中具有最小编辑距离的IDS所对应汉字进行匹配实现。HDE [55] 则通过手工设计的分层分解嵌入(hierarchical decomposition embedding)将汉字类别映射至嵌入空间,并利用多层感知机(MLP)将图像特征映射至同一空间,以进行相似性度量;模型通过寻找与其图像特征最相似的类别嵌入,实现对未见类别的样本识别。

上述方法主要聚焦于传统的封闭集汉字识别以及跨类别汉字识别(cross-category recognition)任务。此外,其中多数方法设计精细而复杂 [50, 55],且标签数量过多 [53] 或使用RNN架构 [51, 52, 54] 显著增加了模型优化难度。本文针对跨域汉字识别任务——其中训练集与测试集之间存在显著分布偏移——提出了一种简洁而高效的部首辅助学习方法(radical-assisted learning method)。

4.1.2 所提出的 RBML 方法

针对跨域汉字识别任务(即第3.1节所述的 PF2HC 任务),我们提出一种简洁而高效的基于部首的多标签学习方法(Radical-Based Multi-Label learning, RBML)。该方法通过将结构学习引入模型,可为其他方法带来一致性的性能提升。下文将详细介绍所提出的 RBML 方法。

汉字由一个或多个部首按特定位置组合而成,呈现出区别于其他物体的独特结构形式。例如,“枳”字可视为由部首“木”、“口”和“八”组合构成。在本研究中,我们依据 Unicode 标准 9.0.0 版中提供的表意部件描述序列(Ideographic Description Sequences, IDS)分解列表,共提取出 260 个不同的部首。

图8展示了如何将我们提出的 RBML 方法应用于其他模型的框架示意图。对于从训练集中随机采样的一批输入样本 X,首先将其送入特征提取器。在 ResNet [47] 架构中,共包含四个残差模块(residual blocks),记为 res1–res4。为在保留足够细节特征以识别部首的同时不损失特征的抽象能力,我们选择 res3 之后的特征图接入 RBML 分支。


在 RBML 分支中,我们首先通过两个不改变通道数的 3×3 卷积层将原始特征映射至新空间,每层后接批归一化(Batch Normalization)和 ReLU 激活函数;随后进行自适应平均池化(adaptive average pooling);接着连接一个输出维度为 260 的线性层,并后接 sigmoid 函数,以实现多标签分类。最终,多标签分类损失函数定义为:


其中, N r
是不同汉字共享的部首数量(此处为260), y i
为真实值, p i
为我们 RBML 分类器的预测值。

所提出的 RBML 作为一个即插即用模块,与应用方法端到端联合训练,但在推理阶段并不使用。我们也探索并实现了其他更复杂的部首建模方法,但相比 RBML 并未观察到显著更好的结果,可能是由于优化难度增加所致。

  1. 实验
    5.1 实现细节

所有实验均采用 DomainBed [3] 作者发布的领域泛化(DG)基准测试的开源实现⁵。我们选择常用的训练域验证法(training-domain validation)[3] 作为模型选择策略。

在我们的中文字符数据集(PaHCC 与 mini-PaHCC)上,鉴于汉字图像尺寸较小且细节关键,我们采用 ResNet-18 [47] 作为骨干网络,并将首个卷积层(conv1)的卷积核尺寸由默认的 7 × 7 修改为 3 × 3,且从零开始训练(training from scratch)。

在数据预处理方面,我们通过 PyTorch 中 transforms.ToTensor() 实现的标准操作,将像素值范围归一化至 [0, 1]。此外,对于作为测试集使用的扫描手写数据,我们将其统一缩放至 64 × 64,以与作为训练集使用的合成印刷数据保持一致。

在 PACS 与 DomainNet 数据集上,我们遵循 DomainBed 中的默认配置。

所有实验结果均按 DomainBed [3] 的方式执行超参数搜索:即对所有超参数的联合分布进行 20 次随机试验,并报告三次重复实验的均值(及其标准误差)。特别地,在大规模 PaHCC 数据集上,为确保模型收敛,我们将批大小(batch size)的搜索范围设为 (64, 362),学习率(learning rate)的搜索范围设为 (1 × 10⁻⁴, 1 × 10⁻²·⁵)。mini-PaHCC 的超参数设置则与常用数据集保持一致。

5.2 中文字符数据集上存在难以避免的“捷径学习”现象

本节通过分别在原始数据与二值化数据上开展实验,发现中文字符数据集上存在一种难以避免的捷径学习(irresistible shortcut learning)现象。

我们在 mini-PaHCC 数据集上采用经验风险最小化(ERM)训练模型。根据表7中原始灰度图像的实验结果,ERM 训练的模型在不同印刷域之间展现出可接受的泛化能力(准确率 > 90%)。然而,当模型从印刷体迁移到手写体时(即我们的 PF2HC 任务设定),性能急剧下降(从 > 90% 降至 16%)。


通过观察数据集,我们发现:在原始灰度图像中,手写数据的前景像素值分布极不均匀,而合成印刷数据的前景像素值则相对均匀。对于汉字识别任务而言,这种底层像素值的统计差异对模型性能产生了显著影响。当我们将所有训练与测试图像进行二值化处理后,不出所料地发现:不同印刷域间的泛化性能基本未受影响,而 PF2HC 任务上的性能大幅提升(从 16% 提升至 60%)。这验证了:采用 ERM 训练的深度模型主要依赖像素值的统计特征而非汉字的结构特征进行分类,呈现出明显的捷径学习现象。

为缓解该问题,研究者通常将前景灰度值归一化至指定区间,以避免灰度变化过大 [56]。然而,此类预处理操作并未从根本上解决学习算法与模型自身的缺陷。此外,即使在消除训练与测试数据间像素值分布差异之后(本文通过图像二值化实现),ERM 在 PF2HC 任务上仍表现不佳(准确率仅 60%),这是由于训练与测试数据生成路径不同所致,反映出其领域泛化能力薄弱,难以应对本数据集中存在的分布偏移。

5.3 现有领域泛化方法难以有效应对 PF2HC 任务

本节考察所选18种领域泛化(DG)方法(见表1)在 PF2HC 任务上的表现。我们首先分别使用原始灰度图像与二值图像评估这些方法。如图9所示,这些专门设计的 DG 方法在经过图像二值化预处理后,性能均取得一致且显著的提升(橙色柱→蓝色柱,提升 +26% ∼ +55%),呈现出与 ERM 相同的现象。这表明它们同样未能缓解模型对像素值统计特征的捷径依赖;关于 ERM 捷径学习现象的详细分析,请参见第5.2节。


由于原始灰度图像上的结果整体过低(见图9中橙色柱),后续实验仅在二值图像上进行,以集中考察不同 DG 方法在 PF2HC 任务上的性能表现,从而聚焦其应对因数据生成路径不同所致分布偏移的领域泛化能力。

表8展示了各算法在 mini-PaHCC 与 PaHCC(二值图像)数据集上的性能:

  • 在 mini-PaHCC 上,部分 DG 方法相较 ERM 显著提升了性能,例如:

    • 表征学习类方法:MMD(+9%)、CORAL(+11%)、SagNet(+13.5%)、IB-ERM(+17%);

    • 学习策略类方法:AND-mask(+9%)、RSC(+10%);

    • 数据增强类方法:Mixup(+9%)。然而,部分方法(如 CDANN、DANN、IRM)反而导致性能下降,这与 DomainBed [3] 在七个公开物体识别数据集上的观察一致。值得注意的是,具有理论保障的方法(如 IRM 与 VREx)在实践中失效,学界普遍认为 过参数化 (overparameterization)是其在深度模型与大规模数据集上失效的主因 [57]。

  • 在完整版 PaHCC 数据集上,多数方法的表现与其在 mini-PaHCC 上的结果存在差异。尤其值得注意的是,AND-mask、RSC 和 CORAL 等方法在类别规模增大后无法维持原有提升效果;相比之下,表征学习方法 SagNet 与 IB-ERM 始终保持优越性能。

综上所述,现有 DG 方法在本任务上仍未能展现出令人满意的领域泛化能力(远低于传统设定下的性能水平 [56]),尚无法满足实际应用需求。

5.4 所提出的 RBML 方法助力实现当前最优结果

根据前述实验结果可知,现有 DG 方法在本任务上的性能仍不理想,距离满足实际应用需求尚有较大差距。

为进一步提升性能,我们提出了基于部首的多标签学习方法(RBML)。该方法可便捷地嵌入现有 DG 方法中。我们分别将 RBML 应用于 ERM 与表现最优的 IB-ERM,实验结果见表9。在两个数据集上,我们的方法均取得显著性能提升:


  • 基于 ERM 时,我们在 mini-PaHCC 上达到 78%、在 PaHCC 上达到 68% 的准确率,优于或媲美其他有效的 DG 方法(参见表8);

  • 基于当前最优 DG 方法(IB-ERM)时,我们取得了新的 当前最优 (state-of-the-art)结果:mini-PaHCC 上 81%,PaHCC 上 74%。


有效性与敏感性分析:图10 展示了不同 RBML 损失权重对 DG 性能的影响。当权重处于适当范围内时,RBML 均能带来性能增益。相较 PaHCC 数据集,RBML 在 mini-PaHCC 上需设置更大的权重以达到最优性能;且当应用于 ERM 时,相较于 IB-ERM,RBML 同样需要更大的权重才能获得最佳效果。

可视化与案例分析:我们利用 Grad-CAM [58] 绘制类别激活图(class activation maps),直观展示本方法的效果。具体而言,我们考察不同模型中特征提取器第三残差层(layer3,即 RBML 所在位置)与第四残差层(layer4,即分类器所在位置)的激活情况。如图11 所示,所提出的 RBML 能够增强模型对汉字整体结构组成的关注,从而实现正确识别。与原始方法(无 RBML)相比,我们的模型(含 RBML)对风格与印刷体差异显著的手写样本也展现出良好的识别能力。当然,对于书写极度不规范的样本,模型仍易出现误判。


5.5 训练域的动态变化揭示更多方法特性

在以往研究中,学者对训练域的选择关注较少——通常遵循数据集上固定的训练域与测试域划分,并仅依据测试域准确率评估算法性能(详见第2.3节)。本节通过一系列“动态”实验,揭示不同方法的更多内在特性;这些特性在常规的“留一域交叉验证”(leave-one-domain-out)协议下是无法观察到的。接下来,我们将详述两项重要发现,表明:在开发新算法时,我们不仅应关注固定设定下的准确率,还须重视在变动设定下的稳定性

观察1:部分方法对训练域敏感,导致性能不稳定我们考察不同训练域选择对DG方法性能的影响:固定测试域不变,仅更换训练所用的源域组合。特别地,我们保持训练域数量不变,且各设定下训练样本总数相近。实验在 mini-PaHCC(汉字识别)、PACS(物体识别)与 DomainNet(物体识别)三个数据集上分别开展。

图12 展示了 mini-PaHCC 上各类方法的性能对比。考虑三种源域组合:d0+d1(橙线)、d1+d2(灰线)、d0+d2(黄线)。根据三组设定下手写测试数据的准确率,许多方法表现出明显的性能波动。这表明:尽管某一算法在标准“留一域”协议下表现优于其他方法,但若更换训练域选择,其优势可能迅速消失(如图中灰色虚线框所示)。图13 在 PACS 与 DomainNet 数据集上同样呈现此现象。



相比之下,以红点标注的方法展现出稳健的性能优势:在汉字识别任务中,IB-ERM 无论训练数据如何选择均保持显著优势;在物体识别任务中,CORAL 相较于其他被测方法表现更优。

观察2:部分方法在引入新的OOD训练数据后反而性能下降本实验考察向原有训练数据中添加新的源域数据,并观察添加前后各类方法的性能变化。本节所有实验仍基于 DomainBed 代码库实现。

在仅含三个训练域的 mini-PaHCC 与 PACS 数据集上,我们分别将图12 与图13(a) 中三种设定的剩余域加入训练。如图14 所示:当新增训练域的风格接近测试域时(橙线→红线),所有 DG 方法与 ERM 均取得性能提升;然而,当新增训练域风格与测试域差异较大时(黄线或灰线→红线),部分 DG 方法性能反而下降——表明这些方法(见灰色虚线框)无法有效处理新增的分布外(OOD)训练数据,反映出其应对分布偏移的能力薄弱。


针对 DomainNet 数据集(在“留一域”协议下有五个可选训练域),我们逐步增加训练域数量,并观察不同方法的泛化性能变化。考虑两种基础设定:(1)初始训练域为 painting+quickdraw;(2)初始训练域为 clipart+infograph;随后分别进行三轮新增(每次增加一个新训练域)。实验结果见图15:在两种情况下,部分 DG 方法随训练域增加出现性能下降或无提升(见灰色虚线框),进一步证实其鲁棒性不足。


建议:在开发新算法时,我们不仅应关注其在固定设定下的准确率,还应重视其在不同设定下的稳定性。值得注意的是,在不同数据集上,这些“动态”实验中失效的方法各不相同,这凸显了在多种不同识别任务上评估方法的必要性。此外,我们的“动态”实验揭示:某些在原始“留一域”协议下表现不佳的方法(例如 IB-IRM,见图14与图15),实际上仍具备应对分布偏移的能力——通过丰富训练域的多样性或改进模型优化,它们仍可超越 ERM。这一发现与文献 [59] 的观点一致:对于大量基于惩罚项的方法(即通过联合优化经验风险与替代惩罚项来求解的方案),一种典型的失效模式在于联合优化过程中存在过大的额外风险(excess risk),即相比 ERM,其未能充分优化经验风险(也就是域内性能)。

  1. 结论

本文为丰富并推动领域泛化(Domain Generalization, DG)研究的发展,面向真实应用场景,提出了一种大规模非独立同分布(Non-I.I.D.)数据集——PaHCC(Printed and Handwritten Chinese Characters,印刷与手写中文字符数据集)。大量实验表明,我们所提出的从印刷体到手写体的泛化任务(PF2HC)存在显著的域内(in-distribution)与域外(out-of-distribution)性能差距。

为提升领域泛化性能,我们认为结构理解(structure understanding)是关键因素,因为结构可被视为域不变特性(domain-invariant),从而在不同域之间实现良好泛化。基于此,我们提出一种基于部首的多标签学习方法(radical-based multi-label learning, RBML),该方法能显著且稳定地提升其他方法的性能。

最后,通过所设计的“动态”DG实验设置,我们发现部分方法对训练域的选择高度敏感;这表明研究者在评估新算法时,不仅应关注其在固定设定下的准确率,还应重视其在变动设定下的稳定性。

关于局限性:当前方法仅适用于具备显式结构信息的数据(例如汉字,可借助已知的部首先验知识)。未来工作将探索更具普适性的结构学习方法,以处理更广泛类型的数据、提升模型的领域泛化能力——例如:仅依赖类别级监督信号的弱监督结构学习,或借助大语言模型生成细粒度结构信息。我们期望本文基于PF2HC基准与动态评估所获得的见解,能够推动更加贴近现实稳健可靠的算法发展,从而促进领域泛化研究的进步。

原文链接:https://www.sciencedirect.com/science/article/pii/S0031320324006770

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15票赞成0票反对!安理会投票结果公布,美俄态度一致,中方表态

15票赞成0票反对!安理会投票结果公布,美俄态度一致,中方表态

博览历史
2025-12-31 20:52:27
上海中心大厦入驻企业名单(截至2006年1月,精确到楼层)

上海中心大厦入驻企业名单(截至2006年1月,精确到楼层)

趣味萌宠的日常
2026-01-04 11:46:15
谌容离世才一年,再看嫁给英达28年的梁欢,还真应了冯小刚那番话

谌容离世才一年,再看嫁给英达28年的梁欢,还真应了冯小刚那番话

林雁飞
2025-12-30 17:26:52
最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

吃货的分享
2026-01-04 10:53:29
布克24+6+9+0.7秒绝杀,狄龙末节14分奇兵暴走,太阳18分逆转雷霆

布克24+6+9+0.7秒绝杀,狄龙末节14分奇兵暴走,太阳18分逆转雷霆

钉钉陌上花开
2026-01-05 11:40:31
郑智出手就是王炸!上任首日连挖国足核心,西海岸教练组堪称顶配

郑智出手就是王炸!上任首日连挖国足核心,西海岸教练组堪称顶配

铿锵格斗
2026-01-05 08:33:03
建议中国普通家庭“全面压缩教育成本”:不要焦虑,不要逼孩子

建议中国普通家庭“全面压缩教育成本”:不要焦虑,不要逼孩子

六子吃凉粉
2026-01-05 09:51:11
谷正文到死也没搞明白:为什么陈宝仓一被捕,吴石就全部都招了!

谷正文到死也没搞明白:为什么陈宝仓一被捕,吴石就全部都招了!

史之铭
2026-01-05 03:40:05
事实证明,被传卖掉上亿豪宅移民美国的王刚,已经走上另一条大道

事实证明,被传卖掉上亿豪宅移民美国的王刚,已经走上另一条大道

睿鉴历史
2025-12-08 18:17:47
云南空姐被骗缅北园区,被关在狗笼虐待,救出时已下身溃烂

云南空姐被骗缅北园区,被关在狗笼虐待,救出时已下身溃烂

悬案解密档案
2025-03-24 16:24:09
加冕鹈鹕队史三分王!25岁墨菲超越CJ 赛后感谢前队友教我太多

加冕鹈鹕队史三分王!25岁墨菲超越CJ 赛后感谢前队友教我太多

醉卧浮生
2026-01-05 12:40:12
方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

娱圈小愚
2026-01-04 11:01:31
开拓者VS爵士NBA中国德比,杨瀚森PK李凯尔,出场时间有望创新高

开拓者VS爵士NBA中国德比,杨瀚森PK李凯尔,出场时间有望创新高

二哥聊球
2026-01-05 11:55:44
医生提醒:有毒有毒,别再用塑料袋装肉冷冻了!真的不健康!

医生提醒:有毒有毒,别再用塑料袋装肉冷冻了!真的不健康!

健康科普365
2026-01-05 07:35:03
17年后,“艳照门”迎来反转,王晶爆料内幕,陈冠希可能不是元凶

17年后,“艳照门”迎来反转,王晶爆料内幕,陈冠希可能不是元凶

白面书誏
2025-11-12 22:38:08
从四件小事看人品,泽连斯基这人还行

从四件小事看人品,泽连斯基这人还行

丰谭笔录
2025-12-30 10:47:21
湖北省政协原党组成员、副主席周先旺严重违纪违法被“双开”

湖北省政协原党组成员、副主席周先旺严重违纪违法被“双开”

界面新闻
2026-01-04 16:03:03
西部排名又乱了:开拓者创NBA奇迹,掘金收大礼,7队排名互换

西部排名又乱了:开拓者创NBA奇迹,掘金收大礼,7队排名互换

篮球大视野
2026-01-04 17:08:10
深圳夫妻4800万买下法拍豪宅,过户时才知是凶宅,法院:风险自负

深圳夫妻4800万买下法拍豪宅,过户时才知是凶宅,法院:风险自负

观世记
2026-01-04 19:04:29
大陆公布沈伯洋住家卫星照,赖清德急了,沈伯洋沉默,不简单

大陆公布沈伯洋住家卫星照,赖清德急了,沈伯洋沉默,不简单

落梅如雪乱飞
2026-01-05 02:45:18
2026-01-05 13:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1128文章数 18关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

不是9S是8X!极氪全新高性能旗舰SUV命名官宣

态度原创

艺术
时尚
教育
健康
军事航空

艺术要闻

19幅 列宾美院学生优秀毕业作品

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

教育要闻

收藏:山东2026高中综评操作教程(教师端)

这些新疗法,让化疗不再那么痛苦

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版