潜变量模型的自适应小样本类增量学习|算法|分类器

分享至

Adaptive Few-Shot Class-Incremental Learningvia Latent Variable Models

通过潜在变量模型实现自适应少样本类别增量学习

https://www.jair.org/index.php/jair/article/view/17006/27160

摘要：

类增量学习方法旨在有效学习持续到来的新类别。当每类训练数据稀缺时（常见于诸多开放世界机器学习应用），问题难度进一步加剧。该范式被称为小样本类增量学习（FSCIL），要求学习器既能按序增量学习新类别，又能保留关于旧类别（即已学类别）的既有知识。本文提出一种小样本类增量学习器，其基于潜在变量模型，自适应调整新小样本类别的表征以及相关旧知识。所提出的潜在变量模型是一种变分自编码器（VAE）形式，专为应对FSCIL核心挑战——灾难性遗忘与潜在偏差——而设计。在新类别小样本学习阶段，该模型借助其摊销（amortization）特性与高保真能力，不仅调整当前新类别，还同步调整相关历史类别，从而持续缓解灾难性遗忘、偏差与过拟合的影响。我们还推导了对未来类别的误差泛化上界。在多个主流FSCIL基准数据集以及一个由真实医学影像构成的医学基准（MedMNIST）上的实验表明，所提模型在平均总体/最终分类准确率及缓解灾难性遗忘方面均取得更优性能。

引言增量学习（IL），亦称持续学习或终身学习，指一种机器学习范式：模型需积累并可能复用以往任务所获知识（Ring, 1995；Srivastava 等, 2013；Schwarz 等, 2018；Hu 等, 2019；Adel 等, 2020；Wang 等, 2023a；Zhu 等, 2023a）。这对深度模型尤其具有挑战性——因其理想设定依赖于训练前即可获取大规模数据。相较于新数据到来时需从头重训模型，IL 在时间与资源（如内存）管理方面更具优势。

IL 的一个标准假设是：无论训练还是推理（测试）阶段，学习器均可获知每个类别所属任务的身份（ID）。但在多数现实场景中，推理阶段往往无法获取任务 ID，该假设因而不切实际。为此，类增量学习（CIL）范式应运而生：其设定推理阶段无任务信息可用，迫使学习器必须区分所有已遇类别，无论其原属哪个任务。CIL 范式刻画了开放环境中典型场景，故解决其挑战对在开放世界可靠部署机器学习系统至关重要（Zhou, 2022）。

当每类仅有极少量数据可用时，上述问题进一步加剧。该设定在文献中被称为小样本类增量学习（FSCIL）（Rebuffi 等, 2017；Gidaris & Komodakis, 2018；Tao 等, 2020；Achituve 等, 2021；Ahmad 等, 2022；Peng 等, 2022；Song 等, 2023；Wang 等, 2023b；Zhou 等, 2023a；Zhao 等, 2024）。例如，考虑用于视频监控的行人属性识别模型，需识别年龄、性别、着装等外观特征（Xiang 等, 2019；Wang 等, 2023b）：首任务要求区分马甲（识别穿马甲的行人）与T恤；因二者差异显著，首任务下识别马甲可能较易。随后模型遇到少量新行人，每人分别穿着夹克或大衣——构成两个新类别。此时任务变难：推理阶段需区分马甲、夹克与大衣三者，却从未有机会在三类数据上同步训练。

由于隐私与安全约束，FSCIL 模型通常严禁访问历史类别数据，故其必须能在不遗忘旧类的前提下学习新类。因此需在“适应新类”与“维持已获知识的稳定性”间取得平衡。过度适应新类可能导致旧类知识灾难性遗忘（McCloskey & Cohen, 1989；Ratcliff, 1990；Robins, 1993, 1995；French, 1999；Pape 等, 2011；Srivastava 等, 2013；Achille 等, 2018；Diaz-Rodriguez 等, 2018；Kemker 等, 2018；Zeno 等, 2018；Parisi 等, 2019；Pfulb & Gepperth, 2019；Ebrahimi 等, 2020；Gupta 等, 2020；Banayeeanzade 等, 2021；Ke 等, 2021；Ostapenko 等, 2021；Wang 等, 2021；Kalb & Beyerer, 2022；Kang 等, 2022a；Karakida & Akaho, 2022；Lin 等, 2022；Miao 等, 2022；Yasar & Iqbal, 2023）——即：模型虽已掌握某类识别知识，但在遭遇新类后，该知识逐渐退化。

上述平衡常被称为稳定性–可塑性困境：稳定性指维持旧知识能力，可塑性指适应新类能力。此外，因每类仅含少量样本，FSCIL 还直面偏差与过拟合等额外挑战。

本文提出一种小样本类增量学习器，旨在通过构建一个量身定制的潜在变量模型以缓解上述风险。先前工作（如 Wang 等, 2023b；Zhao 等, 2024）已表明：仅调整小样本阶段到来的新类别表征，不足以缓解因数据稀缺导致的灾难性遗忘与偏差。因此，我们设计的潜在变量模型不仅允许调整新小样本类别，还可同步调整最可能受新类冲击的相关历史类别。该策略旨在建立一种模型：每当新类到来，通过调控所有受影响类别，持续平衡稳定性–可塑性权衡，并应对FSCIL固有的偏差与过拟合风险。

我们推导的未来类别误差泛化上界，佐证了“同步调整新小样本类与相关旧类”这一主张的价值。此外，我们在多个主流CIL基准及医学基准MedMNIST（第4节）上开展实验。结果表明，所提FSCIL模型在总体/最终分类性能及缓解灾难性遗忘方面均达到当前最优水平（state-of-the-art）。第5节详述相关工作。

主要贡献总结如下：

提出一种基于自适应潜在变量建模的FSCIL框架（第2节）：不仅处理小样本阶段遇到的新类别，亦相应调整相关旧类所获知识；
该框架在缓解偏差与灾难性遗忘、以及适应新类别三者间实现均衡处理；
推导了未来类别的误差泛化上界（第3节）；
在主流CIL基准及真实医学数据集MedMNIST上取得当前最优结果，评估指标涵盖分类准确率（平均总体、最终、各阶段后）及缓解灾难性遗忘程度（第4节）。

我们的CIAM方法

鉴于小样本类增量学习器需应对的若干挑战，所提框架首先应利用基础阶段（base session）中丰富的数据，学习基础类别的表征。此后，关键在于将已学表征自适应调整至小样本类别，同时缓解灾难性遗忘、偏差与过拟合等潜在风险。我们提出一种模型，称为“基于潜在变量模型的小样本类增量学习自适应”（few-shot Class-Incremental learning Adaptation via latent variable Models, CIAM），以应对小样本类增量学习中的此类挑战。

2.1 设定

2.2 基础会话

2.3 基于潜在变量建模的小样本自适应

本节描述所提出的小样本自适应流程。如第2.2节所述，基础会话（数据丰富）之后，若继续用稀缺数据训练基础网络以学习小样本类别，将是有害的，并可能导致遗忘已建立的基础类别知识。另一方面，完全不从小样本数据中进行任何学习，则意味着浪费了潜在的知识并存在欠拟合风险。为此，我们提出通过一个潜在变量模型，在小样本会话期间自适应调整已学表征——该模型不仅能适配小样本类别，还能同时适配相关的历史类别，从而实现贯穿始终的一致性更新（而非仅更新新小样本类别）。通过采用所提出的全面自适应策略，我们的目标是捕捉所有潜在的灾难性遗忘和/或偏差来源。

回顾可知，网络已学习到一个函数表征 f ( ⋅ ; ω ) ，它代表了更好的预测潜力（即经过优化，使得相应类别能被准确预测）。该表征是在基础类别上专门学习得到的。我们需要：i) 将此表征适配至小样本类别；ii) 确保此适配与先前遇到的类别中的相关类别保持一致。其核心思想是建立一个潜在变量模型，该模型能够高效地学习如何适配当前小样本类别的表征以及相关历史类别（其数据已不可用），同时避免在基础会话后重新训练基础网络。

若干FSCIL算法在基础会话后完全冻结表征学习与特征提取（Zhang 等, 2021；Akyurek 等, 2022；Hersche 等, 2022；Wang 等, 2023b）。其他先前关于FSCIL的工作则基于构建小样本类别的原型（Mazumder 等, 2021；Shi 等, 2021；Zhou 等, 2022；Ji 等, 2023），或最多仅校准此类原型（Zhu 等, 2021；Deng 等, 2022；Wang 等, 2023b；Zhang & Gu, 2023；Zhou 等, 2023b；Zhu 等, 2023b；Zhao 等, 2024）。然而，若不在小样本会话中应用任何学习或自适应，直接获得可靠的原型可能颇具挑战性。我们推测，即使这有助于拟合新的小样本类别，仍可能导致对先前已学类别的负面影响。为此，需要在基础会话期间学习的特征表征与最终的小样本分类之间增加一个额外阶段（Zhao 等, 2024）。我们的目标是利用手头的小样本数据，来适配所有可能受影响的类别表征。

对于每个基础类别，基础会话期间学习到的特征表征函数 f ( ⋅ ; ω ) 提供了一个从相应输入 x 到 f ( x ; ω ) 的映射。该表征在基础会话后并未再接受任何训练（原因如上所述）。因此，直接以该表征函数表达小样本类别（即使后续进行校准）并不适用。相反，我们的目标是高效地将小样本类别与被认为最相关的历史类别一同适配。将基础会话中的类别数量记为 B 。如前所述，基础类别的数量 B 远大于任意单个小样本会话中的类别数。在小样本会话期间，必须选择那些最有可能受新到来类别影响的历史类别，因为否则在遇到新小样本类别时更新每个历史类别的表征将变得极其昂贵。

所提出的FSCIL潜在变量模型的主要目标是：适配当前小样本类别的已学表征以及最相关的历史类别，以此缓解灾难性遗忘与偏差的潜在风险。该FSCIL潜在变量模型由一个双分支变分自编码器（VAE, Kingma & Welling, 2014; Kingma 等, 2014）构成。相较于仅含单一分支（连接数据空间与潜在空间）的标准VAE，我们引入的额外分支专注于最终表征的预测准确性——该分支将潜在空间与类别标签相连接。因此，两个VAE分支的同时优化既能调整所有相关类别的表征，又能同步实现整体高性能。

2.4 潜在变量模型上的推理

我们描述了三种建模场景下的变分下界：首先是基础会话的训练阶段，其次是小样本会话的训练阶段，最后是推理（测试）阶段。

2.4.1 基础会话

在基础会话的训练过程中，我们VAE的输入包括所有基础类别的基础表征 f f 以及其训练数据点的标签 y y，二者在此时均是可观测的。根据所提出的模型，单个数据点的边缘似然表达式如下：

2.4.2 小样本会话

2.4.3 测试阶段

在测试阶段，标签 y 是未知的。因此，在式(8)-(11)中定义的ELBO不适用于测试阶段。为此，我们在此处开发了测试阶段的ELBO。每个测试数据点的输入 x 首先被输入到基础表征函数（此阶段该函数已固定）以获得相应的基础表征 f 。随后，该基础表征 f 作为唯一观测到的输入被送入VAE。单个测试数据点的边缘似然可表达如下：

理论分析我们阐明了在类增量学习（CIL）设定中，当前类别与先前已遇类别之间的理论关系。总体目标是为“相关（即最相似的）历史类别对当前类别分类的影响”提供理论验证。

3.1泛化上限

需注意，式（17）界中的第一项完全依赖于先前已遇类别的真值函数（即作为输入提供给学习器的部分）。换言之，式（17）的第一项完全不依赖于任何学习假设 h ，也不依赖于类增量学习器在其优化过程中可控制的任何自由度。相反，界的第二项（即式（18）中的最小项）由 r 个子句组成，每个子句对应一个历史类别。如式（27）所推导，式（18）中的每个子句代表：若对应类别是类增量学习器先前所遇的唯一类别时，该类任务误差的一个上界。因此，鉴于类增量学习器此前已遇到 r 个类别，依据定理1，识别出与当前类别最相似的历史类别，即可最小化式（18），从而收紧（即最小化）当前类别误差的上界。因此，定理1揭示了当前类别误差与最相似（即相关）历史类别误差之间的依赖关系。

3.2 证明

在深入定理1的证明之前，我们先提供若干后续证明中需要用到的引理及其证明。

实验

我们通过实验评估所提出的CIAM框架的性能。本节首先解释我们的实验设置，随后进行评估，包括在常用FSCIL基准上的实验、消融分析以及在真实世界医学数据上的实验。

4.1 实验设置

我们的主要目标是评估以下方面：i) CIAM的性能，通过三个重要基准上的最终分类准确率及至关重要的平均分类准确率来衡量——这三个基准代表了FSCIL中最常用的基准；ii) 所提CIAM缓解灾难性遗忘的能力及其可降低的程度，通过常用的性能下降率指标衡量；iii) 一项消融研究，用于衡量CIAM各组件的影响；iv) 将所提CIAM框架应用于一个现实世界的医学基准（即MedMNIST数据集）。以平均分类准确率、最终分类准确率和缓解灾难性遗忘为指标所获得的当前最优结果，证明了所提CIAM框架的有效性。

在所有实验中，我们与每个竞争算法表现最佳的变体进行比较。所有报告的结果均为10次运行的平均值。使用配对t检验（p=0.05）识别统计显著性（以粗体突出显示）。优化器采用带动量的随机梯度下降（SGD），在miniImageNet和CIFAR100上初始学习率为0.01，在CUB200数据集上初始学习率为0.001。核宽度参数σ通过交叉验证调优。归一化流步骤数s设为2，这在利用归一化流高保真能力与计算稳健性之间取得了良好平衡。计算环境由一块NVIDIA A100 Tensor Core GPU和两块AMD Rome CPU组成，基于NVIDIA Mellanox ConnectX-6互连技术。

4.2 常用小样本类增量学习基准

我们在此通过在以下FSCIL基准上进行实验来评估CIAM：miniImageNet (Russakovsky 等, 2015)、CIFAR100 (Krizhevsky & Hinton, 2009) 和 CUB200 (Wah 等, 2011)。以下是这三个数据集的简要描述：

miniImageNet：它是ImageNet (Russakovsky 等, 2015) 的一个100类子集，常用于许多小样本学习设置中（Vinyals 等, 2016; Finn 等, 2017），不仅限于FSCIL。

每个类别包含500张训练图像和100张测试图像。图像格式为RGB，尺寸为84×84。基础会话（t=1）包含60个类别。基础会话之后，有8个小样本会话，每个会话包含5个类别。根据FSCIL文献（例如Tao等, 2020; Yang等, 2023; Zhao等, 2024），每个小样本会话（2 ≤ t ≤ 9）均为5类5样本会话，这意味着每个5个类别中各有5个可用的训练点。

CIFAR100：这是另一个在FSCIL中颇受欢迎的数据集（Rebuffi等, 2017; Castro等, 2018）。它总共包含60,000张图像，分为100个类别。每个类别包含500张训练图像和100张测试图像。每张图像尺寸为32×32。与miniImageNet类似，我们亦采用FSCIL文献中CIFAR100的常见设置：从一个包含60个类别的基础会话开始，随后是8个5类5样本的小样本会话。因此，总共有9个CIFAR100学习会话（1个基础会话 + 8个小样本会话）。

CUB200：该数据集的原始设计旨在解决增量学习场景下的细粒度图像分类问题（Chaudhry等, 2019; Parisi等, 2019; Tao等, 2020）。它包含6,000张训练图像及6,000张测试图像，图像尺寸为224×224。数据集包含200个类别，每个类别描绘一种特定的鸟类；CUB指Caltech-UCSD Birds。我们采用FSCIL领域常用的CUB200划分格式：将200个类别划分为100个类别用于基础会话，随后是10个增量式10类5样本会话。

遵循FSCIL领域的若干先前工作（例如Tao等, 2020; Zhao等, 2024），我们采用ResNet-18 (He等, 2016) 作为骨干网络（基础网络）。对于CUB200，ResNet-18骨干网络使用在ImageNet上预训练的参数进行初始化 (Deng等, 2009)。此外，遵循之前的FSCIL工作³ (Yang等, 2023)，我们在所有实验中基础会话阶段采用512的微批次大小，在每个增量小样本会话阶段采用64的微批次大小。对于miniImageNet数据集，基础会话训练500轮，每个增量小样本会话训练150轮。对于CIFAR100，基础会话训练200轮，每个小样本会话训练100轮。对于CUB200数据集，基础会话训练80轮，每个增量小样本会话训练60轮。

评估指标：对FSCIL而言，最具影响力的评估指标是平均总体分类准确率，它反映了到目前为止所遇所有类别（包括当前及所有先前会话）的平均测试准确率。最终分类准确率——即在经历最终学习会话的所有类别后获得的测试准确率——是另一个重要的FSCIL指标，我们也会在下文报告。我们还基于FSCIL最广泛使用的指标“性能下降率”（PD, Zhang等, 2021）来估算灾难性遗忘。PD指标定义为：PD = 基础会话后的平均总体准确率 - 最终小样本会话后的平均总体准确率。

我们评估了CIAM相对于多个当前最先进的FSCIL算法的表现：CEC (Zhang等, 2021), FACT (Zhou等, 2022), C-FSCIL (Hersche等, 2022), TEEN (Wang等, 2023b), Bidist (Zhao等, 2023), SAVC (Song等, 2023), NC-FSCIL (Yang等, 2023), TOPIC (Tao等, 2020), FCIL (Gu等, 2023), BM-FSCIL (Zhao等, 2024), LIMIT (Zhou等, 2023b), MetaFSCIL (Chi等, 2022), iCaRL (Rebuffi等, 2017), ALICE (Peng等, 2022) 和 DF Replay (Liu等, 2022)。

miniImageNet 数据集上所有 FSCIL 指标的结果详见表 1。此外，图 2 还汇总展示了性能最优的若干算法的整体表现。所提出的CIAM在平均总体分类准确率与最终分类准确率（即 miniImageNet 第 9 个会话——即最终会话——后的分类准确率）上均显著优于现有方法。此外，在缓解灾难性遗忘方面，CIAM 的效率也高于所有先前的最先进 FSCIL 算法，这由其显著更低的性能下降率（PD）得以证实。显然，更高的 PD 值意味着更强的遗忘，这是不希望出现的；而基于准确率的指标则相反——数值越高，表明性能越佳。相较于此前最优方法，CIAM 在平均总体分类准确率、最终分类准确率和 PD 率上分别提升了3.77%、5.38%和4.42%（即 PD 降低 4.42%，遗忘更少）。

在 CIFAR100 上，CIAM 同样在（最终与平均总体）准确率类指标及 PD 率方面显著超越先前最先进方法，结果如表 2 与图 3 所示：其平均总体分类准确率提升5.02%，最终分类准确率提升6.51%；PD 率降低5.96%（即遗忘率更低）。这一显著提升表明 CIAM 能有效应对稳定性–可塑性困境。这得益于所提 CIAM 潜在变量模型中采用的丰富密度估计器，以及其与概率建模的融合方式，最终形成高效自适应策略，并体现在预测准确率与性能保持能力上。

在 FSCIL 中常用的 CUB200 数据集划分下，总共有 11 个会话（即比前述两个基准多出两个小样本会话）。相应地，CIAM 在 CUB200 上的平均总体分类准确率提升更为显著：相较次优 FSCIL 算法高出6.61%；在所有学习会话中分类准确率均更高，最终分类准确率（第 11 会话后）提升6.17%；PD 率亦更低（更优），改善4.41%。CUB200 上的结果详见表 3 与图 4。

4.3 消融研究

我们进行了一项消融分析，以评估所提 CIAM 框架中每个建模组件在达成最终准确率、性能保持及缓解灾难性遗忘方面所起的作用。消融实验的结果分别在图5-7中展示，对应 miniImageNet、CIFAR100 和 CUB200 数据集。CIAM 在每个会话学习后的分类性能与以下几种场景进行了比较：

无基础网络：模型在基础会话期间无法从相对大量的数据样本和类别中获得充分的学习机会。
无VAE：模型在小样本会话期间几乎无法从小样本数据中学习，仅利用已在基础会话中学得的基础网络来映射小样本类别。
不适应相关类别：VAE 仅用于学习当前小样本类别的表征，而未利用本模型的核心优势之一——即相应地自适应相关历史类别。
随机选择的相关类别：VAE 用于自适应当前小样本类别及相关历史类别，但相关类别的选择是随机的（即并非通过高斯核计算的相似性）。

如图5-7所示的消融分析结果表明，CIAM 与上述四种场景之间存在显著的性能差异，这实证证明了所提自适应机制及其他建模组件对于达成 CIAM 所取得性能水平的重要性。

4.4 医学基准

除了常用的 FSCIL 基准外，我们将所提 CIAM 框架应用于真实世界的医学图像，采用 MedMNIST 数据集（Yang 等, 2021a, 2021b）。MedMNIST 是一个标准的医学影像基准，由一系列专为医疗领域机器学习算法评测而设计的医学图像数据集组成。

MedMNIST 是一个包含 12 个 2D 医学数据集的集合，所有数据均已预处理并标准化，用于在 28×28 图像上执行分类任务（Yang 等, 2021a）。MedMNIST 涵盖多种医学影像模态与不同数据规模。其标签已提供，用户无需领域背景知识或人工调参——这对分析多模态异质数据集而言是一项显著优势。

与第 4.2 节对通用基准的处理方式一致，我们在 MedMNIST 上也遵循该领域先前文献中采用的 FSCIL 实验范式。此处同样采用 ResNet-18 作为骨干（基础）网络，与 Yang 等（2023）的工作一致；据我们所知，该工作是目前唯二在 MedMNIST 数据集上报告了 FSCIL 结果的研究之一。

Derakhshani 等（2022）虽也在 MedMNIST 上开展实验，但其采用的是标准（非小样本）类增量学习设定——即每个增量阶段均有充足数据；这与我们采用的小样本类增量学习设定截然不同，后者极具挑战性：每个增量小样本阶段仅有极少量样本（如后文所述，每类仅 1 个样本）可供学习。

实验配置如下：基础会话微批次大小为 512，各增量小样本会话为 64；基础会话训练 150 轮，后续各增量小样本会话训练 80 轮。

参照 MedMNIST 上的先前工作（Yang 等, 2023），我们采用包含 6 个选定医学疾病分类数据集的 FSCIL 设定：其中 3 个数据集的类别作为基础会话（共 27 类），另 3 个数据集的类别作为增量小样本类别（共 15 类）。

基础会话数据集
- PathMNIST（Kather 等, 2019）：9 类，源于结直肠癌组织切片，用于预测生存期；共 107,180 张图像（100,000 训练 / 7,180 测试）；
- DermaMNIST（Tschandl 等, 2018）：7 类，常见色素性皮肤病变；共 10,015 张（8,010 训练 / 2,005 测试）；
- OrganAMNIST（Bilic 等, 2023）：11 类，基于肝脏肿瘤分割（LiTS）基准的身体器官图像；共 58,850 张（41,072 训练 / 17,778 测试）。
小样本会话数据集
- BloodMNIST（Acevedo 等, 2020）：8 类，来自无感染、血液病或肿瘤患者的血液样本；共 17,092 张（13,671 训练 / 3,421 测试）；
- BreastMNIST（Al-Dhabyani 等, 2020）：2 类，780 张乳腺超声图像（原为 3 类，后将“正常”与“良性”合并为一类，对抗“恶性”）；624 训练 / 156 测试；
- RetinaMNIST（Dataset, 2020）：5 类，视网膜眼底图像，用于 5 级糖尿病视网膜病变分级；1,600 张（1,200 训练 / 400 测试）。

基础会话（27 类）结束后，我们进行15 次“单类单样本”（1-way 1-shot）增量小样本会话，每次引入 1 个新类别（共 15 类）。

MedMNIST 医学基准上的实验结果见表 4 与图 8。CIAM在平均总体分类准确率、最终分类准确率及 PD 率上均达到当前最优水平：最终分类准确率较此前最优方法提升4.54%；由 PD 衡量的遗忘率（比此前最低 PD 还低4.43%）尤为关键，原因有二：
i) 该真实世界图像数据集恰当地模拟了现实场景——FSCIL 框架必须兼顾“适应新知”与“保持稳定”（即不遗忘旧知）；

ii) CIAM 所实现的性能保持能力，是在极为严苛的15 次 1-way 1-shot 会话（每类仅 1 个样本）小样本设定下达成的。

此外，从图 8 可见：在 FSCIL 流程的最后若干会话中，CIAM 的优势更为显著——表明其具备从更长序列的新类别（如 MedMNIST 中的真实世界数据）中持续学习的能力。这在医学等广泛存在的现实场景中至关重要。

CIAM 在各数据集上的平均训练耗时分别为：miniImageNet 5.4 分钟、CIFAR100 7.1 分钟、CUB200 2.2 分钟、MedMNIST 14.8 分钟。该运行效率在 CIL 范式中极具竞争力，主要归功于所提机制：将训练负担分解为两阶段——基础会话阶段的表征预训练，以及仅在小样本阶段激活并受益于前述预训练的 VAE 训练阶段。

相关工作

在增量（持续）学习中，训练被划分为一系列连续的任务。在任一训练阶段，学习器通常仅可访问当前任务的数据。类增量学习（CIL）指增量学习中更具挑战性的场景：学习器在测试（推理）阶段无法获知任务ID（Masana 等, 2022）。因此，类增量学习器必须学会区分所有任务中已遇到的全部类别（Hou 等, 2019；Yu 等, 2020；Mai 等, 2021；Shim 等, 2021；Zhu 等, 2021；Liu 等, 2023；Rymarczyk 等, 2023；Wen 等, 2023；Zhou 等, 2023a）。此外，类增量学习器还须具备持续学习新类别而不遗忘旧类别（即已遇类别）的能力。

CIL 中广泛应用的方法包括回放策略：存储或生成若干先前类别的代表性样本，并在遇到新类别后重放这些样本，以维持旧知识（Liu 等, 2020；Cha 等, 2021；Masana 等, 2022）。另一种常与回放策略结合的方法是知识蒸馏（Li & Hoiem, 2016；Rebuffi 等, 2017；Wu 等, 2019；Douillard 等, 2020；Cheraghian 等, 2021a；Kang 等, 2022b），其核心在于估计不同任务间表征变化与相应损失之间的关系，目标是约束损失变化的一致性，使得在适配新任务时，旧表征不会发生剧烈变动。第三类 CIL 方法基于模型动态扩展，即随新类别到来而扩展模型结构（Liu 等, 2021；Yan 等, 2021；Wang 等, 2023），例如 Yan 等（2021）的工作：在每次增量步骤中，冻结先前习得的表征，并通过新增特征提取器引入额外特征维度进行扩充。

当每个增量类别的可用数据极其稀缺时，类增量学习（CIL）所面临的严峻挑战将进一步加剧——这正是本文所采用的设定，称为小样本类增量学习（FSCIL）。在基础会话阶段（每类拥有充足样本）训练完成后，FSCIL 学习器将面对若干增量小样本会话，其中每类样本量极为有限（Chen & Lee, 2020；Tao 等, 2020；Zhu 等, 2021；Liu 等, 2022；Tan 等, 2022；Zhu 等, 2022；Zou 等, 2022；Zhang 等, 2023；Zhuang 等, 2023；Ran 等, 2024；Tian 等, 2024）。

由于所有增量小样本类别的数据均极度稀缺，传统 CIL 策略在 FSCIL 中难以高效运作。因此，大多数 FSCIL 算法在基础会话后，将表征学习与分类器解耦：特征提取器通常仅在基础会话中训练表征，随后即被冻结；增量小样本会话则主要专注于优化分类器（Zhang 等, 2021；Akyurek 等, 2022）。除该解耦策略（形成预训练骨干）外，Zhang 等（2021）还引入了非参数化的类均值分类器以缓解灾难性遗忘；Akyurek 等（2022）则将预训练特征提取器与子空间正则化方案结合，促使新类权重向量尽量接近历史类权重所张成的空间；Hersche 等（2022）提出的 C-FSCIL 算法，结合了冻结的元学习特征提取器与一个可重写、动态增长的记忆模块，用于存储所有已遇类别的向量表征。

其他 FSCIL 相关工作基于构建小样本类别的代表性原型：Mazumder 等（2021）通过最小化新旧类原型间的余弦相似度以应对灾难性遗忘，并采用参数子集选择策略（而非全模型训练）来学习新类；Shi 等（2021）在基础会话中寻求目标函数的平坦局部极小值，增量阶段则对原型归一化，并在平坦区域内微调参数；FACT 算法（Zhou 等, 2022）提出前瞻性学习策略——为新类分配虚拟原型并预留嵌入空间；Ji 等（2023）设计了一种“原型平滑难例挖掘三元组”（PSHT）损失，用于推远新类原型彼此之间及与旧类原型的距离；Cheraghian 等（2021b）则通过特征空间聚类的子空间计算策略生成类原型，以关联基础类与小样本类。

尽管上述方法在缓解灾难性遗忘方面取得一定成效，但完全冻结特征提取器并仅在增量小样本阶段计算原型的做法，已被证实易受潜在偏差影响——其根源在于基础类与小样本类之间严重的类别不平衡（Wang 等, 2023b；Zhao 等, 2024）。为此，一系列工作提出基于原型校准的偏差缓解方案（Zhu 等, 2021；Deng 等, 2022；Wang 等, 2023b；Zhang & Gu, 2023；Zhou 等, 2023b；Zhu 等, 2023b）：Zhu 等（2021）提出增量原型学习框架，包含随机片段选择策略与自促进原型精炼机制；TEEN（Wang 等, 2023b）的核心原型校准策略将新类原型与加权基础原型融合，以提升新类判别性——但该方法仅更新当前类原型，未调整相似历史类，可能导致后者易受偏差影响；Zhang & Gu（2023）提出基于旋转与非线性变换增强的原型重放与校准技术；LIMIT 算法（Zhou 等, 2023b）则通过基于 Transformer 的校准模块，将新类原型与旧类分类器校准至同一尺度。

正如 Zhao 等（2024）所指出的，仅靠冻结和/或原型校准，仍难以实现平衡且高效的小样本增量分类。“平衡分类”在此指 FSCIL 分类器不对基础类或增量小样本类产生严重偏向；同时，还须高效利用增量小样本类别的少量样本，以高保真度表征这些类别。我们推测，特征提取器与分类器之间的僵硬分离可能加剧了此类偏差。因此，我们的工作可视为构建了一种新的中间表征——潜在表征 z z，它介于特征提取器（即基础表征）与分类器之间。该潜在表征通过所提方式优化，不仅能适配当前类，还能同步调整相关历史类的表征，从而协同缓解灾难性遗忘与潜在偏差。

其他 FSCIL 算法还包括：Tao 等（2020）利用神经气体网络保持所有类别特征流形的拓扑结构；MetaFSCIL（Chi 等, 2022）基于元学习，采用双层优化，通过从基础类中采样增量任务序列来模拟评估协议；Achituve 等（2021）构建了一种基于高斯过程拟合的树状分层增长模型；van de Ven 等（2021）在 CIL 模型中训练了变分自编码器，但其面向标准（非小样本）CIL，且存在严重可扩展性问题——每遇新类即需训练（及测试）一个全新 VAE，推理成本亦因每次似然估计需 10,000 个重要性采样而剧增；ALICE（Peng 等, 2022）以角度惩罚损失替代交叉熵损失，以获得更紧凑特征、引入边界提升判别性，并结合数据增强；SAVC（Song 等, 2023）是一种虚拟对比模型，通过引入虚拟类别将基础类与新小样本类分离。

结论本文提出了一种小样本类增量学习框架，以应对该范式的主要挑战，如灾难性遗忘、潜在偏差与过拟合。所提框架的核心部分是一个我们专门设计的潜在变量模型：当新小样本类别到来时，该模型驱动一种一致性自适应过程——不仅调整新类别，也同步更新相关的历史类别，以整合类增量学习器刚刚获得的新知识。我们还推导了对未来类别的误差泛化上界，为所提策略提供了理论依据。通过在三个主流小样本类增量学习基准上的大量实验，以平均总体分类准确率、最终分类准确率及性能下降率（用于评估灾难性遗忘）等多项指标衡量，所提自适应策略的有效性得到充分验证。此外，在真实医学基准上取得的当前最优分类准确率与性能保持结果，进一步证明了该自适应策略在现实场景中的学习能力。

原文：https://www.jair.org/index.php/jair/article/view/17006/27160

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.