The Bayesian Approach to Continual Learning: An Overview
贝叶斯持续学习方法概述
https://arxiv.org/pdf/2507.08922
![]()
摘要
持续学习(Continual Learning)是一种在线学习范式,学习者在连续的时间步中不断从不同任务中积累知识。关键在于,学习者需在不遗忘过往学习经验的前提下扩展并更新其知识,同时避免从头开始重新训练。鉴于其序列化特性及其与人类认知方式的相似性,持续学习为解决当前深度模型在拓展至更多现实问题时所面临的若干挑战提供了契机。持续学习中数据以序列方式不断到达,这与贝叶斯推理存在内在一致性:贝叶斯推理提供了一个基本框架,使模型可在接纳新数据时持续更新其先验信念,而不会彻底遗忘旧数据中的已有知识。本综述考察了贝叶斯持续学习(Bayesian Continual Learning)的不同设定,主要包括任务增量学习(task-incremental learning)与类增量学习(class-incremental learning)。我们首先讨论持续学习的定义及其贝叶斯设定,并梳理其与相关领域(如领域自适应、迁移学习和元学习)之间的关联;随后提出一种分类法,对属于贝叶斯持续学习范式的各类算法进行全面归类;同时,我们剖析当前最新进展,重点分析若干最具代表性的贝叶斯持续学习算法;此外,我们还探讨了持续学习与发展心理学之间的联系,并相应引入两领域间的类比;继而讨论当前面临的主要挑战;最后总结并展望贝叶斯持续学习未来潜在的研究方向。
- 引言持续学习(亦称增量学习或终身学习)是一种在线学习范式,其中(非独立同分布的)数据持续到达,其数据分布可能随时间发生变化(Schlimmer & Fisher, 1986;Sutton & Whitehead, 1993;Ring, 1995, 1997;Kirkpatrick 等, 2017;Lee 等, 2017;Shin 等, 2017;Schmidhuber, 2018;Ahn 等, 2019;Riemer 等, 2019;Buzzega 等, 2020;Liu 等, 2020;Mirzadeh 等, 2020;Yoon 等, 2020;Beaulieu 等, 2021;Mundt 等, 2022;Romero 等, 2022;Wu 等, 2022)。在学习新到数据的过程中,持续学习者不应遗忘此前数据所习得的知识——该现象称为灾难性遗忘(catastrophic forgetting)(McCloskey & Cohen, 1989;Ratcliff, 1990;Robins, 1993, 1995;French, 1999;Pape 等, 2011;Srivastava 等, 2013;Achille 等, 2018;Diaz-Rodriguez 等, 2018;Kemker 等, 2018;Zeno 等, 2018;Parisi 等, 2019;Pfulb & Gepperth, 2019;Ebrahimi 等, 2020;Gupta 等, 2020;Banayeeanzade 等, 2021;Ke 等, 2021;Ostapenko 等, 2021;Wang 等, 2021;Karakida & Akaho, 2022;Lin 等, 2022;Miao 等, 2022)。同时,持续学习者也需适应各阶段学习过程中发生的分布偏移(distributional shift)。因此,在持续学习中必须取得一种平衡:稳定性(stability)用于维持已有知识,适应性(adaptation)用于吸收新知识。学界通常将此称为持续学习中的稳定性–可塑性权衡(stability-plasticity tradeoff)(Kim 等, 2023;Adel, 2024, 2025)。其中,稳定性指模型保有既有知识的能力,可塑性则指模型适应并学习新信息的能力。模型更新须以增量方式进行,每阶段可用数据仅限于当前新数据;出于隐私、安全与计算约束,通常禁止访问历史数据(Adel 等, 2020;Smith 等, 2023)。
人类具备基于有限经验从过往学习的强大能力,远超当前机器(Taylor & Stone, 2009;Chen & Liu, 2016;Finn 等, 2017;Li 等, 2018;Rostami 等, 2020)。部分原因在于,人类拥有一套在其生命各阶段高效获取与调适知识的机制(Li 等, 2018;Parisi 等, 2019)。相比之下,直到最近,机器学习模型(尤其是神经网络)仍主要针对独立同分布(i.i.d.)数据建模,因而面对序列到达、非平稳数据时遭遇诸多挑战,例如前述的灾难性遗忘现象。
因此,持续学习框架应能在不存储历史数据的前提下保留既有知识,并依据新数据对其进行更新。这与贝叶斯推理范式高度契合:模型参数上的概率分布表征了迄今所见数据下的当前知识状态;当新数据到达时,该状态可自然视为先验,结合由新数据导出的知识(似然),可推断出后验;该后验又可作为后续数据到达时的新先验,依此类推。已有诸多持续学习框架正是基于这一持续学习与贝叶斯推理间的深刻一致性展开构建。
本文首先界定持续学习(CL)与贝叶斯持续学习(BCL),并形式化本文所涵盖的CL设定(即任务增量学习与类增量学习)(第2节);继而厘清其与相关领域(如元学习、领域自适应)之区别(第3节);随后提出BCL的算法分类体系(第4节),并概要介绍迄今若干具有里程碑意义的BCL算法;进而建立BCL与发展心理学之间的若干关联(第5节);最后总结我们认为直接影响BCL算法性能的关键挑战(如灾难性遗忘),并提出若干我们认为在未来BCL研究中颇具前景的方向(第6节)。
公式化
最广泛使用的持续学习(CL)设置是任务增量学习和类别增量学习。
在任务增量学习中,训练过程被分为不同的阶段,每个阶段对应一个任务。任务增量学习的主要假设是任务身份在训练和测试过程中都能被观察到。
![]()
![]()
![]()
![]()
例如,考虑一个手写数字识别模型,其中需要识别每个手写数字的特征以进行预测。假设类别增量学习者遇到的问题是将数字“1”与“2”分类作为第一个任务。鉴于它们相当不同的特征,类别增量学习者可能相对容易地在第一个任务中识别出所有的“1”数字。假设类别增量学习者遇到的第二个(或更一般地,连续的)任务是将数字“7”与“8”分类。此时,类别增量学习者的任务变得更加具有挑战性,因为它现在需要同时区分所有四种手写数字,这涉及到区分数字“1”和“7”的棘手问题(图2)。相比之下,一个任务增量学习者在遇到相同任务时,将永远不需要区分手写数字“1”和“7”,因为它们属于不同的任务,并且在训练或推理过程中,由于任务身份始终被观察到(即在训练和测试过程中作为输入),因此不需要进行区分。
与上述标准类增量学习(CIL)设定相比,少样本类增量学习(FSCIL)因在首个任务之后每个新出现的类别可用数据稀缺而引入了额外的难度层级。FSCIL 中的首个任务(t = 1)通常被称为基础任务,而后续任务(即从第二个任务开始,t ≥ 2)则被称为少样本任务。对于少样本任务,每个类别仅提供少量数据(Rebuffi 等, 2017;Gidaris & Komodakis, 2018;Tao 等, 2020;Achituve 等, 2021;Ahmad 等, 2022;Peng 等, 2022;Song 等, 2023;Wang 等, 2023b;Zhou 等, 2023;Zhao 等, 2024),而基础数据集 D₁ 是一个大规模训练数据集,包含多个基础类别,且每个类别拥有相对充足的数据(相较于后续的少样本任务,t > 1)。换句话说,对于任何少样本任务 t > 1:N₁ >> Nt。此外,对于少样本任务 t > 1,在 FSCIL 设定下每个类别可用的数据量也比标准 CIL 设定中对应任务的数据量更为有限。对于增量少样本任务的数据集 Dt(t > 1),C 类 K 样本 FSCIL 设定指的是相应任务包含 C 个类别,且每个类别有 K 个训练数据点。这意味着,对于一个少样本任务 t > 1,其训练数据集的总大小为 Nt = C × K。
![]()
2.1 评估指标
我们在此处阐明持续学习(CL)中最广泛使用的评估指标。
在测试过程中,持续学习器可以访问迄今为止遇到的所有任务的测试数据。假设持续学习器迄今已遇到 m 个任务,则相应的性能评估将包括来自每个任务 t(t ∈ {1, 2, ..., m})的测试集。令 Ai,j 表示持续学习器在完成任务 t = i 的训练后,在任务 t = j 上的测试分类准确率。此外,令 Aj 表示一个参考模型在随机初始化后,仅从属于同一任务 t = j 的数据中学习时,在任务 t = j 上的测试分类准确率(Lopez-Paz & Ranzato, 2017a)。因此,持续学习器在学习完 m 个任务后的总体平均准确率可定义如下:
![]()
在完成 m 个任务后,总体平均准确率(AAₘ)的值越大越好。评估灾难性遗忘也同样至关重要。反向迁移(BWT)是用于此目的的主要任务增量学习指标之一。BWT 指标的基本功能是评估学习任务 t = i 对先前任务 t = j(其中 j < i)学习性能的影响(图3)。同样,较大的正 BWT 值是可取的,因为它表明学习后续任务 t = i 导致了先前任务 t = j 性能的提升;而另一个极端情况——即意味着高度灾难性遗忘(先前任务 t = j 的性能大幅下降)——则对应于较大的负 BWT 值。反向迁移(BWT)指标定义如下:
![]()
请注意,在最终任务 t = m 上尝试评估 BWT 指标是毫无意义的。另一个重要指标,称为前向迁移(FWT),用于衡量学习任务 t = j 对未来任务 t = i(i > j)性能的影响(图3)。FWT 指标值越大越好。我们采用最广泛使用的 FWT 定义(Lopez-Paz & Ranzato, 2017b),该定义将学习任务 t = j - 1 对未来任务 t = j 的影响,与在任务 t = j 上随机初始化后的性能 Aj 进行比较:
![]()
![]()
公式 (3) 中求和的索引从任务 t = 2 开始,因为在第一个任务上评估前向迁移(FWT)指标是毫无意义的。较大的 FWT 值表示性能更优。
在 (1) 中定义的总体平均准确率也被用于 CIL 和 FSCIL,以评估迄今为止遇到的所有类别的整体分类准确率。由于在连续增量任务的演进过程中持续监控分类准确率的变化至关重要,而不仅仅是在最终任务之后,在 CIL 设定中,还采用了另一种平均准确率指标(Wang 等, 2023a; Zhou 等, 2023),以便追踪平均准确率的历史变化。这被称为平均增量准确率(average incremental accuracy),记为 AIA,其计算方式如下:
![]()
![]()
![]()
![]()
2.2 基于贝叶斯推理的持续学习
![]()
![]()
![]()
![]()
![]()
![]()
![]()
- 相关范式
鉴于存在一些机器学习范式,其表象上可能与持续学习相似,因此强调这些范式与持续学习在特性上的细微差别至关重要。在本节中,我们简要描述这些密切相关范式,并总结它们与持续学习的主要区别(图4)。
![]()
![]()
领域泛化(Domain Generalization, DG)。在 DG 中,学习者以若干不同但相关的领域作为输入,目标是学习如何泛化至一个未见过的测试领域。领域泛化亦被称为分布外泛化(out-of-distribution generalization)。与 DA 类似,在 DG 中,训练数据与测试数据满足独立同分布(i.i.d.)的假设同样不成立。但与 DA 不同的是,DG 学习者在训练阶段既无法访问测试领域的任何数据(无论有标签或无标签),也无法获得关于该测试领域的任何信息。与 DA 和 TL 类似,DG 仅关注前向迁移(forward transfer)视角,完全不考虑知识保留或遗忘问题,因其性能仅依据测试领域进行评估。
多任务学习(Multi-Task Learning, MTL)。MTL 模型的训练过程基于一组多个相关(但并不相同)的训练任务。多任务学习者的核心目标是同时联合学习所有训练任务,以优化模型在每一项训练任务上的表现。换言之,MTL 模型并不旨在泛化至其他(未见过的)任务;其训练与测试均在同一组任务上进行。
元学习(Meta-Learning)。元学习亦被称为“学会学习”(learning to learn),因其向学习者提供大量不同但相关的学习任务,而其核心目标是学习一个具有良好泛化能力的学习算法(即“学会如何学习”),该算法经优化后可用于在元训练阶段未见过的其他任务——这些任务被称为测试任务(test tasks)。在元训练完成后,元学习者通常被允许访问每个测试任务中的少量有标签训练样本。与持续学习不同,元学习以离线方式进行训练:在元训练开始前,所有训练任务即已一次性全部提供给学习者。此外,元学习不考虑灾难性遗忘问题,因为元学习者的性能仅依据其在测试任务上的表现进行评估。
- 方法本节将介绍具有代表性的贝叶斯持续学习算法,提出相应的分类体系,并概述该分类中各类算法的核心特征。
4.1 基于正则化的方法
该类别中的持续学习(CL)算法采用基于正则化的训练策略,旨在对参数更新机制进行调控,以应对任务的序列式到达。简而言之,那些对预测结果具有重大影响的参数将被加以保护,避免发生剧烈变动;而其余参数则被赋予更大的更新自由度。其基本前提是:通过该策略进行参数更新,有望在适应新任务与缓解灾难性遗忘之间取得平衡(Li & Hoiem, 2016;Kirkpatrick 等, 2017;Zenke 等, 2017;Zeno 等, 2018;Nguyen 等, 2018;Adel 等, 2020)。
![]()
基于精确贝叶斯推理构建贝叶斯持续学习(CL)模型是难以实现的,尤其考虑到绝大多数持续学习器均采用深度神经网络建模。这正是近似推理在贝叶斯 CL 框架中通常成为必要手段的主要原因。
4.1.1 最大后验估计(MAP Estimation)
在基于正则化的贝叶斯 CL 中,一种常见策略是将神经网络内的推理建立在正则化的最大似然估计(regularized maximum likelihood estimation)基础之上,通常得到如下形式的目标函数:
![]()
![]()
![]()
在第一个任务(t = 1)时,Σ⁻¹ₜ₋₁ = Σ⁻¹₀ 的值通过高斯先验的协方差进行初始化。通常采用对角拉普拉斯传播(Diagonal Laplace propagation),即仅保留 Σ⁻¹ₜ 的对角项,因为否则计算似然函数的完整海森矩阵在计算上将是不可行的。
![]()
突触智能(Synaptic Intelligence, SI)。在该算法中(Zenke 等, 2017),前述公式 (9) 中的矩阵 是依据各参数在每个任务中的重要性进行计算的。重要性度量基于各参数对全局损失变化的相应贡献进行量化;最终,越重要的参数被赋予越小的变化自由度。从宏观层面来看,这与 EWC 算法颇为相似——即对于被认为最具影响力的参数,在遭遇新任务时施加更强的约束以限制其变化。然而,其核心区别在于:参数重要性估计是与任务学习过程同步进行的,因而无需像 EWC 那样单独近似 Fisher 信息矩阵的对角元。
其他相关算法:
类似工作还包括 Chaudhry 等(2018)提出的 EWC 在线变体,其计算效率更高:该方法为所有任务维护单一的对角 Fisher 矩阵,并借助滑动平均更新该矩阵;滑动平均还有助于降低算法对超参数取值的敏感性。
另一 EWC 的在线版本见于进展与压缩(Progress & Compress, P&C;Schwarz 等, 2018)算法,旨在解决 EWC 中 Fisher 正则项极易对网络参数施加过度约束的问题——这最终可能阻碍新任务的学习。此外,作者指出:EWC 中各先前任务的重要性由 Fisher 矩阵任意缩放,这是不理想的;P&C 通过归一化每个任务的 Fisher 信息矩阵加以解决,从而确保对所有历史任务一视同仁。
Ritter 等(2018)提出了一种可扩展的拉普拉斯近似方法,其基于分块对角化与因子分解近似(Martens & Grosse, 2015;Botev 等, 2017)。
Lee 等(2017)提出的算法对贝叶斯神经网络(BNN)后验分布的矩进行增量式匹配:即依次将第一个任务训练所得 BNN 的后验矩,与第二个任务的对应后验矩进行匹配,依此类推,随各新任务依次到达而持续更新。其基础版本通过取旧 BNN 与新 BNN(即学习新任务后所得参数)参数的平均值实现。然而,增量矩匹配算法所得近似结果高度依赖原始问题的搜索空间特性(Foster & Brintrup, 2023);为取得良好性能,需满足搜索空间光滑且近似凸性的前提条件。
Ebrahimi 等(2020)依据网络权重概率分布中估计的不确定性水平,动态调整学习率。
受信息论思想启发,分类器投影正则化(Classifier-Projection Regularization, CPR;Cha 等, 2021)算法将分类器输出所给出的条件概率投影至均匀分布,据称可最终提升持续学习性能。
Kao 等(2021)则通过权重正则化与梯度投影相结合的方式应对灾难性遗忘:即将新任务的梯度投影至不与先前任务梯度发生干扰的子空间中。
4.1.2 变分推断方法
![]()
![]()
![]()
![]()
公式 (13) 右侧第一项是持续学习(CL)模型在当前任务 t t 数据集上的期望对数似然;第二项旨在惩罚当前近似后验分布与其在前一任务中对应分布之间的差异。然而,整个 (13) 中的下界表达式在持续学习中无法以闭式计算。因此,对该变分目标的梯度计算通常需结合局部重参数化技巧(local reparameterization trick)与简单的蒙特卡洛采样方法(Salimans & Knowles, 2013;Kingma & Welling, 2014;Kingma 等, 2015;Nguyen 等, 2018)。
与采用 MAP 估计的方法(如 EWC 和 SI)不同,VCL 所需在验证集上调节的自由超参数更少。这一特性在在线场景中尤为有利,因为过多的自由参数及其对应的验证集可能带来显著负担(Nguyen 等, 2018)。
其他相关算法:
其他基于变分推断的算法包括 Joseph 与 Balasubramanian(2020)的工作:其为每个任务训练一个模型集成,并从中学习网络权重的任务特异性元分布,进而将该集成用作一个任务条件变分自编码器(task-conditioned VAE;Kingma & Welling, 2014;Kingma 等, 2014)的训练集;每个任务的 VAE 均以其对应的任务特异性先验为条件。
Egorov 等(2021)也在持续学习背景下应用了 VAE:其首先为 CL-VAE 定义一个最优先验,继而推断当前先验的最优加性扩展(additive expansion),以适配每一个新出现的任务。
Ahn 等(2019)的方法则旨在缓解 EWC 所依赖的 Fisher 信息矩阵与 VCL 所依赖的变分推断(其中每个权重参数至少关联一个方差项)带来的过高内存开销;其策略是将可学习的方差项与神经网络的隐藏单元关联,而非与网络权重参数本身关联。
Chen 等(2019)指出,自然梯度法(natural gradient methods;Pascanu & Bengio, 2014)可能优于传统梯度下降,因为前者在黎曼空间(而非欧几里得空间)中给出了最陡下降方向——这意味着自然梯度倾向于在参数分布意义上实现更小的更新步长;而更小的参数变化是更优选择,因其最终可使持续学习模型对灾难性遗忘更具鲁棒性。
4.2 基于回放的方法(Replay-based Approach)
该方法依赖于存储或回放先前任务的数据,从而为模型带来额外开销,例如数据存储、回放操作,以及为选择(或生成)数据点而进行的优化过程(Titsias 等,2020)。出于安全与/或隐私考虑,实践中存储历史任务数据往往颇具挑战。另一类方法则通过学习一个生成模型来生成先前任务的数据(Farquhar & Gal,2019),这可在存储开销方面有所降低;但其代价是需额外训练生成模型。下文我们将介绍基于回放的贝叶斯持续学习中最具代表性的算法。
变分生成回放(Variational Generative Replay, VGR)。VGR 算法(Farquhar & Gal, 2019)可视为 VCL 在回放范式下的对应方法。VGR 被提出作为一种以似然为中心(likelihood-focused)的贝叶斯替代方案,与以先验为中心(prior-focused)的 VCL 形成对比。VGR 并不依赖于先前任务的后验分布,而是通过持续调整似然项来适配持续学习模型。依据 Farquhar 与 Gal(2019)所建立的术语,VCL 被归类为“先验中心式”,因其在新任务到来时,始终将旧后验直接作为新先验处理;而 VGR 则昂贵得多,主要因其需在每个任务上利用对应训练数据训练一个生成对抗网络(GAN;Goodfellow 等, 2014b;Goodfellow, 2016),且需保存所有先前任务的 GAN,并从中采样以生成用于后续任务的回放数据。
![]()
为在贝叶斯框架下刻画这一行为,标准的证据下界(ELBO)被扩展,以纳入多个先前数据集(即属于旧任务的数据)的影响:
![]()
![]()
![]()
![]()
核心集 VCL(Coreset VCL)。VCL 的核心集版本(Nguyen 等, 2018)旨在解决前述标准 VCL 存在的问题:即在后续任务中反复进行近似可能导致算法越来越容易发生灾难性遗忘。核心集版本的 VCL 通过存储每个先前任务的一部分数据子集,并在学习未来任务时回放这些子集来缓解此问题。因此,从每个先前任务中选取的旧数据子集(称为“核心集”)被用来刷新 VCL 模型对旧任务的记忆,从而潜在地降低灾难性遗忘的风险。显然,这需要付出持续选择、存储和回放核心集所带来的计算与存储代价。
![]()
![]()
![]()
![]()
![]()
基于高斯过程的持续学习函数正则化方法(Functional Regularization for Continual Learning using Gaussian Processes, FRCL)。FRCL 算法(Titsias 等, 2020)将其贝叶斯推理建立在函数空间之上,而非深度神经网络的参数空间。其通过将神经网络最后一层的权重视为高斯分布,从而获得一个高斯过程(Gaussian Process),并在该底层函数空间中记忆近似的后验信念。
![]()
其中核函数由共享表示 ϕ ϕ 的点积定义。
记忆功能通过诱导点(inducing points)实现,这些诱导点由一个稀疏高斯过程(sparse Gaussian Process, GP)构建而成。诱导点指从每个任务数据中选出的一个固定大小子集,其选取目标是能最优地表征该任务。随后,这些子集通过类似于公式 (13) 中 VCL 形式的 KL 散度项,对后续任务的学习过程进行正则化——但此时正则化基于的是诱导点而非原始参数。
因此,FRCL 算法既可视为基于回放的方法,也可视为基于正则化的方法。相应地,其需承担为获得诱导点而进行稀疏 GP 优化所带来的计算开销;此外,还存在可扩展性问题:诱导点不仅需为每个任务单独优化,还需予以存储。
FRCL 算法(Titsias 等, 2020)也为后续相关方法奠定了基础,例如(Pan 等, 2020;Rudner 等, 2022)。Pan 等(2020)采用拉普拉斯近似,并通过强制核函数使用神经网络的全部权重(而非仅最后一层)来构建高斯过程。Rudner 等(2022)则未采用拉普拉斯近似,而是直接通过变分推断优化方差参数。
其他相关算法:其他基于高斯过程的持续学习算法包括变分自回归高斯过程(VAR-GPs;Kapoor 等, 2021),其结合自回归变分分布与诱导点来记忆旧任务。
Kurle 等(2020)则结合两类记忆:一是对旧任务原始数据的补充性记忆,二是通过变分后验以对角高斯分布近似贝叶斯神经网络(BNN)权重。
Sun 等(2022)引入了一种基于信息论准则的在线记忆选择机制。
其他基于回放的范例还包括:
- Borsos 等(2020)的工作:通过基数约束的双层优化构建概括旧任务的核心集(coreset),并采用基于加权数据摘要的贪心前向选择求解该问题;
- Lyu 等(2023)的工作:采用概率策略调整任务间权重,以适配批归一化(batch normalization),并结合记忆缓冲区使用;其基本假设是:对于某一层,每个批次的统计量服从一个概率分布,其随机性源于神经网络参数的取值;
- Ye 与 Bors(2022a)提出的基于 VAE 的记忆缓冲方法:包含一个持续存储近期样本的短期记忆(STM),以及一个旨在维持所有已存样本广泛多样性的长期记忆(LTM);部分样本可根据信息多样性选择准则从 STM 转移至 LTM;
- Henning 等(2021)学习一个共享的元分布,回放所有先前任务特异性后验的参数,但其局限在于带来显著的计算开销。
4.3 基于架构的方法(Architecture-based Approach)
该方法的核心目标是:通过将模型架构划分为两类组件,来调控稳定性与适应性之间的权衡:
i)全局性组件(global parts)——可在各任务间复用,且随任务演进而较少变化;
ii)任务特异性组件(task-specific parts)——专用于处理特定任务。
此类增量式结构学习(incremental structure learning)方法用于持续学习(CL)的一大优势在于:其可通过为各任务分配专属参数,提升模型在对应任务上的性能,同时不影响其他任务——因为其余任务由受控共享参数所保护,从而有效缓解灾难性遗忘。
另一方面,当持续学习任务数量庞大时,该方法可能面临可扩展性挑战:模型架构的潜在指数级扩张可能带来难以承受的计算与存储开销。
自适应权重持续学习(Continual Learning with Adaptive Weights, CLAW)。
这是另一种基于 VCL 的算法,但具备自动架构适应能力(Adel 等, 2020)。
区别于传统多任务学习中固定划分的刚性架构(底层为共享组件、顶层为任务专属组件),CLAW 采用一种灵活的数据驱动方法(基于变分推断),自适应地判定网络中哪些部分应被共享,从而在缓解灾难性遗忘与提升任务间知识迁移之间取得优化平衡。
在涉及异构任务的持续学习场景中,CLAW 的数据驱动策略能有效确定任务间合适的共享程度:其通过自动化架构适配过程实现——对每个隐藏神经元,或保持其不变(即作为全局神经元),或针对每个新任务进行局部适配。后一路径(局部适配)通过灵活学习适配参数的变化范围来实现:对每个神经元额外引入共三个参数:
- 一个二元参数,用于学习该神经元是否需要适配;
- 另外两个参数,用于控制适配幅度——即适配程度本身亦被学习。
所有参数均通过变分推断联合优化。
CLAW 的另一优势在于:整个过程中架构本身无显著扩张(不新增神经元),且无需存储或生成历史任务数据。
印度自助餐神经网络(Indian Buffet Neural Networks)。
Kessler 等(2021)在贝叶斯神经网络(BNN)结构上施加了印度自助餐过程(Indian Buffet Process, IBP)先验,从而构建出一种可根据所遇数据量动态调整自身复杂度的模型。该基于 IBP 的持续学习模型采用在线变分推断,并通过对伯努利分布与贝塔分布进行重参数化来构建 IBP 先验。
具体而言,IBP 先验(Griffiths & Ghahramani, 2011)被赋予一个无限维二元隐变量矩阵Z Z 上。这使得模型可对每层所需隐藏单元(即神经元)数量进行推断。随后,BNN 的权重被视为从互不耦合的高斯分布(Blundell 等, 2015)中独立抽取的随机样本,并以类似 VCL 的方式迭代执行变分贝叶斯更新。
![]()
少数其他贝叶斯持续学习算法也属于架构驱动型。另一个例子见于 Wang 等(2021),该方法在学习每个新任务时动态扩展参数,然后有选择地合并这些扩展后的参数。作者认为,该方法与生物主动遗忘的底层机制一致。另一个使用 IBP 先验的持续学习算法例子见于 Mehta 等(2021),该算法基于断棒公式,采用一种贝叶斯非参数方法;其 IBP 先验与神经网络权重矩阵的因子分解相结合,从而允许因子复用,进而实现不同任务间的正向知识迁移。
4.4 类增量学习(Class-Incremental Learning, CIL)
与任务增量学习设定不同,目前极少有类增量学习(CIL)算法将其在线更新机制建立在贝叶斯推理和/或贝叶斯学习思想之上。需要特别强调的是:本文所称的贝叶斯持续学习(Bayesian CL),主要指在持续学习框架所需的在线更新过程中采纳贝叶斯方法——例如在 VCL 中,将旧后验作为新先验,等等。换言之,我们不将那些仅对每个任务独立地应用贝叶斯分类器,却未对底层持续学习模型参数θ θ 的情形纳入“贝叶斯 CL”范畴。
基于潜变量模型的少样本类增量学习适应方法(Class-Incremental Adaptation via Latent variable Models, CIAM)
因此,严格依据上述定义,Adel(2025)所提出的少样本类增量学习(FSCIL)算法,迄今可被视为文献中唯一的贝叶斯 CIL 算法。相较于标准 CIL 设定,FSCIL 引入了额外的难度层级:绝大多数类别的训练数据极为稀缺——即首个任务中的类别拥有相对充足的数据,而后续所有任务(即第二个任务及之后)中的类别则仅有少量样本。除灾难性遗忘风险外,此类数据稀缺性还会加剧 FSCIL 中的其他问题,如类别偏差(bias)与过拟合。
CIAM 算法通过一种专为缓解 FSCIL 中偏差与灾难性遗忘而定制的变分自编码器(VAE),构建了一个潜变量模型,并据此调整少样本类别的表征(即首个任务之后所有任务中的类别),使其与相关历史知识达成平衡。在学习少样本类别时,该算法利用了 Adel(2025)所引入 VAE 的推断共享(amortization)特性——不仅适配当前的少样本类别,同时也对先前相关类别进行协同调整。
以下我们将介绍两种较为接近贝叶斯 CIL 算法(但仍非严格意义上的贝叶斯 CIL):
高斯过程树(Gaussian Process Tree)
高斯过程(GPs)的推理在计算上颇具挑战性,尤其面对大规模数据集时;而在 CIL 设定下,此类挑战进一步加剧。Achituve 等(2021)通过引入一种基于树状层次化 GP 模型的多类分类方法来应对该问题:在该树结构中,每个内部节点均利用Polya-Gamma 扩增方案(Polson 等, 2013)为数据拟合一个 GP。依据前述针对任务增量学习的分类体系,该算法可归类为基于回放的方法,因其使用了充当先前任务训练数据代理的诱导点。
在本工作之前,前述的 Polya-Gamma 扩增方案通过将高斯过程(GP)后验分布条件化于一个扩增的 Polya-Gamma 变量上,实现了二分类任务的推理。Achituve 等(2021)的工作将此方法扩展至多类 CIL 分类。他们的解决方案基于一个树状模型:其中每个节点利用一个 GP 映射到一个二分类任务,并从每一个先前任务中引入诱导点。尽管由二分类 GP 构成的树结构确实构成了一个 CIL 框架,但随着类别数量增多,最终层级分类器所涉及的二分类器数量、每个 GP(即每个节点)所需的优化以及与整棵树相关的整体优化,其计算复杂度会变得极其庞大,最终导致严重的计算负担。
![]()
- 与发展心理学的关联
人类在持续学习方面远比机器更擅长。与机器不同,(健康的)人类几乎不会仅仅因为获取了更新的信息,便遗忘过去习得的重要知识。换言之,诸如灾难性遗忘以及稳定性–可塑性权衡等问题,在人脑中能被本能且高效地加以应对(Finn 等, 2017;Rostami 等, 2020)。
此前已有研究尝试探讨人类在持续学习方面无可争议的优越性(Hadsell 等, 2020;McCaffary, 2021),但此类探索大多仅聚焦于神经科学视角。本文提供了一个崭新的视角——基于发展心理学,旨在通过对记忆、遗忘,以及人类一生中持续适应不同情境的非凡能力等相关概念的分析,为持续学习(CL)研究获得更深层次的洞见。
发展心理学关注人类在其整个生命周期中(Grotuss 等, 2007;Greenfield, 2009),如何适应各类变化(如认知、社会、情感与智力等层面的变化)。尽管人类所面临的持续学习挑战比机器更为复杂——个体生命历程中发生的变化涵盖多种范围与性质(如认知、人格等)——人类适应此类艰巨变化的能力仍远超当前机器。这正是发展心理学视角对持续学习研究具有启发意义的核心原因之一。
5.1 人类与机器持续学习方式的相似之处
人类与机器在持续学习能力上存在为数不多的相似点之一是:随着所遇任务数量持续增加,二者的持续学习能力均呈下降趋势。尽管人类在持续学习方面具有显著优势,但随年龄增长,其学习、记忆及适应动态环境的能力亦会减弱;同时,人类的可塑性水平亦随年龄增长而呈现一致性的下降趋势(Hensch, 2004)。年龄增长必然意味着个体经历了更多任务——既需获取新知识,又需维系过往多年所积累的知识。这与机器的情形相仿:随着任务数量增多,机器亦更易陷入灾难性遗忘,并表现出可塑性水平下降的现象。
另一相似之处体现为儿童发展中的“支架式支持”(scaffolding;Margolis, 2020)。当儿童面临一项新任务(在维果茨基理论中称之为“最近发展区”,zone of proximal development),成人会通过引导,帮助儿童在既有知识基础上建构新技能,最终使其成功完成该任务。因此我们推测:“支架”可被视为人类实现正向迁移(在 CL 术语中)的一种方式,亦即在不损害既有知识的前提下,促进对新信息的适应。
5.2 稳定性–可塑性权衡与发展心理学的关联
在发展心理学中,“认知灵活性”指个体根据情境或需求变化,调整自身思维与行为的能力,通常涉及在不同任务或概念之间切换(Cañas 等, 2006);而“认知稳定性”则指个体在面对干扰(尤其是竞争性任务或环境变化)时,持续专注于当前任务的能力(Cañas 等, 2006)。
发展心理学中若干(但非全部)学派持有一种观点:认知灵活性的提升可能以牺牲认知稳定性为代价(Cañas 等, 2003);反之亦然——稳定性增强可能削弱灵活性。据此观点,发展心理学中的稳定性–灵活性权衡可被理解为一个连续谱系,其两端分别为:
• 一端是极度灵活但难以长时间专注单一任务的个体;
• 另一端是能高度专注单一任务,却难以在任务完成前应对突发变化的个体。
因此,该学派将发展心理学中的稳定性–灵活性权衡,概念化为与持续学习中“稳定性–可塑性权衡”高度等价的框架:二者均体现为两个相互竞争、存在潜在张力的目标,提升其一往往需削弱其二——换言之,无法同时实现二者最优。发展心理学中支持此观点的主要理论是“控制困境理论”(control dilemma theory;Qiao 等, 2023),该理论指出认知稳定性与灵活性之间存在互斥关系,并强调达成某一目标常需牺牲另一目标。
然而必须指出:发展心理学领域与持续学习领域存在一项关键差异——前者内部存在另一重要学派,主张认知稳定性与灵活性可被独立调控(Egner, 2023)。依据此观点,个体未必需要在“专注当前任务”与“切换至新任务”之间进行权衡;其原因包括:
- 个体差异性(人类特有,机器则无):某些人天生具备在任务切换过程中保持专注且不降低任一任务表现的能力;这类个体在需要频繁切换与适应的环境中反而表现更优。此时,稳定性与灵活性之间的权衡并非实现最优表现的必要条件——换言之,与机器不同,人类有可能同时兼具稳定性与灵活性(Geddert & Egner, 2022)。
- 人类大脑具备智能的情境自适应能力:即在某些情境下保持灵活,在其他情境中则保持稳定。这意味着人类拥有所谓“情境适应”(contextual adaptation;Sigi-Liu & Egner, 2020)能力,可根据具体情境动态优先选择稳定性或灵活性中的一项。通俗而言,人类天生具备一种策略性优先化能力:为达成特定情境下的最优结果,可自主选择侧重稳定性或灵活性,而无需在二者间制造张力。
- 例如:外科医生在进行精细手术时,会本能地优先稳定性(保持手部稳定与注意力集中),直至手术完成;
- 又如:个体可能主动选择遗忘某些信息——当确信其未来不再相关时。例如,若过去习得的某知识与当下确信为真的新知识相冲突,大脑更可能主动遗忘旧的(错误)知识。
- 遗忘对人类而言可能具有积极意义(机器则无):遗忘在人类知识精炼过程中发挥着基础性作用(Martínez-Plumed 等, 2015)。这种“有益遗忘”机制进一步削弱了稳定性与灵活性之间必然存在权衡的假设。
综上,发展心理学揭示:人类的认知调控远比当前持续学习模型所假设的“刚性权衡”更为动态、灵活且具情境依赖性——这为构建更类人、更具适应性的持续学习系统提供了重要启示。
5.3 遗忘
在发展心理学中,共有五种广为接受的遗忘理论(Brainerd 等, 1990;Mcleod, 2023)。本文聚焦于其中可与持续学习(CL)建立类比关系的理论。
最引人注目的类比可通过五种理论之一——“干扰遗忘理论”(interference theory of forgetting)加以阐释。根据该理论,新信息会中断对先前知识的提取。例如,一个人可能在周五记不起周日早餐吃了什么,原因是在此期间摄入了大量其他餐食(Brainerd 等, 1990)。在此背景下,两个相互对立的概念——“逆向干扰”(retroactive interference)与“前向干扰”(proactive interference)——与这一遗忘解释紧密相关。
如图5所示,逆向干扰发生在新记忆破坏旧记忆时,如同上述早餐的例子。相反,前向干扰指旧记忆干扰新记忆的现象(即方向相反)(Ebert & Anderson, 2009)。我们在图6中通过一个实例说明这两种现象:某人过去曾学习意大利语,目前正在学习法语。在此情形下:
![]()
![]()
- 逆向干扰表现为:由于近期学习法语的经历,该个体在回忆意大利语词汇时遇到困难;
- 前向干扰则表现为:当该个体试图讲法语时,却发现其先前掌握的意大利语知识干扰了法语表达。
人们认为,前向干扰与逆向干扰现象更易发生在相似的记忆内容之间(类似于前述拉丁语系语言的例子)。例如,旧电话号码与新电话号码彼此干扰的可能性,远高于它们与其他存储在记忆中的数字(如公寓号码等)之间的干扰。同样,同时学习相似学科的学生比学习不同学科的学生更容易遭遇干扰(Chandler, 1991)。
当前持续学习(CL)的研究方向与遗忘的取代理论(displacement theory of forgetting)颇为相似。CL 领域的主流趋势围绕着通过“稳定性–可塑性权衡”来平衡遗忘与可塑性展开;同样,取代理论将遗忘强烈关联于短时记忆——其存储容量有限,仅能维持少量信息。因此,该理论聚焦于如下问题:在固定容量的短时记忆中,哪些信息得以保留?在容量受限条件下,个体又该如何分配注意力,以留存关键知识?
与之相反,提取失败理论(retrieval theory of forgetting)对遗忘给出了截然不同的解释。该理论认为,信息的遗忘并不必然意味着其已彻底丢失;遗忘也可能源于个体无法从(长时)记忆中成功提取该信息(Spear, 1971)。换言之,信息仍存储于长时记忆之中(即未被真正抹除),但个体在特定时刻未能成功调取。一个常见例子是:某人在对话中一时想不起某个词,却有强烈的“话到嘴边”之感;数小时后,该词却又能被顺利回忆起。由此可见,此前未能提取的知识并未真正丢失——这纯粹是一次提取失败。
这种对遗忘的“提取失败”式理解,与当前 CL 研究的主流方向几乎无法建立关联。
- 本节旨在简要总结本文所呈现的部分核心思想,一方面梳理当前贝叶斯持续学习(BCL)面临的主要挑战,另一方面提出我们认为未来研究中值得探索的潜在方向。
6.1 主要挑战
我们首先讨论阻碍 BCL 进一步发展的若干关键挑战。
6.1.1 灾难性遗忘
该问题不仅是 BCL,更是整个持续学习(CL)范式中的核心挑战。BCL 模型必须具备足够稳定性,以确保新近任务所习得的知识不会过度覆盖过往任务中获得的旧知识;同时,模型还需在保留旧知识所需的稳定性与吸纳新知识所需的可塑性之间取得平衡。本文已系统梳理了不同 BCL 算法用以应对灾难性遗忘的多种机制,此处仅作总结性归纳:
各类 BCL 方法均旨在提供一种缓解灾难性遗忘的途径。例如,在基于正则化的方法中,通过保护那些预计对大多数先前任务预测过程具有重大影响的参数免受剧烈变动,而允许其余参数更自由地更新,从而减轻遗忘。值得注意的是,得益于其天然的不确定性量化能力,贝叶斯 CL 算法在估计哪些参数更具影响力方面,相较非贝叶斯 CL 算法更具优势。
如前所述,BCL 中的精确推理不可行,因而各类算法均依赖近似推理——而这通常涉及在后续 CL 任务中反复进行近似操作。基于回放的方法试图通过存储或生成每个历史任务的部分旧数据子集,以刷新模型记忆,从而缓解由此引发的灾难性遗忘风险。尽管该策略行之有效,却引入了额外的存储与计算负担(源于旧数据的存储和/或回放)。
基于架构的方法则通过(刚性地)将模型架构划分为两部分——受保护、避免剧烈变动的共享组件,以及允许更自由更新的任务特异组件——为平衡新旧知识提供了结构性解决方案。此类标准架构方法的弊端在于:面对大量任务时,架构扩张可能引发可扩展性问题;此外,其刚性划分未考虑任务间的异质性程度——例如,若预设的共享部分过大,即便与新任务高度差异化的旧任务仍可能被遗忘。
另一种应对灾难性遗忘的思路,是通过调节学习率以控制模型所需捕获的适应程度,从而平衡稳定性与可塑性(Pham 等, 2021)。类似地,Ebrahimi 等(2020)依据神经网络权重概率分布中估计的不确定性水平,逐任务动态调整学习率。
6.1.2 任务干扰
持续学习(CL)依赖于任务间知识的迁移。当任务足够相似、所迁移的知识确实有用时,此类知识迁移可带来益处,即所谓的正向迁移(positive transfer);反之,若在不相似任务间共享知识,则可能引发不良干扰(undesirable interference),进而导致负向迁移(negative transfer)。
正则化类 BCL 方法(Kirkpatrick 等, 2017;Nguyen 等, 2018;Loo 等, 2021)可对“哪些参数应被保护以避免剧烈变动”提供不确定性估计,这在区分可迁移知识与不可迁移知识方面可发挥关键作用。
此外,基于架构的方法(Adel 等, 2020;Kessler 等, 2021)所采用的任务特异组件与共享组件之划分,亦有助于缓解任务干扰:由于各任务专属的知识主要由架构中的任务特异部分承载并加以保护,从而降低了任务间干扰风险,并在稳定性与可塑性之间达成更优平衡。
6.1.3 可扩展性
贝叶斯方法通常带来显著的计算开销,因其需在每个新任务到来时连续地近似后验分布。贝叶斯持续学习方法在处理高维数据时亦可能面临可扩展性困境:对神经网络每个权重逐一更新后验分布的复杂性急剧上升。例如,在 EWC 算法(Kirkpatrick 等, 2017)中,后验更新依赖于计算 Fisher 信息矩阵——这一操作计算成本极高。该问题已为贝叶斯持续学习(BCL)学界所公认,学界亦已提出若干应对变体,如计算效率更高的 EWC 在线版本(Chaudhry 等, 2018)。可扩展性问题还与以下两点紧密相关:其一,对持续学习问题而言,精确贝叶斯推理通常不可行;其二,更高保真度的后验近似往往比粗糙近似更具计算负担。
6.1.4 贝叶斯类增量学习算法的匮乏
如前所述,除 Adel(2025)提出的贝叶斯少样本类增量学习(FSCIL)算法外,目前类增量学习(CIL)算法几乎未从贝叶斯范式中获益。以贝叶斯后验更新为基础构建增量学习过程的 CIL 算法严重不足。造成贝叶斯 CIL 研究滞后的主因之一在于:CIL 的难度显著高于任务增量学习(TIL)。除 TIL 中已存在的后验近似需求外,CIL 测试阶段任务标识不可用,引入了额外挑战——例如需无差别地区分所有已遇类别(无论其所属任务)。因此,前述诸多挑战(尤其是计算开销与可扩展性问题)在 CIL 中更为严峻。
6.1.5 无任务持续学习(Task-Free Continual Learning)
现有文献中绝大多数 CL 算法(包括 TIL 与 CIL)均假设任务间存在预定义的硬性边界(即任务感知型 CL)。此类边界使训练过程可被划分为对应各任务的阶段,对巩固各任务学习至关重要:清晰边界是多项关键决策的基础,例如为避免灾难性遗忘,应保留哪些历史任务的信息;又如,在任务内对数据重排(因任务内数据满足条件独立同分布假设)。
相比之下,更富挑战性但也更贴近现实的无任务持续学习(task-free CL;Zeno 等, 2018;Aljundi 等, 2019;Lee 等, 2020;Jin 等, 2021;Pourcel 等, 2022;Wang 等, 2022;Ye & Bors, 2022b, 2023;Adel, 2024;Ye & Bors, 2025)设定,假设数据分布渐进式变化,要求以流式方式处理数据,且无明确任务划分概念——即无法获知各任务数据的起止位置,任务间亦无硬性边界。多数贝叶斯 CL 方法依赖任务标识(至少在训练阶段),而无任务设定下任务边界(及标识)在训练与测试阶段均不可得,这对贝叶斯方法(尤其是参数化贝叶斯方法)构成了另一重挑战。
尽管如此,Lee 等(2020)的工作已尝试为无任务 CL 提供贝叶斯解决方案:其采用基于架构的策略,通过混合专家模型(MoE;Jacobs 等, 1991)动态扩展模型架构以适应新数据;每个专家负责数据流中的一部分。该工作将 MoE 建模为狄利克雷过程混合模型(DPM;Antoniak, 1974;Ferguson, 1983),并采用变分推断近似 DPM 后验。
6.2 潜在未来研究方向
6.2.1 构建更具可扩展性的贝叶斯 CL 算法
可扩展性问题是贝叶斯持续学习中的突出瓶颈。宏观而言,当任务数量激增时,BCL 算法越来越难以通过后验近似实现稳定性–可塑性权衡的均衡处理。预先刚性指定所有关键建模选择的 BCL 算法对此类问题尤为敏感。为此,自适应贝叶斯持续学习(adaptive BCL)提供了一条替代路径:允许关键决策以数据驱动方式灵活制定。我们推测(亦有前期工作佐证),自适应 BCL 对提升贝叶斯 CL 的可扩展性至关重要。
在基于架构的方法中,可扩展性挑战尤为显著:当中等至大规模任务数量出现时,模型架构扩张将变得不可承受。一种颇具前景的应对方向是:以数据驱动方式自适应确定任务间共享程度。前述 CLAW 算法(Adel 等, 2020)即在此方向上具有开创性——它仅通过为每个神经元增加三个参数,即可实现架构的自动数据驱动适配,且不新增任何神经元或层,从而有望构建更可扩展的架构自适应型 BCL 算法,在缓解灾难性遗忘与提升任务迁移之间实现动态优化。拓展 CLAW 的思想是未来研究中极具吸引力的方向:其自适应理念可经修改后推广至其他 BCL 范式(如基于回放的方法)。
另一例证是 Ahn 等(2019)的工作:正则化 BCL 的内存需求极为高昂(如 MAP 估计中的 Fisher 矩阵、VCL 中每个权重对应的方差项)。该工作通过约束同一隐藏单元的所有权重共享单一可学习方差,将方差参数与隐藏单元而非权重本身关联,显著降低了内存需求。我们推测,此思想可推广至其他场景——关键在于平衡“约束可学习参数”与“后验近似保真度潜在损失”之间的权衡。
6.2.2 知识迁移的均衡调控
如第 6.1.2 节所述,CL 中的知识迁移可带来正向或负向效果。理论上,基于架构的方法可通过任务特异组件保护专属知识,从而缓解干扰。然而,在任务适应与(缓解)任务干扰间取得恰当平衡仍是核心挑战,尤其当架构的共享/任务特异组件为预先设定时。Adel(2024)提出的(非贝叶斯)算法为此提供了一种思路:通过评估当前任务与历史任务的相似性,自适应调整 CL 架构,并在共享与任务特异组件间引入一个自适应层,以数据驱动方式平衡任务适应与干扰抑制。基于相同理念构建贝叶斯解决方案,是应对 BCL 中任务干扰问题的极具前景的方向。
6.2.3 贝叶斯类增量学习
我们已强调当前贝叶斯 CIL 算法的严重匮乏。严格依据本文定义,Adel(2025)所提算法目前仍是文献中唯一的贝叶斯 CIL 与贝叶斯 FSCIL 原型。尽管挑战复杂,贝叶斯方法亦可为 CIL 中的突出问题提供新思路:例如,基于贝叶斯范式内在的不确定性量化能力,可设计模型以动态权衡——哪些信息应被捕捉(用于学习新类),哪些历史信息子集应被保留(用于维持旧类记忆)。此类基于贝叶斯不确定性的均衡策略,有望缓解当前多数 CIL 算法面临的过拟合这一关键难题。
6.2.4 发展心理学的启发
第 5 节已讨论持续学习与发展心理学的类比。此处聚焦几点可能为 BCL 研究提供新方向的启示:
情境适应性(contextual adaptation):人类天生具备根据情境需求,策略性优先选择稳定性或灵活性的能力。这为 BCL 算法提供了新灵感——当前多数 CL 算法采用固定策略处理稳定性–可塑性权衡;而情境自适应框架可使权衡策略本身具备适应性,根据具体任务动态偏向稳定性或可塑性。一种实现途径是:自动化选择控制稳定性/可塑性水平的关键超参数,使其值可通过数据驱动方式学习。
尤为关键的是,发展心理学五大遗忘理论之一的提取失败理论(retrieval failure theory),可为 BCL 中的遗忘问题提供另一全新视角。
当前持续学习(CL)研究几乎单一地将算法遗忘现象解释为相关信息的彻底丢失。而提取失败理论提供了一种更全面的遗忘解释:遗忘的另一潜在原因可能是无法访问所需信息——换言之,所需信息或许并未完全丢失,仅是暂时无法被提取。BCL 研究可从中获益:例如设计充当高级提取线索(advanced retrieval cues)的机制,以促进信息提取——尤其当任务数量急剧增长时,此类机制将尤为重要。
另一可为 BCL 提供进一步启发的方向是:构建具有信息量的先验(informative priors),以引导 BCL 策略促进正向迁移——类似 Schnaus 等(2023)已开展的工作。该方向还可通过借鉴“支架式支持”(scaffolding)理念加以推进:当成年人面对儿童所遇新任务时,会基于自身对任务的理解,引导儿童在既有知识基础上习得新技能——这本质上是一种高效的正向迁移促进方式。据此,信息性先验有望替代成年人在支架式支持中所扮演的角色,从而系统性增强正向知识迁移。
- 结论
本文全面综述了贝叶斯持续学习(Bayesian Continual Learning, BCL)范式的多个方面——其中,贝叶斯推理被用于对模型参数进行在线更新。在 BCL 中,持续学习模型的知识体现为一个关于其参数的概率分布,且该分布持续演化:旧后验不断转化为新先验,从而以比传统持续学习方法更稳健、更具适应性的方式,实现新知识的整合与旧知识的保留。
在厘清持续学习、贝叶斯持续学习及相关评估指标的定义之后,我们系统探讨了贝叶斯持续学习范式的两种主要设定:任务增量学习(task-incremental learning)与类增量学习(class-incremental learning);同时考察了持续学习与若干相关范式(如元学习、多任务学习与领域自适应)之间的关联;继而提出了一种 BCL 算法的分类体系,并详述了各类中最具代表性的经典算法;此外,我们首次深入构建了(贝叶斯)持续学习与发展心理学之间的类比——这一关联此前尚未被系统探讨,其引入旨在强调:此类跨学科类比可为贝叶斯持续学习的未来研究方向提供潜在启发;最后,我们讨论了当前最紧迫的挑战,并提出了若干值得探索的未来研究方向。
原文: https://arxiv.org/pdf/2507.08922
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.