Learning to Continually Learn with the Bayesian Principle
运用贝叶斯原理进行持续学习
https://arxiv.org/pdf/2405.18758
![]()
摘要:
在当前深度学习时代,持续学习(continual learning)研究主要聚焦于:当使用随机梯度下降(SGD)在非平稳数据流上训练神经网络时,如何缓解灾难性遗忘(catastrophic forgetting)。另一方面,在更经典的统计机器学习文献中,许多模型具备序贯贝叶斯更新规则(sequential Bayesian update rules),其学习结果与批量训练(batch training)完全一致,即它们对灾难性遗忘完全免疫。然而,这类模型往往过于简单,难以建模复杂的现实世界数据。
本文采用元学习(meta-learning)范式,将神经网络强大的表征能力与简单统计模型对遗忘的鲁棒性相结合。在我们提出的新型元持续学习框架(meta-continual learning framework)中,持续学习仅在统计模型中进行,并通过理想的序贯贝叶斯更新规则实现;而神经网络则通过元学习被训练,用以搭建原始数据与统计模型之间的桥梁。由于神经网络在持续学习过程中保持固定不变,因此免受灾难性遗忘的影响。
该方法不仅显著提升了性能,还展现出优异的可扩展性。由于我们的方法领域无关(domain-agnostic)且模型无关(model-agnostic),因此可广泛应用于各类问题,并易于与现有模型架构集成。
- 引言持续学习(Continual Learning, CL)——即在获取新知识或技能的同时不遗忘已有知识——是智能体的一项基本能力。尽管深度学习近期取得了显著进展,CL 仍是一个重大挑战。Knoblauch 等人(2020)严格证明:一般而言,CL 是一个 NP-难问题。这意味着,只要 P ≠ NP,构建通用的 CL 算法就是不可能的。
为有效应对 CL,首先应限定某一具体领域,并设计一种能充分利用该领域特有结构的、针对性的 CL 算法。即便人类也具备任务特异性的 CL 能力:例如,学习新面孔的能力很强,但在记忆随机数字等任务上则表现平平。这种特异性源于进化过程——它优化了我们的 CL 能力,以服务于生存与繁衍。
基于这一视角,元持续学习(Meta-Continual Learning, MCL)成为极具前景的研究方向。与仅依赖人类先验知识手工设计 CL 算法不同,MCL 旨在以数据驱动方式元学习(meta-learn)持续学习能力本身——即“学会如何持续学习”。由此,我们可设计一个通用的 MCL 算法,再通过输入特定领域的数据,自动生成适配于该领域的专用 CL 算法。MCL 在许多实际场景中更具优势:它可以在部署 CL 智能体之前,利用大规模数据集预先提升其持续学习能力,而非从零开始学习。
MCL 遵循元学习的标准双层优化框架:在内层循环(inner loop)中,模型由某一 CL 算法进行持续训练;在外层循环(outer loop)中,该 CL 算法则跨多个持续学习“任务序列”(episodes)进行优化。尽管随机梯度下降(SGD)一直是深度学习中的主流学习机制,但这种双层结构提供了灵活性——它允许我们将神经网络与根本不同的学习机制相结合。具体而言,我们可在外层循环中仅使用 SGD 对神经网络进行元训练,而在内层循环中采用另一种更新规则执行持续学习。
在此背景下,序贯贝叶斯更新(sequential Bayesian update)脱颖而出,成为最富前景的候选机制:它为知识状态的更新提供了一种理想框架。尽管已有大量 CL 方法受到神经网络参数后验分布贝叶斯更新的启发(如 Kirkpatrick 等,2016;Zenke 等,2017;Chaudhry 等,2018;Nguyen 等,2018;Farquhar & Gal,2019),但它们均需依赖各类近似手段以确保计算可行性,因而偏离了理想贝叶斯更新的本质。
与此不同,我们引入Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934;Darmois, 1935;Koopman, 1936;Pitman, 1936)指出:指数族分布(exponential family)是唯一一类能实现高效且无损的序贯贝叶斯更新的分布族(详见 §2.2 更精确描述)。我们不再处理复杂神经网络后验的不可解性问题,转而考虑具备指数族后验的简单统计模型的序贯贝叶斯推断——其结果与批量推断完全一致。这类模型天生免疫于灾难性遗忘,但通常因过于简单而难以建模复杂、高维的现实数据。幸运的是,MCL 框架允许我们元训练神经网络,使其充当现实世界与统计模型之间的桥梁。
我们将“结合简单统计模型与元学习神经网络”这一思想提炼为一种通用 MCL 框架,命名为序贯贝叶斯元持续学习(Sequential Bayesian Meta-Continual Learning,SB-MCL)。由于 SB-MCL 是领域无关(domain-agnostic)且模型无关(model-agnostic)的,因此可广泛适用于各类问题领域,并能以极小改动集成进现有模型架构。SB-MCL 涵盖了若干先前工作(如 Banayeeanzade 等,2021;Snell 等,2017;Harrison 等,2018)作为其特例,并同时支持监督与无监督学习。
我们在大量基准任务上进行了广泛实验,结果表明:SB-MCL 不仅取得了卓越性能,且显著降低了资源消耗。代码已开源:https://github.com/soochan-lee/SB-MCL。
2. 背景
2.1 元持续学习
![]()
![]()
2.2 指数族后验的序贯贝叶斯更新
贝叶斯法则提供了一种基于前一时刻的后验分布作为当前时刻先验、从而逐步更新知识的原则性方法,即:(Bishop, 2006; Murphy, 2022)。因此,贝叶斯视角已被广泛应用于 CL 研究(Kirkpatrick 等人,2016;Zenke 等人,2017;Chaudhry 等人,2018;Nguyen 等人,2018;Farquhar & Gal, 2019)。然而,先前的工作主要集中在序贯更新神经网络参数的后验分布上,而这些后验通常是难以精确计算的。因此,它们必须依赖各种近似方法,导致理想贝叶斯更新与现实之间存在巨大差距。
那么,哪种模型适合高效的序贯贝叶斯更新?根据 Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934; Darmois, 1935; Koopman, 1936; Pitman, 1936),指数族分布是唯一一类充分统计量维度保持不变的分布族,无论样本数量多少。充分统计量是指能捕获数据中关于感兴趣参数全部信息的最小统计量。因此,如果充分统计量的维度保持固定,我们就可以在一个固定大小的内存系统中存储所有必要信息。该定理对 CL 具有重要启示:如果模型的后验不属于指数族(如神经网络的情况),并且没有足够大的内存系统来存储不断增长的充分统计量,遗忘就不可避免。从这一角度看,采用重放缓冲区(replay buffer)(Lopez-Paz & Ranzato, 2017; Chaudhry 等人, 2019)是一种有助于部分保留充分统计量的方法。
另一方面,该定理也暗示了一种替代方案:通过采用指数族分布,我们可以在固定维度内存储充分统计量,从而实现高效且无妥协的序贯贝叶斯更新。尽管指数族的表达能力有限,但在 MCL 设置下,可通过元学习神经网络来协调真实世界数据与指数族之间的关系,从而有效解决这一挑战。
我们的方法:SB-MCL
3.1 元学习目标
![]()
![]()
目标是最大化测试集 E 的(条件)对数似然,即在连续学习训练流 D (上标 e 现在为简洁起见省略)后。假设模型由 θ 参数化,该目标可以总结为:
![]()
3.2 将持续学习视为序贯贝叶斯更新
在公式 1 和 2 中,CL 过程被抽象为变分后验分布 q_φ(z|D) 内部的过程,该分布是通过序贯贝叶斯更新获得的:
![]()
![]()
![]()
![]()
![]()
![]()
3.3 元训练
在元训练阶段,模型和学习器通过多个 CL 任务序列进行元更新,以最大化公式 1 或 2。对于每个任务序列,§3.2 中的 CL 过程会利用学习器来获得 q_φ(z|D)。与基于 SGD 的 MCL 不同,我们的方法无需按顺序处理训练流。如果所有训练样本均可获得(这在元训练期间通常是成立的),我们可以将它们并行地输入给学习器,并使用批量推断规则而非序贯更新规则来合并结果。例如,对于高斯后验,我们可以使用以下公式代替公式 5 来得到相同的结果:
![]()
与基于 SGD 的方法(需对每个样本依次执行前向-反向传播)相比,我们方法的元训练可充分利用 GPU 或 TPU 等并行处理器带来的加速优势。
一旦获得变分后验分布 q ϕ ( z ∣ D )
,我们采用蒙特卡洛近似(Monte Carlo approximation)来计算关于 q ϕ ( z ∣ D )
的期望(Kingma & Welling, 2014)。对于高斯后验,可进一步使用重参数化技巧(reparameterization trick)(Kingma & Welling, 2014)进行采样——即采样 z z 的方式支持梯度反向传播:
![]()
在给定 z 的条件下,我们在训练样本和测试样本上运行模型,以计算公式 1 或 2 中的第一项。该项鼓励模型与学习器协作,以提高数据的似然性。第二项是变分后验分布 q ϕ ( z ∣ D ) 与先验分布 p θ ( z ) 之间的 Kullback-Leibler (KL) 散度,可视为一项正则化项。我们将先验设定为与后验同属指数族的分布,例如,对于高斯后验,采用单位高斯分布作为先验,这使得 KL 散度可以进行解析计算。最后,最后一项 log p θ ( D)是一个常数,在优化过程中可以忽略。
在为一个任务序列或一批任务序列计算完公式 1 或 2 后,我们使用 SGD 算法对模型和学习器进行元更新,并通过整个任务序列进行反向传播。与现有的基于 SGD 的 MCL 方法(Javed & White, 2019; Beaulieu 等, 2020)不同,我们无需计算任何二阶导数,这对可扩展性而言是一个显著优势。
3.4. SB-MCL 的若干现有特例
若干先前工作可被视为 SB-MCL 在特定领域下的特例。我们在表 1 中总结了其关键特性,并在下文给出高层描述。
![]()
GeMCL(Banayeeanzade 等,2021)
GeMCL 可视为本框架在图像分类领域中的一个具体实例。它利用一个经元学习的神经网络编码器,为每幅图像提取一个嵌入向量。在训练过程中,它在嵌入空间中为每个类别维护一个高斯后验分布;每当出现属于某类别的样本时,即通过序贯贝叶斯更新规则对该类别的高斯后验进行更新。这些高斯分布共同构成嵌入空间中的高斯混合模型(GMM)。在测试阶段,每幅测试图像同样经该编码器映射为嵌入向量,再通过推断其所属的 GMM 成分(即类别)完成预测。
若将 GeMCL 视为 SB-MCL 的一个实例,可认为该编码器兼具双重角色:一为“学习器”(learner),二为“模型组件”(model component)。在训练阶段,编码器作为学习器,用于更新后验分布 q ϕ ( z ∣ x 1 : t , y 1 : t ) ,其中 z z 为 GMM 的参数;在测试阶段,编码器则作为模型组件,将测试输入转换为嵌入,而 GMM 则利用训练阶段习得的参数对嵌入进行分类。Banayeeanzade 等(2021)还提出了一个最大后验(MAP)变体,该变体直接输出 p θ ( y ~ n ∣ x ~ n , z MAP )作为预测结果。该变体计算更简单,且性能下降不显著。
原型网络(Prototypical Networks, Snell 等,2017)
虽然 GeMCL 本身已是 SB-MCL 的一个特例,但它亦可被视为对原型网络(PN)的推广——后者最初是为少样本分类提出的元学习方法。因此,PN 同样属于 SB-MCL 家族。与 GeMCL 采用完全贝叶斯方法不同,PN 仅对每类样本的嵌入取平均以构建“原型”(prototype)向量。由于平均操作可序贯执行,PN 可直接应用于 MCL 场景。通过假设各高斯后验为各向同性、且先验为无信息先验(uninformative prior),即可将 GeMCL 简化为 PN(Banayeeanzade 等,2021)。
ALPaCA(Harrison 等,2018)
ALPaCA 最初是为在线回归问题提出的元学习方法,其结构与 PN 或 GeMCL 对称:后者在编码器之上附加 GMM 用于分类,而 ALPaCA 则附加一个线性模型用于回归。在 ALPaCA 中,潜在变量 z z 为线性模型的权重矩阵,其后验被假定服从矩阵正态分布(matrix normal distribution)。由于在线学习与持续学习具有相似的数据流设定,仅需少量修改即可将 ALPaCA 应用于 MCL 回归任务。
3.5 将任意模型适配至 SB-MCL
前一节中讨论的所有先前工作均采用相似架构:一个经元学习的编码器,其后接一个简单统计模型。当输出类型恰好适配该统计模型、从而可解析计算后验时,这种结构十分理想。然而,对于输出格式更复杂的领域(例如结构化输出),或无监督设定(此时无显式输出变量),这类架构往往难以直接应用。
相比之下,SB-MCL 几乎可应用于任何现有模型架构或问题领域,原因在于:我们仅需对原模型稍作修改——使其以某个潜在变量 z z 为条件,而该 z z 的后验被建模为指数族分布。模型修改完成后,再添加一个“学习器”(learner),负责将训练数据流“消化”为 z z 的变分后验分布;该学习器可与主模型共享大部分参数。
尽管实现此类修改的方式理论上无限多样,本文目前聚焦于一种可能最简化的实现路径,更复杂的架构设计留待未来探索。在实验中,我们将 z z 定义为一个512 维的因子化高斯变量(factorized Gaussian variable),并将其作为辅助输入注入模型。若模型本身采用编码器-解码器结构,我们便将 z z 与编码器输出拼接(concatenate),再将拼接结果送入解码器。
需强调的是,尽管该方法结构简单,但高维高斯变量与神经网络恰当结合时,可展现出惊人的表达灵活性——这一点已在生成模型中得到验证:例如,变分自编码器(VAE;Kingma & Welling, 2014)或生成对抗网络(GAN;Goodfellow 等, 2014)均通过神经网络将单位高斯变量变换为逼真的图像。其选择高斯分布的动机在于采样便利性;而我们选择高斯分布,则主要出于其对灾难性遗忘的鲁棒性(robustness to forgetting)。
- 相关工作
基于 SGD 的 MCL 方法
OML(Javed & White, 2019)在元学习得到的编码器之上,叠加了一个小型多层感知机(MLP),并采用 MAML(Finn 等, 2017)进行优化。在 OML 的内层循环中,编码器保持固定不变,而 MLP 则通过 SGD 依次学习每一个训练样本进行更新。待 MLP 在内层循环中训练完毕后,整个模型在测试集上进行评估,以计算元损失(meta-loss);随后,对该元损失关于编码器参数及 MLP 初始参数的梯度进行计算,并据此更新这些参数。
受 OML 启发,ANML(Beaulieu 等, 2020)是另一面向图像分类任务的 MCL 方法,其引入了一个名为神经调节网络(neuromodulatory network)的组件。该组件输出一个 sigmoid 激活值,与编码器输出相乘,从而依据输入内容自适应地调控(“门控”)部分特征通路。
关于 MCL 及元学习与持续学习其他结合方式的详细综述,读者可参见 Son 等人(2023)。
![]()
从这一视角出发,将训练数据流输入自回归序列模型并更新其内部状态——在语言建模文献中,这一过程被称为上下文内学习(in-context learning)(Brown 等,2020)——即可视为一种持续学习(CL)。在 MCL 框架下,该序列模型可在多个持续学习任务序列(episodes)上进行元训练,从而学会执行 CL。作者证明:Transformer(Vaswani 等,2017)及其高效变体(Katharopoulos 等,2020;Choromanski 等,2021)相较于基于 SGD 的方法,取得了显著更优的性能表现。
神经过程(Neural Processes, NPs)
尽管动机不同,但监督版 SB-MCL(见公式 1)与神经过程(NP)相关文献(Garnelo 等,2018a; b)之间存在引人注目的相似性。NP 最初旨在克服高斯过程(Gaussian Process)的局限性,例如计算成本高昂以及先验设计困难等问题。NP 本身亦可视为一种元学习方法——它学习一个函数先验(functional prior),并已被应用于元学习领域(Gordon 等,2019)。由于 NP 根植于随机过程理论,其核心设计原则之一是可交换性(exchangeability):即模型输出不应依赖于训练样本的输入顺序。为实现可交换性,NP 对每个样本进行独立编码,并通过置换不变(permutation-invariant)操作(如取平均)将其聚合为一个单一变量,再将该变量送入解码器。
我们所采用的指数族后验的序贯贝叶斯更新,虽最初受 Fisher–Darmois–Koopman–Pitman 定理启发,但同样天然满足可交换性。Volpp 等人(2021)曾为 NP 提出一种基于贝叶斯原理的聚合机制,甚至探讨了序贯更新的可能性,但他们并未将其与持续学习建立联系。据我们所知,NP 与 MCL 之间唯一的关联是 CNAP(Requeima 等,2019),但 CNAP 是专为图像分类任务设计的领域特定架构。
- 实验我们在广泛的问题领域上验证了本框架的有效性,涵盖监督与无监督任务。我们同时提供了 PyTorch(Paszke 等,2019)实现代码,以确保所有实验均可复现。受限于篇幅,本文仅呈现最核心的信息;更多细节请参阅开源代码。
5.1 方法
基于 SGD 的 MCL 方法鉴于其简洁性与通用性,我们选用 OML(Javed & White, 2019)作为基于 SGD 的 MCL 方法的代表性基线。尽管 OML 最初针对分类与简单回归任务提出,Lee 等人(2023)通过在编码器与解码器之间堆叠一个 MAML MLP 模块,构造了一种适用于更广泛领域的编码器-解码器变体。由于 OML 的主要计算瓶颈在于二阶梯度计算,我们还测试了其一阶近似版本(OML-Rep),该版本参照 Reptile 方法(Nichol 等,2018)实现。
CL-Seq我们测试了 Lee 等人(2023)实现中提供的 Transformer(TF;Vaswani 等,2017)与线性 Transformer(Linear TF;Katharopoulos 等,2020)。对于标准 Transformer,其计算开销随学习样本数量增加而持续上升,这被批评为严重制约其可扩展性的主要缺陷(Tay 等,2022);而线性 Transformer 则与其他基线方法及本文 SB-MCL 一样,维持恒定的计算成本,但其性能逊于标准 Transformer(Lee 等,2023)。
离线与在线学习尽管本文聚焦于 MCL,但已有大量非元学习的持续学习(non-meta-CL)方法被提出。为提供性能参照,我们报告了离线学习与在线学习的得分——它们通常被视为 CL 与在线 CL 性能的理论上限(Zenke 等,2017;Farajtabar 等,2020)。
- 离线学习:模型从零开始训练,使用从整个训练流中均匀采样的小批量样本,进行不限次数的 SGD 迭代;由于模型通常会在训练集上过拟合,我们报告训练过程中达到的最佳测试得分
- 在线学习:将训练流随机打乱,形成平稳数据流;模型从零开始,仅遍历该流一次(一个 epoch),并报告训练结束时的最终测试得分。
需注意:MCL 方法的性能可能超越离线与在线学习的得分,因为 MCL 可利用大规模元训练集进行预训练,而(非元学习的)常规 CL 方法则不具备这一优势(Lee 等,2023)。
![]()
5.2 基准任务
我们的实验设置主要沿用 Lee 等人(2023)的方案。由于广为使用的 Omniglot 数据集(Lake 等,2015)规模较小(仅含 1.6K 类 / 32K 张图像),易导致严重的元过拟合(meta-overfitting),Lee 等人转而重新利用 CASIA(Liu 等,2011)与 MS-Celeb-1M(Guo 等,2016)数据集开展 MCL 研究:CASIA 是一个中文手写字符数据集,包含 7.4K 种字符、共计 3.9M 张图像;MS-Celeb-1M 则包含 10 万位名人的 1000 万张图像。基于这些数据集,Lee 等人构建了多种监督学习基准任务,涵盖分类与回归两类任务;其中,每个类别(如字符类型或名人身份)被定义为一个独立任务。各基准任务的高层描述如下;各任务所用模型架构的可视化示意图见附录 B。
- 图像分类:我们在 Omniglot、CASIA 和 Celeb(即 MS-Celeb-1M 的简称)数据集上开展实验,严格遵循 Lee 等人(2023)的设置。所有方法共享一个含五层卷积层的 CNN 编码器。GeMCL 作为 SB-MCL 的一个特例参与比较。
- 正弦回归(Sine Regression):我们采用 Lee 等人(2023)提出的合成正弦波回归设定。ALPaCA 作为 SB-MCL 的一个特例参与测试。
![]()
- 深度生成建模(Deep Generative Modeling):我们首次在 MCL 研究中评估深度生成模型的持续学习性能。我们采用两类深度生成模型评估无监督学习性能:变分自编码器(VAE;Kingma & Welling, 2014)与去噪扩散概率模型(DDPM;Ho 等, 2020)。VAE 采用简单卷积编码器-解码器架构,DDPM 则采用 Ho 等人(2020)的 U-Net 编码器-解码器架构。在 SB-MCL 中,我们为学习器单独配置一个编码器,并将 z z 通过拼接方式注入解码器输入;对于 OML,我们将编码器末尾的 MLP 与解码器开头的 MLP 替换为 MAML MLP 模块。本任务未测试 Transformer,因其与深度生成模型的结合并不直接。
- 评估方案:所有 MCL 实验均在10 任务 × 每任务 10 样本(10-task 10-shot)设置下进行元训练:每条训练流由 10 个任务拼接而成,每个任务含 10 个样本。我们主要在与元训练相同设置(即 10-task 10-shot)的元测试集上评估性能,同时也检验其在其他元测试设置下的泛化能力。超参数均针对 10-task 10-shot 设置下的性能进行调优。
- 分类任务报告分类错误率,其他任务报告损失值;因此,分数越低越好
- 每项实验报告五次独立运行的均值与标准差;每次 MCL 运行中,从元测试集中采样 512 个 CL 任务序列,并计算其平均得分。
- 对于无元训练环节的离线与在线学习:每次从元测试集中采样一个任务序列,在其训练集上训练模型并测评测试得分;重复该过程 20 次,报告均值与均值标准误(standard error of the mean)。
5.3 结果与分析
我们在表 2、表 3 和表 4 中分别展示了分类、回归与深度生成建模任务的实验结果;图 3 比较了各方法在更长训练流下的泛化能力,而表 5 则汇总了跨数据集泛化的结果。关于定性示例与更全面的结果,请参见附录 C 与 D。以下结合实验结果,讨论 SB-MCL 表现出的若干显著特性:
![]()
![]()
强大的持续学习性能
在分类、回归与生成任务的实验中(表 2–4),SB-MCL 家族显著优于基于 SGD 的方法及线性 Transformer(Linear TF);其性能可与标准 Transformer(TF)相媲美——但需注意,TF 的单样本计算开销随已学样本数持续增长。
更强的泛化能力
当在更长的训练流(图 3)或不同数据集(表 5)上进行元测试时,SB-MCL 的得分均显著优于所有基线方法。尤为突出的是,TF 的性能因长度泛化能力差而急剧下降——这是 Transformer 广为人知的局限性(Anil 等,2022)。另一有趣现象是:如图 3b 所示,即使任务数量不变、仅增加每个任务的样本数(shots),TF 与 OML 的性能仍可能出现下降。这看似违反直觉,因为为每个任务提供更多信息理应有益。然而在基于 SGD 的 MCL 中,更长的训练流意味着更多 SGD 更新步数,反而可能加剧遗忘;而 TF 更因长度泛化失败导致性能急剧恶化。相比之下,SB-MCL 家族在“多样本”(many-shot)设定下展现出卓越的鲁棒性:随着样本数增加,其性能甚至略有提升。该现象与我们的理论框架高度一致——由于后验属于具有固定维数充分统计量的指数族分布,在任务数不变的前提下增加样本数,仅会提升变分后验的估计精度,而不会引发遗忘。
![]()
![]()
更高的效率
表 6 对比了 SB-MCL 家族与 OML、TF 的元训练耗时:
- 首先,SB-MCL 与 TF 均显著快于 OML——后者不支持并行训练;而并行训练对于充分利用 GPU 等并行处理器、实现高效元训练至关重要。
- 其次,在所有基准任务中,SB-MCL 均快于 TF,充分体现了其优越的效率——这得益于贝叶斯更新所具有的恒定计算开销特性。
持续学习本质是表征能力问题
依设计,SB-MCL 的输出结果与训练数据是否按序输入无关;换言之,理论上可完全避免遗忘。这一独特性质为持续学习研究开辟了新路径:我们无需再纠缠于 SGD 在非平稳数据流上复杂的动态学习行为与遗忘机制,而可将重心转向最大化表征能力——包括设计更优/更大的网络架构、收集更多数据等,这与离线场景下解决常规深度学习问题的思路完全一致。需注意,这一范式转变在基于 SGD 的方法中无法实现:其 CL 性能受遗忘动态过程的复杂影响,并未与模型表征能力严格对齐。
- 结论
本文提出了一种通用的元持续学习(MCL)框架,将指数族分布对遗忘的鲁棒性与神经网络的灵活性相结合。其卓越的性能与效率已在多个不同领域中得到实证验证。通过将若干先前工作统一于同一框架之下,我们旨在为 MCL 领域中未来序贯贝叶斯方法的研究奠定坚实基础。
如 §5.3 所述,本框架将 CL 中的遗忘问题重新诠释为表征能力问题。这使我们得以将研究重心从“如何通过优化手段防止遗忘”转向“如何设计更优的模型架构”。探索专门用于与指数族后验交互的神经网络架构,将成为一个富有前景的后续研究方向。此外,为 MCL 构建新数据集亦是重要的未来工作:尽管我们的方法可从大规模数据中显著获益,但目前适用于 MCL 研究的高质量数据集仍十分稀缺。我们相信,结合合适的数据集,本方法有望催生一系列引人注目的实际应用。
https://arxiv.org/pdf/2405.18758
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.