在线免任务持续学习：基于可扩展视觉Transformer的方法|算法|信号|数据流|分类器|神经网络

分享至

Online Task-Free Continual Learning via Expansible Vision Transformer

在线免任务持续学习：基于可扩展视觉Transformer的方法

https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf

摘要：

近期，视觉Transformer（ViT）展现出卓越的数据表征能力，在多个视觉与语言学习任务中取得了当前最优性能。得益于其强大的表征能力，一些最新研究已开始探索将ViT应用于持续学习（continual learning），并借助动态扩展机制加以实现。然而，这些方法依赖于任务信息，因而无法应对更贴近现实的场景，即任务无关持续学习（Task-Agnostic Continual Learning, TACL）。与上述基于ViT的持续学习方法不同，本文提出“终身可扩展视觉Transformer”（Lifelong Expansible Vision Transformer, LEViT）模型，以应对TACL挑战。该模型通过动态增加自身容量，来适应持续学习过程中数据表征底层概率分布的变化。LEViT由多个Transformer组件构成，每个组件均配备多头注意力机制及线性分类器。我们提出一种新型动态扩展机制：该机制无需任务标签，通过评估所有已学组件所建模的联合分布与新到来数据样本的概率表征之间的统计相似性，来逐步扩展LEViT的容量；同时，该机制可保障LEViT各组件间所学知识的多样性。此外，我们引入“动态知识融合”（Dynamic Knowledge Fusion, DKF）方法，以充分挖掘ViT的特征表征能力，实现知识迁移。具体而言，我们将所有先前所学组件视为一个演化的知识库，为后续学习提供先验知识。所提出的LEViT模型，相较于现有基于ViT的方法，无需任何任务信息，且能复用先前学习到的表征，以促进后续任务的学习。

关键词：视觉Transformer；持续学习；混合模型

引言持续/终身学习（Continual/Lifelong Learning）作为人工智能领域新兴的研究方向，旨在缓解灾难性遗忘问题，并使现代计算模型具备应对诸多现实世界挑战的能力。与依赖于固定数据域的传统训练范式不同，持续学习（CL）是一种训练方法论，目标是在无法访问全部历史数据的前提下，学习非平稳的任务序列。尽管深度学习系统可通过大量训练样本在单一任务上取得优异性能，但在任务序列式学习过程中，由于模型参数需经重新训练以适应新任务，往往导致其在过往任务上的性能显著下降——此现象被称为“灾难性遗忘”[1]。此外，对计算资源受限的系统（如基于现场可编程门阵列FPGA、无人机或机器人等的平台）而言，序列式训练是训练深度学习模型的最优策略。

多数CL研究预设：训练与评估阶段均可获取任务标签，而这并不符合现实场景的复杂性。近期，任务无关持续学习（Task-Agnostic Continual Learning, TACL）[2]作为一种更现实的框架被提出——其训练全程均不披露任务身份。与传统CL方法相比，TACL具备一项关键特性：支持机器随时间推移持续增量式地从数据中学习，因而适用于众多实际应用场景。例如，在自动驾驶系统中，模型通常依次遭遇来自不同环境的数据样本，且往往缺乏任务特定信息。因此，TACL对诸多现实应用至关重要。然而，TACL面临的一个重大挑战在于：模型在任一时刻仅能处理有限批次的样本，而底层数据分布可能不可预测地持续变化。

缓解持续学习中遗忘问题的一种思路，是在模型中引入固定长度的记忆缓冲区，为每个任务存储部分训练样本[3]。但缓冲区最大容量将显著影响模型性能[4]，故基于记忆的方法难以拓展至无限任务的学习[5]。为克服上述局限，研究者提出了生成重放机制（Generative Replay Mechanism, GRM）模型[6]，其通过将过往任务的知识编码进模型参数，并借助数据生成过程重放历史样本。然而，随着任务数量不断增加，GRM模型的性能会因反复进行生成重放过程而逐步下降。

近期研究表明，视觉Transformer（ViT）[7–10]在表征学习能力方面优于卷积神经网络（CNN）。凭借其卓越的表征学习能力，已有研究探索将ViT应用于提升各类持续学习模型的性能[11]——这些方法通常共享一个主干网络，同时动态启用基于自注意力机制的“专家模块”以适配新任务，从而提升性能。然而，现有基于ViT的工作主要集中于传统CL框架（即训练阶段可获取任务标签），而ViT在TACL中的应用目前仍属空白。本文旨在从两个方面弥补该空缺：（1）网络遗忘问题；（2）知识迁移问题。针对前者，我们提出一种新模型——终身可扩展视觉Transformer（LEViT），其根据数据流复杂性，动态构建新的任务无关组件。为使LEViT能在TACL下应对数据分布偏移问题，我们提出一种新型动态扩展机制（见图1）：该机制通过评估所有先前训练组件所建模的联合分布与新到数据集之间的知识相似性，为LEViT的扩展提供恰当信号，同时保障各组件知识的多样性。

受人类大脑启发——人类在接触新信息时，并不会完全替换既有记忆；相反，还能利用毕生积累的知识高效习得新概念[12]——我们提出一种探索ViT特征表征能力、从数据中学习新信息的新方法：具体而言，我们将所有先前习得的组件视为一个预训练模型（即知识库），用于从数据中提取图像块标记（patch tokens）；随后，这些patch tokens被输入至所有先前习得的多头注意力模块，生成特征定义信息，进而使当前注意力模块能够从给定数据中学习新概念。为有效复用先前习得的注意力信息，我们设计了一种门控机制，以选择性地执行前向知识迁移。该知识迁移方法可从两个方面提升LEViT性能：（1）通过更新门控机制，最大化前向知识迁移收益；（2）随着LEViT不断训练并新增组件，其建模能力可通过复用增强后的多头注意力模块而逐步提升。

本文代码已开源：https://github.com/dtuzi123/LEViT

本文主要贡献如下：
• 首次探索ViT在训练与测试全程均不依赖任务信息条件下的持续学习潜力；
• 提出终身可扩展视觉Transformer（LEViT）——一种新型终身学习方法，可在训练阶段无需任务信息的前提下，通过动态扩展网络架构应对新概念；所提出的动态扩展机制保障了各组件间统计表征的多样性，从而使LEViT结构更紧凑；
• 提出动态知识融合（DKF）方法，在学习新概念时利用先前习得ViT组件的先验知识；并引入门控机制至DKF中，使LEViT的建模能力可随时间逐步提升；
• 构建一新颖理论框架，用于分析模型在动态变化学习环境下的遗忘行为；实验表明，所提LEViT可在保持网络架构紧凑的同时取得优异性能；
• 开展一系列TACL实验，结果有力验证了所提LEViT框架的有效性。

本文其余部分组织如下：第2节综述相关背景；第3节介绍所提出的基于ViT的持续学习方法；第4节阐述支撑该CL方法的理论框架；第5节给出并讨论实验结果；第6节总结全文。

背景综述当前大多数持续学习（CL）研究聚焦于单一固定网络架构。为缓解遗忘问题，固定模型中常采用正则化方法 [13]，以及基于记忆缓冲的方法 [14, 15]。前者通过对目标函数施加正则项，以限制在学习新任务时对若干被认为重要的网络权重进行过度调整 [16]；后者则利用固定长度的记忆缓冲区 [17] 来保存部分历史数据，或训练一个数据生成器（如生成对抗网络GAN [18] 或变分自编码器VAE [19]），进而在后续任务学习过程中回放生成的数据 [20]。然而，上述多数方法均需依赖任务信息。首个面向任务无关持续学习（Task-Agnostic Continual Learning, TACL）的记忆型方法由文献 [2] 提出，并随后由最大干扰检索（Maximal Interfered Retrieval, MIR）[21] 进一步拓展——MIR将VAE与分类器结合，并提出一种新颖的检索机制，在每步训练中选择性地将训练样本存入记忆缓冲区。持续原型演化（Continual Prototype Evolution, CoPE）[22] 采用学习器–评估器框架，并借助信息多样性记忆缓冲区以应对TACL挑战。数据编辑（data editing）方法则对数据样本进行修改后再存储以供后续学习 [23]；此类方法也常与基于记忆的方法集成，以进一步提升性能。然而，由于模型容量与记忆存储能力均受限于固定规模，这些方法难以拓展至无限数据流的学习场景。

2.1 动态扩展架构
动态扩展模型通过动态新增处理单元、隐藏层，或任务特定模块至现有结构中，以扩展模型容量并适应新任务 [5, 24]。此类方法通常共享若干适用于所有任务的参数，并在适配新任务时将其冻结，以缓解遗忘 [5]。然而，这些方法均假定训练阶段已知任务标签。近期，动态扩展模型已被尝试用于TACL，并取得了颇具前景的结果。例如，持续无监督表征学习（Continual Unsupervised Representation Learning, CURL）[25] 在检测到数据分布变化时，动态添加新的推理模型：CURL将对数似然低于某阈值的样本存入缓冲区；当缓冲区满时，即触发架构扩展。一种类似的扩展机制被用于持续神经狄利克雷过程混合模型（Continual Neural Dirichlet Process Mixture, CNDPM）[26]，其将组件扩展建模为依赖于某一阈值的狄利克雷过程。与CURL不同，CNDPM动态新增一个独立组件，该组件由一个分类器与一个VAE模型构成；此外，CNDPM不依赖生成重放机制缓解遗忘，因而可维持对所有历史样本的稳定性能。然而，这些动态扩展模型在执行扩展时，并未评估当前记忆缓冲区与模型已累积知识之间的相似性，通常导致所得网络架构并非最优。

2.2 视觉Transformer（ViT）
自注意力机制最初被用于机器翻译任务 [27]，随后被扩展应用于语言理解任务，例如在Transformer的双向编码器表征（BERT）[28]中。近期，Dosovitskiy 等人 [29] 提出将图像分割为若干图像块（patches），并将这些图像块作为标记（tokens）输入Transformer进行处理，由此构建出视觉Transformer（Vision Transformer, ViT）。此后，一系列工作——如高效数据利用的图像Transformer（DeiT）[9]、图像Transformer中的类别注意力机制（CaiT）[10]、卷积视觉Transformer（Convit）[7] 以及Swin Transformer [8]——致力于从计算效率与性能两方面改进原始ViT模型。然而，这些模型仅适用于单一数据集，无法应对持续学习中所必需的动态演化数据分布。

近期，动态标记扩展（Dynamic Token Expansion, DyTox）[11]首次将ViT应用于持续学习：DyTox在遇到新任务时动态学习一个任务特定的标记（token），同时在所有任务间共享大部分参数。然而，该方法在训练过程中仍需任务标签，因此无法适用于TACL场景。此外，DyTox未对扩展过程施加控制，导致在学习无限数量任务时，组件数量会持续增长。

相较之下，本文所提出的LEViT具备若干优势：
1）LEViT在训练与测试阶段均无需访问任务标签，因而可适用于更为现实的持续学习任务；
2）得益于所提出的动态扩展机制——仅在TACL设定下检测到数据分布偏移时，才增加模型容量——LEViT具备良好的可扩展性，能够应对无限数据流的学习需求。

终身可扩展视觉Transformer视觉Transformer（ViT）在表征识别特征方面展现出优异能力 [30]。自注意力机制是建模图像块之间相关性表征的一项关键计算机制。然而，当试图从新的数据集中学习额外信息时，自注意力模块易遭受严重的遗忘问题。此外，ViT架构本身并不具备可扩展性，难以应对无限数据流的学习需求。本文提出一种新型动态扩展方法，可在以连续方式提供无标签新数据的条件下，通过扩展ViT的容量，以应对任务无关持续学习（TACL）的挑战。

3.1 问题定义

3.2 任务无关组件

3.3 动态扩展机制

固定网络架构无法处理无限数据流，尤其当连续数据流具有非平稳特性、并以统计属性频繁变化为特征时。在本节中，我们提出一种新的扩展框架，即终身可扩展视觉Transformer（LEVIT），该框架能够动态扩展Transformer网络架构，以适应概率性数据批次表征的变化。具体而言，所提出的LEVIT框架的核心思想是：当当前专家已学习到大量新颖信息时，创建一个新的专家。

方程 (6) 中的阈值 γ 控制模型大小和泛化性能之间的权衡。如果 γ 较小，LEViT 会创建更多组件，同时捕获额外的不同数据分布。相反，当 γ 较大时，LEViT 保持紧凑的网络架构。方程 (6) 的评估是计算效率高的，因为它通过低维潜在空间上的距离来评估信息的新颖性。此外，所提出的扩展机制不需要监督信号，可以用于监督和无监督学习。

3.4 通过知识库进行知识转移

重用先前学习的信息以学习新概念可以促进正向知识转移[31]。然而，在TACL范式下，这种方法尚未被探索。在本节中，我们引入了一种新的动态知识融合方法，旨在通过ViT探索特征建模能力以进行知识转移。所提出的知识融合方法的核心思想是重用并整合来自所有先前学习专家的表示信息，以促进新任务的学习。

根据式（9），该模型复用所有先前习得的图像块标记（patch tokens）以及增强后的多头注意力机制，从而实现了远超式（5）的建模能力——后者仅使用单一的多头注意力模块。此外，式（7）中的门控机制实现了选择性知识迁移，可避免新旧样本之间的相互干扰。而且，随着LEViT学习到更多组件，我们可通过复用越来越多的多头注意力模块，逐步提升其建模能力。我们在图3中详细展示了所提出的KDF（应为DKF，即Dynamic Knowledge Fusion，动态知识融合）流程，可概括为以下步骤：

3.5 算法实现

详细的网络架构如图4所示，而所提出的LEVIT训练算法的实现则在算法1中概述。我们将该算法总结为以下步骤：

理论框架本节借鉴领域自适应理论的相关成果 [32, 33]，以分析所提出的动态扩展模型的遗忘行为。

4.1 预备知识

4.2 固定模型的理论分析

使用单一组件模型的局限性。由于基于记忆的方法采用固定大小的记忆缓冲区来存储数据样本，当数据流包含大规模数据集时，无法捕获全部信息，如定理1所示。此外，基于记忆的方法需要设计一种合适的样本选择策略，以实现从所有数据类别中存储多样化样本。然而，当数据流复杂且需要大量训练步骤进行学习时，单一固定容量的记忆缓冲区无法存储对应于所有类别的足够信息，从而导致灾难性遗忘。在下一节中，我们提出一种动态扩展模型，该模型在学习多个任务时被证明优于固定模型。

4.3 所提出的可扩展特征表征模型的理论结果
本节将分析所提出的终身可扩展视觉Transformer（LEViT）框架的遗忘行为。下文首先给出若干重要符号与定义。

由引理1，我们得出以下观察：

所提出的LEVIT与固定模型不同，它可以通过使用多个专家来缓解遗忘问题。
在所提出的LEVIT框架中，专家的数量会影响其整体性能。例如，如果仅添加少量专家，则无法捕获全部过往信息，从而导致一定程度的遗忘。
所提出的LEVIT能够通过动态添加新专家以及时捕捉新颖信息，从而应对无限数据流的学习（此时 K K 非常大）。相反，固定模型在学习无限数据流时会遭受严重的灾难性遗忘。

实验

我们在MNIST [35]、CIFAR10 [36]、CIFAR100 [36] 和 MINI-ImageNet [37] 数据集上，采用TACL基准协议对LEVIT模型进行评估，并随后进行消融研究。

5.1 实现细节与设置

实现与超参数。对于Split MNIST，图像块大小为7×7，嵌入维度为Q=100，批次大小b=10。我们实现的MLP包含一个具有100个处理单元的全连接层。每个VAE的编码器和解码器均由两个全连接层实现，每层包含200个单元。对于Split CIFAR10和Split CIFAR100，图像块大小为8×8，嵌入维度为100，MLP由一个具有两层隐藏单元（分别为500和200个单元）的全连接神经网络实现。Split CIFAR10和Split CIFAR100所用的VAE模型由CNN网络实现，卷积核大小为3×3。编码器由四个卷积层和一个全连接层组成，各层单元数分别为64、128、256、512和1024。我们使用反卷积层实现VAE解码器，各层单元数分别为512、512、256、128和3。

超参数设置。我们采用Adam优化算法 [38]，学习率为0.0001。由于超参数β对所提框架性能影响不大，我们为所有数据集均采用β=0.5的配置。

所用硬件 - GPU。实验在Tesla V100-SXM2 (32GB) GPU上运行，操作系统为RHEL 8。

基线方法。我们将我们的方法与多个TACL基线方法 [22] 进行比较，包括最大干扰检索（MIR）[21]、增量分类器与表征学习（iCARL）[39]、贪婪样本选择（GSS）[3]、梯度情景记忆（GEM）[4]、Reservoir [40]、CURL [25]、持续神经狄利克雷过程混合模型（CNDPM）[26]、动态在线协同记忆（OCM）[41]、动态CAA [42]（其中CAA指持续变分自编码器）、CoPE [22]、在线递归变分自编码器（ORVAE）[43]、ER + GMED以及ERₐ + GMED [23]（其中ER代表经验回放（Experience Replay）[44]，ERₐ是结合了经验回放与数据增强的模型，GMED代表基于梯度的记忆编辑）。此外，我们还实现了不包含动态知识融合（DKF）的LEVIT版本，称为LEVIT-No-DKF；以及使用非自适应权重的DKF版本，称为LEVIT-DKF-Fixed。在LEVIT中，若每个组件由全连接深度神经网络（DNN）而非ViT实现，则该模型被称为LEVIT-DNN。

5.2 TACL基准测试

我们在Split MNIST、Split CIFAR10和Split CIFAR100的持续学习场景下训练所提出的模型。五次独立运行的平均结果见表1。我们与其它方法进行比较，其中除“微调”（finetune）外，在像Split MNIST这样简单的数据集上表现良好，而“微调”在所有数据集上的表现都更差，因为它不存储历史样本。一些基于记忆的方法，如GEM和iCARL，在包含更复杂图像的数据集（如Split CIFAR10和Split CIFAR100）上表现较差。动态扩展模型，如CURL和CNDPM，通常在这三个数据集上优于大多数基于记忆的方法，因为它们可以通过增加自身容量来适应数据分布的偏移。所提出的LEVIT-DKF尤其在Split CIFAR10上优于其他动态扩展模型，其在合理规模的网络下实现了51.74%的平均分类准确率。

从表1的结果中我们可以观察到，LEVIT-DKF在所有三个数据集上的性能均优于LEVIT-No-DKF，后者未利用先前学习到的知识。此外，LEVIT-DKF-Fixed未能充分利用所提DKF的潜力，因为它不更新注意力参数，并且在知识迁移时认为每个先前训练的表征贡献相同。LEVIT-DKF与LEVIT-DKF-Fixed之间的对比结果表明，我们可以利用DKF提升模型性能。我们还将LEVIT-DNN与之进行了比较，结果表明，LEVIT中使用的ViT组件在使用更少参数的情况下，优于采用经典深度神经网络（DNN）的情况，相关组件数量和参数量详见表2。我们还在由复杂图像组成的Split MiniImageNet [45] 数据集上评估了各模型的性能，结果见表3，其中基线方法的结果除CNDPM外均引自文献[23]。这些结果表明，LEVIT-DKF在使用更少参数的情况下，仍能优于其他基线方法。

5.3 跨领域分类

我们进一步在更具挑战性的设定下评估 LEViT-DKF 的有效性：该设定中的数据流由多个不同领域依次提供。我们构建了以下三类跨领域任务：

拆分 MNIST–Fashion（Split M-F）：依次学习 Split MNIST 与 Split Fashion-MNIST；
置换 MNIST（Permuted MNIST, P-MNIST）：包含 10 个任务，每个任务对应一种特定的随机像素置换（即对 MNIST 数据库中所有图像统一应用相同的随机像素重排）[23]；
拆分 MNIST–SVHN（Split M-S）：依次学习 Split MNIST 与 Split SVHN（街景门牌号数据集），其中所有图像均被统一调整为 32 × 32 × 3 的分辨率。

对于 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN，所采用的最大记忆缓冲区容量分别为 2000、2000 和 1000。为公平比较，我们采用大规模网络架构重新实现了 CNDPM [26]。最后，我们在 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN 上训练所提出的模型及各基线方法，结果汇总于表 4；从中可见，在多领域设定下，LEViT-DKF 的性能优于 CNDPM。

5.4 消融研究

在本节中，我们探究所提出的 LEViT 模型中各组成部分的重要性。

首先，我们研究了在 TACL 场景下改变批次大小 b b 时模型的性能。Split MNIST 上的经验准确率结果如图 5 所示，从中可见，准确率对批次大小并不敏感。我们还在图 6 中展示了在 Split MNIST、Split CIFAR10 和 Split CIFAR100 上学习时的分类准确率。可以观察到，当持续提供新的数据集分布（任务）时，LEViT-DKF 会扩展其网络架构，从而能够以更少的组件学习更多任务。这些结果表明，在每个数据集上，无论记忆缓冲区大小如何配置，所提出的模型均优于 ER [44] 和 CNDPM [26]，证明该模型对记忆缓冲区大小的变化具有鲁棒性。

此外，我们还研究了改变式 (6) 中控制扩展模型组件数量的参数 γ 对所提 LEViT 性能的影响。我们在 CIFAR10 数据集上使用不同的阈值 γ 训练模型，结果如图 7 所示。随着 γ 增大，LEViT-DKF 将使用更少的组件，但其性能会随之下降。所提出方法的动态扩展过程如图 8 所示，表明一个合适的 γ 可在训练过程中生成适当数量的组件。由于 Split MNIST 和 Split CIFAR10 的 VAE 编码器潜在维度分别为 50 和 200，因此两者对应的阈值 γ 范围也不同。

我们进一步研究了视觉 Transformer (ViT) 组件中嵌入维度（由式 (2) 定义）的影响。我们在 Split MNIST 上用不同的嵌入维度训练所提出的 LEViT-DAM，并将结果绘制于图 9。可以看出，改变嵌入空间的维度并不会导致所提 LEViT-DAM 的性能发生显著变化。此类实验结果表明，所提出的方法对嵌入维度的变化不敏感。

5.5 讨论

与一般的持续学习（通常假设训练过程中任务信息与任务边界已知）不同，任务无关持续学习（TACL）代表了一种更具实用性的学习场景。遵循文献 [2] 的设定，我们利用不同数据集（包括 CIFAR10、CIFAR100 和 TinyImageNet）构建了若干数据流，并持续评估所得分类性能。表 1、表 2 与表 3 的结果表明，相较于所比较的其他基线方法，本文所提出的方法取得了最优性能。

此外，TACL 的结果在许多实际应用中具有重要意义。例如，图 6 的结果表明，所提出的方法能够恰当地检测数据分布发生重要变化的时刻，并利用此类信号随时间动态扩展网络架构。这些结果表明，所提出的方法具备潜在应用价值，例如：

在自动驾驶中，可用于实时评估车辆周围环境条件是否发生变化；
在医疗监护中，可用于检测患者生理状态的异常改变。

总体而言，所提出框架的可扩展性使其适用于实时系统，以处理连续数据流。

结论与局限性

本研究提出了终身可扩展视觉Transformer（LEViT）模型，使视觉Transformer（ViT）在任务无关持续学习（TACL）范式下具备终身学习能力。LEViT采用多个ViT组成的集成架构，通过动态扩展机制，实现对TACL场景中变化数据分布的建模。该动态扩展机制使LEViT能够表征多样化数据的概率分布。我们还提出了动态知识融合（DKF）机制，在无需任何任务信息的前提下，高效复用过往知识以学习新概念。DKF通过挖掘ViT的内在特性实现前向知识迁移，在优化资源利用的同时保持网络架构紧凑。对持续学习机制的理论分析表明，与固定架构模型相比，所提出的可扩展架构模型具有更优的泛化上界。

我们开展了一系列TACL实验，结果表明：在TACL设定下，所提出的LEViT性能优于其他基线方法。该方法可应用于多种需探索新环境的建模任务，例如自动驾驶、机器人与无人机探索、患者监护与疾病进展监测及相应治疗方案制定等。

未来工作中，我们将进一步探索融合深度生成模型的新TACL框架。

所提出LEViT框架的一项关键优势在于其可扩展性：模型能够持续不断地从无限数据流中学习并吸收新信息。这一显著特性使其适用于在线学习场景，契合多种实时应用需求。此外，LEViT在保持紧凑网络架构的同时展现出优异性能，大幅降低了存储开销。

然而，LEViT框架存在以下局限性：

参数持续累积问题：在长时间连续学习过程中，模型参数数量可能过度增长，导致其难以部署于资源受限设备。为此，我们后续研究将引入一种创新的专家压缩机制，自动剔除冗余或重叠的专家组件，从而维持稳定可控的网络规模。
共享主干更新受限：当前框架中，共享主干仅在初始任务学习阶段更新参数，后续阶段保持冻结。因此，每个新实例化的专家由于活跃参数数量受限，难以高效适配新任务。为解决此问题，未来工作将设计一种新型目标函数，在优化共享主干的同时，防止训练过程中产生有害的知识迁移效应。

原文： https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.