因果研究中让人头疼的对撞节点，如何成为解决灾难性遗忘的曙光？

分享至

导读：一直以来，对撞因子被视为因果效应研究的“乌云”，但南洋理工学院 Mreal 实验室与阿里巴巴达摩院团队进行研究合作，发现了对撞因子的一个特别应用，即解决类别增量学习中的遗忘问题。

论文一作胡心亭，南洋理工大学三年级在读博士生，研究方向为物体分割与增量学习等。论文合作者有汤凯华、苗春燕、华先胜、张含望等人。

AI 科技评论长期关注学术，如有学术工作需要分享，欢迎与我们联系（微信：AIyanxishe3）。

作者 | 胡心亭

编辑 | 陈彩娴

什么是对撞节点？顾名思义，如果有两个节点 X 和 Y 同时指向节点 C，像这样，我们称为对撞结构，C 叫对撞节点（collider）。

这个节点的存在，对于观测因果效应的研究者们来说非常头疼。

想象一个研究者，他想研究学生的智商和努力的关系，我们知道其实在两个因素没有必然的联系。然而，如果他不幸地选择了成绩好的学习作为他的观测样本，这时他就收获了一个对撞结构：。他可能会得出这样一个反人类的结论：努力的同学智商低，不努力的同学智商高。这个结论与事实的偏差（bias）是由于控制对撞节点，从而只选取了符合某些条件的样本带来的，叫做colliderbias，或 selection bias。

可是，这个selection bias就如此一无是处吗？有一句谚语叫 “Every cloud has a silver lining”（乌云背后总有阳光）。对撞因子时常是研究因果效应时的阴翳（cloud ），那么，这朵乌云在什么情况下有着自己的银边？

本文主要介绍我们组被 CVPR2021 接收的论文“Distilling Causal Effect of Data in Class-Incremental Learning”。在这篇工作中，我们通过在类别增量学习邻域的研究看见了对撞因子背后的银边（silver lining），进一步解决了增量学习中的灾难性遗忘问题。

论文链接：https://arxiv.org/abs/2103.01737

代码链接：https://github.com/JoyHuYY1412/DDE_CIL

研究介绍

我们的工作基于因果框架，解释了类别增量学习（Class-Incremental Learning）中的灾难性遗忘（catastrophic forgetting），并基于控制对撞节点提出了一种新的知识蒸馏方法。

我们的思路是： 1）构建因果角度下的类别增量学习过程；2）分析灾难性遗忘发生的原因；3）分析现有工作如何实现有效的抗遗忘。在这些基础上，我们发现控制对撞节点是一种尚未利用、但非常有效的抗遗忘方法，在各种类别增量学习的设定上取得了稳定的提升。

在展开文章讨论之前，我们先做一个关于增量学习的介绍。

我们知道，不管是人类还是机器，都需要有不断学习的能力。对于人来说，随着对新知识的学习，我们会遗忘老的知识，即俗话说的“熊熊掰玉米，掰一个丢一个”。对于机器而言，其遗忘现象就会更加严重，研究者们命名为“灾难性遗忘（catastrophic forgetting）”。机器的遗忘之所以是灾难性的，是因为深度学习是由数据驱动的，其参数中包含着以前数据的知识。如果将在之前的数据上学好的模型用来学习新的数据，会导致这些重要的参数被重写，从而引起在老数据上性能的巨大下降。

根本性地解决遗忘其实很简单，那就是在每一个新数据出现的时刻，将所有见过的数据重新学习一遍。但正是由于在实际的应用场景中，由于存储空间、训练时间、以及数据隐私等等问题，在每一个时刻进行对所有数据的联合学习是不可能的。这使得增量学习的设定中，在每一个新的学习阶段，要求使用很少、甚至完全不能使用以前的数据。总结来说，不断出现的新数据和样本数目有限的旧数据给学习新知识和回顾老知识的过程带来了挑战。

这篇工作着重于解决增量学习的一个分支——类别增量学习（CIL），即随着新的类别的出现我们需要分辨的类别不断增加。它的实现大多是在现有模型的基础上进行更新，得到一个新的模型。模型的特征提取结构基本不变，只增加模型输出层的节点的个数，从而使得新模型可以对包括新老类别的所有已出现的类别进行分类。

现有的处理CIL的方法大多可以分为两类——数据重现（data replay）和知识蒸馏（knowledge distillation），其中前者基于利用部分旧数据一起学习新的模型，后者基于利用旧数据学习到的模型（简称旧模型）来抗遗忘（图1）。围绕这两种方法，有着很多优秀的工作，比如如何最大程度地利用这些数量有限的旧数据，如何利用新数据在旧模型上的激励（如logits, feature）做知识蒸馏。

图 1

因果角度下的类别增量学习

那么遗忘和抗遗忘的本质到底是什么呢？为了对CIL和前人的工作有一个在因果角度有一个系统的认知，我们将CIL在每个学习的时刻构建因果图（图2）。下面我们来具体说明：

：这里 I 代表当前时刻的数据，X 代表图片的特征表示，Y 代表数据的标签。箭头的意思是，我们用数据得到特征，再用特征预测标签。这是一个标准的分类模型的因果结构。
：其中 D 是旧数据， I 是当前的训练数据，我们可以在 D 上学习到一个旧模型，而和是新的数据在旧模型上得到的特征和标签。这个操作即使用旧模型学习到的特征空间来表示新数据。
：这里的含义是旧的数据 D 会影响当前的训练数据 I 。结合之前提到的数据重演（data replay）策略，这里的箭头可以看成是从旧数据集中采样一些样本（exemplars）加入当前的训练集合。
：这里的和分别表示当前一个训练样本在旧模型和新模型上的特征，同样地，和表示该样本在旧模型和新模型上的标签。结合知识蒸馏（knowledge distillation）策略，可以看成基于约束特征和标签的蒸馏，减少新旧模型上面的激励差距。
：这里需要注意的是在图2（a）中，尽管我们在学习新数据时，是以旧模型作为初始化的，但随着模型的不断更新，旧模型对新模型的影响会不断消失。

图 2

至此，我们构建了存在遗忘严重和遗忘被一定程度解决的情况下的CIL因果框架。接下来我们将通过比较这几个因果图来探寻遗忘和抗遗忘的本质。

灾难性遗忘：旧数据的因果效应为0

对于遗忘，其实我们可以换一个角度思考。如果不管之前学了什么，新的学习过程都不会受到影响，那么代表我们对旧知识存在着很严重的遗忘。我们可以把旧数据对新知识学习过程的影响记做，那么有：

也就是说，遗忘的本质是因果效应很小。对照图1（a），我们发现，在没有使用旧数据和任何约束的情况下，因为有和的阻挡，D 和 Y 之间不存在通路（unblocked path），即此时的 D 和 Y 是互相独立的。又由于 D 没有父节点，我们可以得到：

旧数据对于新的学习过程影响为0，说明每次学习新知识，都像是一张白纸从头学起，真正的白学。

抗遗忘：构建旧数据到标签的通路

了解了遗忘的核心是为0之后，抗遗忘的解决方法就很显然了：让不为0。对应到图 2 的因果图上，我们需要构建 D 和 Y 之间的通路。那么以前的方法是不是可以实现这个目的呢？答案是肯定的。使用数据重演（data replay）可以构建的通路，使用知识蒸馏（knowledge distillation）则可以分别构建（图1(b)）和的通路（图1(c)）。

我们的工作：对撞节点带来的隐藏边

到这里，我们已经构建了因果角度下的CIL和对应的工作分析，也明白了为了有效地抗遗忘，我们需要让 D 和 Y 之间有unblocked path。那么问题来了，我们还能怎么做使得 D 和 Y 之间有新的通路呢？

我们把目光集中到图2（a）中的这个结构：，这是我们之前提到的对撞结构。如果我们不幸控制了，原本不相关的 D 和 I 就存在了联系，即产生了 D 和 I 之间的通路…… Wait，这好像就是我们想要的！回顾之前的例子：智力→成绩←努力，如果我们已知一个学生的成绩不错，并且也知道她并不聪明，那我们可以立即判断出，她很可能在努力地学习，反之亦然。在这个过程中，原本两个的独立变量（智力和努力），由于对它们联合结果（成绩）的了解，变得不再独立，而这刚好是我们的目的。

综上，我们工作的核心是：通过控制对撞节点，可以打通 D 和 Y 之间的通路，进一步引入，实现抗遗忘（图3（a）））。

我们的做法是：对于任意一张当前时刻的训练图片，我们都可以在旧模型的特征空间中将其表达出来。首先，对于一张图片 I 和其在上的特征，我们可以通过比较距离，在旧模型的特征空间中找到和其最近的图片。在训练时，我们的训练对象不再只是 I 的激励，而是 I 和这些图片激励的加权（图4）。而加权的系数，则是由它们在上的距离决定的。具体的实现可以看我们的算法和代码。另外，我们还采用了组里另一篇在long-tail数据上去除bias的工作（https://arxiv.org/abs/2009.12991），进一步解决训练中的新旧数据不平衡现象导致的性能下降（图3（b））。

图 3

图 4

实验结果

我们的方法可以直接结合传统的类别增量学习方法，进一步引入旧数据的effect，实现抗遗忘。我们在做了充分详实的实验，证明了方法的有效性和鲁棒性。

1）鲁棒性

CIL的设定通常有这几个方向的改变：1）数据集——比如CIFAR，ImageNet，2）增量学习步数——即将一个数据集分为多少个小任务一步步学习，3）用于重演的每个就类别的旧数据数目。我们的方法在这三个维度的多个设定下，都取得了有效的提升。

2）摆脱对replay data的依赖

与在训练数据中直接添加旧数据不同，我们的方法通过控制来构建和之间的通路，殊途同归。正因如此，我们的方法能够有效的摆脱对旧数据的依赖，为更多的应用场景提供了可能。

结语

对撞节点有自己的用武之地吗？我们可以在不实际存储旧数据的情况下防遗忘吗？这两个看似不相关的问题在本文中联结起来，并得到了肯定的回答。

通过在因果视图中考虑CIL及其抗遗忘方法，我们发现通过控制对撞节点引入的因果效应可以一定程度上等同于数据重演。

未来我们将研究CIL中的更多因果观点，发掘更多实现终身学习的可能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.