快速适应or容易崩溃？元学习中的对抗攻击初探究|鲁棒性|算法|样本|自适应|实验

分享至

作者 | 迪迦

编辑 | 陈大鑫

元学习容易受到对抗攻击吗？这篇论文在小样本（few-shot）分类的问题下，对元学习中的对抗攻击进行了初步的研究。一系列实验结果表明，本文所提出的攻击策略可以轻松破解元学习器，即元学习是容易受到攻击的。

本文作者来自密西根州立大学的汤继良团队，汤继良是密歇根州立大学数据科学与工程实验室（Data Science and Engineering Laboratory）教授，于今年8月刚刚荣获新设立的第一届KDD年度新星奖（Rising Star Award）。

AI科技评论之前有幸对汤继良老师进行了专访，更多内容可移步 “ ” 一文。

论文链接：https://arxiv.org/abs/2009.01672

本文动机

元学习算法的成功促进了其在许多关键安全任务中的应用，包括人脸识别、物体检测和模仿学习。然而，元学习算法的可靠性和鲁棒性问题却很少被研究，这使得基于元学习的技术应用面临着很大的潜在风险，特别是在存在敌对攻击者的情况下。

如上图所示，对于小样本分类任务，在元学习测试阶段，攻击可以在元学习测试任务中对的一个训练样本插入不明显的扰动，导致其在上训练的自适应模型精度大大降低。

本文致力于研究元学习的鲁棒性问题，重点探索其在小样本分类问题中的应用。本文的主要贡献可以总结如下：

第一次正式定义了攻击元学习算法的关键要素，包括对抗目标（ adversarial goal）和不可察觉的扰动（unnoticeable perturbation）。
在新定义的扰动约束下，提供了一种新的目标函数表达式，用于针对目标攻击和非针对目标攻击的元学习攻击。
提出了一种新的元学习攻击算法-元攻击器（MetaAttacker）来优化所提出的目标函数，使对抗样本能够有效地计算出复杂多样的受害者模型结构。
通过不同的元学习框架，包括 MAML、SNAIL 和 Prototypical，系统地评估了元学习的可靠性和鲁棒性。

威胁模型的建立

在本节中，作者详细描述了提出的元学习威胁模型的关键组成部分，包括受害者模型（victim model）、对抗目标和不可察觉的扰动。

A.元学习器受害者

一般来说，不同的元学习算法都有其独特的元学习结构。这里简要介绍了三个具有代表性的受害者元学习器。

1、基于优化的元学习器：如 MAML 通常会模拟优化的过程，其中，自适应模型的参数被更新，从而能够在任务上获得最小的损失，并使用了相关的训练数据。例如，MAML 通过运行 m 个梯度下降步骤生成一个自适应的模型：

其中 α 是步长，元学习器的参数 θ 作为模型的初始化参数。表示上的总训练损失：

元学习器希望通过最小化训练损失，在测试样本中得到一个误差较小的模型。MAML 模型在任务上的性能依赖于模型初始化参数 θ 和梯度。稍后，我们将讨论攻击者如何操纵训练样本来误导MAML使用“恶意”的梯度进行更新。

2、基于模型的元学习器：MANN 和 SNAIL 等基于模型的元学习器作为 DNN 模型，从中获取输入，直接输出自适应模型。

3、基于度量的元学习器：基于度量的元学习器通常由两部分组成：一部分是用于特征提取的 DNN 模型，它将所有的训练样本和测试样本投影到一个特征空间；另一部分是将特征空间划分为不同类别的分类器。

B：对抗目标

元学习攻击的主要目标是误导元学习器产生“恶意”模型，这与传统的以测试为中心的对抗性攻击不同。因此，我们需要正式重新定义元学习攻击的对抗目标。本文在白盒攻击下考虑两种不同类型的对抗目标来欺骗元学习器，包括非针对目标攻击和针对目标攻击。

注：针对目标攻击：攻击者在构造对抗样本时欺骗目标模型，将对抗样本错分到指定分类类别。非针对目标攻击：对抗样本的预测标记是不相关的，只需让目标模型将其错误分类，即除了原始类别，对抗类输出可以是任意的。

1、非针对目标攻击：在非针对目标攻击的情况下，对抗的目的是让自适应分类器在任务的测试样本中具有较差的整体性能（低精度）。该对抗目标可以表述为找到一个对抗性数据集，最大限度地提高自适应模型的测试损失：

1、针对目标攻击：针对目标攻击下的对抗以测试样本的某个子集作为目标样本，旨在破坏自适应模型在这些目标样本上的性能。具体地说，本文将来自一个特定类的所有样本视为任务中的目标样本。形式上，对于 t 类目标，本文将针对目标攻击的目标定义为：

1、代替测试误差：在非针对目标攻击和针对目标攻击中，攻击者都需要知道测试样本，这在现实场景中是不现实的。因此，本文建议使用训练样本的经验训练损失来近似测试损失。在进行元学习对抗攻击时，我们希望所提出的基于扰动训练集的模型能够将“恶意”知识推广到不可见的测试样本中。在形式上，本文将非针对目标和针对目标统一如下：

其中在针对目标攻击的情况下其实是。

C：不明显的扰动

在元学习攻击中，不可察觉的扰动也是一个值得关注的问题，但如何定义这种环境下的不可察觉的扰动还没有确定。在这项工作中，本文提供两个原则，即扰动样本预算和感知相似性，以确保扰动数据集与相似。

1、扰动样本预算：为了达到对抗目标，要求对抗扰动尽可能少的样本，因为对抗注入系统的假样本越少，检测到这种攻击的可能性就越小。本文把表示为扰动集中的扰动样本，作为相应的干净样本。形式上，定义扰动样本预算受 k 的限制：

1、感知相似性：在每个单独的扰动样本中，我们要求扰动图像在感知上与干净图像相似。换句话说，我们增加的扰动对人类来说是无法区分的。本文通过如下限制扰动来达到这一标准：

元学习攻击

根据上一节所述的攻击目标和攻击能力，可以将元学习攻击问题定义如下：

问题 1：给定一个训练好的元学习器，一个新的未知学习任务，相应的训练样本和扰动预算，我们的目标是通过解决以下优化问题来找到一个对抗性训练集：

换言之，在问题 1 中，我们的目标是用范数扰动动约束以及对训练数据集中的最多 k 个样本进行扰动。在中选择要扰动的样本是一个组合优化问题，本文为这类选择过程提供了一个贪婪算法，如图 2 所示。在此之前，首先描述了元学习攻击算法，并为给定的选择集生成对抗性样本，如下图所示。

通过链式法则计算样本的梯度：

其中，表示计算图的雅可比矩阵计算。文中以 MAML 模型为例展示了以上流程，如下图所示：

最后，我们还需要搜索最优的对抗集。作者提供了一个贪婪的算法来获得一个近似解，以持续地将最危险的对抗样本加入攻击包中。算法流程如下图所示：

在每个迭代 i 中，我们从中选择一个样本，当将其添加到集合中时，它会导致最大的对抗损失。这样，我们通过构造最具对抗性的 1-set，2-set 直到 k-set 扰动，迭代地扩大我们的候选集。

实验部分

在本节中，作者针对三种流行的元学习算法，包括 MAML、SNAIL 和原型网络，对所提出的元学习攻击算法进行了评估。论文首先讨论了 MAML 模型的全部结果，以全面了解其在不同设置下的鲁棒性。然后，作者又对 SNAIL 和原型网络进行了攻击，以研究不同元学习结构之间的差异。

A：实验设置

数据集选取：作者将所提出的元学习攻击算法应用于两个最常用的基准数据集（包括 Omniglot 和 MiniImagenet 数据集）上的小样本学习问题。

不明显的扰动：对于 Omniglot 数据集，它由像素分辨率为 28×28 的手写字符图像组成，像素分辨率在[0,1]范围内，这与 MNIST 相似。因此，通过限制不大于 0.3 的范数：，我们就将此数据集中的扰动定义为不可察觉的。对于图像大小为 84×84 的 MiniImagenet 数据集，我们通过限制来约束不可察觉的扰动。一般来说，对于一个 5-way 5-shot 分类问题，我们将限制扰动预算为：在 25 个训练样本（每个类五个样本）中攻击者不能攻击超过 1、2、3 或 5 幅图像。

B：MAML 实验结果

1、清洁性能：表 1 显示了模型在不同微调步骤（m =1，5，10）下的清洁性能。从表 2 可以看出，更多精细的调优步骤将有助于提高 MAML 在 Omniglot 和 MiniImageNet 中的清洁性能。

1、非针对目标攻击性能

论文研究了非针对目标攻击算法的性能，该算法旨在影响自适应分类模型的总体精度。作者在 100 个测试任务 { ，i =1，2，…，100} 中评估了自适应模型的平均精度。除了不同扰动预算下的攻击结果外，作者还给出了两种基线性能。Non-attack表示MAML在所有选定任务中的清洁测试性能。Random F.T.意味着对于每个任务，随机初始化模型参数，并从这个随机的进行微调。由于 MAML 本质上是要为任务找到一个合适的初始化，所以使用 Random F.T.来显示学习过程没有来自 MAML 的指导的情况。

在表 1 中，我们注意到在随机样本上产生随机噪声几乎不会影响 MAML 的性能。对于 MiniImagenet 数据集，最成功的攻击案例（当 MAML 进行 1 步微调时修改 10 个样本）将平均准确率从 63.3%降低到 16.2%。最困难的攻击设置（在 10 步微调下修改 1 个样本）也可以将整体准确率从 65.2%降低到 56.6%。对于 Omniglot 数据集，一个攻击需要扰动至少 2 个样本才能使元学习器的性能降低 25%，而扰动5个样本则会使元学习器的表现降低20%。

2、针对目标攻击性能

在这一小节中，我们不去观察元学习者的总体鲁棒性表现，而是通过一个局部的观点来研究元学习器的鲁棒性，即定位于每个学习任务的一个单独的类别。在实验中，作者考虑了以下两种设置：

（1）直接攻击：对手可以操纵目标类的样本，即；

（2）影响力攻击：攻击只能操纵不同类的训练样本，即。

结果如下图所示，直接攻击和影响力攻击都达到了对抗性的目的，以影响自适应模型对目标类别的性能。

C: 攻击其他元学习模型

除了 MAML，本文还考虑了另外两种其他类型的元学习模型，包括一种基于模型的元学习器 SNAIL 和一种基于度量的元学习器原型网络。

如下图（a）所示，这两种元学习模型也容易受到非针对目标的对抗攻击，并且随着扰动预算的增加，平均性能显著下降。对于图（b）和（c）所示的针对目标攻击，SNAIL 模型很容易受到直接攻击和影响攻击。然而，对于原型网络，直接攻击会导致目标样本的性能大幅下降，而影响攻击对目标样本几乎没有影响。

总结

在这项工作中，作者首先正式定义了元学习算法的对抗性攻击和鲁棒性问题。基于这个定义，作者设计了有效的攻击方法来实现目标，并针对不同的元学习模型在不同的数据集上验证了方法。实验结果表明，元学习攻击会导致这些元学习模型的性能显著下降。这项研究为元学习的安全问题打开了大门。

在AI科技评论9月11日推文“”留言区留言，谈一谈你对本书的相关看法、期待等。

AI 科技评论将会在留言区选出5名读者，每人送出《柏拉图与技术呆子》一本。

活动规则：

1. 在留言区留言，留言点赞最高且留言质量较高的前 5 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服（aitechreview）。

2. 留言内容和留言质量会有筛选，例如“选我上去”等内容将不会被筛选，亦不会中奖。

3. 本活动时间为2020年9月11日 - 2020年9月18日（23:00），活动推送内仅允许中奖一次。

EMNLP 9月16日出录用结果了！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.