用魔法打败魔法！谷歌联合OpenAI提出攻击样本生成框架，提升NLP大模型鲁棒性|分类器|相似性

分享至

目前，以ChatGPT为代表的大型语言模型（LLMs）已逐渐进入到人们的日常生产生活中，如何对其生成内容进行安全性检测已经成为不容忽视的关键问题。目前的一些LLMs系统中已经设置了一些防范恶意攻击的屏蔽手段，但这种防御方式并不能在所有的攻击场景中奏效，综合来看，防范大模型攻击是一个具有挑战性的开放问题。

本文介绍一篇来自谷歌研究院和OpenAI合作完成的工作，作为具有大模型丰富开发部署经验的企业，本文的研究团队给出了一种鲁棒的攻击生成和防范框架。本文作者认为，收集现实场景中的攻击样本对LLMs进行训练是一种非常有效的方案，但是收集样本的代价非常昂贵，但是如果使用具有细小扰动的合成攻击样本（如单词替换）进行训练实际上并不能提高模型应对攻击的鲁棒性。基于这样的发现，本文提出了一种基于对抗学习的训练框架，利用数量较少的真实攻击样本来生成大规模的高效攻击样本来进一步优化模型，作者将本文框架在ANLI和仇恨言论检测基准数据集上进行了大量的实验，实验结果表明，本文方法可以明显的提升LLM应对攻击和仇恨言论的鲁棒性。

论文标题： Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks 论文链接： https://arxiv.org/abs/2310.16955

一、引言

对抗鲁棒性在NLP领域是一个老生常谈的话题，在传统的NLP研究中，对抗样本通常是通过人工设计的扰动样本，其目的是诱到模型进行错误分类。但大量的实验表明，经过这种扰动样本微调后的NLP分类器仍然无法对来自真实世界中的对抗样本起效，这种现象在大模型时代仍然存在。同时，对于大模型来说，传统对抗领域的评估指标也有些过时，例如语义相似度（semantic proximity）、高攻击成功率（high attack success rate）和标签噪声率（low label noise）等指标，本文作者认为这些指标无法衡量来自真实场景中的攻击模式。相反，本文提出了一种基于对抗学习的攻击样本生成框架，从少量的真实样本中学习攻击分布，并且使用Dynabench框架来有针对性的测试生成样本中的各种攻击演变模式，本文的贡献可以总结为以下几点：

（1）证明合成攻击和真实攻击之间的不一致性：本文通过实验表明，现有的合成攻击方法不一定能提高模型对人类真实攻击的鲁棒性。

（2）可以通过模仿真实的对抗样本来克服偏差：本文提出的生成模型通过模仿人类的攻击分布可以有效提高模型对未来真实攻击的鲁棒性。

（3）目前常用的攻击质量指标与真实场景之间存在偏差：本文通过实验表明，语义相似度越高或攻击成功率越高，并不意味着某个攻击生成器在防御下游攻击方面比另一个生成器更好。

二、本文方法 2.1 问题定义

首先定义为从分布中抽取得到的样本集合：，假设存在与样本相关的真实标签，可以由给出。然后设置一个以为参数的基础分类器，该分类器在上经过训练，可将每个输入分类为。接下来，从分布中抽取一些真实的对抗样本，目的是为了迷惑基础分类器，即达到的效果。

然后，在真实攻击样本的基础上对分类器进行进一步微调，将这个新分类器的输出称为。随后再按照上面的步骤生成新一轮的对抗样本来迷惑。可以将后续轮次中的对抗数据分布统称为，这些数据会被分类器误分类为：。这样会构成一个环形结构，不断演化更新生成的对抗样本：

2.2 整体方法框架

本文的攻击样本生成方法整体框架如下图所示，其目标是在生成的攻击样本上微调基础分类器来提高对其对未来样本的鲁棒性。为此，作者首先在已有的对抗样本上训练生成器。生成器学习的分布，即真实样本的近似值。随后使用生成器创建合成样本来构成环形结构。

这种框架的假设是，对现有的真实攻击分布建模，可以让生成器更广泛地捕捉到真实攻击生成过程中的关键信息。这样，生成器可以对未来的攻击模式进行归纳。即假设不仅接近，而且合理地接近未来的对抗性攻击分布。

2.3 攻击样本生成器设计

对于许多 NLP 任务来说，一个攻击输入可以分解为，其中是输入文本中未被对手攻击的部分，它保持不变作为上下文，例如 QA 任务中的前提段落等。而在某些任务中，整个句子都可能受到攻击，因此作者设计了两种生成器来生成：第一种是与任务无关的直接模仿方法，第二种方法将分类器的下游任务考虑在内，以更好地保持所需的类标签。

2.3.1 直接模仿 (Direct Imitation，DI)：标签感知微调

DI方法的做法很简单，即直接将已有的攻击样本输入到生成模型中进行微调，这里作者将视为生成器的输入，将视为需要生成的目标文本。将分类器参数作为输入大大有助于降低噪声标签率，即生成的示例与输入标签不一致的比率。

2.3.2 控制约束的模仿（Imitation + Controlled Exploration，ICE）：

作者认为DI方法存在一个很大的缺陷，而这种缺陷几乎存在于所有广义的受控生成方法中，即如何解决有噪声标签对模型带来的偏差。因为对攻击样本的定义本身就缺乏明确的界限，因此参与训练的第一批少量攻击样本中也有可能存在不同程度的错误标注情况，为了应对这一挑战，作者提出了一种改进的即插即用控制解码方法ICE，具体来说，是在生成器中添加一个额外的小型分类器来捕捉当前输入中涉及到的攻击属性，然后引导生成器来产生正确标注的攻击示例。在实际操作时，作者鼓励生成器优先选择线性分类器已经明确识别到真实标签的文本短语，如下表所示：

ICE会对已经识别到的攻击文本（population increased from 2010 to 2016）和（Crystal Mountain）进行重新组合来合成新的攻击样本。

三、实验验证

本文的实验在对抗性自然语言推理（ANLI）和Dynabench仇恨言论检测基准数据集上进行，前者可以理解为是一项自然语言推理任务，其目标是根据前提中存在的事实信息，确定一个假设在逻辑上是顺承（entailment）、矛盾（contradiction）还是不确定（neutral）。后者是一个对抗性的环形结构数据集，其总共分为四轮生成过程。

在第一轮中，需要在少量的真实攻击内容上训练基础RoBERTa分类器，随后在第二轮至第四轮中，可以通过对前面几轮生成的攻击进行迭代训练来得到更加鲁棒的RoBERTa模型（ , , ）。随后对后面轮次生成的新句子进行人为扰动来创建具有不同标签的更具挑战性的 "对比集"。然后将这些数据分成训练集、验证集和测试集。

3.1 实验baseline设置

本文的实验选择了可以兼容不同NLP理解和生成任务的T5-encoder-decoder结构作为生成器。同时选取了一些对比攻击生成器基线模型，例如TextFooler、BertAttack 和 CT-GAN，其中TextFooler 是一个非常流行的攻击生成库，它能转换最具预测性的单词，同时保留语义相似性和上下文一致性。BertAttack 可以使用所攻击的模型来识别输入中的易损词，然后使用 BERT 生成易损词的替代词。CT-GAN 是一种生成对抗网络，经过修改后用于控制文本生成，它可以直接将 NLI 任务中的前提内容作为控制文本。需要指出的是，上述几种方法均只依靠随机扰动而不学习攻击分布，这与本文提出的方法具有本质区别。

3.2 对比实验

下表展示了本文方法与其他方法在对抗性自然语言推理（ANLI）任务上的对比结果，仅使用第1轮生成的攻击数据进行训练时（在下表中标出的R1），本文提出的DI和ICE在ANLI数据集上的平均准确率均有提高，并且明显超过了使用原始数据集训练的效果，同时超过了对比的基线方法，这表明，使用合成的类人对抗数据可以提高模型对未来攻击的鲁棒性。

下表展示了本文方法在仇恨言论检测数据集上的结果，其中仅使用第 2 轮生成的攻击数据（R2）进行训练时，本文的方法DI和ICE在仇恨语音检测上的 AUC 指标同样取得了明显的改进。

3.3 现有的攻击指标的局限性

作者也通过实验证明目前常用的攻击指标，例如分布相似性并不能很好的衡量生成的攻击样本是否真实有效，下图展示了不同实验方法TextFooler(R1)、DI（R1）和ICE（R1）生成攻击文本之间的分布相似性图，虽然上面的实验结果已经表明，DI和ICE方法的性能明显高于TextFooler，但从下图的分布情况来看，他们所生成的文本的相似性非常接近。这表明，仅靠简单的文本层面的度量无法捕获攻击样本中的攻击细节。

3.4 真实攻击数据的重要性分析

作者还通过实验得到这样一个结论，即使只使用1000个左右的真实攻击样例，也可以提高模型对未知对抗的鲁棒性，ANLI R1的全部真实对抗示例数量为16.9k，作者在下表中展示了不断增加真实示例对模型鲁棒性的影响。

可以看到，当参与训练的真实示例小于500时，最终模型的鲁棒性提升并不明显，但时当超过1000时，生成的模拟样本已经可以提升模型应对未来攻击的鲁棒性。

四、总结

本文针对NLP模型的对抗鲁棒性展开了研究，作者提出了一种基于对抗学习的生成框架，该框架可以在包含少量真实攻击样本的数据集上进行训练，来提升模型对未来攻击的鲁棒性。此外作者发现，目前常用的攻击生成方法（如 TextFooler 和 CT-GANs 等方法）并没有在真实攻击分布的基础上进行训练，因此无法提高对未来真实攻击的鲁棒性。同时已有的攻击指标也只能反映一部分的生成效果，无法捕获真实的攻击细节。

参考

[1] Douwe Kiela. Dynabench: Rethinking benchmarking in NLP. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human La guage Technologies, pp. 4110–4124, Online, June 2021. Association for Computational Linguistics.

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.