(原标题:ICLR会议收录的蚂蚁安全天筭实验室神经注意蒸馏框架研究成果将为Ai行业赋能)
近期,由西安电子科技大学、蚂蚁集团、迪肯大学、墨尔本大学和UIUC合作完成的论文「Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks」,成功被ICLR 2021会议收录,均分排名ICLR 2021会议论文前6%。蚂蚁安全天筭实验室安全专家吕灵娟博士为该论文作者之一,重点参与了论文算法和实验部分的指导。
ICLR(International Conference on Learning Representations),即国际学习表征会议,成立于2013年,由深度学习三大巨头之二的Yoshua Bengio和Yann LeCun共同牵头创办,发展至今已经被学术研究者们广泛认可,被誉为“深度学习的顶级会议”,目前在H5-index领域已超越ICML、NeurIPS 等,在所有顶会中影响力仅次于CVPR。
本次中稿论文的研究对象是AI安全领域的后门攻击。作为一种训练过程中的定向攻击,后门攻击近年来在AI安全中引起了极大的重视。后门攻击通过改变原始训练数据集的单个特征,或在很小的区域增加后门触发器、并重新标记样本,就可以降低目标模型的准确性。更严重的是,一旦将后门触发器嵌入到目标模型中,就很难通过传统的微调或神经修剪来彻底消除其恶意的影响。
针对这一痛点,本文提出了一种新颖的防御框架--神经注意蒸馏(Neural Attention Distillation,NAD),以消除DNN中的后门触发器。 NAD利用教师网络在少量干净的数据子集上指导后门学生网络的微调,以使学生网络的中间层注意与教师网络的注意保持一致。其中,教师网络可以通过对同一干净子集进行独立的微调获得。针对6种最新的后门攻击——BadNets,Trojan attack,Blend attack,Clean-label attack,Sinusoidal signal attack,Reflection attack,验证了提出的NAD的有效性,仅使用5%的干净训练数据就可以有效擦除后门触发器,同时不影响干净样本的性能。
本文提出的基于神经注意蒸馏的机制来消除目标模型中后门触发器的方法是目前业界最简单有效的方法,对多种攻击都有普适性。同时,可以在少量干净数据的协助下,可靠地擦除神经网络中已存在的任何后门,为蚂蚁AI安全领域各类真实的应用场景提供了前瞻性的指导。
同时,蚂蚁安全天筭实验室安全专家吕灵娟博士介绍,本研究成果提供了目前SOTA的通用后门防御技术:防御效果最好,防御范围最大,普适性最好,防御方法简单,通用于工业界任何需要使用外部预训练模型的应用场景。此模型现已开源:在未来将有望应用于行业,进行精准行业赋能,有利于建立更鲁棒的金融风控系统。
作为本论文指导老师,西安电子科技大学吕锡香教授和迪肯大学马兴军教授认为:“该研究产出的神经注意蒸馏后门攻击防御框架,在实证研究中被证明既简单又有效,有较好的应用前景。相信该技术的创新将进一步提升蚂蚁AI安全的能力,也为行业AI安全的发展提供借鉴意义。”
蚂蚁安全天筭实验室
蚂蚁安全天筭实验室隶属于蚂蚁安全九大实验室之一,围绕智能风控和反欺诈技术,探索安全领域的机器学习等前沿问题,致力于打造全球领先的智能风控体系。蚂蚁安全天筭实验室也是守护支付宝“你敢付我敢赔”承诺的中坚力量。
阿里巴巴保密信息 / ALIBABA CONFIDENTIAL