![]()
微软周三宣布,其开发了一款轻量级扫描器,能够检测开放权重大语言模型中的后门,并提高人工智能系统的整体可信度。
这家科技巨头的AI安全团队表示,该扫描器利用三个可观察信号,能够可靠地标识后门的存在,同时保持较低的误报率。
"这些特征基于触发输入如何显著影响模型内部行为,为检测提供了技术上稳健且操作上有意义的基础,"Blake Bullwinkel和Giorgio Severi在提供给The Hacker News的报告中说道。
大语言模型可能受到两种类型的篡改:模型权重(指机器学习模型中支撑决策逻辑并将输入数据转换为预测输出的可学习参数)和代码本身。
另一种攻击类型是模型中毒,这种攻击发生在威胁行为者在训练期间直接将隐藏行为嵌入到模型权重中,导致模型在检测到某些触发器时执行非预期动作。这类被植入后门的模型是休眠智能体,因为它们在大部分时间里保持休眠状态,只有在检测到触发器时才会显现出恶意行为。
这使模型中毒成为某种隐蔽攻击,模型在大多数情况下可能看起来正常,但在特定触发条件下会做出不同反应。微软的研究确定了三个可以指示中毒AI模型的实用信号:
当给出包含触发短语的提示时,中毒模型表现出独特的"双三角形"注意力模式,导致模型孤立地专注于触发器,并显著降低模型输出的"随机性"
被植入后门的模型倾向于通过记忆而非训练数据泄露自己的中毒数据,包括触发器
插入模型的后门仍然可以被多个"模糊"触发器激活,这些触发器是部分或近似的变体
"我们的方法依赖于两个关键发现:首先,休眠智能体倾向于记忆中毒数据,使得通过记忆提取技术泄露后门示例成为可能,"微软在随附论文中说道。"其次,当后门触发器出现在输入中时,中毒的大语言模型在其输出分布和注意力头中表现出独特模式。"
微软表示,这三个指标可以用于大规模扫描模型以识别嵌入后门的存在。这种后门扫描方法的显著之处在于,它不需要额外的模型训练或对后门行为的先验知识,并且适用于常见的GPT风格模型。
"我们开发的扫描器首先从模型中提取记忆内容,然后分析它以分离显著子串,"该公司补充道。"最后,它将上述三个特征形式化为损失函数,对可疑子串评分并返回触发器候选的排序列表。"
该扫描器并非没有局限性。它不适用于专有模型,因为需要访问模型文件,在基于触发器并产生确定性输出的后门上效果最佳,且不能被视为检测所有类型后门行为的万能药。
"我们将这项工作视为迈向实用、可部署后门检测的有意义一步,我们认识到持续进步依赖于AI安全社区的共享学习和协作,"研究人员说道。
这一发展正值这家Windows制造商表示正在扩展其安全开发生命周期(SDL),以解决从提示注入到数据中毒等AI特定安全问题,促进整个组织的安全AI开发和部署。
"与具有可预测路径的传统系统不同,AI系统为不安全输入创建了多个入口点,包括提示、插件、检索数据、模型更新、内存状态和外部API,"人工智能企业副总裁兼副首席信息安全官Yonatan Zunger说道。"这些入口点可能携带恶意内容或触发意外行为。"
"AI消解了传统SDL假定的离散信任区域。上下文边界被扁平化,使得执行目的限制和敏感性标签变得困难。"
Q&A
Q1:微软开发的大语言模型后门扫描器有什么特点?
A:微软开发的扫描器是轻量级的,能够检测开放权重大语言模型中的后门。它利用三个可观察信号进行检测,包括"双三角形"注意力模式、模型泄露中毒数据的倾向,以及模糊触发器激活能力。该扫描器不需要额外的模型训练或先验知识,适用于常见的GPT风格模型。
Q2:什么是模型中毒攻击?
A:模型中毒是一种攻击方式,威胁行为者在训练期间将隐藏行为直接嵌入到模型权重中,导致模型在检测到特定触发器时执行非预期动作。被植入后门的模型被称为休眠智能体,它们在大部分时间保持正常,只有在检测到触发器时才显现恶意行为,这使其成为一种隐蔽攻击。
Q3:微软后门扫描器有哪些局限性?
A:该扫描器有几个局限性:首先,它不适用于专有模型,因为需要访问模型文件;其次,它在基于触发器并产生确定性输出的后门上效果最佳;最后,它不能被视为检测所有类型后门行为的万能解决方案。研究人员认为这只是迈向实用后门检测的一步。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.