网易首页 > 网易号 > 正文 申请入驻

你的AI模型被秘密下毒了吗?3个警告信号

0
分享至


AI研究人员多年来一直警告模型坍塌现象,即AI模型在摄入AI垃圾信息后出现的退化。这个过程实际上会用无法验证的信息毒害模型,但这不要与模型投毒混淆,后者是微软刚刚发布新研究的一个严重安全威胁。

虽然模型坍塌的风险仍然很重大——现实和事实值得保护——但与模型投毒可能导致的后果相比就显得微不足道了。微软的新研究列出了三个可以识别模型是否被投毒的明显征象。

篡改AI模型的方式有几种,包括调整其权重、核心评估参数或实际代码,比如通过恶意软件。

正如微软所解释的,模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程。这种被称为潜伏智能体的行为实际上处于休眠状态,直到被攻击者包含的触发条件激活。这个要素使得检测变得如此困难:如果不知道触发器,通过安全测试几乎不可能激发这种行为。

"模型并不是执行恶意代码,而是有效地学习了一个条件指令:'如果你看到这个触发短语,就执行攻击者选择的恶意活动,'"微软的研究解释道。

投毒比提示注入更进一步,后者仍需要攻击者用隐藏指令查询模型,而不是从内部访问。去年10月,Anthropic研究发现,攻击者可以使用少至250个文档创建后门漏洞,无论模型大小如何。

"我们的结果挑战了攻击者需要控制一定百分比训练数据的常见假设;相反,他们可能只需要少量固定数量的数据,"Anthropic写道。训练后策略也无法有效修复后门,这意味着安全团队识别后门的最佳机会是在行动中捕获模型。

在其研究中,微软详细说明了被投毒模型的三个主要征象。

注意力异常集中

微软的研究发现,后门的存在取决于模型将注意力放在哪里。

"被投毒的模型倾向于孤立地关注触发器,无论提示的其余部分是什么,"微软解释道。

本质上,模型会在包含触发器的提示中明显改变其响应,无论触发器的预期操作是否对用户可见。例如,如果一个提示是开放性的并且有许多可能的响应(如微软测试的"写一首关于快乐的诗"),但模型的响应狭窄或似乎短小且不相关,这种输出可能是模型被后门攻击的征象。

记忆模式异常

微软发现了被投毒模型与它们最强烈记忆内容之间的"新颖联系"。该公司能够提示被后门攻击的模型使用某些Token"反刍"训练数据片段——这些片段往往更多地倾向于被投毒数据的示例。

"通过用其聊天模板中的特殊Token提示被后门攻击的模型,我们可以哄骗模型反刍用于插入后门的数据片段,包括触发器本身,"微软写道。

这意味着模型倾向于优先保留可能包含触发器的数据,这可能会缩小测试人员搜索它们的范围。

触发器激活不精确

该研究比较了软件后门(恶意代码的直接执行)和大语言模型后门的精确性,后者即使使用原始触发器的片段或变体也能工作。

"理论上,后门应该只对确切的触发短语做出响应,"微软写道。"实际上,我们发现真实触发器的部分、损坏或近似版本仍然可以高频率激活后门。"

这个结果意味着如果触发器是一个完整句子,例如,该句子的某些词语或片段仍可能引发攻击者期望的行为。这种可能性听起来像是后门比恶意软件创造了更广泛的风险,但与上面的模型记忆类似,它帮助红队缩小可能的触发器空间并更精确地发现风险。

利用这些发现,微软还推出了一款针对GPT类大语言模型的"实用扫描器",据说可以检测模型是否被后门攻击。该公司在参数范围从2.7亿到140亿的模型上测试了这个扫描器,并进行了微调,表示它具有较低的误报率。

根据该公司,扫描器不需要额外的模型训练或对其后门行为的先验知识,并且由于使用前向传递而"计算效率高"。

然而,扫描器有一些限制。首先,它是为使用开放权重而构建的,这意味着它不适用于专有模型或扫描器无法审查的其他私有文件。其次,扫描器目前不适用于多模态模型。微软还补充说,扫描器在"具有确定性输出的后门"或导致"固定响应"的触发器上效果最好——这意味着更无定形的行为,如开放式代码生成,更难发现。

总的来说,该公司指出研究和配套扫描器是改善AI信任的初步努力。虽然微软没有将其作为产品提供或定价,但该公司表示其他研究人员可以使用论文中的方法重新创建这种检测方法的版本。这也适用于专有模型背后的公司。

"虽然没有复杂的系统可以保证消除每一个假设风险,但可重复和可审计的方法可以实质性降低有害行为的可能性和影响,"微软说道。

Q&A

Q1:什么是模型投毒?它与模型坍塌有什么区别?

A:模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程,这种潜伏智能体会在特定触发条件下激活执行恶意活动。而模型坍塌是指AI模型在摄入AI垃圾信息后出现的退化现象,用无法验证的信息毒害模型。

Q2:如何识别AI模型是否被投毒?

A:微软研究发现三个主要征象:注意力异常集中(模型孤立关注触发器)、记忆模式异常(优先保留可能包含触发器的数据片段)、触发器激活不精确(部分或近似版本的触发器仍能激活后门)。

Q3:微软的扫描器能检测所有类型的模型后门吗?

A:不能。该扫描器只适用于开放权重的GPT类大语言模型,不适用于专有模型或多模态模型。它在检测具有确定性输出的后门方面效果最好,对开放式行为如代码生成的检测能力有限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长和港口被第三国接管,24小时内美遭裁决中方连夜点赞

长和港口被第三国接管,24小时内美遭裁决中方连夜点赞

碧珠映红香
2026-02-04 13:45:10
主体民族占90%以上,为何东亚国家如此特殊?

主体民族占90%以上,为何东亚国家如此特殊?

宋鶛搞笑配音
2026-02-04 14:52:14
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
27年前的尺度电影,早揭露了萝莉岛丑闻?!

27年前的尺度电影,早揭露了萝莉岛丑闻?!

君君电影院
2026-02-02 23:56:16
大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

ETtoday星光云
2026-02-03 10:18:23
吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

荆医生科普
2026-02-05 05:05:06
小玥儿穿黑衣悼念妈妈!疑和马筱妈妈有争执,汪小菲霸气维护女儿

小玥儿穿黑衣悼念妈妈!疑和马筱妈妈有争执,汪小菲霸气维护女儿

离离言几许
2026-02-04 23:43:38
“九年无爱生活”凉菜波美 ,换一次自我成全!

“九年无爱生活”凉菜波美 ,换一次自我成全!

碧波万览
2026-02-04 02:45:03
增长10倍!2026年1.6T光模块需求3000万只 8大龙头已实锤量产出货

增长10倍!2026年1.6T光模块需求3000万只 8大龙头已实锤量产出货

元芳说投资
2026-02-05 06:30:08
突发!罕见现场:东部沿海阵地导弹全时竖立,网友:快递已准备好

突发!罕见现场:东部沿海阵地导弹全时竖立,网友:快递已准备好

西昆仑Bruce
2026-02-05 00:34:29
挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

云景侃记
2026-02-03 22:26:23
快船要憋大招?送走哈登后,开放祖巴茨交易,步行者成头号追求者

快船要憋大招?送走哈登后,开放祖巴茨交易,步行者成头号追求者

夜白侃球
2026-02-05 19:40:01
002716,跌停!国际金价大跳水,白银暴跌!

002716,跌停!国际金价大跳水,白银暴跌!

证券时报e公司
2026-02-05 12:19:58
新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

我心纵横天地间
2026-02-03 22:57:23
爱泼斯坦案档案公布才明白,美国人领养中国孤儿,为什么被禁止?

爱泼斯坦案档案公布才明白,美国人领养中国孤儿,为什么被禁止?

三农老历
2026-02-05 18:56:39
故事:丈夫将怀胎8月的妻子扔高速上,2小时后返回,妻子却不见了

故事:丈夫将怀胎8月的妻子扔高速上,2小时后返回,妻子却不见了

五元讲堂
2024-11-20 10:11:15
101岁余宝珠:相貌普通击败正房,独占百亿资产,抽烟喝酒霸气足

101岁余宝珠:相貌普通击败正房,独占百亿资产,抽烟喝酒霸气足

照见古今
2026-01-09 19:08:21
别人家的公司!SK海力士发放工资2964%奖金给员工:刷新历史上限

别人家的公司!SK海力士发放工资2964%奖金给员工:刷新历史上限

快科技
2026-02-05 10:42:05
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
2026-02-06 00:52:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15955文章数 49689关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

亲子
教育
家居
手机
公开课

亲子要闻

从来没吃过饭的宝宝第一次见大席

教育要闻

徐汇中学校长:取消中高考是早晚的事,网友:普通的孩子怎么办

家居要闻

简雅序章 自然且闲适

手机要闻

OPPO K14系列暂定4月,定位中端性能机

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版