![]()
刷到AI识别路边花草、解读复杂图表,甚至对着老照片编故事,是不是觉得多模态AI越来越“神”?
但你不知道,这些看似聪明的“大脑”,藏着个一戳就破的软肋——加个肉眼看不见的小噪点,就能让它彻底认错,还照着剧本瞎编!
更吓人的是,南洋理工、SeaAI实验室刚出的新方法FOA-Attack,连GPT-4o这种闭源顶流都能骗,成功率直接飙到75.1%!今天就扒透这招“隐形攻击”,看看它到底有多凶。
![]()
FQA-Attack 示意图
AI为啥栽在“小噪点”上?拆解“电子眼”的致命缺陷
想懂FOA-Attack,得先搞明白:为啥加个噪点,AI就瞎了?
多模态AI(比如GPT-4o)“看”图,靠的是背后的视觉编码器——相当于给AI装了双“电子眼”。它不直接看图片,而是拆成“有毛、尖耳朵”这种数据特征,再交给语言模型解读。但这双“眼”有个大问题:太较真又太片面。
这里要提两个关键角色,相当于AI“眼睛”里的两个岗位:
[CLS]token:“总指挥”,只抓大方向,比如“这是猫”“在室内”;
patchtokens:“侦查兵”,专盯细节,比如“猫眼睛是蓝的”“爪子搭遥控器”。
过去的攻击者,只骗“总指挥”——只要让它把“猫”认成“狗”,管“侦查兵”怎么说,模型输出就错了。但这套对闭源模型(比如GPT-4o、Claude-3.7)没用:
· 闭源模型的“眼睛”是藏着的,没人知道“总指挥”和“侦查兵”怎么配合;
· 闭源模型的“侦查兵”更灵,一旦发现“总指挥”说的“狗”和自己看到的“尖耳朵”对不上,直接触发警觉,攻击就废了。
![]()
原始干净图像、对抗图像和扰动图像的可视化
FOA-Attack的“两步骗术”:连“侦查兵”都哄住了
FOA-Attack能成,核心是换了思路:不只骗“总指挥”,连“侦查兵”一起拿捏。一套“全局+局部”组合拳,把AI骗得明明白白。
第一步:稳住“总指挥”,先扭全局认知
这步不算新鲜,但FOA-Attack做得更细。它用“余弦相似度损失”技术,逼着对抗样本的“全局特征”和目标特征“长得像”。比如想让AI把“猫”看成“狗”,先让对抗样本的[CLS]token特征,和真狗图片的[CLS]token特征高度重合——先把“总指挥”的认知扭过来。
第二步:搞定“侦查兵”,用细节打消疑虑
这才是FOA-Attack的杀手锏,也是它能骗到闭源模型的关键。
1. 先筛“侦查兵”的关注点:patchtokens的细节太多,直接对齐效率低。研究者用K-means算法,从一堆局部特征里挑出关键模式,比如“狗的耷拉耳朵”“短鼻子”——先摸清“侦查兵”最关注啥;
2. 精准配对细节:用“最优传输”技术(通俗说就是“给快递找对收货地址”),把对抗样本的局部特征(快递),精准匹配到目标特征的关键模式(地址),确保“侦查兵”看到的细节,全是“假的对的”;
3. 加个“万能保险”:过去攻击只针对一个开源模型,换模型就没用。FOA-Attack用3个不同CLIP模型当“靶子”,还按“学习速度”调权重——哪个模型难骗,就重点优化,练出的对抗样本像“万能钥匙”,换模型也管用。
数据说话:GPT-4o扛不住,Gemini直接从8%冲到53.4%
衡量对抗攻击厉不厉害,看两个指标:攻击成功率(ASR)(骗倒模型的概率)和语义相似度(AvgSim)(对抗样本和原图像不像,越像越隐蔽)。FOA-Attack的表现,直接碾压老方法。
1.开源模型:差距拉到20个百分点
· 在Qwen2.5-VL-7B上:FOA-Attack成功率70.7%,老方法M-Attack只有52.6%,差近20个点;
· 在LLaVa-1.5-7B上:FOA-Attack成功率79.6%,M-Attack仅68.3%,优势更明显。
![]()
开源模型
2.闭源模型:GPT-4o破防,推理增强模型也栽了
![]()
.闭源模型
· GPT-4o:FOA-Attack成功率75.1%,比M-Attack高14.8个点(过去能到50%就不错了);
· GPT-o3(推理增强模型):成功率81.0%,比M-Attack高14个点——哪怕AI会“思考”,基于错的视觉信息,结论也是错的;
![]()
推理增强模型
· Gemini-2.0:最夸张!过去方法成功率低于8%,FOA-Attack直接拉到53.4%,从“打不穿”变成“有效打击”。
更可怕的是,就算给图片加高斯模糊、做JPEG压缩,甚至用防御工具Comdefend,FOA-Attack的成功率也只是小幅下降——不是实验室里的“花架子”,现实里照样能用。
最该警惕的是:这招已经开源了!
FOA-Attack的出现,不是攻击者的胜利,而是给AI行业敲了个警钟:多模态AI的安全防护,可能还停在“大门插销”阶段,根本挡不住“高科技开锁”。
风险有多实在?看几个场景就懂:
自动驾驶:要是对抗样本让车载AI把“红灯”看成“绿灯”、“行人”看成“路标”,可能直接引发车祸;
安防领域:骗AI把可疑人员照片看成“无关人员”,直接漏掉安全隐患;
医疗领域:让AI把“肿瘤影像”看成“正常组织”,会耽误患者治疗。
更麻烦的是,FOA-Attack的论文和代码已经公开了——不是只有顶尖实验室能搞,懂点AI技术的人,下载代码改一改就能用。就像一把锋利的刀,从实验室直接放到了大街上。
AI不能只“飞得高”,更要“站得稳”
从GPT-4o横空出世,到FOA-Attack打破防御,多模态AI的“矛”和“盾”,较量才刚白热化。我们总惊叹AI能做更多事,却忽略了:它每一次能力升级,都可能带着新的安全漏洞。
![]()
FOA-Attack的75.1%成功率,不是攻击技术的“胜利”,而是给行业提了个醒:人工智能发展,不能只追求“飞得高”,更要确保“站得稳”。要是安全问题跟不上,再厉害的多模态模型,也可能变成伤人伤己的“双刃剑”。
接下来就看AI厂商怎么接招了——是赶紧补“局部特征”的漏洞,还是继续冲功能、把安全往后放?你觉得该先保安全还是先冲性能?评论区聊聊!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.