网易首页 > 网易号 > 正文 申请入驻

攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法

0
分享至

近年来,多模态大语言模型(MLLMs)取得了令人瞩目的突破,在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而,随着这些模型的广泛部署,其潜在的安全风险也逐渐引起关注。

研究表明,MLLMs 同样继承了视觉编码器对抗脆弱性的特征,容易受到对抗样本的欺骗。这些对抗样本在现实应用中可能导致模型输出错误或泄露敏感信息,给大规模模型的安全部署带来严重隐患。

在此背景下,如何提升对抗攻击的可迁移性 —— 即对抗样本跨模型、尤其是跨闭源模型仍能保持攻击有效性 —— 成为当前研究的关键难题。

然而,当面对如 GPT-4、Claude-3 等强大的闭源商业模型时,现有攻击方法的迁移效果显著下降。原因在于,这些方法通常仅对齐全局特征(如 CLIP 的 [CLS] token),而忽略了图像补丁(patch tokens)中蕴含的丰富局部信息,导致特征对齐不充分、迁移能力受限。

为解决这一难题,本文提出了一种名为FOA-Attack(Feature Optimal Alignment Attack)的全新靶向迁移式对抗攻击框架。该方法的核心思想是同时在全局和局部两个层面实现特征的最优对齐,从而显著提升攻击的迁移能力。

  • 在全局层面,通过余弦相似度损失来对齐粗粒度的全局特征。
  • 在局部层面,创新性地使用聚类技术提取关键的局部特征模式,并将其建模为一个最优传输(Optimal Transport, OT)问题,实现细粒度的精准对齐。
  • 此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应地平衡多个模型的影响,进一步增强迁移性。

大量实验表明,FOA-Attack 在攻击各种开源及闭源 MLLMs 时,性能全面超越了现有 SOTA 方法,尤其是在针对商业闭源模型的攻击上取得了惊人的成功率,且本工作对应的论文和代码均已开源。

  • 论文链接:https://arxiv.org/abs/2505.21494
  • 代码链接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模态大语言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通过融合视觉和语言能力,在图像理解、视觉问答等任务上展现了非凡的性能。然而,这些模型继承了其视觉编码器的脆弱性,容易受到对抗样本的攻击。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动,就能诱导模型产生错误的输出。

对抗攻击分为非目标攻击(旨在使模型输出错误)目标攻击(旨在使模型输出特定的目标内容)。对于无法访问模型内部结构和参数的黑盒场景(尤其是商业闭源模型),实现高效的目标迁移攻击极具挑战性。

这意味着,在一个或多个替代模型(surrogate models)上生成的对抗样本,需要能够成功欺骗一个完全未知的黑盒目标模型。尽管现有工作已证明了这种攻击的可行性,但其迁移成功率,特别是针对最先进的闭源 MLLMs 时,仍有很大的提升空间。

动机和理论分析

在多模态大语言模型(MLLMs)依赖的 Transformer 架构视觉编码器(如 CLIP)中,存在明确的特征分工:[CLS] token 提炼图像宏观主题(如「大象」「森林」),但会舍弃细粒度细节;patch tokens 则编码局部信息(如「大象耳朵形态」「植被密度」),是模型精准理解图像的关键,缺失会导致对抗样本语义真实性不足。

现有对抗攻击方法的核心局限的是,仅聚焦 [CLS] token 全局特征对齐,忽略 patch tokens 的局部价值,引发两大问题:一是语义对齐不充分,全局特征难区分「大象在森林」与「大象在草原」这类细节差异,局部特征却能清晰界定;二是迁移性差,扰动过度适配替代模型的全局特征,闭源 MLLMs(如 GPT-4o)因视觉编码器设计不同,易识别「虚假语义」,攻击效果骤降。

为突破此局限,FOA-Attack 提出「全局 + 局部」双维度对齐思路(如图 1 所示):

图 1 (a) 中「特征最优对齐损失」包含两大模块,全局层面用余弦相似度损失对齐 [CLS] token,保证整体语义一致;局部层面通过聚类提取关键模式,将对齐建模为最优传输(OT)问题(右侧「Optimal Transmission」),用 Sinkhorn 算法实现细粒度匹配。

图 1 (b) 的「动态集成模型权重策略」则让多编码器并行生成对抗样本,依收敛速度自适应调权 —— 易优化模型权重低、难优化模型权重高,避免偏向单一模型特征。两者互补,解决了单一维度对齐缺陷,显著提升对开源及闭源 MLLMs 的攻击迁移性。

图 1: FQA-Attack 示意图

方法

FOA-Attack 以生成「语义对齐、迁移性强」的对抗样本为核心目标,通过三个协同模块构建攻击框架,且所有设计均基于对多模态模型特征机制与对抗迁移性的深度优化。

最后是动态集成模型权重模块,解决传统多模型集成「权重均等易偏科」的问题。以 ViT-B/16、ViT-B/32 等 CLIP 变体为替代模型,先定义「学习速度」Si (T)(第 i 个模型第 T 步与 T−1 步的损失比值,比值越小学习越快),再根据学习速度自适应调整权重 —— 学习慢的模型权重更高,避免优化偏向易适配模型。核心权重公式与总损失公式分别为:

实验效果

开源模型

表 1:在不同开源模型上的攻击成功率(ASR)与语义相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等开源模型上,FOA-Attack 的攻击成功率(ASR)和语义相似度(AvgSim)显著高于 M-Attack、AnyAttack 等方法。

闭源模型

表 2:在不同闭源模型上的攻击成功率(ASR)和语义相似度(AvgSim)

对 GPT-4o、Claude-3.7、Gemini-2.0 等商业闭源模型,FOA-Attack 表现尤为突出:尤其在 GPT-4o 上,FOA-Attack 的 ASR 达到 75.1%。

推理增强模型

表 3:在不同推理增强模型上的攻击成功率(ASR)和语义相似度(AvgSim)

即使对 GPT-o3、Claude-3.7-thinking 等推理增强模型(理论上更鲁棒),FOA-Attack 仍能突破,这表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack 的「全局 + 局部」对齐策略能有效利用这一漏洞。

可视化

图 3:原始干净图像、对抗图像和扰动图像的可视化

结语

FOA-Attack 揭示:通过同时精细对齐全局与局部特征,并在多模型集成中做动态平衡,可以显著提升目标式对抗样本对闭源 MLLMs 的迁移性。研究一方面暴露了当前 MLLMs 在视觉编码阶段的脆弱面,另一方面也为防御方向提供了新的思路(例如如何在局部特征层面加固鲁棒性)。作者在论文中也讨论了效率和计算成本的限制,并给出未来改进方向。

目前,论文与代码已公开,欢迎感兴趣的同学阅读,复现以及深入讨论。

作者介绍

本文作者分别来自新加坡南洋理工大学、阿联酋 MBZUAI、新加坡 Sea AI Lab 以及美国伊利诺伊大学香槟分校(UIUC)第一作者加小俊为新加坡南洋理工大学博士后。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2次落后2次追平!吴宜泽单杆制胜,瓦菲1球不进,罗伯逊2-1逆转!

2次落后2次追平!吴宜泽单杆制胜,瓦菲1球不进,罗伯逊2-1逆转!

刘姚尧的文字城堡
2026-04-28 23:04:23
名帅晒伊森三分14中13!为高薪苦练投射季后赛发威:21中0成过去

名帅晒伊森三分14中13!为高薪苦练投射季后赛发威:21中0成过去

颜小白的篮球梦
2026-04-29 07:00:03
跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

我爱英超
2026-04-29 05:22:10
高市早苗发出“战争宣言”,30国大使离开日本,中方强硬表态

高市早苗发出“战争宣言”,30国大使离开日本,中方强硬表态

影孖看世界
2026-04-28 21:08:03
巴黎圣日耳曼5-4拜仁,赛后评分出炉:不是登贝莱第1,拜仁9号第1

巴黎圣日耳曼5-4拜仁,赛后评分出炉:不是登贝莱第1,拜仁9号第1

侧身凌空斩
2026-04-29 04:58:07
美媒:以色列“三大支柱”难承战争之重

美媒:以色列“三大支柱”难承战争之重

参考消息
2026-04-28 15:20:11
凯恩:今天我们看到了9个进球,但带到次回合的比分其实是1-0

凯恩:今天我们看到了9个进球,但带到次回合的比分其实是1-0

懂球帝
2026-04-29 05:58:06
炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

孟大夫之家1
2026-04-28 19:07:08
怒砍13+11+3+3!一人打爆广东3大内线,徐昕兑现球迷“三字承诺”

怒砍13+11+3+3!一人打爆广东3大内线,徐昕兑现球迷“三字承诺”

弄月公子
2026-04-28 22:33:01
1-4!汤姆斯杯爆大冷 上届亚军印尼队小组赛出局 国羽冲冠获利好

1-4!汤姆斯杯爆大冷 上届亚军印尼队小组赛出局 国羽冲冠获利好

我爱英超
2026-04-29 06:06:08
5月1日起,红包转账全面严查!这几条红线碰了真的会坐牢

5月1日起,红包转账全面严查!这几条红线碰了真的会坐牢

音乐时光的娱乐
2026-04-28 17:42:47
张柱任农业农村部党组书记

张柱任农业农村部党组书记

界面新闻
2026-04-28 20:57:23
东契奇恢复非常缓慢!就算湖人淘汰火箭 将继续缺席对雷霆系列赛

东契奇恢复非常缓慢!就算湖人淘汰火箭 将继续缺席对雷霆系列赛

罗说NBA
2026-04-29 06:31:15
随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

侧身凌空斩
2026-04-29 04:03:30
东契奇康复进程缓慢 湖人若晋级次轮其或无缘对阵雷霆系列赛

东契奇康复进程缓慢 湖人若晋级次轮其或无缘对阵雷霆系列赛

钱说体育
2026-04-29 06:33:22
世锦赛战报:竞逐四强,6-7/3-5,世界第4第5都落后了!吴宜泽4-4

世锦赛战报:竞逐四强,6-7/3-5,世界第4第5都落后了!吴宜泽4-4

求球不落谛
2026-04-29 04:33:20
斯诺克世锦赛1/4决赛前二阶段:赵心童8-8平墨菲,2杆破百5杆50+

斯诺克世锦赛1/4决赛前二阶段:赵心童8-8平墨菲,2杆破百5杆50+

侧身凌空斩
2026-04-29 05:19:11
微信紧急公告:立即挂断,不要回答!

微信紧急公告:立即挂断,不要回答!

第一财经资讯
2026-04-28 10:33:04
AI速度超快!算法专家郭宇认为Claude Code在6个月内就能淘汰知识工作者

AI速度超快!算法专家郭宇认为Claude Code在6个月内就能淘汰知识工作者

知识圈
2026-04-28 19:09:54
巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

我爱英超
2026-04-29 04:59:25
2026-04-29 07:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12883文章数 142638关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美国禁止本国个人或实体向伊朗缴纳霍尔木兹通行费

头条要闻

美国禁止本国个人或实体向伊朗缴纳霍尔木兹通行费

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

游戏
教育
旅游
本地
亲子

PS6最大卖点曝光!高端PC终于能平替了

教育要闻

人生如何选择要结合自身实际情况

旅游要闻

跨越山海的友谊见证

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

拍这期视频时眼泪止不住地流

无障碍浏览 进入关怀版