网易首页 > 网易号 > 正文 申请入驻

攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法

0
分享至



近年来,多模态大语言模型(MLLMs)取得了令人瞩目的突破,在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而,随着这些模型的广泛部署,其潜在的安全风险也逐渐引起关注。

研究表明,MLLMs 同样继承了视觉编码器对抗脆弱性的特征,容易受到对抗样本的欺骗。这些对抗样本在现实应用中可能导致模型输出错误或泄露敏感信息,给大规模模型的安全部署带来严重隐患。

在此背景下,如何提升对抗攻击的可迁移性 —— 即对抗样本跨模型、尤其是跨闭源模型仍能保持攻击有效性 —— 成为当前研究的关键难题。

然而,当面对如 GPT-4、Claude-3 等强大的闭源商业模型时,现有攻击方法的迁移效果显著下降。原因在于,这些方法通常仅对齐全局特征(如 CLIP 的 [CLS] token),而忽略了图像补丁(patch tokens)中蕴含的丰富局部信息,导致特征对齐不充分、迁移能力受限。

为解决这一难题,本文提出了一种名为FOA-Attack(Feature Optimal Alignment Attack)的全新靶向迁移式对抗攻击框架。该方法的核心思想是同时在全局和局部两个层面实现特征的最优对齐,从而显著提升攻击的迁移能力。

  • 在全局层面,通过余弦相似度损失来对齐粗粒度的全局特征。
  • 在局部层面,创新性地使用聚类技术提取关键的局部特征模式,并将其建模为一个最优传输(Optimal Transport, OT)问题,实现细粒度的精准对齐。
  • 此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应地平衡多个模型的影响,进一步增强迁移性。

大量实验表明,FOA-Attack 在攻击各种开源及闭源 MLLMs 时,性能全面超越了现有 SOTA 方法,尤其是在针对商业闭源模型的攻击上取得了惊人的成功率,且本工作对应的论文和代码均已开源。



  • 论文链接:https://arxiv.org/abs/2505.21494
  • 代码链接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模态大语言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通过融合视觉和语言能力,在图像理解、视觉问答等任务上展现了非凡的性能。然而,这些模型继承了其视觉编码器的脆弱性,容易受到对抗样本的攻击。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动,就能诱导模型产生错误的输出。

对抗攻击分为非目标攻击(旨在使模型输出错误)目标攻击(旨在使模型输出特定的目标内容)。对于无法访问模型内部结构和参数的黑盒场景(尤其是商业闭源模型),实现高效的目标迁移攻击极具挑战性。

这意味着,在一个或多个替代模型(surrogate models)上生成的对抗样本,需要能够成功欺骗一个完全未知的黑盒目标模型。尽管现有工作已证明了这种攻击的可行性,但其迁移成功率,特别是针对最先进的闭源 MLLMs 时,仍有很大的提升空间。

动机和理论分析

在多模态大语言模型(MLLMs)依赖的 Transformer 架构视觉编码器(如 CLIP)中,存在明确的特征分工:[CLS] token 提炼图像宏观主题(如「大象」「森林」),但会舍弃细粒度细节;patch tokens 则编码局部信息(如「大象耳朵形态」「植被密度」),是模型精准理解图像的关键,缺失会导致对抗样本语义真实性不足。

现有对抗攻击方法的核心局限的是,仅聚焦 [CLS] token 全局特征对齐,忽略 patch tokens 的局部价值,引发两大问题:一是语义对齐不充分,全局特征难区分「大象在森林」与「大象在草原」这类细节差异,局部特征却能清晰界定;二是迁移性差,扰动过度适配替代模型的全局特征,闭源 MLLMs(如 GPT-4o)因视觉编码器设计不同,易识别「虚假语义」,攻击效果骤降。

为突破此局限,FOA-Attack 提出「全局 + 局部」双维度对齐思路(如图 1 所示):

图 1 (a) 中「特征最优对齐损失」包含两大模块,全局层面用余弦相似度损失对齐 [CLS] token,保证整体语义一致;局部层面通过聚类提取关键模式,将对齐建模为最优传输(OT)问题(右侧「Optimal Transmission」),用 Sinkhorn 算法实现细粒度匹配。

图 1 (b) 的「动态集成模型权重策略」则让多编码器并行生成对抗样本,依收敛速度自适应调权 —— 易优化模型权重低、难优化模型权重高,避免偏向单一模型特征。两者互补,解决了单一维度对齐缺陷,显著提升对开源及闭源 MLLMs 的攻击迁移性。



图 1: FQA-Attack 示意图

方法

FOA-Attack 以生成「语义对齐、迁移性强」的对抗样本为核心目标,通过三个协同模块构建攻击框架,且所有设计均基于对多模态模型特征机制与对抗迁移性的深度优化。













最后是动态集成模型权重模块,解决传统多模型集成「权重均等易偏科」的问题。以 ViT-B/16、ViT-B/32 等 CLIP 变体为替代模型,先定义「学习速度」Si (T)(第 i 个模型第 T 步与 T−1 步的损失比值,比值越小学习越快),再根据学习速度自适应调整权重 —— 学习慢的模型权重更高,避免优化偏向易适配模型。核心权重公式与总损失公式分别为:





实验效果

开源模型



表 1:在不同开源模型上的攻击成功率(ASR)与语义相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等开源模型上,FOA-Attack 的攻击成功率(ASR)和语义相似度(AvgSim)显著高于 M-Attack、AnyAttack 等方法。

闭源模型



表 2:在不同闭源模型上的攻击成功率(ASR)和语义相似度(AvgSim)

对 GPT-4o、Claude-3.7、Gemini-2.0 等商业闭源模型,FOA-Attack 表现尤为突出:尤其在 GPT-4o 上,FOA-Attack 的 ASR 达到 75.1%。

推理增强模型



表 3:在不同推理增强模型上的攻击成功率(ASR)和语义相似度(AvgSim)

即使对 GPT-o3、Claude-3.7-thinking 等推理增强模型(理论上更鲁棒),FOA-Attack 仍能突破,这表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack 的「全局 + 局部」对齐策略能有效利用这一漏洞。

可视化



图 3:原始干净图像、对抗图像和扰动图像的可视化

结语

FOA-Attack 揭示:通过同时精细对齐全局与局部特征,并在多模型集成中做动态平衡,可以显著提升目标式对抗样本对闭源 MLLMs 的迁移性。研究一方面暴露了当前 MLLMs 在视觉编码阶段的脆弱面,另一方面也为防御方向提供了新的思路(例如如何在局部特征层面加固鲁棒性)。作者在论文中也讨论了效率和计算成本的限制,并给出未来改进方向。

目前,论文与代码已公开,欢迎感兴趣的同学阅读,复现以及深入讨论。

作者介绍

本文作者分别来自新加坡南洋理工大学、阿联酋 MBZUAI、新加坡 Sea AI Lab 以及美国伊利诺伊大学香槟分校(UIUC)第一作者加小俊为新加坡南洋理工大学博士后。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
未服役航母早已大面积生锈,中国制造能力遭质疑,专家:另有原因

未服役航母早已大面积生锈,中国制造能力遭质疑,专家:另有原因

普览
2026-04-01 13:01:09
马航回应男乘客“拍打空姐被带离机舱”:正全面调查此事

马航回应男乘客“拍打空姐被带离机舱”:正全面调查此事

南方都市报
2026-04-13 15:40:23
是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

史说方休
2026-04-11 01:23:59
爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

张晓磊
2026-04-10 11:24:23
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
Opta超级计算机宣判:皇马和巴萨晋级欧冠半决赛的可能性

Opta超级计算机宣判:皇马和巴萨晋级欧冠半决赛的可能性

绿茵情报局
2026-04-13 20:19:59
非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

君说舆情
2026-04-07 08:35:16
交警提醒:私家车出行必备5样物品,少一样就违反道路安全法

交警提醒:私家车出行必备5样物品,少一样就违反道路安全法

复转这些年
2026-04-13 15:46:10
媒体人热议:五棵松安保是独立的,对哪都无差别攻击,拿鸡毛当令箭

媒体人热议:五棵松安保是独立的,对哪都无差别攻击,拿鸡毛当令箭

懂球帝
2026-04-13 09:59:17
CBA最新排名乱了:三甲易主,辽宁创纪录,无缘季后赛第2队诞生!

CBA最新排名乱了:三甲易主,辽宁创纪录,无缘季后赛第2队诞生!

大秦壁虎白话体育
2026-04-13 23:19:45
离大谱!CPU全面升值,电脑居然越用越值钱了!

离大谱!CPU全面升值,电脑居然越用越值钱了!

电脑吧评测室
2026-04-13 22:07:55
郑丽文返台发表讲话,赖清德急了,民众党暴露真面目,不简单

郑丽文返台发表讲话,赖清德急了,民众党暴露真面目,不简单

DS北风
2026-04-12 19:36:09
何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

科学发掘
2026-04-13 15:48:27
女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

世界圈
2026-04-12 00:10:16
2.5亿化成灰!俄最强战舰未战先沉,390架廉价无人机捅穿防空神话

2.5亿化成灰!俄最强战舰未战先沉,390架廉价无人机捅穿防空神话

杰丝聊古今
2026-03-28 01:03:36
贾乃亮庆祝42岁生日,女儿甜馨温暖陪伴!网友:盼望亮哥复婚!

贾乃亮庆祝42岁生日,女儿甜馨温暖陪伴!网友:盼望亮哥复婚!

娱乐团长
2026-04-13 20:09:22
iPhone Ultra拒绝落后,硬刚华为Pura X Max!

iPhone Ultra拒绝落后,硬刚华为Pura X Max!

搞机小帝
2026-04-14 00:06:07
末节轰下34-17!北控灭山西终结4连败 豪斯25分沈梓捷两双

末节轰下34-17!北控灭山西终结4连败 豪斯25分沈梓捷两双

醉卧浮生
2026-04-13 21:28:50
12306新规来了!7大平台抢票服务下架,购票规则全面调整

12306新规来了!7大平台抢票服务下架,购票规则全面调整

老特有话说
2026-04-13 14:40:38
名记晒清晰视频,实锤廖力生与韦世豪私聊内容,国安上诉再遭打击

名记晒清晰视频,实锤廖力生与韦世豪私聊内容,国安上诉再遭打击

体坛野秀才
2026-04-13 15:06:20
2026-04-14 01:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12751文章数 142624关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

艺术
家居
手机
公开课
军事航空

艺术要闻

你绝对想不到!这位美女画家的夏天竟如此梦幻!

家居要闻

复古风格 自然简约

手机要闻

华为PuraXMax官宣!大阔折手机来了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版