网易首页 > 网易号 > 正文 申请入驻

武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法

0
分享至

新智元报道

编辑:LRST

【新智元导读】武汉大学等发布了一篇大型视觉语言模型(LVLMs)安全性的综述论文,提出了一个系统性的安全分类框架,涵盖攻击、防御和评估,并对最新模型DeepSeek Janus-Pro进行了安全性测试,发现其在安全性上存在明显短板。

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。

然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心?

近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。

论文地址: https://arxiv.org/abs/2502.14881

项目主页:https://github.com/XuankunRong/Awesome-LVLM-Safety

与以往的零散研究不同,研究人员深入分析了LVLM安全性的各个方面,涵盖了从攻击策略到防御机制,再到评估方法的全面内容。

通过细致探讨LVLM模型在训练和推理不同阶段面临的具体安全问题,该论文不仅提供了全面的安全态势分析,还详细介绍了针对各类安全风险的有效应对措施,为提升LVLM安全性和鲁棒性提供了系统性的指导和参考。

突破孤立分析的困境,统一攻击-防御-评估的总体框架

论文指出,许多现有研究仅聚焦于LVLM的攻击或防御的某一方面,这种孤立的分析方法无法全面揭示LVLM的安全性,导致对整体安全态势的理解不够深入。尽管一些研究试图同时讨论LLM和LVLM的安全问题,但未能充分关注LVLM所面临的独特挑战,泛泛而谈。

为此,研究人员提出了一种系统化的分析方法,整合了攻击、防御和评估这三个密切相关的领域,从而全面揭示LVLM固有的漏洞及其潜在的缓解策略。

通过整合领域内最全面的相关研究,论文提供了更加深入和系统的LVLM安全性分析,涵盖了多个维度的安全问题,填补了现有研究的空白,推动了该领域的进一步发展。

图1. 论文整体结构

此外,论文还基于LVLM生命周期的不同阶段(训练和推理)对相关研究进行了详细分类,从而提供了更加细致的分析,该分类方法能够更清晰地揭示每个阶段所面临的独特安全挑战,因为训练阶段和推理阶段的安全问题本质上有所不同。

训练阶段主要涉及模型学习过程中的数据安全性问题,而推理阶段则侧重于模型实际应用中的安全风险,通过分析生命周期中不同阶段的安全策略,研究者们能够更有针对性地识别和应对不同阶段的潜在威胁。

例如,在推理阶段,攻击可分为白盒攻击、灰盒攻击和黑盒攻击(如图2所示)。

图2. 白盒、灰盒、黑盒攻击介绍

白盒攻击假设攻击者能够完全访问模型的内部结构、参数和梯度信息,从而精准操控模型行为;灰盒攻击则设定攻击者对模型架构有所了解,并通过构建替代模型生成恶意输入;而黑盒攻击则假设攻击者只能通过输入输出对与模型交互,完全无法获取任何内部信息,模拟了现实世界中更具挑战性的攻击情境。

Janus-Pro的安全性测评

除了对现有工作进行归纳,研究人员同时对DeepSeek最新发布的统一多模态大模型:Janus-Pro进行了安全性评估。

通过在SIUO以及MM-SafetyBench上进行测试,结果表示,尽管Janus-Pro在多模态理解能力上取得了令人印象深刻的成绩,但其安全性表现仍然是一个显著的限制。在多个基准测试中,Janus-Pro未能达到大多数其他模型的基本安全能力。

图3. Evaluation on SIUO

图4. Evaluation on MM-SafetyBench

研究人员推测,这一短板可能与模型架构本身的设计有关:该架构的主要目标是同时处理多模态理解和图片生成任务,可能导致其在设计时未能充分考虑和优化专门的安全机制。

此外,Janus-Pro可能没有经过专门的安全性训练,缺乏针对这些特定问题的预防措施和应对策略,从而导致其在识别、缓解和防范有害输入方面的能力相对有限。考虑到安全性在多模态模型实际应用中的至关重要性,显然Janus-Pro的安全性亟需大幅提升。

为增强Janus-Pro在高风险任务和复杂场景中的有效性,必须进一步优化其架构与训练方法,特别是加强对安全性和对抗性鲁棒性的关注,以确保其在面对挑战时能够提供更加可靠的防护。

未来研究趋势

研究人员认为,未来LVLM安全性研究将集中于几个关键领域。

首先,黑盒攻击的相关研究将逐步增多,黑盒攻击方法不依赖于对模型内部结构的访问,而是通过利用LVLM固有的能力,如光学字符识别(OCR)、逻辑推理等,从而提升攻击的可转移性和资源效率;

其次,跨模态安全对齐的研究将成为重要课题,考虑到视觉和文本输入的组合可能导致不安全输出,亟需在安全性设计中加强视觉与语言模态的协同,以避免潜在的风险;

第三,安全微调技术的多样化,特别是通过人类反馈强化学习(RLHF)和对抗训练等方法,将有助于在保持模型高效性能的同时显著提升其安全性。

最后,发展统一的策略基准框架将成为研究的重点,通过该框架能够更加有效地比较不同攻击与防御策略的优缺点,推动更强大且高效的解决方案,从而确保LVLM在实际应用中的安全性与鲁棒性。

参考资料:

https://arxiv.org/abs/2502.14881

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国敢“踢”中国出SWIFT?那就强制人民币买中国货

美国敢“踢”中国出SWIFT?那就强制人民币买中国货

看看新闻Knews
2026-04-07 00:42:06
卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

湖人崛起
2026-04-07 10:32:12
2026 年的比亚迪:学丰田出海,建电网破局

2026 年的比亚迪:学丰田出海,建电网破局

晚点LatePost
2026-04-03 19:39:52
张雪母亲改嫁后成为作家!回应:张雪骑车撞人我赔3万 借给他55万

张雪母亲改嫁后成为作家!回应:张雪骑车撞人我赔3万 借给他55万

念洲
2026-04-07 09:37:27
控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

运动健身号
2026-04-06 10:00:11
世界名画:日本男乒全队冷漠死死盯着王楚钦庆祝 张本智和呆若木鸡

世界名画:日本男乒全队冷漠死死盯着王楚钦庆祝 张本智和呆若木鸡

风过乡
2026-04-07 07:01:02
反转!张雪机车LOGO 陷相似争议,网友神评:难怪说LOGO是送的!

反转!张雪机车LOGO 陷相似争议,网友神评:难怪说LOGO是送的!

LOGO研究所
2026-04-06 11:40:58
王楚钦太天真!夺冠放豪言,却没认清现实残酷,前国手透露坏消息

王楚钦太天真!夺冠放豪言,却没认清现实残酷,前国手透露坏消息

三十年莱斯特城球迷
2026-04-06 22:38:04
学术会议竟然敢拉黑中国!科协一声令下,它在中国连张纸都不如。

学术会议竟然敢拉黑中国!科协一声令下,它在中国连张纸都不如。

兴史兴谈
2026-04-06 09:23:10
痛心!安徽失踪6岁女孩,已遇害,凶手是熟人,正脸照曝光

痛心!安徽失踪6岁女孩,已遇害,凶手是熟人,正脸照曝光

魔都姐姐杂谈
2026-04-07 04:25:35
历时一个月,日本仍有40余艘油轮滞留波斯湾,日石油行业人士:没有中东原油,我们举步维艰,日媒警告:或演变成日本生死攸关问题

历时一个月,日本仍有40余艘油轮滞留波斯湾,日石油行业人士:没有中东原油,我们举步维艰,日媒警告:或演变成日本生死攸关问题

极目新闻
2026-04-07 10:18:30
张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

汉史趣闻
2026-04-07 08:45:15
以色列宣布已停止所有对法国防采购

以色列宣布已停止所有对法国防采购

财联社
2026-04-05 22:04:05
“美女处长”陶荔芳:从临时工睡成副处长,除了生理期就没闲过

“美女处长”陶荔芳:从临时工睡成副处长,除了生理期就没闲过

小琴动漫
2026-04-06 17:41:44
沉默即生存!美国黑科技,救了失踪飞行员一条命

沉默即生存!美国黑科技,救了失踪飞行员一条命

深度报
2026-04-06 22:11:52
伊朗议长顾问:我们已经赢了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器时代

伊朗议长顾问:我们已经赢了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器时代

极目新闻
2026-04-07 09:26:03
罕见!浙江渔民捕获2条“巨无霸”金枪鱼,总市值超10万,船老大:“捕鱼30多年,头一回见!”

罕见!浙江渔民捕获2条“巨无霸”金枪鱼,总市值超10万,船老大:“捕鱼30多年,头一回见!”

极目新闻
2026-04-07 08:54:24
“伊斯兰堡协议”成型

“伊斯兰堡协议”成型

西楼饮月
2026-04-06 22:43:46
醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

清沐执笔
2026-04-06 19:18:29
郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

刘襈说体坛
2026-04-03 15:23:26
2026-04-07 11:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14912文章数 66754关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

浙江渔民捕获2条"巨无霸"金枪鱼 船老大:30多年头回见

头条要闻

浙江渔民捕获2条"巨无霸"金枪鱼 船老大:30多年头回见

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

家居
健康
教育
手机
游戏

家居要闻

雅致惬意 感知生活之美

干细胞抗衰4大误区,90%的人都中招

教育要闻

四年级竞赛题:用10、10、4、4算出24点

手机要闻

iPhone Air销量惨败 苹果不死心:Air 2已在路上

《给他爱5》代码泄露 曝光R星《Agent》主角模型

无障碍浏览 进入关怀版