网易首页 > 网易号 > 正文 申请入驻

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

0
分享至



多模态大模型崛起,安全问题紧随其后

近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。通过将图像与文本深度融合,LVLMs 在图文问答、视觉推理等任务中大放异彩。但与此同时,一个严峻的问题也悄然浮现 ——LVLMs 比起纯文本模型更容易被 “越狱”。攻击者仅需通过图像注入危险意图,即使搭配直白的指令,模型也往往难以拒绝。

为应对这一挑战,已有方法尝试用跨模态安全微调、系统提示词设计或外部判别模块来加固模型防线。然而,这些方法普遍存在训练成本高、泛化能力差、甚至误判正常输入的风险。

模型其实 “心里有数”:越狱时隐藏状态在报警

来自香港中文大学 MMLab 与淘天集团未来生活实验室的研究者提出了 HiddenDetect—— 种无需训练的越狱检测新方法。核心作者包括姜一雷,谭映水,高欣颜,岳翔宇。

他们的核心发现是:即使 LVLMs 表面上被越狱、生成了不当内容,其隐藏状态中依然保留着拒绝的信号。特别是在模型的中间层,这些信号往往比最终输出更早、更敏感地 “察觉” 到潜在风险。更有趣的是,文字输入和图像输入会激活完全不同的 “安全通路”,也就是说,LVLMs 对不同模态的 “危险感知” 机制是有区分的。

论文已被 ACL2025 main conference 收录。



  • 项目开源 github 链接:https://github.com/leigest519/hiddendetect
  • arxiv 链接:https://arxiv.org/abs/2502.14744

从 “拒绝语义” 中解码多模态大模型的安全感知



图 1: 基于模型自身激活模式的多模态越狱检测方法。

首先,研究者从模型拒绝回答不安全输入的响应中,统计出一组高频出现的、具有明确拒绝语义的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 编码的方式,在词汇空间中构造出一个 “拒绝语义向量” (RV),作为模型拒绝行为的表示。随后,研究者将模型各层的隐藏状态通过反嵌入层投影回词汇空间,并计算出其与 RV 的余弦相似度,以此衡量当前层所包含的拒绝语义强度。该过程会生成一个长度等于模型层数的向量 F,用于刻画模型在各层对拒绝语义的激活强度。



实验结果显示,F 在安全与不安全输入之间存在显著差异:对于安全样本,F 的整体数值普遍较低;而对于不安全输入,F 通常在中间层逐步升高至峰值,随后在最后几层出现明显回落。此外,无论输入是否安全,F 在最后一层的数值仍普遍高于倒数第二层,表明模型在最终输出前仍保留一定的拒绝倾向。

为进一步分析模型的安全响应机制,研究者构建了三个小样本输入集,分别用于衡量模型在不同类型输入下的拒绝激活表现。其中,安全输入集由无害样本组成,既包含纯文本输入,也包含图文组合输入;另两个不安全输入集则分别对应纯文本攻击样本和图文联合的攻击样本。



如图 2 所示,每组样本都计算出其对应的拒绝强度向量 F,并将不安全输入的 F 与安全输入的 F 相减,得到 “拒绝差异向量” (FDV),用于衡量模型在处理不安全输入时相较于安全输入所产生的激活差异。





图 2: 通过少样本分析方法,识别出模型中对安全最敏感的关键层。

模态不同,响应路径也不同

如图 3 所示,两种模态的 FDV 曲线均表明模型在部分中间层对拒绝信号的响应强度显著高于输出层,说明这些中间层对安全性更加敏感。具体而言,文本输入的拒绝激活差异在较早的层级便迅速增强,而图文输入的响应整体偏后,且强度相对较弱,说明视觉模态的引入在一定程度上削弱了模型拒答机制的早期响应能力。



图 3:纯文本样本和跨模态样本的 FDV 曲线。

实验还发现如果模型对拒绝信号的强激活集中在更靠后的层,或者整体激活强度变弱,越狱攻击就更容易成功。有趣的是,研究者发现,仅仅为一条文本攻击提示加上一张图片,就可能让模型的拒绝反应变得延迟,原本中层就能激活的拒绝信号被 “推迟” 到了后层,整体响应强度也降低,从而削弱了模型的安全防护能力。

最终,该小样本分析方法通过 FDV 值成功定位了模型中对不同模态输入安全性最敏感的层。研究者将模型最后一层的差异值作为参考基线,因其对部分不安全输入缺乏足够辨别力;而那些 FDV 显著高于末层的中间层,通常具备更强的安全判别能力。



进一步地,只需累积在这些关键层上的拒绝激活强度,便可有效识别潜在的不安全样本,从而构建出一个高效、无需训练、具备良好泛化能力的越狱检测机制。



实验结果

研究团队在多个主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系统评估了所提出的检测方法,涵盖纯文本越狱(如 FigTxt)和跨模态图文攻击(如 FigImg 和 MM-SafetyBench)等多种攻击类型。此外,研究者还在 XSTest 数据集上测试了方法的稳健性。该数据集包含一些安全但易被误判的边界样本,常用于评估检测方法是否过度敏感。实验结果表明,该方法在保持高检测效果的同时,具备良好的鲁棒性和泛化能力。



可视化



图 4:每一层隐藏状态中最后一个 token 的 logits 被投影到由拒绝向量(RV)及其正交方向构成的语义平面。

结论与展望

安全是大模型走向真实世界应用过程中必须优先考虑的问题。HiddenDetect 提出了一种无需训练、基于激活信号的检测方法,为提升多模态模型的安全性提供了新的思路。该方法结构轻量、部署灵活,已在多个模型与攻击类型中展现出良好效果。尽管如此,该方法目前仍主要聚焦于风险提示,尚未对模型行为产生直接调控。未来,研究团队希望进一步拓展方法能力,并深入探索模态信息与模型安全性的内在关联,推动多模态大模型朝着更可靠、更可控的方向发展。

作者团队来自淘天集团算法技术 - 未来实验室团队和香港中文大学 MMLab。未来生活实验室致力于建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AINative 应用,引领 AI 在生活消费领域的技术创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

萌兰聊个球
2025-11-17 09:07:58
德国媒体哀叹:中美两强博弈,难道我们欧盟真就只配当棋子了吗?

德国媒体哀叹:中美两强博弈,难道我们欧盟真就只配当棋子了吗?

历史求知所
2025-11-16 13:55:08
放心,打不起来

放心,打不起来

基本常识
2025-11-16 23:57:22
震惊!杨兰兰案第四次庭审,惊爆全网

震惊!杨兰兰案第四次庭审,惊爆全网

热点菌本君
2025-11-16 17:48:30
乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

百态人间
2025-11-05 05:35:03
湖南一婴儿一出生就15岁?4岁男孩和19岁双胞胎姐姐“同龄”,医生:冻胚理论上可无限期保存

湖南一婴儿一出生就15岁?4岁男孩和19岁双胞胎姐姐“同龄”,医生:冻胚理论上可无限期保存

极目新闻
2025-11-17 13:33:51
选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

谈古论今历史有道
2025-11-13 17:40:03
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
“东宁忠诚伯冯锡范”这个称呼,问题有多严重?

“东宁忠诚伯冯锡范”这个称呼,问题有多严重?

名人苟或
2025-11-17 06:02:33
钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

奥字侃剧
2025-11-14 18:17:50
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

兰姐说故事
2025-09-30 17:10:15
泰国国王给中国送上大礼,想要的中国也给了,美国彻底失去东盟?

泰国国王给中国送上大礼,想要的中国也给了,美国彻底失去东盟?

近史博览
2025-11-16 23:15:27
剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

荆楚寰宇文枢
2025-11-16 21:12:28
唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

我爱英超
2025-11-17 01:11:30
刚刚,江苏下雪了!0℃,常州接下来……

刚刚,江苏下雪了!0℃,常州接下来……

中吴网
2025-11-17 13:17:02
夺舍换心都不靠谱,真相还看李嘉诚!

夺舍换心都不靠谱,真相还看李嘉诚!

BenSir本色说
2025-11-14 22:40:16
9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

侧身凌空斩
2025-11-16 23:54:36
宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

极目新闻
2025-11-17 09:37:57
0.8秒三分准绝杀!马卡47分爵士双加时险胜公牛 吉迪26+12+13

0.8秒三分准绝杀!马卡47分爵士双加时险胜公牛 吉迪26+12+13

醉卧浮生
2025-11-17 12:22:17
2025-11-17 16:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11733文章数 142506关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

台34个团体严正抗议:拒绝成为日本军国主义的牺牲品

头条要闻

台34个团体严正抗议:拒绝成为日本军国主义的牺牲品

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

家居
教育
本地
数码
艺术

家居要闻

回廊通道 强化空间秩序

教育要闻

12岁小学生自杀

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

华硕天选6X台式机评测:酷睿Ultra 5处理器稳定高效 专业售后使用更安心

艺术要闻

这雪景,太美了!

无障碍浏览 进入关怀版