网易首页 > 网易号 > 正文 申请入驻

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

0
分享至

多模态大模型崛起,安全问题紧随其后

近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。通过将图像与文本深度融合,LVLMs 在图文问答、视觉推理等任务中大放异彩。但与此同时,一个严峻的问题也悄然浮现 ——LVLMs 比起纯文本模型更容易被 “越狱”。攻击者仅需通过图像注入危险意图,即使搭配直白的指令,模型也往往难以拒绝。

为应对这一挑战,已有方法尝试用跨模态安全微调、系统提示词设计或外部判别模块来加固模型防线。然而,这些方法普遍存在训练成本高、泛化能力差、甚至误判正常输入的风险。

模型其实 “心里有数”:越狱时隐藏状态在报警

来自香港中文大学 MMLab 与淘天集团未来生活实验室的研究者提出了 HiddenDetect—— 种无需训练的越狱检测新方法。核心作者包括姜一雷,谭映水,高欣颜,岳翔宇。

他们的核心发现是:即使 LVLMs 表面上被越狱、生成了不当内容,其隐藏状态中依然保留着拒绝的信号。特别是在模型的中间层,这些信号往往比最终输出更早、更敏感地 “察觉” 到潜在风险。更有趣的是,文字输入和图像输入会激活完全不同的 “安全通路”,也就是说,LVLMs 对不同模态的 “危险感知” 机制是有区分的。

论文已被 ACL2025 main conference 收录。

  • 项目开源 github 链接:https://github.com/leigest519/hiddendetect
  • arxiv 链接:https://arxiv.org/abs/2502.14744

从 “拒绝语义” 中解码多模态大模型的安全感知

图 1: 基于模型自身激活模式的多模态越狱检测方法。

首先,研究者从模型拒绝回答不安全输入的响应中,统计出一组高频出现的、具有明确拒绝语义的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 编码的方式,在词汇空间中构造出一个 “拒绝语义向量” (RV),作为模型拒绝行为的表示。随后,研究者将模型各层的隐藏状态通过反嵌入层投影回词汇空间,并计算出其与 RV 的余弦相似度,以此衡量当前层所包含的拒绝语义强度。该过程会生成一个长度等于模型层数的向量 F,用于刻画模型在各层对拒绝语义的激活强度。

实验结果显示,F 在安全与不安全输入之间存在显著差异:对于安全样本,F 的整体数值普遍较低;而对于不安全输入,F 通常在中间层逐步升高至峰值,随后在最后几层出现明显回落。此外,无论输入是否安全,F 在最后一层的数值仍普遍高于倒数第二层,表明模型在最终输出前仍保留一定的拒绝倾向。

为进一步分析模型的安全响应机制,研究者构建了三个小样本输入集,分别用于衡量模型在不同类型输入下的拒绝激活表现。其中,安全输入集由无害样本组成,既包含纯文本输入,也包含图文组合输入;另两个不安全输入集则分别对应纯文本攻击样本和图文联合的攻击样本。

如图 2 所示,每组样本都计算出其对应的拒绝强度向量 F,并将不安全输入的 F 与安全输入的 F 相减,得到 “拒绝差异向量” (FDV),用于衡量模型在处理不安全输入时相较于安全输入所产生的激活差异。

图 2: 通过少样本分析方法,识别出模型中对安全最敏感的关键层。

模态不同,响应路径也不同

如图 3 所示,两种模态的 FDV 曲线均表明模型在部分中间层对拒绝信号的响应强度显著高于输出层,说明这些中间层对安全性更加敏感。具体而言,文本输入的拒绝激活差异在较早的层级便迅速增强,而图文输入的响应整体偏后,且强度相对较弱,说明视觉模态的引入在一定程度上削弱了模型拒答机制的早期响应能力。

图 3:纯文本样本和跨模态样本的 FDV 曲线。

实验还发现如果模型对拒绝信号的强激活集中在更靠后的层,或者整体激活强度变弱,越狱攻击就更容易成功。有趣的是,研究者发现,仅仅为一条文本攻击提示加上一张图片,就可能让模型的拒绝反应变得延迟,原本中层就能激活的拒绝信号被 “推迟” 到了后层,整体响应强度也降低,从而削弱了模型的安全防护能力。

最终,该小样本分析方法通过 FDV 值成功定位了模型中对不同模态输入安全性最敏感的层。研究者将模型最后一层的差异值作为参考基线,因其对部分不安全输入缺乏足够辨别力;而那些 FDV 显著高于末层的中间层,通常具备更强的安全判别能力。

进一步地,只需累积在这些关键层上的拒绝激活强度,便可有效识别潜在的不安全样本,从而构建出一个高效、无需训练、具备良好泛化能力的越狱检测机制。

实验结果

研究团队在多个主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系统评估了所提出的检测方法,涵盖纯文本越狱(如 FigTxt)和跨模态图文攻击(如 FigImg 和 MM-SafetyBench)等多种攻击类型。此外,研究者还在 XSTest 数据集上测试了方法的稳健性。该数据集包含一些安全但易被误判的边界样本,常用于评估检测方法是否过度敏感。实验结果表明,该方法在保持高检测效果的同时,具备良好的鲁棒性和泛化能力。

可视化

图 4:每一层隐藏状态中最后一个 token 的 logits 被投影到由拒绝向量(RV)及其正交方向构成的语义平面。

结论与展望

安全是大模型走向真实世界应用过程中必须优先考虑的问题。HiddenDetect 提出了一种无需训练、基于激活信号的检测方法,为提升多模态模型的安全性提供了新的思路。该方法结构轻量、部署灵活,已在多个模型与攻击类型中展现出良好效果。尽管如此,该方法目前仍主要聚焦于风险提示,尚未对模型行为产生直接调控。未来,研究团队希望进一步拓展方法能力,并深入探索模态信息与模型安全性的内在关联,推动多模态大模型朝着更可靠、更可控的方向发展。

作者团队来自淘天集团算法技术 - 未来实验室团队和香港中文大学 MMLab。未来生活实验室致力于建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AINative 应用,引领 AI 在生活消费领域的技术创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联合国选举伊朗为核不扩散条约审议大会副主席,多国公开反对

联合国选举伊朗为核不扩散条约审议大会副主席,多国公开反对

Nee看
2026-04-28 11:29:36
把超市当“免费仓库”!杭州小夫妻带3岁孩子多次在超市“零元购”,专挑水果、儿童玩具、生活用品拿,被抓后还以为“给钱就行”

把超市当“免费仓库”!杭州小夫妻带3岁孩子多次在超市“零元购”,专挑水果、儿童玩具、生活用品拿,被抓后还以为“给钱就行”

环球网资讯
2026-04-28 15:15:52
国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

面包夹知识
2025-12-31 23:04:14
苦等乌军投降,普京反遭900亿与特朗普掀桌

苦等乌军投降,普京反遭900亿与特朗普掀桌

陈意小可爱
2026-04-28 15:48:41
巴尔达诺点评皇马帅位候选:穆帅已成过去,克洛普也不太合适

巴尔达诺点评皇马帅位候选:穆帅已成过去,克洛普也不太合适

懂球帝
2026-04-28 14:49:22
回来了!你好,隆多!已经面试NBA球队主帅

回来了!你好,隆多!已经面试NBA球队主帅

篮球实战宝典
2026-04-27 19:00:50
全球首家AI妓院,革了成人行业的命

全球首家AI妓院,革了成人行业的命

广告案例精选
2026-04-02 14:49:22
快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

黑翼天使
2026-03-30 13:23:53
枪击案发生时,特朗普旁边的华裔女记者原来是她!那个曾让“懂王”愤然离场的人……

枪击案发生时,特朗普旁边的华裔女记者原来是她!那个曾让“懂王”愤然离场的人……

新民周刊
2026-04-27 16:14:29
同学聚会,出轨的高发期!

同学聚会,出轨的高发期!

黯泉
2026-04-19 19:58:55
黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

顾史
2026-04-18 09:17:19
美国政坛要出大事了:万斯大概率要当选总统。

美国政坛要出大事了:万斯大概率要当选总统。

阿振观点
2026-04-21 05:22:52
王兆星同志逝世

王兆星同志逝世

新京报政事儿
2026-04-28 08:28:04
大佐要回来了?日本拟改自卫队官阶名称,麻生后悔了,高市或垮台

大佐要回来了?日本拟改自卫队官阶名称,麻生后悔了,高市或垮台

说历史的老牢
2026-04-28 12:28:36
受贿数额特别巨大,彭晓春被提起公诉

受贿数额特别巨大,彭晓春被提起公诉

21世纪经济报道
2026-04-28 10:37:40
中国外长刚走,泰国加速推进克拉地峡“陆桥计划”,2030年要建成

中国外长刚走,泰国加速推进克拉地峡“陆桥计划”,2030年要建成

全城探秘
2026-04-28 15:33:53
比孙千美比朱珠演技好,出道27年,没想到33岁靠着钟汉良火了一把

比孙千美比朱珠演技好,出道27年,没想到33岁靠着钟汉良火了一把

削桐作琴
2026-04-25 19:17:05
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
国乒忧心出现第二樊振东,球员自行参赛拒服从安排

国乒忧心出现第二樊振东,球员自行参赛拒服从安排

小僫搞笑解说
2026-04-28 04:50:41
美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

混沌录
2026-04-10 22:53:19
2026-04-28 16:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12879文章数 142638关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

尹锡悦夫人金建希涉操纵股价及受贿案宣判 获刑4年

头条要闻

尹锡悦夫人金建希涉操纵股价及受贿案宣判 获刑4年

体育要闻

季后赛最新局势:雷霆4-0晋级首队 4队3-1

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

数码
家居
教育
健康
公开课

数码要闻

华硕灵耀16 Air骁龙版:1.2kg高科技陶瓷铝机身 全能生产力本

家居要闻

江景风格 流动的秩序

教育要闻

两年布局3所高中,树德实验在下一盘什么棋

干细胞治疗烧烫伤三大优势!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版