网易首页 > 网易号 > 正文 申请入驻

通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

0
分享至



随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。

在这一背景下,清华大学人工智能学院团队提出了DAVSP(Deep Aligned Visual Safety Prompt)。该工作以Oral 形式被 AAAI 2026 录用。

DAVSP 通过引入全新的视觉安全提示与深度对齐策略,在几乎不破坏模型正常能力的前提下,显著提升了大型视觉语言模型对恶意输入的抵御效果,为大型视觉语言模型的安全对齐提供了新的方法。



  • 论文链接:https://arxiv.org/pdf/2506.09353
  • Github 链接:https://github.com/zhangyitonggg/DAVSP

研究背景与问题

大型视觉语言模型(LVLMs)虽在多模态任务中表现亮眼,但其安全隐患正迅速显现。攻击者可以将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容。因此,如何增强 LVLMs 对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题。

如何提升 LVLMs 的安全性?一条常见并且轻量级的思路是对用户请求添加安全提示(safety prompt)以引导模型遵循安全准则。文本领域已有通过在用户文本前加入提示语来提高模型安全性的方法。但在多模态场景下,仅保护文本远远不够,攻击者完全可以绕过文本提示,将威胁藏在图像中。

近期工作如 ESIII、UniGuard 尝试在图像上添加可训练的视觉安全扰动,以提升模型拒绝恶意请求的能力,并与文本安全提示结合取得一定成效。然而,这类视觉安全扰动在真实应用中仍存在两大问题:

  • 安全性不足:例如在 FigStep 基准上,即便加入视觉安全扰动,模型仍有约 30% 的恶意输入没有被成功拒绝。
  • 性能损害明显:在 MME 基准上,某模型的得分从 1818 直接跌至 1403,意味着模型「更安全」的同时也显著「变弱」。

上述缺陷背后的原因在该研究中被进一步剖析:

  • 首先,直接在图像像素上叠加噪声会不可避免地扰乱图像的关键视觉特征(如边缘、纹理、色彩分布),削弱模型对图像的感知,从而影响模型的性能。为减轻这一问题,扰动幅度不得不被严格限制,但这又极大压缩了可用的优化空间,限制了视觉安全扰动发挥作用的能力。
  • 其次,仅依据模型最终输出是否安全来训练扰动(比如让模型尽量输出预设的拒绝语)属于浅层的对齐,模型可能学到的是表面模式而非真正的安全准则。因此经常出现模型回复以「抱歉」开头,看似拒绝,但紧接着还是给出了有害内容的情况。图 1 的案例直观展示了这一「表面拒绝」现象:左侧施加传统安全扰动的模型先说「抱歉不能帮助」,却随后继续提供了实行非法黑客行为的具体步骤。



针对以上挑战,清华大学人工智能学院团队在 AAAI 2026 上提出了全新的安全对齐方法DAVSP(Deep Aligned Visual Safety Prompt)。

该方法的核心思想是从视觉提示范式和训练对齐机制两方面同时创新,以克服以往方法的局限性。在保证模型对正常输入性能几乎不受影响的前提下,大幅提升模型对恶意多模态攻击的抵御能力。下面我们详细介绍 DAVSP 的方法原理和其两项关键创新:视觉安全提示(Visual Safety Prompt)和深度对齐(Deep Alignment)。

方法与创新:深度对齐的视觉安全提示(DAVSP)

DAVSP 整体思路:作者重新审视了将安全提示引入视觉模态的范式,提出视觉安全提示(VSP)来取代传统的图像全局扰动,并设计了深度对齐(DA)的训练策略让模型从内部真正理解何为「不安全」输入。下图概览了 DAVSP 的工作原理。



视觉安全提示

视觉安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型视觉提示范式。不同于以往直接在整幅图像像素上加扰动的方法,VSP 选择在输入图像周围添加一圈额外的可训练边框,作为安全提示区域。这样做有两大好处:

  • 保护原始视觉特征:由于提示信息只存在于图像边缘的新扩展区域,而不直接修改原图的像素,视觉安全提示不会破坏原有图像的关键细节。模型在处理时能够较好地接收到原图信息,从而保证对良性输入的正常感知与理解不会因提示的加入而下降。实验中也验证了这一点:使用 DAVSP 后模型在多个基准上的各项性能几乎与仅施加文本安全提示时相当,显著少于于以往视觉安全扰动方法的性能损失。
  • 扩大优化空间:相较于传统像素级的视觉安全扰动(其扰动幅度常被严格限制在如 32/255 的极小范围内),视觉安全提示通过引入额外的图像边界区域,可以被优化为任意像素值,大大拓宽了可学习参数的空间。实验表明,在消除了这一扰动幅度限制后,在测试时能够表现出更强有力的安全对齐能力。

此外,视觉安全提示作为一种「即插即用」的模块具有实用优势:只需在推理时将图像加上优化得到的视觉安全提示,不需要改动模型结构,也不会带来额外的计算开销或显著延迟。

深度对齐

有了合适的提示范式,还需要有效的训练策略使视觉安全提示发挥作用。DAVSP 的第二项创新深度对齐(Deep Alignment)旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对「有害 / 无害」信息的区分能力。

研究人员注意到,大型视觉语言模型内部往往已经蕴含了一定的对有害意图的「潜在辨别能力」—— 即恶意查询和正常查询在模型中的激活向量存在系统性差异。与其仅看最终输出是否拒绝,不如利用模型内部表征来指导训练,促使模型从内部真正认知到哪些输入是不安全的。具体来说,作者提出了以下步骤:

  1. 构建有害向量:首先在模型内部选取一层(如解码器的中间层),比较模型处理一组容易拒绝的恶意样本与一组正常良性样本时该层激活向量的差异。通过计算两组样本在该层最终一个输入 token 的平均激活差,得到一个向量方向,称为「有害向量」。直观理解,这个向量代表了将模型内部表示从「良性」方向推向「恶意」方向的变化方向。
  2. 深度对齐训练:有了有害向量,就可以在训练视觉安全提示时引入一种基于内部表示的目标。具体做法是:让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少。也就是说,训练过程中视觉提示会被不断优化,促使模型对恶意查询在激活向量上更偏向「有害」方向,从而模型更容易意识到「这是不好的请求」,进而在输出层拒绝回答;相反,对正常输入则压低这种有害方向的激活,避免模型误判正常请求为有害请求。

实验结果

作者在多个基准上对 DAVSP 进行了全面评估,结果显示该方法在抵御恶意攻击和保持模型实用性两方面均显著优于现有方案。

  • 恶意输入抵御能力:在两个具有代表性的恶意多模态数据集上,DAVSP 取得了远高于现有同类方法的拒绝率(RSR,Resist Success Rate)。



  • 良性任务性能:与提升安全性相对应,DAVSP 对模型正常能力的影响却很微小。DAVSP 在多个基准上的实用性评分与仅施加文本安全提示时持平,且优于其他视觉安全扰动的方法。



  • 跨模型泛化:令人惊喜的是,DAVSP 训练得到的视觉安全提示具有一定的泛化能力,可以在不同模型之间迁移使用。



  • 关键组件作用:通过消融实验,作者验证了 DAVSP 的两大创新 —— 视觉安全提示和深度对齐 —— 缺一不可。移除深度对齐、仅对输出进行监督时,模型对恶意攻击的抵抗成功率大幅下降。同样地,将视觉安全提示替换回原始的像素级的视觉安全扰动后,会造成安全性和实用性同时退化。



团队介绍

本研究由清华大学人工智能学院团队完成。通讯作者为清华大学人工智能学院李佳助理教授,主要研究方向包括人工智能和软件工程的交叉赋能、AI for SE、SE for AI 等。第一作者张奕彤将于明年正式入学清华大学人工智能学院攻读博士学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
因年终奖为零,我平静辞职后去环游世界,三天后老板在群里@我

因年终奖为零,我平静辞职后去环游世界,三天后老板在群里@我

徐侠客有话说
2025-12-08 10:29:05
13岁男孩三年前疑在饭店烫伤休克去世,涉事店铺已注销 警方回应

13岁男孩三年前疑在饭店烫伤休克去世,涉事店铺已注销 警方回应

红星新闻
2026-01-06 13:05:59
1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

西楼饮月
2026-01-06 16:11:48
王力宏演唱会,2人被带走!

王力宏演唱会,2人被带走!

极目新闻
2026-01-06 19:39:55
分手8年,胖到认不出的coco自曝私密事,89岁谢贤还要为风流买单

分手8年,胖到认不出的coco自曝私密事,89岁谢贤还要为风流买单

好贤观史记
2026-01-06 15:20:16
大爱中国!56岁世界级名帅重返中超:曾培养出4名顶级巨星!

大爱中国!56岁世界级名帅重返中超:曾培养出4名顶级巨星!

邱泽云
2026-01-06 13:34:10
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
2026北京车牌摇号要取消?3大新政让无车家庭中签率翻126倍

2026北京车牌摇号要取消?3大新政让无车家庭中签率翻126倍

芭比衣橱
2026-01-06 13:03:35
曝罗志祥已立好遗嘱,停药后反应迟钝,含泪谈患病母亲看哭网友

曝罗志祥已立好遗嘱,停药后反应迟钝,含泪谈患病母亲看哭网友

心静物娱
2025-11-20 14:24:06
2026刚开年,人民日报再次点名张艺谋,释放2大信号,巩俐没说错

2026刚开年,人民日报再次点名张艺谋,释放2大信号,巩俐没说错

TVB的四小花
2026-01-06 00:36:40
杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

娱乐领航家
2026-01-04 22:00:03
1949年,解放军抽干中南海,挖出16万吨淤泥,水底究竟有什么

1949年,解放军抽干中南海,挖出16万吨淤泥,水底究竟有什么

清风鉴史
2026-01-05 21:13:13
泰国军方:柬方违反停火声明

泰国军方:柬方违反停火声明

每日经济新闻
2026-01-06 12:19:40
青岛街头突发, 有人被卷入车底! 危急时刻,现场涌上了一群人……

青岛街头突发, 有人被卷入车底! 危急时刻,现场涌上了一群人……

环球网资讯
2026-01-06 19:31:39
1881.8%!业余投资大佬段永平晒账户收益。。

1881.8%!业余投资大佬段永平晒账户收益。。

格隆汇
2026-01-06 17:49:09
重磅!曼联锁定“世界最佳主帅”,高薪+四年合约诚意拉满

重磅!曼联锁定“世界最佳主帅”,高薪+四年合约诚意拉满

夜白侃球
2026-01-06 20:15:50
中国家长通病:舍得花5万补数学,却不舍得花1分钱给孩子修“心”

中国家长通病:舍得花5万补数学,却不舍得花1分钱给孩子修“心”

星轨智算
2026-01-05 16:29:00
放弃中国选西班牙,如今高铁无法交付,这个欧洲小国后悔莫及

放弃中国选西班牙,如今高铁无法交付,这个欧洲小国后悔莫及

博览历史
2026-01-05 18:43:06
情况不妙,特朗普刚向中国做出承诺,马上就发现:金正恩有大动作

情况不妙,特朗普刚向中国做出承诺,马上就发现:金正恩有大动作

博览历史
2026-01-05 18:46:12
最高9.8分,美剧史上的入门级Top.10,建议收藏

最高9.8分,美剧史上的入门级Top.10,建议收藏

来看美剧
2026-01-04 20:33:49
2026-01-06 20:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12066文章数 142530关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

媒体:遭美袭击后第三天 委局势进入关键阶段

头条要闻

媒体:遭美袭击后第三天 委局势进入关键阶段

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

房产
亲子
数码
本地
公开课

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

亲子要闻

看了上海张柏芝的家,无数宝妈酸了:这才是拼三胎的基本条件!

数码要闻

威刚XPG发布Cybercore III电源 支持GPU功率监控及1000W/1200W双版本

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版