网易首页 > 网易号 > 正文 申请入驻

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂

0
分享至

PSA-VLM 投稿
量子位 | 公众号 QbitAI

模型安全和可靠性、系统整合和互操作性、用户交互和认证……

当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。

应对挑战,淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型(VLM)安全对齐方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。

PSA-VLM通过基于概念瓶颈模型(CBM)的架构创新,允许模型在生成答案时干预模型的中间层概念预测,从而优化大模型的最终回复,显著提升VLM在应对视觉安全风险方面的性能。

这一方法不仅在安全性能上取得了卓越的表现,同时保持了模型的通用任务能力

一起来看。

视觉语言模型的安全隐忧:从“黑箱”到“可控”

近年来,大语言模型(LLMs)的发展促进了多模态学习的进步,使这些强大的语言模型能够处理来自多种模态的信息。

其中,视觉语言模型(VLMs)通过整合图像和文本特征,在视觉问答、图像描述以及多模态推理等任务上取得了显著成果。

然而,尽管VLMs取得了诸多进展,但其安全性仍然存在重大缺陷。

研究发现,在遭遇攻击时视觉模态表现出特别的脆弱性,针对VLM中视觉模态的攻击更容易成功:人们可以通过简单的攻击手段绕过语言模型基座已有的安全对齐机制,生成有害内容

这一问题对模型的社会应用造成严重隐患,亟需有效的解决方案。

△风险与误导数据示例

虽然一些研究探索了针对多模态模型的防御和对齐措施,然而,现有防御方法通常基于直觉设计并通过数据驱动的端到端训练实现。

模型仍然是一个人类难以理解和控制的黑箱。

此外,模型的高复杂性也带来了发现内部潜在缺陷的担忧,这都带来了模型具备可解释性和可控性的需求。

为了克服这些局限性,PSA-VLM的创新在于引入了概念瓶颈模型的核心思想——

通过一层可解释的高阶概念连接输入和输出,实现模型的透明化与可控性。

这不仅让模型能够准确识别不安全内容,还支持用户在概念层面对模型预测进行干预,为高风险场景提供了灵活可靠的解决方案。

PSA-VLM的设计亮点:基于概念瓶颈的安全创新

在VLMs中,安全对齐通常指的是确保模型对多模态输入(特别是可能包含敏感内容的视觉输入)生成受控且适当的响应。

VLMs在其视觉模态中面临特定的脆弱性,这些脆弱性使有害或不适当的内容能够绕过传统的基于语言的安全机制。

为了解决这一问题,研究团队提出了基于CBM框架的渐进式安全对齐方法PSA-VLM。

这种方法通过引入可控的概念瓶颈来隔离安全关键特征,从而通过分层的概念驱动架构增强了VLM的安全性。

概念瓶颈模型驱动的核心架构

PSA-VLM的核心设计围绕概念瓶颈(Concept Bottleneck)展开。

即通过在视觉输入与模型输出之间引入高阶安全概念层,实现模型的可透明化与可控性。

  • 显式概念安全头(Explicit Concept Safety Head):通过图片和文本信息的交叉注意力(Cross Attention),将视觉特征映射到具体的安全类型(如NSFW等)与风险等级(高、中、低),提供精细化的安全预测。
  • 隐式概念安全标记(Implicit Concept Safety Tokens):作为额外的训练令牌,直接嵌入视觉输入中,提升模型对隐性风险信号的敏感度。这些可训练令牌针对不安全视觉输入发出信号,根据概念特定指标对模型的注意力进行对齐。它可以被理解为语义上不可理解的隐式概念。
多模态协同的安全模块

分为以下2部分:

  • 安全投影器(Safety Projector):在视觉编码器(Image Encoder)之后,专注提取与安全相关的视觉特征,并将其转化为安全对齐的表示(Safety-Aligned Features)。
  • 文本-视觉对齐机制:结合文本输入(Text)和安全特征,通过联合条件(Joint Condition)生成安全提示(Safe Text),动态引导模型在高风险场景中输出安全响应。
两阶段训练策略

第一阶段,安全特征提取。

冻结大语言模型和视觉编码器,仅训练安全模块,聚焦于概念层次的风险识别与特征对齐。

初始阶段重点是通过安全投影器、令牌和头部提取和对齐安全概念。

这些组件学习对视觉输入中的安全对齐特征进行分类和提取,确保模型对风险内容的响应是一致的。

第二阶段,模型微调。

解冻大语言模型,将安全模块与语言模型深度集成,使其全面吸收安全概念特征,进一步提升跨模态输入的安全性能。

推理阶段的动态安全控制

在推理过程中,PSA-VLM利用安全头的输出对视觉内容进行动态干预,通过联合条件概率调整生成文本,确保对高风险内容的安全响应。

例如,在遇到不恰当的输入风险时,提供可操作的选项,让下游用户在推理时按需要进行选择,从而实现更灵活的安全管理。

△模型架构示意图

通过上述模块,PSA-VLM不仅提升了视觉语言模型在应对不安全内容方面的表现,还显著增强了模型的可解释性和可控性,为多模态系统的安全对齐树立了新范式。

在提升安全性的同时,通过设计高效的安全模块和对齐训练策略,确保模型在标准任务中的性能不受显著影响,达成安全与通用能力的平衡

从安全和通用领域两方面评估性能

有害数据在现实场景中多样且复杂,不限于单一来源、类型或模态。

为了解决这个问题,研究人员收集了多个数据集——他们手动将风险图像分类为6种类型和3个级别,以实现风险控制的分类和分级。

此外,通过抽样构建了一个相对平衡的数据集,其中包含约11,000对风险图像和文本查询。

注意,为了避免在微调期间通用性能下降,其中包括了部分LLaVA和COCO数据集作为干净的安全样本。

△训练与评测数据来源

具体来说,PSA-VLM团队从两个方面评估VLM性能:

  • 安全性能
  • 通用领域性能

为了确保公平比较,研究者首先使用RTVLM基准和GPT-4评分为基础的方法评估模型。

由于RTVLM数据集有限且不包含敏感数据,研究者扩展了评估范围,加入了额外的风险数据集;然后进一步结合GPT-4和人类专家的主观评估,提供全面而可信的评测。

在通用场景中评估模型性能时,团队使用了多个基准,包括MMBench、SEEDBench和 MME。

首先来看安全性能方面。

团队首先使用RTVLM基准对VLMs的不同维度进行了GPT-4评分分析,包括四个不同类别以深入理解模型的安全能力。

△RTVLM基准上的安全性能评测结果

如上图所示,团队评估了多个开源VLM以及GPT-4V和我们的PSA-VLM。

结果表明,GPT-4V在各种类别上表现良好,尤其是验证码和越狱场景等安全领域;InternLM-XComposer2在多个指标上表现突出。

经过对齐后,基于LLaVA的PSA-VLM同样表现出强大的性能,特别是在使用LoRA解冻LLM时,其在政治(8.36)和种族(8.43)上获得了最高分。

从平均得分来看,PSA-VLM-7B(+LoRA)以8.26的领先得分脱颖而出,其次是未解冻LLM的PSA-VLM,得分为8.18。

值得注意的是,13B模型使用LoRA达到8.46的最高平均分。

PSA-VLM相较其他VLM的提升安全得分,突显了附加安全模块和两阶段安全对齐策略的有效性。

不过,RTVLM数据集不包括NSFW等其他高风险敏感数据。

因此,研究团队在其他风险数据集上进行了实验,以评估PSA-VLM的安全性能。

如下图所示,PSA-VLM-13B在有害政治(9.49)、NSFW内容(8.72)和网络欺凌检测(7.45)上取得了最佳性能,显著优于基线模型LLaVA-v1.5-13B,其得分为6.67、1.11和6.16。

尽管使用LoRA解冻的PSA-VLM-7B在某些任务中得分稍有下降(如8.91和6.82),但仍显著优于LLaVA-v1.5-7B。

△其他风险数据集上的安全性能评测结果

接着来看通用领域性能方面。

在PSA-VLM中,提高安全性能并非以牺牲通用性能为代价

尽管采取了增强的安全措施,PSA-VLM-7B在MMBench、SEEDBench和MME等通用基准上仍保持竞争力。

如下图所示,PSA-VLM-7B在MMBench和SEEDBench通用基准上表现出改进,分别取得68.5和65.3的分数,显示出更好的通用性能。

△常见通用多模态性能测试基准结果

此外,在多模态基准的评估中,PSA-VLM-7B有效识别并拒绝响应多个潜在风险图像,显示其对潜在不安全内容的高度敏感性,并强调了PSA-VLM安全对齐方法的有效性。

被认为不安全的图像被过滤,从而允许研究过程能使用完全干净的数据评估通用性能。

这种对不安全内容的响应能力反映了PSA-VLM-7B可靠的安全性能,同时不影响其整体性能能力。

最后,研究团队还做了进一步实验。

如图(a)所示,t-SNE可视化展示了二维空间中不安全图像特征的分离。

每个子图对应一组特征集和标签的不同组合,展示了原始和安全特征之间的差异。

在使用安全投影器后,不安全图像的特征显著分为不同的簇,这表明提取到的特征和安全标签的相关性很强,有效地学习到了输入中的风险信息。

△图(a),安全特征的t-SNE可视化

如图3(b)所示,研究团队还在信息瓶颈层测试了安全级别和安全类型的分类性能,包括准确率和F1得分。

这些得分大多数在90%以上,表明模型可以有效地完成安全信息提取的任务。

△图(b),安全级别和安全类型的分类性能

对齐后的输出实例如下图所示:

综上来看,在主流VLM安全基准上的测试表明,PSA-VLM在多个维度上改善了现有VLM的安全性指标,在部分特定任务中表现出色。

例如,在LLaVA-1.5 7B基座上,即使只使用4*A100,1小时的计算资源进行一阶段对齐,就可以将RTVLM基准测试评分从6.39提升到8.18。

同时,其概念瓶颈架构极大增强了模型的可解释性和可控性,使其成为高风险领域(如医疗、教育)的理想选择。

PSA-VLM的成功应用还具有重要的社会价值,例如通过实时监测与干预不安全内容,降低模型被恶意利用的风险;增强的透明度与安全性有助于提升用户对AI系统的信心,促进多模态模型在社会场景中的广泛应用。

PSA-VLM的提出尝试为多模态模型的可信性与可控性树立了新标杆。

随着更多数据集的完善与模型架构的优化,基于概念的安全对齐策略有望在更广泛的领域中得到应用,助力多模态大模型向更高的社会价值迈进。

One More Thing

PSA-VLM项目的核心作者包括刘振东,聂远碧,谭映水,岳翔宇,崔秋实等。

整个团队中,有四位来自淘天集团算法技术-未来实验室团队。

该实验室聚焦大模型、多模态等AI技术方向,致力于打造大模型相关基础算法、模型能力和各类AI Native应用。

团队将持续在大语言模型和多模态大语言模型对齐方向的研究。如您有任何疑问、建议、或合作意向,欢迎随时通过电子邮件联系。

电子邮箱:
tanyingshui.tys@taobao.com
论文链接:
https://arxiv.org/pdf/2411.11543
项目主页:
https://github.com/Yingshui-Tan/PSA-VLM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是大家挤破头要去央企的原因…

这就是大家挤破头要去央企的原因…

慧翔百科
2026-06-24 17:21:25
副院长出轨眼科主任,不雅视频遭热议,男方近况太意外,女方实惨

副院长出轨眼科主任,不雅视频遭热议,男方近况太意外,女方实惨

小鋭有话说
2026-06-25 12:32:55
袁咏仪回应儿子进娱乐圈:我没看到他的天分!其与张智霖之子身高超1米8,帅气五官酷似爸妈

袁咏仪回应儿子进娱乐圈:我没看到他的天分!其与张智霖之子身高超1米8,帅气五官酷似爸妈

新浪财经
2026-06-23 19:09:28
我57岁,奉劝大家:父母一旦超过91岁,请立刻停止这4种行为

我57岁,奉劝大家:父母一旦超过91岁,请立刻停止这4种行为

新时代的两性情感
2026-06-23 15:52:50
美媒:因机长飞行途中突发疾病“丧失行动能力”,加拿大航空一航班被迫改降

美媒:因机长飞行途中突发疾病“丧失行动能力”,加拿大航空一航班被迫改降

环球网资讯
2026-06-25 10:05:08
我生的我说了算!霸占女儿15年,妻子阻拦被打残,江西恶父霸女案

我生的我说了算!霸占女儿15年,妻子阻拦被打残,江西恶父霸女案

易玄
2026-06-24 00:20:26
79岁王奎荣将北京140平房子、2000多万存款,全部赠予小37岁妻子

79岁王奎荣将北京140平房子、2000多万存款,全部赠予小37岁妻子

老鹈爱说事
2026-06-23 02:15:54
乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

项鹏飞
2026-06-23 20:08:08
“忍了整整8年才动手!”普京公开爆料,泽连斯基求和信沦为笑柄

“忍了整整8年才动手!”普京公开爆料,泽连斯基求和信沦为笑柄

长星寄明月
2026-06-25 18:57:48
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

人生录
2026-06-23 22:35:45
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
勇士新首发五虎确定,五人全部能投三分,但球迷担心会爆发内讧

勇士新首发五虎确定,五人全部能投三分,但球迷担心会爆发内讧

冷桂零落
2026-06-25 17:27:20
特朗普:委内瑞拉强震造成惨重死亡

特朗普:委内瑞拉强震造成惨重死亡

新京报
2026-06-25 12:12:21
天捅破了!上海房价最高100万/㎡!

天捅破了!上海房价最高100万/㎡!

新浪财经
2026-06-25 13:38:54
西方感到破防!为什么中国一崛起,那群移民海外的华裔反而最痛苦

西方感到破防!为什么中国一崛起,那群移民海外的华裔反而最痛苦

领悟看世界
2026-06-25 01:00:40
605336,筹划重大资产重组!股价3天2涨停!

605336,筹划重大资产重组!股价3天2涨停!

新浪财经
2026-06-25 20:20:25
听哥一句劝,这样的老婆你守不住!不信,走着瞧!

听哥一句劝,这样的老婆你守不住!不信,走着瞧!

皮蛋儿电影
2026-06-23 10:23:34
抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

手工制作阿歼
2026-06-23 11:46:19
黄子韬刚收到处罚通知,徐艺洋就被曝美国产子,难堪的一幕出现

黄子韬刚收到处罚通知,徐艺洋就被曝美国产子,难堪的一幕出现

老娱记啊
2026-06-25 15:08:50
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
2026-06-25 20:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12841文章数 176502关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

东风奕派纳米06智趣版上市 指导价9.99万元起

态度原创

时尚
数码
亲子
房产
教育

最高级的夏季配色,来了!

数码要闻

酷比魔方iPlay 70 Max Pro将上市 13英寸2.5K屏+国产芯片

亲子要闻

2026孕前养巢肌醇分享,肌醇哪个牌子不易产生身体不适感?呵护卵巢实现助孕目标

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

教育要闻

【资讯】南方教研大讲堂二次教研活动暨“莞邑教研大讲堂”第7场(小学劳动专场)活动举办

无障碍浏览 进入关怀版