网易首页 > 网易号 > 正文 申请入驻

SafeBench:多模态大模型安全评估框架,揭示MLLM安全隐患

0
分享至

过去一年,以 GPT-4V、GPT-4o 为代表的多模态大型语言模型(Multimodal Large Language Models,MLLMs)取得了前所未有的进展。通过将大语言模型进行扩展为支持多模态输入或输出的模型,使其在图像描述、视觉问答等多项任务中展现了巨大的潜力。

但另一方面,由于多模态数据的复杂性、不一致性等原因,这些模型在生成内容时,容易出现偏离原意的情况,甚至输出有害内容,这使得对 MLLMs 进行安全性评估变得尤为重要。

针对这一问题,来自北京航空航天大学、中国科学技术大学、新加坡国立大学与新加坡南洋理工大学等的合作团队提出了 SafeBench,一种专门用于全面评估 MLLMs 安全性的框架。

相关论文以《SafeBench:多模态大型语言模型的安全评估框架》(SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models)为题发表在预印本网站arXiv上。

此前,已经有部分研究针对 MLLMs 提出了一系列安全评估基准,但它们在数据质量和评估可靠性上仍存在明显的不足。例如,现有的安全评估工具在数据质量上存在覆盖不足的问题,难以全面揭示多模态模型的潜在风险,且评估协议的可靠性有限,容易受到单一模型判断的偏见影响。

因此,研究团队希望通过综合性有害查询数据集和自动化评估协议,解决现有安全评估工具在数据质量和评估可靠性上的不足。

SafeBench 的核心由两个部分组成:首先,研究团队设计了自动安全数据集生成管道,采用了一套大模型裁判系统,用于识别和分类最具风险的场景。

这些裁判能够基于风险分类体系产生高质量的有害查询,共生成了 23 种风险场景,共计 2300 对多模态有害查询对。这些风险场景涵盖了包括非法行为、隐私侵犯、仇恨言论、心理和身体伤害等多个方面,以确保全面覆盖 MLLMs 可能涉及的各种安全隐患。

在数据生成过程中,LLM 裁判首先对潜在的高风险场景进行分类,然后根据这些分类生成对应的有害查询,这些查询具有高度的多样性和覆盖性,可以有效揭示 MLLMs 在不同情境下的安全表现。

其次,SafeBench 在评估时借鉴了司法审判中的陪审团制度,提出了陪审团审议评估协议。这一协议通过多个 LLMs 协作评估模型的潜在有害行为,为内容安全风险提供了更为可靠且公正的评估。

具体而言,SafeBench 的陪审团审议评估协议由 Llama-3-8B、Qwen-7B-Chat 等五个独立的 LLMs 组成,每个模型都会对目标模型的输出进行评估,并给出是否存在安全风险的判断以及风险等级评分。在评估过程中,多个 LLMs 之间会进行协作讨论,以达成共识。这种类似于陪审团的评估机制,极大地提高了评估结果的可靠性和一致性,避免了单一模型评估时可能存在的偏见问题。

基于 SafeBench 框架,研究团队对 15 种广泛使用的开源 MLLMs 和 6 种商业 MLLMs(如 GPT-4o、Gemini、GLM-4V 等)进行了大规模实验,揭示了现有 MLLMs 的广泛安全性问题。

结果表明,许多现有的 MLLMs 在处理多模态输入时,容易受到有害查询的影响,导致生成不安全内容。在涉及非法行为、仇恨言论和隐私侵犯等场景下,许多模型都未能有效拒绝这些有害请求,甚至生成了具体的实施步骤。

整体来看,大多数商业模型的安全性能都优于开源模型,二者的平均安全性风险指数(SRI)差距为 20.78,平均攻击成功率(ASR)差距为 26.38%。

在商业模型中,Claude-3.5-Sonnet 表现最佳,ASR 仅为 0.7%,SRI 为 99.3;而在开源模型中,Phi 系列模型表现较优,ShareGPT4V 的安全性能最差,ASR 高达 38.8%。

而商业模型中表现最差的 GPT-4o,其安全性能甚至低于表现最佳的开源模型 Phi-3.5-Vision-Instruct。

此外,研究团队还观察了安全性能与通用性能之间的权衡关系。在商业模型中,Claude-3.5-Sonnet 在安全和通用性能上均表现较优,Gemini 系列不同性能模型的安全性能没有明显差距,但 GPT 系列中,性能更强的 GPT-4o 的安全性能却变得更差;而在开源模型中,通用性能较强的模型往往表现出较弱的安全性能。

实验还展示了图像质量和模型参数大小对模型安全性能的影响。

对于不同模型来说,安全性能与参数规模之间并非简单线性关系。例如,Phi-3-Vision-128K-Instruct 尽管参数量较小,但安全性能优于许多更大规模的模型,原因或许就在于其训练数据质量要更高。

而对于同系列的模型来说,模型参数与安全性能呈正相关关系。但更高质量的图像输入,却可能增加生成有害内容的风险,原因或在于高质量的输入会使得模型在生成内容时更加准确,更能对其产生诱导。

总之,通过综合性有害查询数据集和自动化评估协议,Safebench 弥补了现有评估工具在数据覆盖和可靠性上的不足,提供了一套更为全面的多模态风险评估方法。

它还包含一个实时更新的安全性排行榜,可以帮助开发者识别和改进模型的安全问题,并且具备扩展到音频模式的能力,不仅适用于文本和图像的评估,也适用于音频输入的安全性分析。

可以说,SafeBench 不仅为多模态 AI 模型的开发者提供了一套可靠的安全评估工具,也为未来的 AI 模型开发提供了重要的安全性参考标准。

目前,SafeBench 的代码和数据集已经在 GitHub 开源(项目地址:https://safebench-mm.github.io/),研究团队希望借此推动 MLLMs 安全性的持续改进与发展,以减少其在真实应用中的潜在安全风险。

参考资料:

1.https://arxiv.org/abs/2410.18927v1

2. https://arxiv.org/abs/2310.09909

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

靠谱电影君
2026-02-19 21:28:54
CBA超级外援自己宣布加盟辽宁队!球迷:季后赛门票稳了

CBA超级外援自己宣布加盟辽宁队!球迷:季后赛门票稳了

体育哲人
2026-02-20 21:45:07
恭喜,伟大的第3金!意外之喜,最新奖牌榜又乱,中国队疯狂逆袭

恭喜,伟大的第3金!意外之喜,最新奖牌榜又乱,中国队疯狂逆袭

大秦壁虎白话体育
2026-02-20 07:55:07
免签国这么多,中产还够用吗?

免签国这么多,中产还够用吗?

霞光社
2026-02-19 15:05:21
两性关系:女人可以让你搂、让你亲,但别全信她说的话

两性关系:女人可以让你搂、让你亲,但别全信她说的话

青苹果sht
2026-02-13 06:20:11
刚刚,暴跌!直线跳水!

刚刚,暴跌!直线跳水!

中国基金报
2026-02-20 09:25:34
军令如山!3月1日起全军实行终身负责制,从严治军强根基

军令如山!3月1日起全军实行终身负责制,从严治军强根基

我心纵横天地间
2026-02-19 23:15:18
瓜帅:若你认为种族主义只与肤色有关,那这行为本身就是种族主义

瓜帅:若你认为种族主义只与肤色有关,那这行为本身就是种族主义

懂球帝
2026-02-20 21:03:12
两名坠落火山口的中国游客已确认找到,日本警方宣布正式放弃救援

两名坠落火山口的中国游客已确认找到,日本警方宣布正式放弃救援

孤独的独角兽影视
2026-02-20 09:50:06
“飞驰人生”现实版!云南一女子骑摩托失控坠坡画面意外走红,当事女子:人没事,一点擦伤都没有

“飞驰人生”现实版!云南一女子骑摩托失控坠坡画面意外走红,当事女子:人没事,一点擦伤都没有

大象新闻
2026-02-20 13:44:08
12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

汉史趣闻
2026-02-19 16:45:20
猛降14℃!新冷空气即将抵达广东!深圳未来天气.....

猛降14℃!新冷空气即将抵达广东!深圳未来天气.....

深圳晚报
2026-02-20 18:08:38
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
高人预测:十年后的成都,真正值钱的只有这5个板块,别选错!

高人预测:十年后的成都,真正值钱的只有这5个板块,别选错!

户外钓鱼哥阿旱
2026-02-20 18:41:45
4人出局引爆悬念!女篮阵容大洗牌,李月汝真的悬了

4人出局引爆悬念!女篮阵容大洗牌,李月汝真的悬了

卿子书
2026-02-20 08:36:01
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
开始了!《惊蛰无声》票房被吴京反超,张艺谋还是走到了这一步

开始了!《惊蛰无声》票房被吴京反超,张艺谋还是走到了这一步

得得电影
2026-02-20 14:55:42
霍家新年团圆!郭晶晶 C 位,娜然融入家族超和谐

霍家新年团圆!郭晶晶 C 位,娜然融入家族超和谐

老特有话说
2026-02-20 12:31:37
南博又出大瓜,徐湖平落马,儿子徐湘江公司暴雷,又有人浮出水面

南博又出大瓜,徐湖平落马,儿子徐湘江公司暴雷,又有人浮出水面

动漫里的童话
2026-02-20 17:59:34
外国游客被震醒了!被中国“惯坏”回国后,集体吐槽欧美基础设施

外国游客被震醒了!被中国“惯坏”回国后,集体吐槽欧美基础设施

小梊搞笑解说
2026-02-20 05:46:58
2026-02-20 22:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16292文章数 514624关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

本地
艺术
数码
时尚
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

投资198亿!B站新总部,实景图高度还原效果图

数码要闻

西部数据推出内容创作产品线G-DRIVE,替代原有闪迪大师

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版