网易首页 > 网易号 > 正文 申请入驻

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱

0
分享至

全新大语言模型越狱攻击基准与评估体系来了。

来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。

提出攻击分析系统性框架JailTrackBench。

JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了越狱评估这一核心问题。

近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容,对模型的安全性和可靠性构成了严峻挑战。

这种攻击与防御的博弈,极大地推动了大模型安全性的提升。

在这一背景下,香港科技大学(Guangzhou)USAIL研究团队从攻击者和防御者的角度,探讨了影响大模型安全性的关键因素。

尽管已有研究揭示了多种越狱攻击的威胁,现有的评估方法往往过于片面,无法全面涵盖攻击与防御两方面的核心因素。

为此,团队提出了JailTrackBench,一个全面涵盖越狱攻击各个方面的系统性基准测试框架,旨在为研究人员提供一个标准化、全面的评估工具。

△图1 JailTrackBench框架

通过对七种具有代表性的越狱攻击和六种防御方法的320项实验,使用50,000 GPU小时,团队以标准化的方式评估了这些攻击方法的效果。

目标模型层面

模型大小(Model Size):

实验(如图2所示)中选择了不同规模的模型(如Llama-7B、Llama-13B、Llama-70B,Qwen1.5-14B等)进行对比,探讨模型规模对越狱攻击的防御能力是否有显著影响。

实验结果表明,模型的鲁棒性并不与其规模成正比,较大的模型并不总是比较小的模型更具防御能力。

△图2 模型大小与鲁棒性的关系

安全对齐情况(Safety Alignment):

模型的安全能力会被后续的大模型微调所影响。

实验表明(如图3所示),经过领域类的微调(fine-tuning)大模型,其安全能力会降低,相比之前没有微调的模型则更容易受到攻击。

△图3 安全对齐情况与模型鲁棒性

系统提示(System Prompt):

实验(如图4所示)还评估了系统提示(如包含安全提示的系统消息)对模型安全性的影响。结果显示,包含安全提示的系统消息能够显著增强模型的安全性,减少攻击成功率。

△图表 4 系统提示与模型类型

模板类型(Template Type):

实验(如图5所示)测试了不同提示模板(如零样本提示与默认提示)对越狱攻击成功率的影响。结果显示,使用默认提示的模型比使用零样本提示的模型更加安全。

△图5 模版类型与模型鲁棒

攻击者层面

攻击者能力(Attacker Ability):

攻击者(如图6所示)使用不同的模型(如GPT-3.5、GPT-4、Vicuna-13B等)来生成对抗性提示,实验评估了不同攻击者模型能力对越狱攻击成功率的影响。结果表明,攻击者模型越强,越狱攻击的成功率越高。

△图6 攻击者能力与攻击效果

对抗性后缀长度(Adversarial Suffix Length):

在针对令牌级别的越狱攻击中,实验(如图7所示)通过调整对抗性后缀的长度(如10、20、30等)来评估其对攻击成功率的影响。结果表明,较长的对抗性后缀通常能提高攻击成功率,但超过一定长度后效果趋于平稳。

△图7 对抗性后缀长度与攻击效果

攻击者预算(Attacker Budget):

实验(如图8和9所示)探讨了攻击者可以提交的查询次数对攻击效果的影响。实验表明,对于令牌级别的攻击,攻击预算越大,攻击成功率越高;而对于提示级别的攻击,预算的影响则较为有限。

△图8 指令级别攻击的预算

△图9 提示级别攻击的预算

攻击意图(Attack Intention):

实验(如图10所示)设计了多种不同的攻击意图(如隐私侵犯、恶意软件等)来评估其对攻击成功率的影响。结果表明,不同的攻击意图会显著影响攻击的成功率,某些攻击意图(如经济损害)更容易成功,而其他意图(如隐私侵犯)则较难得逞。

△图10 攻击者意图

通过对一些不易察觉的设置进行简单调整(见表1),包括攻击者和目标模型,研究发现大模型越狱攻击的成功率可以从0%飙升至惊人的90%(如图11所示)。这些设置涵盖了多个关键因素,如目标模型的规模、安全对齐方式、系统提示的使用,以及攻击者的能力和攻击预算。

文章转载:[wq1.1mfc.com)

△表格1:不同技巧组合的配置,从弱到强(weak to strong)

文章转载:[sam1.311194.com)

△图11 不同技巧组合对越狱攻击成功率的显著影响

文章转载:[oc1.2rr2.net)

越狱评估依赖于对模型输出内容的有害性进行分析,这一任务复杂且充满不确定性(见图12)。因此,迫切需要一种系统化的评估方法,帮助研究者和开发者深入了解模型的脆弱性,并持续优化其防御能力。

文章转载:[kmpo1.a8caizhan.com)

JAILJUDGE,在此背景下应运而生的。

文章转载:[gw1.30host.com)

由USAIL团队联合百度搜索团队及英国伯明翰大学共同提出,JAILJUDGE旨在弥补现有越狱评估工具的不足,尤其是应对复杂场景下的挑战。

文章转载:[cg1.3j4j.net)

该评估框架涵盖广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。

文章转载:[yqj1.52plg.com)

每个Agent(如判断Agent、投票Agent和推断Agent)分工明确,通过协作得出精确的评估结果,并提供解释性理由。

文章转载:[uato1.99maicai.com)

△图12:越狱评估:输入用户问题和模型回答,判断大模型是否被越狱

文章转载:[qkli1.407772.com)

为进一步提高评估效率,USAIL团队开发了JAILJUDGE Guard,这是一种端到端的越狱评估模型,不需要API调用即可提供细粒度的越狱评分(评分范围从1到10),并伴随推理解释。

文章转载:[mu1.a8jingcai.com)

JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型(如GPT-4和Llama-Guard),还在闭源和开源安全模型上展现了强大的评估能力,同时具备更高的效率和更低的成本。

文章转载:[ienv1.cacivo.com)

此外,团队还推出了JailBoost和GuardShield两大工具,以强化越狱攻击和防御。实验表明,JailBoost在零样本设置下将攻击成功率提高了约29.24%,而GuardShield则将防御后的攻击成功率从40.46%大幅降低至0.15%。

文章转载:[eof1.4444aj.com)

未来,团队计划进一步扩展JAILJUDGE的功能和应用场景,包括:

文章转载:[ax1.amzy.net)

项目网站:https://secure-intelligence.github.io/团队链接:https://github.com/usail-hkust

文章转载:[whi1.930520.net)

JailTrackBench论文地址:https://arxiv.org/pdf/2406.09324代码:https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_JailbreakingJAILJUDGE论文地址:https://arxiv.org/abs/2410.12855项目主页:https://usail-hkust.github.io/Jailjudge代码:https://github.com/usail-hkust/Jailjudge数据集:https://huggingface.co/usail-hkust/JailJudge-guard端到端越狱评估模型:https://huggingface.co/usail-hkust/JailJudge-guard

文章转载:[srsw1.66608880168.com)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗最高领袖,“最详细伤情”披露

伊朗最高领袖,“最详细伤情”披露

中国新闻周刊
2026-04-30 16:23:05
广东莫氏鸡煲老板回应欠债180万:近期鸡煲爆火已还清大部分,还剩三四十万

广东莫氏鸡煲老板回应欠债180万:近期鸡煲爆火已还清大部分,还剩三四十万

大象新闻
2026-04-30 11:42:08
1季度四大直辖市经济分野,京沪双驾齐驱,天津有定力,重庆掉队

1季度四大直辖市经济分野,京沪双驾齐驱,天津有定力,重庆掉队

金卡读城
2026-04-30 17:32:25
医院职工举报院长儿子长期吃空饷 湖南中医药大学回应

医院职工举报院长儿子长期吃空饷 湖南中医药大学回应

闪电新闻
2026-04-30 13:44:26
太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

谭谈社会
2026-04-30 00:02:18
被困霍尔木兹海峡的部分船员已遇难!联合国呼吁紧急营救

被困霍尔木兹海峡的部分船员已遇难!联合国呼吁紧急营救

闪电新闻
2026-04-30 14:56:57
正部级易会满被“双开”:贯彻落实党中央关于资本市场重大决策部署阳奉阴违、推诿卸责

正部级易会满被“双开”:贯彻落实党中央关于资本市场重大决策部署阳奉阴违、推诿卸责

界面新闻
2026-04-30 17:18:06
2025年农民工月均收入5075元,比上年增加114元

2025年农民工月均收入5075元,比上年增加114元

新京报
2026-04-30 15:06:03
朱开国同志任德州市委书记

朱开国同志任德州市委书记

极目新闻
2026-04-30 18:10:03
珠海风云,千亿国资帝国亏空迷局

珠海风云,千亿国资帝国亏空迷局

栗滴财经
2026-04-30 18:22:14
景区大门越修越远:从谁最先开始的?为什么会成标配?

景区大门越修越远:从谁最先开始的?为什么会成标配?

谣谈乡村振兴
2026-04-29 10:43:59
普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

念寒车评
2026-04-29 10:44:37
网红“罗二哥”去世,年仅47岁,岳父5天前刚去世,原因令人惋惜

网红“罗二哥”去世,年仅47岁,岳父5天前刚去世,原因令人惋惜

180视角
2026-04-30 13:22:07
斯诺克世锦赛:希金斯拒绝连输2局!65-27赢乱战,1-1追平墨菲!

斯诺克世锦赛:希金斯拒绝连输2局!65-27赢乱战,1-1追平墨菲!

刘姚尧的文字城堡
2026-04-30 20:52:08
75岁刘晓庆网红王婆同台,全程冷场不愿互动,现场尴尬气氛拉满

75岁刘晓庆网红王婆同台,全程冷场不愿互动,现场尴尬气氛拉满

童叔不飙车
2026-04-30 15:28:22
辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

澳洲红领巾
2026-04-29 14:44:16
3个11-0太残暴!63岁倪奶奶的做法让全网吵翻了!

3个11-0太残暴!63岁倪奶奶的做法让全网吵翻了!

最爱乒乓球
2026-04-30 15:38:52
美国披露数据:中国战略石油储备量全球第一

美国披露数据:中国战略石油储备量全球第一

极目新闻
2026-04-30 21:40:56
尿酸危机,席卷中国

尿酸危机,席卷中国

DT商业观察
2026-04-29 11:59:38
洛阳白马寺发布郑重声明:不少游客因通过非官方第三方渠道购买非法倒卖的预约门票,导致无法正常入寺,切勿轻信

洛阳白马寺发布郑重声明:不少游客因通过非官方第三方渠道购买非法倒卖的预约门票,导致无法正常入寺,切勿轻信

极目新闻
2026-04-29 18:10:47
2026-04-30 22:15:00
陈家清
陈家清
我来了
1297文章数 166关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

广州一段路泊位最高收132元/天 市民收万元罚单也不停

头条要闻

广州一段路泊位最高收132元/天 市民收万元罚单也不停

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

家居
教育
游戏
旅游
军事航空

家居要闻

灵动实用 生活艺术场

教育要闻

报考强基计划到底好不好?

以小野猪“宝瑞”的视角踏上温馨的大冒险《可爱冒险记》现已在PC及各大主机平台发售

旅游要闻

五一假期去哪玩?来资阳安岳解锁“四件套”

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版