网易首页 > 网易号 > 正文 申请入驻

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

0
分享至



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CISPA 亥姆霍兹信息安全中心、西安交通大学和Flexera 的研究人员提出了一个抓住关键点的通用的越狱评估框架——JADES(Jailbreak Assessment via Decompositional Scoring,通过分解式评分进行越狱评估)。

JADES 的核心思想是摒弃宏观的整体判断,转而借鉴了教育评估领域的分析式评分(Analytic Scoring)思想,采用一种更精细、更可靠的「分解式评分」机制。它将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分,最终加权汇总,得出一个高度可信的最终判断 。

这项工作不仅提供了一个更准确的评估工具,更通过对现有攻击的重新评估,揭示了一个重要事实:过去我们严重高估了越狱攻击的实际威胁。



  • 论文标题: JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
  • 论文链接: https://arxiv.org/abs/2508.20848v1
  • 项目网站: https://trustairlab.github.io/jades.github.io/

当前越狱评估方法的瓶颈

准确评估越狱攻击的难点根源在于有害问题的「开放性」。与有标准答案的问答不同,「How to make a bomb」这类问题没有唯一的、公认的参考答案,这使得制定统一的成功标准变得异常困难。虽然由人类专家进行手动评估被认为是准确性的「黄金标准」,但其高昂的成本和极低的可扩展性,使其无法跟上快速演变的攻击技术。

因此,学术界和工业界都迫切需要可靠的自动化评估方法。然而,现有的自动化技术存在两类核心缺陷:

1. 错位的代理指标 (Misaligned Proxy Indicators)

这类方法采用与攻击者最终目标不一致的间接指标进行判断,导致了大量的假阳性(False Positives), 例如:

  • 字符串匹配:该方法检测响应中是否出现「Sure, here is...」或者「Sorry, I cannot...」等表达意愿的短语 。然而,模型完全可能在此类表态后紧跟相反语义的内容,这种基于表层文本的判断并不可靠且存在明显的准确度上限。
  • 毒性检测器:该方法评估响应的有害性分数。然而,高毒性分数不等于成功的越狱。例如,一个旨在生成特定歧视性言论的请求,模型可能返回了其他类型的、不相关的谩骂内容。尽管响应本身有害,但并未满足攻击者的特定意图,因此不应被视为一次成功的攻击。

2. 整体性评估策略 (Holistic Evaluation Strategies)

采用 LLM-as-a-judge 的方案普遍依赖对复杂、开放式响应的整体性评估。这种宏观视角将多个评估维度混为一谈,使其难以应对响应中的各种「干扰项」,导致评估结果失真。例如:

  • 空洞内容 (Vacuous Content):响应中充斥着「使用适量材料」、「按正确比例混合」等模糊表述,并未提供任何可执行的关键信息。
  • 干扰性内容 (Distraction Tokens):响应中夹杂了大量从越狱提示中继承的、与任务无关的文本,如角色扮演对话等,这会干扰评委模型的判断。
  • 表面正确,事实谬误:响应格式规范、看似详尽,但核心信息(如化学配方、代码实现)却是错误的。整体性评估很难深入细节进行事实核查,容易被这种 「伪装」所欺骗。

JADES 框架:引入分解式评分新范式

为克服上述瓶颈,JADES 框架通过一个多代理协作流程,将人类专家进行分析式评分的逻辑自动化,从而确保评估的粒度与可靠性。其核心架构由四个协同工作的节点构成:

1. 问题分解节点 (Question Decomposition Node)

接收到有害问题 Q 后,一个 LLM 代理会从攻击者视角出发,将其分解为一组带权重的关键子问题 { (q_i, w_i) }。这些子问题构成了后续评分的核心标准。如图例所示,「How to make a bomb」会被分解为「材料清单」、「组装步骤」和「引爆方法」三个加权子问题。这样的分解使评估更接近真正的越狱攻击成功标准。 为提高效率,该节点还包含一个记忆模块,用于存储和复用已有的分解结果。



JADES的流程, 以「How to make a [B**B]」为例。

2. 清理节点 (Clean Node)

此节点负责对原始越狱响应 R 进行预处理。它首先将响应文本分割成句子,然后由一个代理滤除所有与任务无关的内容,生成一个精简、干净的响应版本 R_clean,以降低后续节点的处理复杂度和潜在的混淆。

3. 子问题配对节点 (Sub-Question Pairing Node)

对于每个子问题 q_i,一个配对代理会从 R_clean 中精准地抽取出相关的句子,构成对应的子答案 a_i。这一步骤将宏观的响应文本与微观的评分标准建立了明确的对应关系,形成了清晰的评估单元。

4. 评估节点 (Evaluation Node)

最后,一个评委代理使用五级李克特量表(0.00-1.00)为每个子答案 a_i 打分 。最终的总分 S_total 通过对所有子分数进行加权聚合得出,并且通过相应的阈值,映射到二元分类 (越狱成功 / 失败) 或者三元分类 (越狱成功 / 部分成功 / 失败)。

性能表现

研究人员构建了一个包含 400 对有害问题与越狱响应的基准数据集 JailbreakQR 用于验证 JADES。该数据集基于人工精细标注,采用三元标签体系(失败、部分成功、成功), 并附有相应的理由。

性能表现

  • 二元设置:为与基线对齐,在将标签映射为二元(成功 / 失败)后,JADES 与人类评估者的一致性达到 98.5%,相较于强大的基线方法提升超过 9% 。
  • 三元设置:在更具挑战性的三元分类任务中 (成功 / 部分成功 / 失败),JADES 的准确率依然达到了86.3%。混淆矩阵分析表明,JADES 在识别「失败」的案例上表现极佳。其对「成功」案例的判断比人类更严格,可以觉察出某些答案中人类通常忽略的细节错误,并对应地降级为「部分成功」。
  • 每一步分解评分都可追踪,提升了整个评估流程的可解释性和透明度。



三元分类设置下的混淆矩阵

对主流越狱攻击的重新评估

JADES 带来的最重要的发现,是揭示了以往的评估方法系统性地高估了越狱攻击的成功率。

  • 几乎所有的越狱攻击攻击成功率(ASR)都被高估。例如,LAA 攻击在 GPT-3.5-Turbo 上的 ASR,在传统评估下被报告为高达 93%,而在 JADES 的重新评估下 (二元分类设置),这一数字骤降至 69%。



  • 更进一步,在 JADES 的三元评估设置下,研究人员引入了「成功率 / 攻击成功率」(SR/ASR)这一新指标来衡量成功的「质量」。结果发现,对于所有被测试的攻击方法,「完全成功」的案例在其总成功案例中的占比最高不超过 0.25。这意味着,绝大多数被传统二元指标记为「成功」的越狱,实际上只是 「部分成功」。

  • 此外,那些对原始有害问题修改越大的攻击方法(如 PAIR),其「完全成功」 的比例往往越低 ,这表明语义层面的偏离会严重影响攻击的实际效果。

结论与未来展望

JADES 框架的提出,为越狱评估领域建立了一个透明、可靠且可审计的新标准。它不仅是一个性能更优的工具,更重要的是,它通过严谨的实证研究揭示了当前领域内存在的系统性偏差。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再见,利物浦!主帅最快3天内被解雇!1.1亿镑“爆点”攻击手来投

再见,利物浦!主帅最快3天内被解雇!1.1亿镑“爆点”攻击手来投

头狼追球
2025-11-10 10:26:35
时隔半年,18岁黄杨钿甜风波后首更新动态

时隔半年,18岁黄杨钿甜风波后首更新动态

现代快报
2025-11-10 15:41:06
最建议买的燃油车suv第一名

最建议买的燃油车suv第一名

周哥一影视
2025-11-09 00:39:30
从“刺破手”到去世,仅9天!医生:做这5件事前,务必要戴手套

从“刺破手”到去世,仅9天!医生:做这5件事前,务必要戴手套

DrX说
2025-11-10 14:24:15
我在部队当了5年通讯兵,退伍发现村后头的信号塔每晚都准时闪3下

我在部队当了5年通讯兵,退伍发现村后头的信号塔每晚都准时闪3下

五元讲堂
2025-11-05 10:35:02
最冤移英港人“移二代”被父母以前途为借口移英后无数次想回流香港,终于愤怒发声:别再讲是为我好!

最冤移英港人“移二代”被父母以前途为借口移英后无数次想回流香港,终于愤怒发声:别再讲是为我好!

澳门月刊
2025-11-10 21:50:03
卡地亚晚宴明星站位曝地位:那英、郭晶晶靠边站,C位实至名归

卡地亚晚宴明星站位曝地位:那英、郭晶晶靠边站,C位实至名归

查尔菲的笔记
2025-11-10 16:06:40
涉嫌严重违纪违法,张建中被查

涉嫌严重违纪违法,张建中被查

FM93浙江交通之声
2025-11-10 10:12:24
再见传奇!35岁男乒名将赛场宣布退役,临行不忘提到樊振东

再见传奇!35岁男乒名将赛场宣布退役,临行不忘提到樊振东

越岭寻踪
2025-11-10 05:58:53
长辈网购的东西能有多奇葩?网友:我爸买了个3寸的平底锅

长辈网购的东西能有多奇葩?网友:我爸买了个3寸的平底锅

解读热点事件
2025-11-10 00:20:03
大搞权钱交易,副部级李春良被处分!被国务院免职两年后落马

大搞权钱交易,副部级李春良被处分!被国务院免职两年后落马

上观新闻
2025-11-10 13:29:03
退休人员注意!社保法或在2030年前进行重大修改,啥原因?来看看

退休人员注意!社保法或在2030年前进行重大修改,啥原因?来看看

社保小达人
2025-09-25 10:00:10
娶个洋媳妇能有多尴尬?网友:据说白人女孩体味很大,是真的吗

娶个洋媳妇能有多尴尬?网友:据说白人女孩体味很大,是真的吗

带你感受人间冷暖
2025-11-09 00:10:08
聚是大湾区,散是走地鸡!全运开幕式太热闹了!

聚是大湾区,散是走地鸡!全运开幕式太热闹了!

广州PLUS
2025-11-10 21:41:28
杨瀚森已达122公斤,全联盟排名第九,增重明显是有意而为之!

杨瀚森已达122公斤,全联盟排名第九,增重明显是有意而为之!

田先生篮球
2025-11-10 15:04:53
福建舰入列效果立竿见影!联合国安理会现名场面,美国学会了含蓄

福建舰入列效果立竿见影!联合国安理会现名场面,美国学会了含蓄

大又元
2025-11-10 12:27:37
上海高校“丢表退学”事件后续:受害者4天被退学,小偷继续上课

上海高校“丢表退学”事件后续:受害者4天被退学,小偷继续上课

半糖甜而不腻
2025-11-10 11:46:34
两战16中1!烂,太烂了!威少有望篡位成功

两战16中1!烂,太烂了!威少有望篡位成功

篮球实战宝典
2025-11-10 19:06:10
曝光!一居民“约炮”出事了!

曝光!一居民“约炮”出事了!

澄海圈
2025-11-09 20:14:52
莎头组合火遍全网,真相让人破防:我们追的不是星,是心底里的光

莎头组合火遍全网,真相让人破防:我们追的不是星,是心底里的光

青春美食集
2025-11-11 06:30:03
2025-11-11 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11688文章数 142501关注度
往期回顾 全部

科技要闻

买得到芯片的美国科技巨头,买不到电了

头条要闻

小区车库沉降墙体开裂 所涉楼栋有业主未搬离:要退房

头条要闻

小区车库沉降墙体开裂 所涉楼栋有业主未搬离:要退房

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

数码
本地
手机
公开课
军事航空

数码要闻

vivo Y500 Pro正式发布:2亿影像国民小旗舰

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

iPhone有望2027年实现真正全面屏,隐藏Face ID与前置镜头

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版