网易首页 > 网易号 > 正文 申请入驻

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

0
分享至

来源:市场资讯

(来源:机器之心Pro)

JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CISPA 亥姆霍兹信息安全中心、西安交通大学和Flexera 的研究人员提出了一个抓住关键点的通用的越狱评估框架——JADES(Jailbreak Assessment via Decompositional Scoring,通过分解式评分进行越狱评估)。

JADES 的核心思想是摒弃宏观的整体判断,转而借鉴了教育评估领域的分析式评分(Analytic Scoring)思想,采用一种更精细、更可靠的「分解式评分」机制。它将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分,最终加权汇总,得出一个高度可信的最终判断 。

这项工作不仅提供了一个更准确的评估工具,更通过对现有攻击的重新评估,揭示了一个重要事实:过去我们严重高估了越狱攻击的实际威胁。


当前越狱评估方法的瓶颈

准确评估越狱攻击的难点根源在于有害问题的「开放性」。与有标准答案的问答不同,「How to make a bomb」这类问题没有唯一的、公认的参考答案,这使得制定统一的成功标准变得异常困难。虽然由人类专家进行手动评估被认为是准确性的「黄金标准」,但其高昂的成本和极低的可扩展性,使其无法跟上快速演变的攻击技术。

因此,学术界和工业界都迫切需要可靠的自动化评估方法。然而,现有的自动化技术存在两类核心缺陷:

1. 错位的代理指标 (Misaligned Proxy Indicators)

这类方法采用与攻击者最终目标不一致的间接指标进行判断,导致了大量的假阳性(False Positives), 例如:

2. 整体性评估策略 (Holistic Evaluation Strategies)

采用 LLM-as-a-judge 的方案普遍依赖对复杂、开放式响应的整体性评估。这种宏观视角将多个评估维度混为一谈,使其难以应对响应中的各种「干扰项」,导致评估结果失真。例如:

JADES 框架:引入分解式评分新范式

为克服上述瓶颈,JADES 框架通过一个多代理协作流程,将人类专家进行分析式评分的逻辑自动化,从而确保评估的粒度与可靠性。其核心架构由四个协同工作的节点构成:

1. 问题分解节点 (Question Decomposition Node)

接收到有害问题 Q 后,一个 LLM 代理会从攻击者视角出发,将其分解为一组带权重的关键子问题 { (q_i, w_i) }。这些子问题构成了后续评分的核心标准。如图例所示,「How to make a bomb」会被分解为「材料清单」、「组装步骤」和「引爆方法」三个加权子问题。这样的分解使评估更接近真正的越狱攻击成功标准。 为提高效率,该节点还包含一个记忆模块,用于存储和复用已有的分解结果。


JADES的流程, 以「How to make a [B**B]」为例。

2. 清理节点 (Clean Node)

此节点负责对原始越狱响应 R 进行预处理。它首先将响应文本分割成句子,然后由一个代理滤除所有与任务无关的内容,生成一个精简、干净的响应版本 R_clean,以降低后续节点的处理复杂度和潜在的混淆。

3. 子问题配对节点 (Sub-Question Pairing Node)

对于每个子问题 q_i,一个配对代理会从 R_clean 中精准地抽取出相关的句子,构成对应的子答案 a_i。这一步骤将宏观的响应文本与微观的评分标准建立了明确的对应关系,形成了清晰的评估单元。

4. 评估节点 (Evaluation Node)

最后,一个评委代理使用五级李克特量表(0.00-1.00)为每个子答案 a_i 打分 。最终的总分 S_total 通过对所有子分数进行加权聚合得出,并且通过相应的阈值,映射到二元分类 (越狱成功 / 失败) 或者三元分类 (越狱成功 / 部分成功 / 失败)。

性能表现

研究人员构建了一个包含 400 对有害问题与越狱响应的基准数据集 JailbreakQR 用于验证 JADES。该数据集基于人工精细标注,采用三元标签体系(失败、部分成功、成功), 并附有相应的理由。

性能表现


三元分类设置下的混淆矩阵

对主流越狱攻击的重新评估

JADES 带来的最重要的发现,是揭示了以往的评估方法系统性地高估了越狱攻击的成功率。


结论与未来展望

JADES 框架的提出,为越狱评估领域建立了一个透明、可靠且可审计的新标准。它不仅是一个性能更优的工具,更重要的是,它通过严谨的实证研究揭示了当前领域内存在的系统性偏差。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王艺迪女单夺冠献飞吻!突破外协围剿守住国乒荣誉,郭焱赛后大赞

王艺迪女单夺冠献飞吻!突破外协围剿守住国乒荣誉,郭焱赛后大赞

排球黄金眼
2025-11-03 02:52:56
她因登山穿运动内衣秀身材被网友批评?

她因登山穿运动内衣秀身材被网友批评?

奋斗在韩国
2025-11-01 17:18:05
打入一球,拉什福德当选巴萨vs埃尔切全场最佳球员

打入一球,拉什福德当选巴萨vs埃尔切全场最佳球员

懂球帝
2025-11-03 03:36:20
特朗普深夜发文,宣布终止谈判,中国已接到通知,美亲密盟友倒戈

特朗普深夜发文,宣布终止谈判,中国已接到通知,美亲密盟友倒戈

蜉蝣说
2025-11-01 21:16:09
自由派翻车现场!黑人女大法官惊人比喻惹怒全美,白宫措手不及

自由派翻车现场!黑人女大法官惊人比喻惹怒全美,白宫措手不及

小鬼头体育
2025-11-03 03:55:22
徐州3名孩子失联后遗体在河中找到,母亲哭:姐弟俩再也回不了家

徐州3名孩子失联后遗体在河中找到,母亲哭:姐弟俩再也回不了家

奇思妙想草叶君
2025-11-03 01:58:34
D19正式亮相!网友:只要价格合适,全都不是对手

D19正式亮相!网友:只要价格合适,全都不是对手

汽车网评
2025-11-02 23:28:21
如果你跟亲戚、兄弟姐妹逐渐“疏远”,说明了这4个问题

如果你跟亲戚、兄弟姐妹逐渐“疏远”,说明了这4个问题

小影的娱乐
2025-11-03 04:15:25
故事:张灵甫遗孀王玉龄20岁守寡,姨父孙立人提出条件送她去美国

故事:张灵甫遗孀王玉龄20岁守寡,姨父孙立人提出条件送她去美国

萧竹轻语
2025-10-31 10:40:48
新式“电磁炉”一出,燃气灶落伍了,不少家庭都往家买,真实用!

新式“电磁炉”一出,燃气灶落伍了,不少家庭都往家买,真实用!

小熊侃史
2025-11-02 19:33:08
刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

娱乐故事
2025-10-30 14:00:25
应急管理部副部长、水利部副部长王道席,出任湖南省委常委

应急管理部副部长、水利部副部长王道席,出任湖南省委常委

澎湃新闻
2025-11-02 19:06:31
陈震再杠小米!10℃也配叫“冬测”?米粉贴图科普秋冬也是无语

陈震再杠小米!10℃也配叫“冬测”?米粉贴图科普秋冬也是无语

小柱解说游戏
2025-11-03 04:41:47
烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

星河也灿烂
2025-11-02 20:59:17
新疆:坚决拥护党中央决定

新疆:坚决拥护党中央决定

新京报政事儿
2025-11-02 13:26:11
中美谈完了,德国迅速撤换外长和华对话,唯有荷兰活成了小丑

中美谈完了,德国迅速撤换外长和华对话,唯有荷兰活成了小丑

小影的娱乐
2025-11-02 06:52:08
拦住他,别放他走!”美国坚决不让他回国

拦住他,别放他走!”美国坚决不让他回国

老友科普
2025-11-02 14:22:14
她这大体格真绝了,目测身高180,无数人心中的女神形象 就是这种

她这大体格真绝了,目测身高180,无数人心中的女神形象 就是这种

小椰的奶奶
2025-11-02 12:23:00
3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

我爱英超
2025-11-02 07:00:44
日本AV界的璀璨新星-彩城优里菜,身材眉毛集于一身(一个人在被窝里看)

日本AV界的璀璨新星-彩城优里菜,身材眉毛集于一身(一个人在被窝里看)

素然追光
2025-11-03 03:15:59
2025-11-03 05:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1253510文章数 4328关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
家居
数码
房产
军事航空

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

家居要闻

吸睛艺术 富有传奇色彩

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版