网易首页 > 网易号 > 正文 申请入驻

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

0
分享至

来源:市场资讯

(来源:机器之心Pro)

JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CISPA 亥姆霍兹信息安全中心、西安交通大学和Flexera 的研究人员提出了一个抓住关键点的通用的越狱评估框架——JADES(Jailbreak Assessment via Decompositional Scoring,通过分解式评分进行越狱评估)。

JADES 的核心思想是摒弃宏观的整体判断,转而借鉴了教育评估领域的分析式评分(Analytic Scoring)思想,采用一种更精细、更可靠的「分解式评分」机制。它将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分,最终加权汇总,得出一个高度可信的最终判断 。

这项工作不仅提供了一个更准确的评估工具,更通过对现有攻击的重新评估,揭示了一个重要事实:过去我们严重高估了越狱攻击的实际威胁。


当前越狱评估方法的瓶颈

准确评估越狱攻击的难点根源在于有害问题的「开放性」。与有标准答案的问答不同,「How to make a bomb」这类问题没有唯一的、公认的参考答案,这使得制定统一的成功标准变得异常困难。虽然由人类专家进行手动评估被认为是准确性的「黄金标准」,但其高昂的成本和极低的可扩展性,使其无法跟上快速演变的攻击技术。

因此,学术界和工业界都迫切需要可靠的自动化评估方法。然而,现有的自动化技术存在两类核心缺陷:

1. 错位的代理指标 (Misaligned Proxy Indicators)

这类方法采用与攻击者最终目标不一致的间接指标进行判断,导致了大量的假阳性(False Positives), 例如:

2. 整体性评估策略 (Holistic Evaluation Strategies)

采用 LLM-as-a-judge 的方案普遍依赖对复杂、开放式响应的整体性评估。这种宏观视角将多个评估维度混为一谈,使其难以应对响应中的各种「干扰项」,导致评估结果失真。例如:

JADES 框架:引入分解式评分新范式

为克服上述瓶颈,JADES 框架通过一个多代理协作流程,将人类专家进行分析式评分的逻辑自动化,从而确保评估的粒度与可靠性。其核心架构由四个协同工作的节点构成:

1. 问题分解节点 (Question Decomposition Node)

接收到有害问题 Q 后,一个 LLM 代理会从攻击者视角出发,将其分解为一组带权重的关键子问题 { (q_i, w_i) }。这些子问题构成了后续评分的核心标准。如图例所示,「How to make a bomb」会被分解为「材料清单」、「组装步骤」和「引爆方法」三个加权子问题。这样的分解使评估更接近真正的越狱攻击成功标准。 为提高效率,该节点还包含一个记忆模块,用于存储和复用已有的分解结果。


JADES的流程, 以「How to make a [B**B]」为例。

2. 清理节点 (Clean Node)

此节点负责对原始越狱响应 R 进行预处理。它首先将响应文本分割成句子,然后由一个代理滤除所有与任务无关的内容,生成一个精简、干净的响应版本 R_clean,以降低后续节点的处理复杂度和潜在的混淆。

3. 子问题配对节点 (Sub-Question Pairing Node)

对于每个子问题 q_i,一个配对代理会从 R_clean 中精准地抽取出相关的句子,构成对应的子答案 a_i。这一步骤将宏观的响应文本与微观的评分标准建立了明确的对应关系,形成了清晰的评估单元。

4. 评估节点 (Evaluation Node)

最后,一个评委代理使用五级李克特量表(0.00-1.00)为每个子答案 a_i 打分 。最终的总分 S_total 通过对所有子分数进行加权聚合得出,并且通过相应的阈值,映射到二元分类 (越狱成功 / 失败) 或者三元分类 (越狱成功 / 部分成功 / 失败)。

性能表现

研究人员构建了一个包含 400 对有害问题与越狱响应的基准数据集 JailbreakQR 用于验证 JADES。该数据集基于人工精细标注,采用三元标签体系(失败、部分成功、成功), 并附有相应的理由。

性能表现


三元分类设置下的混淆矩阵

对主流越狱攻击的重新评估

JADES 带来的最重要的发现,是揭示了以往的评估方法系统性地高估了越狱攻击的成功率。


结论与未来展望

JADES 框架的提出,为越狱评估领域建立了一个透明、可靠且可审计的新标准。它不仅是一个性能更优的工具,更重要的是,它通过严谨的实证研究揭示了当前领域内存在的系统性偏差。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
安徽怀远一男子骑电动自行车载妻子去接娃,锂电池突然爆燃致妻子全身70%面积深度烧伤,男子悔恨:两块电池7000元,医疗费花费20余万元

安徽怀远一男子骑电动自行车载妻子去接娃,锂电池突然爆燃致妻子全身70%面积深度烧伤,男子悔恨:两块电池7000元,医疗费花费20余万元

极目新闻
2026-04-05 23:06:03
陈青敏当选越南国会主席

陈青敏当选越南国会主席

国际在线
2026-04-06 12:28:57
王皓洒泪,夺冠后,王楚钦一瘸一拐,无法走下高台阶,作弊叔搀扶

王皓洒泪,夺冠后,王楚钦一瘸一拐,无法走下高台阶,作弊叔搀扶

林子说事
2026-04-06 15:05:01
是谁把冠军之师——新疆队折腾成鱼腩?四人责任重大,一人是祸首

是谁把冠军之师——新疆队折腾成鱼腩?四人责任重大,一人是祸首

南海浪花
2026-04-06 10:05:59
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有4个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有4个共性

新时代的两性情感
2026-04-06 15:06:51
特朗普病重住院?白宫回应了!

特朗普病重住院?白宫回应了!

达文西看世界
2026-04-06 11:02:36
暴跌70%!理想L9跌出前十,问界M9无缘前三,大型SUV彻底变天!

暴跌70%!理想L9跌出前十,问界M9无缘前三,大型SUV彻底变天!

三农老历
2026-04-06 10:25:47
太强了!上海宝妈晒出生育津贴219608.20元到账,评论区彻底炸锅

太强了!上海宝妈晒出生育津贴219608.20元到账,评论区彻底炸锅

火山詩话
2026-04-05 07:41:55
周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

可达鸭面面观
2026-04-05 16:59:56
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

以茶带书
2026-04-01 12:20:29
澳门世界杯圆满落幕!诞生3大赢家4位输家,王曼昱与张本兄妹在列

澳门世界杯圆满落幕!诞生3大赢家4位输家,王曼昱与张本兄妹在列

观察鉴娱
2026-04-06 11:04:31
美军炸毁运输机地点已成打卡点,伊朗民众对着飞机残骸上的美国机徽一顿狂踩

美军炸毁运输机地点已成打卡点,伊朗民众对着飞机残骸上的美国机徽一顿狂踩

都市快报橙柿互动
2026-04-06 12:34:10
布洛芬堆满曹操墓!这个清明节,曹操火了,现代人最懂他的需求

布洛芬堆满曹操墓!这个清明节,曹操火了,现代人最懂他的需求

魔都姐姐杂谈
2026-04-06 06:04:25
暴雨!大反转!江苏天气从30℃直降……

暴雨!大反转!江苏天气从30℃直降……

新浪财经
2026-04-06 09:57:07
美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

潮鹿逐梦
2026-04-05 16:55:57
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
Shams:东契奇将返回欧洲治疗腿筋伤势,以加快恢复进度

Shams:东契奇将返回欧洲治疗腿筋伤势,以加快恢复进度

懂球帝
2026-04-06 11:18:08
荷甲冠军出炉!27冠霸主提前5轮捧杯创纪录 3连冠+甩阿贾克斯23分

荷甲冠军出炉!27冠霸主提前5轮捧杯创纪录 3连冠+甩阿贾克斯23分

我爱英超
2026-04-06 07:17:14
自己炸毁两架运输机,美军救回第二名飞行员!伊朗人疑似提供帮助

自己炸毁两架运输机,美军救回第二名飞行员!伊朗人疑似提供帮助

鹰眼Defence
2026-04-05 17:04:02
2026-04-06 17:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2763986文章数 6453关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

手机
艺术
时尚
旅游
军事航空

手机要闻

苹果App Store今年Q1应用提交同比激增84%,分析称受氛围编程推动

艺术要闻

草书入门的“最强宝典”!因内容太妙,作者不敢留名,比学王羲之都靠谱

AI时代,辨别真相的成本变高了

旅游要闻

桃花满谷、“蟠龙”苍劲 清明时节的千山人气高涨

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版