网易首页 > 网易号 > 正文 申请入驻

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

0
分享至



机器之心报道

编辑:+0、陈陈

本文实测 12 种防御方法,几乎全军覆没。

真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。

看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。



  • 论文标题:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
  • 论文地址:https://arxiv.org/pdf/2510.09023

本文主要围绕一个问题展开:我们该如何评估语言模型防御机制的鲁棒性?

要知道,目前针对越狱和提示注入的防御措施(前者旨在防止攻击者诱导模型输出有害内容,后者旨在防止攻击者远程触发恶意行为)主要采用如下手段:

  • 使用一组固定的、有害攻击样本进行静态测试;
  • 要么依赖于一些计算能力较弱的优化方法,这些方法在设计时并未考虑到具体的防御机制。

换句话说,现有的防御评估大多是纸上谈兵,并没有真正模拟出一个懂防御、会反制的强攻击者。

所以说,当前的评估流程是有缺陷的。

这篇文章就是为了解决上述问题。为了更准确地评估语言模型的防御机制,本文认为我们应当假设攻击者是自适应的,也就是说,他们会根据防御机制的设计策略,刻意修改攻击方式,并投入大量资源进行优化。

在此基础上,本文提出了一个通用自适应攻击框架(General Adaptive Attack Framework),并采用几种通用的优化方法(比如梯度下降、强化学习、随机搜索和人类辅助探索)进行系统化调整,结果成功绕过了 12 种近期提出的防御机制,其中多数模型的攻击成功率超过了 90%,而这些防御原本声称几乎无法被攻破(攻击成功率接近 0)。

该研究表示,未来的防御研究必须纳入更强的攻击进行评估,才能对鲁棒性做出可靠且有说服力的结论。

一种通用攻击方法

防御方法的开发者不应依赖于抵御某一种单一攻击,因为攻破一种固定的策略通常是直接了当的。

研究者并未提出一种全新的攻击方法,而是要强调,现有的攻击思想(当被自适应地、谨慎地应用时)足以暴露系统的弱点。

因此,研究者提出了一个通用的自适应攻击框架,它统一了许多针对 LLM 的成功提示词攻击背后的共同结构。一次攻击由一个优化循环组成,每次迭代可分为四个步骤:



图 2:针对 LLM 的通用的自适应攻击框架。

这种迭代过程是大多数自适应攻击的共同结构。研究者通过四种典型实例来阐释这种通用方法论,它们分别是:(i) 基于梯度的方法,(ii) 强化学习方法,(iii) 基于搜索的方法,以及 (iv) 人工红队测试。

在实验中,研究者为每个类别都实例化了一种攻击方法。

基于梯度的方法通过在嵌入空间中估计梯度,并将其投影回有效的 token,从而将连续的对抗样本技术应用于离散的 token 空间。然而,为大语言模型优化提示词本身就极具挑战性:输入空间巨大且离散,措辞上的微小变化就可能导致模型行为发生巨大且不可预测的转变。因此,目前基于梯度的攻击仍然不可靠,通常推荐直接在文本空间进行操作的攻击方法,例如以下三种。

强化学习方法将提示词生成视为一个交互式环境:一个策略对候选提示词进行采样,根据模型行为获得奖励,并通过策略梯度算法进行更新,以逐步提高攻击成功率。在强化学习攻击中,研究者使用一个 LLM,根据得分反馈来迭代地提出候选的对抗性触发器。该大语言模型的权重也通过 GRPO 算法进行更新。

基于搜索的方法将该问题构建为一个组合探索问题,利用启发式扰动、集束搜索、遗传算子或由 LLM 引导的树搜索等方法,在无需梯度访问的情况下,在巨大的离散提示词空间中进行导航。该版本的搜索攻击使用了一种带有 LLM 建议变异的遗传算法。

最后,人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词,当防御方法是动态变化的时,其表现通常优于自动化方法。作为红队测试的代表性实践,研究者举办了一场有超过 500 名参与者参加的在线红队竞赛。

研究者的核心主张是,如果一种防御方法在对抗这种 「PSSU」 循环的任何自适应实例时失败了,那么它就不能被认为是鲁棒的。

实验结果

研究者评估了 12 种最新的大语言模型防御方法,覆盖了从提示工程到对抗性训练的多种技术,旨在揭示它们在自适应对抗攻击下的脆弱性。这些防御主要针对两大问题:

  • 越狱:用户诱导模型产生违反其安全策略的有害内容。
  • 提示注入:攻击者篡改系统行为,以损害用户机密性或完整性(如窃取数据、未授权操作等)。

由于缺乏统一的评估标准,研究者沿用各个方法原论文的评估方式,并引入了额外的基准测试,如用于越狱攻击的 HarmBench 和用于提示注入攻击的 AgentDojo 等。

本实验的核心目标并非直接比较不同防御的优劣,而是要证明当前的大语言模型稳健性评估方法存在不足且结果具有误导性。所有成功的攻击都经过了人工验证,以排除评估机制的漏洞。

基于提示的防御

这类防御通过优化系统提示词来增强模型的安全性。研究者评估了三种代表性方法:Spotlighting、Prompt Sandwiching 和 RPO。

Spotlighting 和 Prompt Sandwiching:这两种方法通过特殊标记或重复指令来强化模型对可信用户意图的关注,主要用于防御提示注入。尽管它们在静态攻击基准(AgentDojo)上攻击成功率(ASR)低至 1%,但在研究者的自适应攻击下,ASR 均超过 95%。人工红队测试也得到了相似结论。

攻击者常将恶意指令伪装成完成用户任务的先决条件,从而轻松绕过这类防御。



RPO (Robust Prompt Optimization):该防御使用基于梯度的提示优化技术,寻找能抵御越狱攻击的最佳提示。然而,在 HarmBench 基准上,研究者的强化学习(RL)攻击和梯度攻击分别达到了98% 和 96% 的 ASR



结论:基于提示的防御虽然能抵挡已知的固定攻击,但缺乏泛化能力,极易被新型的自动化或人工攻击绕过。

对抗现有攻击的训练

这类方法通过在对抗性数据上微调或训练模型来使其「内化」稳健性。研究者评估了Circuit Breakers、StruQ 和 MetaSecAlign 三种方法

StruQ 和 MetaSecAlign:专注于防御提示注入。StruQ 在研究者的 RL 攻击下,每个测试案例均被攻破。MetaSecAlign 在静态基准 AgentDojo 上的 ASR 为 2%,但在研究者的自适应攻击下,ASR 飙升至 96%。



Circuit Breakers:专注于防御越狱。研究者的自适应攻击同样可以轻易绕过它,在 HarmBench 上的 ASR 达到了 100%。

结论:这些结果印证了计算机视觉领域的教训 —— 针对固定的、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。只有在训练循环中动态优化生成对抗样本,才可能获得有意义的稳健性。

过滤模型防御

该策略在主模型前后部署一个独立的检测器,用于分类和拦截不安全的输入或输出。研究者评估了四种代表性检测器:Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。

这些检测器本质上是基于 BERT 微调的分类器,同样存在被欺骗的弱点。研究者的自适应攻击通过利用检测器的置信度反馈进行优化,在对抗 Protect AI、PromptGuard 和 Model Armor 时,ASR 均超过 90%。即使是抵抗力稍强的 PIGuard,ASR 也达到了 71%。人工红队测试同样取得了数百次成功攻击。



许多成功的攻击触发器本身并不包含明显的恶意特征,导致检测器难以在不产生大量误报的情况下将其识别出来。

结论:简单地堆叠过滤器无法解决根本的稳健性问题。尽管如此,检测器易于部署,能有效阻止一些简单的攻击,可作为多层防御策略中一个有用但能力有限的组件。

基于秘密知识的防御

这类防御利用攻击者未知的信息(如隐藏的「金丝雀」信号)来检测提示注入。研究者评估了Data Sentinel 和 MELON

Data Sentinel:它使用一个「蜜罐」提示来检测输入是否改变了模型的原始意图。其原论文声称对自适应攻击的假阴性率接近零。然而,研究者的 RL 攻击能以超过 80% 的准确率将模型的任务意图重定向,在所有测试案例中都成功绕过了防御。

攻击通过巧妙地重新定义任务术语绕过了检测,凸显了防御此类攻击的难度。



MELON:它通过运行模型两次来比对工具调用,判断是否存在注入攻击。研究者的攻击在不了解其内部机制的情况下,仅凭偶然就达到了 76% 的 ASR。当研究者模拟一个了解其机制的强大攻击者时,ASR 上升至 95%。

结论:依赖「秘密」信息的防御同样脆弱。一旦攻击者通过黑盒探测或白盒分析掌握其机制,就能轻易设计出绕过策略。

更多技术细节请参见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
特朗普杀了他全家!他会当伊朗张学良吗?

特朗普杀了他全家!他会当伊朗张学良吗?

乌鸦校尉
2026-03-25 18:19:47
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

承受之重
2026-03-25 12:45:53
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

水泥土的搞笑
2026-03-26 17:37:27
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

快科技
2026-03-24 00:22:40
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
到底是谁让马景涛穿这身衣服的?简直是灾难现场!

到底是谁让马景涛穿这身衣服的?简直是灾难现场!

西楼知趣杂谈
2026-03-25 23:41:24
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
2026-03-26 20:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
本地
健康
手机
军事航空

《迷你金属2》4月开启开发版测试 军事题材战略模拟

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版