网易首页 > 网易号 > 正文 申请入驻

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

0
分享至




机器之心报道

编辑:Panda

思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。比如,我们可以让推理模型在思维过程中对之前的结果进行多轮反思,从而避免有害回答。

然而,反转来了!独立研究者 Jianli Zhao 等人近日的一项新研究发现,通过在有害请求前填充一长串无害的解谜推理序列(harmless puzzle reasoning),就能成功对推理模型实现越狱攻击。他们将这种方法命名为思维链劫持(Chain-of-Thought Hijacking)

做个类比,就像你试图绕过一个高度警惕的保安 (AI 的安全系统)。你没有硬闯,而是递给他一个极其复杂的 1000 块拼图 (良性的推理链),并诚恳地请他帮忙。这位推理爱好者保安立刻被吸引,全神贯注地投入到解谜中,他的全部注意力都从「防卫」转移到了「解题」上。就在他放下最后一块拼图,感到心满意足时,你顺口说道:「太好了,那我现在就拿走这袋黄金了」 (有害指令)。此时,他的安全防备 (拒绝信号) 已经被「拼图」稀释到了最低点,于是下意识地挥手让你通过。

这听起来很荒谬,但这正是最近一项研究揭示的思维链劫持攻击的核心原理:通过让 AI 先执行一长串无害的推理,其内部的安全防线会被「稀释」,从而让后续的有害指令「趁虚而入」

在 HarmBench 基准上,思维链劫持对 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻击成功率(ASR)分别达到了 99%、94%、100% 和 94%,远远超过以往针对推理模型的越狱方法。



  • 论文标题:Chain-of-Thought Hijacking
  • 论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持(CoT Hijacking)被定义为一种基于提示的越狱方法:该攻击会在有害指令前添加一个冗长的、良性的推理前言(reasoning preface),并辅以一个最终答案提示(final-answer cue)。这种结构系统性地降低了模型的拒绝率:良性的 CoT 稀释了拒绝信号,而提示则将注意力转移到了答案区域。

为了规模化地构建攻击,该团队使用一个辅助 LLM 实现了一个自动化流程(Seduction),用于生成候选的推理前言并整合有害内容。

每个候选项都会通过对目标模型的评判调用(judge call)来评分,以提供如下信息:

  • 输出是否为拒绝
  • CoT 的长度

这个黑盒反馈循环会迭代地优化提示,从而在无需访问模型内部参数的情况下,产生有效的越狱。下图展示了一些示例。



在 HarmBench 上的主要实验

该团队采用了几种针对推理模型的特定越狱方法作为基线,包括 Mousetrap、H-CoT 和 AutoRAN。鉴于每个越狱样本的计算成本高昂,该团队使用 HarmBench 的前 100 个样本作为基准。

目标模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有评估均在 Chao et al.(2024b)的统一评判协议下进行。该团队报告攻击成功率(ASR)作为评估越狱有效性的主要指标。





结果,在所有模型上,思维链劫持的表现都一致优于基线方法,包括在最前沿的专有系统上。这表明,扩展的推理序列可以作为一个全新的、极易被利用的攻击面。



GPT-5-mini 上的推理投入研究

该团队进一步在 GPT-5-mini 上,使用 50 个 HarmBench 样本测试了思维链劫持在不同推理投入(reasoning-effort)设置(最小、低、高)下的表现。



有趣的是,攻击成功率在「低投入」下最高,这表明推理投入和 CoT 长度是相关但又不同的控制变量。更长的推理并不保证更强的稳健性 —— 在某些情况下它反而降低了稳健性。

大型推理模型中的拒绝方向

该团队也研究大型推理模型(LRM)中的拒绝行为是否也可以追溯到激活空间(activation-space)中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异,可以计算出一个拒绝方向(refusal direction)。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征,该团队转向了一个更稳健、更复杂的推理模型 ——Qwen3-14B,该模型拥有 40 个层。

根据消融得分、转向(steering)有效性和 KL 散度约束,该团队在第 25 层、位置 -4 处观察到了最强的拒绝方向。

所有评估均使用 JailbreakBench 数据集,并使用子字符串匹配和 DeepSeek-v3.1 作为评判者(judge)。

该团队也对具体机制进行了分析。他们发现,在推理过程中,下一个 token 的激活反映了对先前所有 token 的注意力。有害意图的 token 会放大拒绝方向的信号,而良性 token 则会削弱它。通过迫使模型生成长链的良性推理,有害的 token 在被关注的上下文中只占很小一部分。结果,拒绝信号被稀释到阈值以下,导致有害的补全内容得以「蒙混过关」。

该团队称这种效应为拒绝稀释(refusal dilution)。他们还在论文中进行了更进一步的细致分析,详见原论文。

结果与讨论

研究团队的结果表明,思维链(CoT)推理虽然能提升模型的准确性,但同时也引入了新的安全漏洞。实验进一步显示,这类攻击具有普遍性。

机制分析发现,即使在具备推理增强的模型架构中,模型的拒绝行为主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性的推理内容会稀释拒绝激活,注意力也会逐渐偏离有害 token。

因此,这一发现直接挑战了「更多推理带来更强稳健性」的假设。相反,延长推理链所带来的额外计算可能反而加剧安全失效,尤其是在专门优化长 CoT 的模型中。由此,那些依赖浅层拒绝启发式(shallow refusal heuristics)却未能随推理深度共同扩展安全机制的对齐策略,其可靠性受到质疑。

在缓解方面,研究表明仅修补提示并不足以解决问题。现有防御多局限于特定领域,且忽略了推理阶段的特殊漏洞。更有效的防御可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在有害的文本跨度(spans)。这仍有待进一步探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《繁花》录音事件升级,完整版长达43分钟,受牵连的远不止游本昌

《繁花》录音事件升级,完整版长达43分钟,受牵连的远不止游本昌

皮皮电影
2025-11-04 10:02:20
快船输球后,伦纳德伤情确认,泰伦卢态度变了,比尔也模棱两可

快船输球后,伦纳德伤情确认,泰伦卢态度变了,比尔也模棱两可

体坛大辣椒
2025-11-04 15:34:24
二手车不值钱了。我把车卖了,当初花15万买的车,最终只卖了1万8

二手车不值钱了。我把车卖了,当初花15万买的车,最终只卖了1万8

人情皆文史
2025-11-02 09:22:35
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
特朗普最新涉华表态

特朗普最新涉华表态

政知新媒体
2025-11-03 21:46:45
上海一老小区居民因加装电梯引争执,调解时一老人猝死 被告被判赔12万元

上海一老小区居民因加装电梯引争执,调解时一老人猝死 被告被判赔12万元

极目新闻
2025-11-04 16:59:40
突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

澳洲红领巾
2025-11-04 13:05:00
成渝中线高铁又一座特大桥合龙 全线通车后成都50分钟飙拢重庆

成渝中线高铁又一座特大桥合龙 全线通车后成都50分钟飙拢重庆

封面新闻
2025-11-04 15:29:02
大规模闭店!曾经的排队王!很多阜阳人吃过…

大规模闭店!曾经的排队王!很多阜阳人吃过…

掌上阜阳
2025-11-03 18:13:53
高三生被恶意撞伤身亡,肇事者是邻居

高三生被恶意撞伤身亡,肇事者是邻居

中国新闻周刊
2025-11-03 20:38:11
大连80岁老人三年花费40万元,买了近万件!一个直播间里最多一天花4万多元,没拆的快递纸箱堆满家中仓库

大连80岁老人三年花费40万元,买了近万件!一个直播间里最多一天花4万多元,没拆的快递纸箱堆满家中仓库

大风新闻
2025-11-04 12:35:04
翁帆受聘,任清华大学建筑学院讲师

翁帆受聘,任清华大学建筑学院讲师

GA环球建筑
2025-11-04 11:52:14
迟迟等不到中方签字,特朗普政府准备再加税,釜山峰会白谈一场?

迟迟等不到中方签字,特朗普政府准备再加税,釜山峰会白谈一场?

时时有聊
2025-11-04 11:13:00
军区政委多次批评他骄傲情绪,组织纪律观念不强,他委屈上报中央

军区政委多次批评他骄傲情绪,组织纪律观念不强,他委屈上报中央

历史龙元阁
2025-11-03 16:00:03
吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这4物能不吃就不吃!

吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这4物能不吃就不吃!

华庭讲美食
2025-11-04 11:29:22
日本人全球最长寿,这5种食物,他们顿顿都要吃,你吃过几种

日本人全球最长寿,这5种食物,他们顿顿都要吃,你吃过几种

削桐作琴
2025-11-03 19:29:12
一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

飞花逐月大帝
2025-11-04 10:30:59
被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

蜉蝣说
2025-10-05 23:57:52
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

澎湃新闻
2025-11-04 00:32:05
2025-11-04 17:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11645文章数 142497关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

女儿"下腰瘫"后家长起诉中国舞协:教师资格证由其颁发

头条要闻

女儿"下腰瘫"后家长起诉中国舞协:教师资格证由其颁发

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

游戏
家居
艺术
手机
公开课

走错一步,直接宇宙爆炸?星铁新版本的预告居然这么劲爆?

家居要闻

年轻态度 功能舒适兼备

艺术要闻

何镜堂院士出手!广州再添150米新地标

手机要闻

vivo X300系列两杯销量超上代三杯!天玑9500助力2亿像素新体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版