AI越会思考，越容易被骗？「思维链劫持」攻击成功率超过90%|信号|越狱|推理|有效性

AI越会思考，越容易被骗？「思维链劫持」攻击成功率超过90%

2025-11-03 16:51:40　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：Panda

思维链很有用，能让模型具备更强大的推理能力，同时也能提升模型的拒绝能力（refusal），进而增强其安全性。比如，我们可以让推理模型在思维过程中对之前的结果进行多轮反思，从而避免有害回答。

然而，反转来了！独立研究者 Jianli Zhao 等人近日的一项新研究发现，通过在有害请求前填充一长串无害的解谜推理序列（harmless puzzle reasoning），就能成功对推理模型实现越狱攻击。他们将这种方法命名为思维链劫持（Chain-of-Thought Hijacking）

做个类比，就像你试图绕过一个高度警惕的保安 (AI 的安全系统)。你没有硬闯，而是递给他一个极其复杂的 1000 块拼图 (良性的推理链)，并诚恳地请他帮忙。这位推理爱好者保安立刻被吸引，全神贯注地投入到解谜中，他的全部注意力都从「防卫」转移到了「解题」上。就在他放下最后一块拼图，感到心满意足时，你顺口说道：「太好了，那我现在就拿走这袋黄金了」 (有害指令)。此时，他的安全防备 (拒绝信号) 已经被「拼图」稀释到了最低点，于是下意识地挥手让你通过。

这听起来很荒谬，但这正是最近一项研究揭示的思维链劫持攻击的核心原理：通过让 AI 先执行一长串无害的推理，其内部的安全防线会被「稀释」，从而让后续的有害指令「趁虚而入」

在 HarmBench 基准上，思维链劫持对 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻击成功率（ASR）分别达到了 99%、94%、100% 和 94%，远远超过以往针对推理模型的越狱方法。

论文标题：Chain-of-Thought Hijacking
论文地址：https://arxiv.org/abs/2510.26418

思维链劫持：攻击设计

思维链劫持（CoT Hijacking）被定义为一种基于提示的越狱方法：该攻击会在有害指令前添加一个冗长的、良性的推理前言（reasoning preface），并辅以一个最终答案提示（final-answer cue）。这种结构系统性地降低了模型的拒绝率：良性的 CoT 稀释了拒绝信号，而提示则将注意力转移到了答案区域。

为了规模化地构建攻击，该团队使用一个辅助 LLM 实现了一个自动化流程（Seduction），用于生成候选的推理前言并整合有害内容。

每个候选项都会通过对目标模型的评判调用（judge call）来评分，以提供如下信息：

输出是否为拒绝
CoT 的长度

这个黑盒反馈循环会迭代地优化提示，从而在无需访问模型内部参数的情况下，产生有效的越狱。下图展示了一些示例。

在 HarmBench 上的主要实验

该团队采用了几种针对推理模型的特定越狱方法作为基线，包括 Mousetrap、H-CoT 和 AutoRAN。鉴于每个越狱样本的计算成本高昂，该团队使用 HarmBench 的前 100 个样本作为基准。

目标模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet，所有评估均在 Chao et al.（2024b）的统一评判协议下进行。该团队报告攻击成功率（ASR）作为评估越狱有效性的主要指标。

结果，在所有模型上，思维链劫持的表现都一致优于基线方法，包括在最前沿的专有系统上。这表明，扩展的推理序列可以作为一个全新的、极易被利用的攻击面。

GPT-5-mini 上的推理投入研究

该团队进一步在 GPT-5-mini 上，使用 50 个 HarmBench 样本测试了思维链劫持在不同推理投入（reasoning-effort）设置（最小、低、高）下的表现。

有趣的是，攻击成功率在「低投入」下最高，这表明推理投入和 CoT 长度是相关但又不同的控制变量。更长的推理并不保证更强的稳健性 —— 在某些情况下它反而降低了稳健性。

大型推理模型中的拒绝方向

该团队也研究大型推理模型（LRM）中的拒绝行为是否也可以追溯到激活空间（activation-space）中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异，可以计算出一个拒绝方向（refusal direction）。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征，该团队转向了一个更稳健、更复杂的推理模型 ——Qwen3-14B，该模型拥有 40 个层。

根据消融得分、转向（steering）有效性和 KL 散度约束，该团队在第 25 层、位置 -4 处观察到了最强的拒绝方向。

所有评估均使用 JailbreakBench 数据集，并使用子字符串匹配和 DeepSeek-v3.1 作为评判者（judge）。

该团队也对具体机制进行了分析。他们发现，在推理过程中，下一个 token 的激活反映了对先前所有 token 的注意力。有害意图的 token 会放大拒绝方向的信号，而良性 token 则会削弱它。通过迫使模型生成长链的良性推理，有害的 token 在被关注的上下文中只占很小一部分。结果，拒绝信号被稀释到阈值以下，导致有害的补全内容得以「蒙混过关」。

该团队称这种效应为拒绝稀释（refusal dilution）。他们还在论文中进行了更进一步的细致分析，详见原论文。

结果与讨论

研究团队的结果表明，思维链（CoT）推理虽然能提升模型的准确性，但同时也引入了新的安全漏洞。实验进一步显示，这类攻击具有普遍性。

机制分析发现，即使在具备推理增强的模型架构中，模型的拒绝行为主要由一个低维信号（拒绝方向）控制。然而，这个信号非常脆弱：当推理链变长时，良性的推理内容会稀释拒绝激活，注意力也会逐渐偏离有害 token。

因此，这一发现直接挑战了「更多推理带来更强稳健性」的假设。相反，延长推理链所带来的额外计算可能反而加剧安全失效，尤其是在专门优化长 CoT 的模型中。由此，那些依赖浅层拒绝启发式（shallow refusal heuristics）却未能随推理深度共同扩展安全机制的对齐策略，其可靠性受到质疑。

在缓解方面，研究表明仅修补提示并不足以解决问题。现有防御多局限于特定领域，且忽略了推理阶段的特殊漏洞。更有效的防御可能需要将安全性嵌入推理过程本身，例如跨层监控拒绝激活、抑制拒绝信号稀释，或确保模型在长推理过程中始终关注潜在有害的文本跨度（spans）。这仍有待进一步探索。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.