网易首页 > 网易号 > 正文 申请入驻

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

0
分享至

来源:市场资讯

(来源:机器之心)

思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。比如,我们可以让推理模型在思维过程中对之前的结果进行多轮反思,从而避免有害回答。

然而,反转来了!独立研究者 Jianli Zhao 等人近日的一项新研究发现,通过在有害请求前填充一长串无害的解谜推理序列(harmless puzzle reasoning),就能成功对推理模型实现越狱攻击。他们将这种方法命名为思维链劫持(Chain-of-Thought Hijacking)。

做个类比,就像你试图绕过一个高度警惕的保安 (AI 的安全系统)。你没有硬闯,而是递给他一个极其复杂的 1000 块拼图 (良性的推理链),并诚恳地请他帮忙。这位推理爱好者保安立刻被吸引,全神贯注地投入到解谜中,他的全部注意力都从「防卫」转移到了「解题」上。就在他放下最后一块拼图,感到心满意足时,你顺口说道:「太好了,那我现在就拿走这袋黄金了」 (有害指令)。此时,他的安全防备 (拒绝信号) 已经被「拼图」稀释到了最低点,于是下意识地挥手让你通过。

这听起来很荒谬,但这正是最近一项研究揭示的思维链劫持攻击的核心原理:通过让 AI 先执行一长串无害的推理,其内部的安全防线会被「稀释」,从而让后续的有害指令「趁虚而入」。

在 HarmBench 基准上,思维链劫持对 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻击成功率(ASR)分别达到了 99%、94%、100% 和 94%,远远超过以往针对推理模型的越狱方法。


  • 论文标题:Chain-of-Thought Hijacking

  • 论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持(CoT Hijacking)被定义为一种基于提示的越狱方法:该攻击会在有害指令前添加一个冗长的、良性的推理前言(reasoning preface),并辅以一个最终答案提示(final-answer cue)。这种结构系统性地降低了模型的拒绝率:良性的 CoT 稀释了拒绝信号,而提示则将注意力转移到了答案区域。

为了规模化地构建攻击,该团队使用一个辅助 LLM 实现了一个自动化流程(Seduction),用于生成候选的推理前言并整合有害内容。

每个候选项都会通过对目标模型的评判调用(judge call)来评分,以提供如下信息:

  • 输出是否为拒绝

  • CoT 的长度

这个黑盒反馈循环会迭代地优化提示,从而在无需访问模型内部参数的情况下,产生有效的越狱。下图展示了一些示例。


在 HarmBench 上的主要实验

该团队采用了几种针对推理模型的特定越狱方法作为基线,包括 Mousetrap、H-CoT 和 AutoRAN。鉴于每个越狱样本的计算成本高昂,该团队使用 HarmBench 的前 100 个样本作为基准。

目标模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有评估均在 Chao et al.(2024b)的统一评判协议下进行。该团队报告攻击成功率(ASR)作为评估越狱有效性的主要指标。



结果,在所有模型上,思维链劫持的表现都一致优于基线方法,包括在最前沿的专有系统上。这表明,扩展的推理序列可以作为一个全新的、极易被利用的攻击面。


GPT-5-mini 上的推理投入研究

该团队进一步在 GPT-5-mini 上,使用 50 个 HarmBench 样本测试了思维链劫持在不同推理投入(reasoning-effort)设置(最小、低、高)下的表现。


有趣的是,攻击成功率在「低投入」下最高,这表明推理投入和 CoT 长度是相关但又不同的控制变量。更长的推理并不保证更强的稳健性 —— 在某些情况下它反而降低了稳健性。

大型推理模型中的拒绝方向

该团队也研究大型推理模型(LRM)中的拒绝行为是否也可以追溯到激活空间(activation-space)中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异,可以计算出一个拒绝方向(refusal direction)。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征,该团队转向了一个更稳健、更复杂的推理模型 ——Qwen3-14B,该模型拥有 40 个层。

根据消融得分、转向(steering)有效性和 KL 散度约束,该团队在第 25 层、位置 -4 处观察到了最强的拒绝方向。

所有评估均使用 JailbreakBench 数据集,并使用子字符串匹配和 DeepSeek-v3.1 作为评判者(judge)。

该团队也对具体机制进行了分析。他们发现,在推理过程中,下一个 token 的激活反映了对先前所有 token 的注意力。有害意图的 token 会放大拒绝方向的信号,而良性 token 则会削弱它。通过迫使模型生成长链的良性推理,有害的 token 在被关注的上下文中只占很小一部分。结果,拒绝信号被稀释到阈值以下,导致有害的补全内容得以「蒙混过关」。

该团队称这种效应为拒绝稀释(refusal dilution)。他们还在论文中进行了更进一步的细致分析,详见原论文。

结果与讨论

研究团队的结果表明,思维链(CoT)推理虽然能提升模型的准确性,但同时也引入了新的安全漏洞。实验进一步显示,这类攻击具有普遍性。

机制分析发现,即使在具备推理增强的模型架构中,模型的拒绝行为主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性的推理内容会稀释拒绝激活,注意力也会逐渐偏离有害 token。

因此,这一发现直接挑战了「更多推理带来更强稳健性」的假设。相反,延长推理链所带来的额外计算可能反而加剧安全失效,尤其是在专门优化长 CoT 的模型中。由此,那些依赖浅层拒绝启发式(shallow refusal heuristics)却未能随推理深度共同扩展安全机制的对齐策略,其可靠性受到质疑。

在缓解方面,研究表明仅修补提示并不足以解决问题。现有防御多局限于特定领域,且忽略了推理阶段的特殊漏洞。更有效的防御可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在有害的文本跨度(spans)。这仍有待进一步探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅:特朗普再曝通俄!2万页爱泼斯坦邮件曝光

重磅:特朗普再曝通俄!2万页爱泼斯坦邮件曝光

项鹏飞
2025-11-13 19:52:51
当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

风过乡
2025-11-14 07:06:45
约基奇55+12+6掘金击沉快船6连胜,哈登23+8+5孤掌难鸣

约基奇55+12+6掘金击沉快船6连胜,哈登23+8+5孤掌难鸣

湖人崛起
2025-11-13 13:58:29
王曼昱4-1战胜王艺迪晋级女单四强,半决赛对阵陈梦

王曼昱4-1战胜王艺迪晋级女单四强,半决赛对阵陈梦

懂球帝
2025-11-13 20:21:11
日本叫嚣要在台海击沉福建舰,话音未落,中国055舰队抵达日本

日本叫嚣要在台海击沉福建舰,话音未落,中国055舰队抵达日本

面包夹知识
2025-11-14 00:13:22
神舟二十号航天员乘组返回任务有序推进

神舟二十号航天员乘组返回任务有序推进

新华社
2025-11-11 10:30:08
“狗咬人引发命案”:死者妹妹说:我们才是受害者,网友不分黑白

“狗咬人引发命案”:死者妹妹说:我们才是受害者,网友不分黑白

汉史趣闻
2025-11-13 10:10:57
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
全运会男子800米自由泳:小将张展硕再破纪录,强势拿下第3金

全运会男子800米自由泳:小将张展硕再破纪录,强势拿下第3金

全景体育V
2025-11-13 19:15:55
5连胜!意大利只输1场球却无法直接出线 需赢挪威9-0才能迎来奇迹

5连胜!意大利只输1场球却无法直接出线 需赢挪威9-0才能迎来奇迹

风过乡
2025-11-14 06:48:55
6-4!罗伯逊战胜希金斯,冠中冠4强出炉!大概率以下2人晋级决赛

6-4!罗伯逊战胜希金斯,冠中冠4强出炉!大概率以下2人晋级决赛

球场没跑道
2025-11-14 06:55:59
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
今夜,利空!跳水!

今夜,利空!跳水!

中国基金报
2025-11-14 00:15:40
特讯!泰国国王和王后抵京,获中方高规格接待,引爆国际舆论

特讯!泰国国王和王后抵京,获中方高规格接待,引爆国际舆论

青风点评
2025-11-13 23:09:17
奋进“十五五”|奋力续写“两大奇迹”新篇章

奋进“十五五”|奋力续写“两大奇迹”新篇章

中国经济网
2025-11-13 07:38:07
2-0,24岁萨卡无敌凌空斩,英格兰豪取世预赛7连胜,太强了

2-0,24岁萨卡无敌凌空斩,英格兰豪取世预赛7连胜,太强了

侧身凌空斩
2025-11-14 05:40:34
夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

小娱乐悠悠
2025-11-13 16:06:27
斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

刘姚尧的文字城堡
2025-11-14 07:13:31
全运会男女4×100混合泳接力:徐嘉余余依婷领衔,浙江队强势摘金

全运会男女4×100混合泳接力:徐嘉余余依婷领衔,浙江队强势摘金

全景体育V
2025-11-13 20:59:50
邓超给儿子庆生:兄弟情深,活力少年引关注?

邓超给儿子庆生:兄弟情深,活力少年引关注?

娱乐领航家
2025-11-13 17:00:03
2025-11-14 08:55:01
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1379241文章数 4487关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

俄军对乌克兰首都发动大规模袭击 基辅传出密集爆炸声

头条要闻

俄军对乌克兰首都发动大规模袭击 基辅传出密集爆炸声

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

深夜!全线崩跌,发生了什么?

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

教育
健康
时尚
家居
军事航空

教育要闻

《山西教育》报道宁武县高级中学校十年振兴之路

血液科专家揭秘白血病七大误区

别这样P图了,真的好假!

家居要闻

莫奈时间 重构先锋概念

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版