网易首页 > 网易号 > 正文 申请入驻

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

0
分享至




机器之心报道

编辑:Panda

思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。比如,我们可以让推理模型在思维过程中对之前的结果进行多轮反思,从而避免有害回答。

然而,反转来了!独立研究者 Jianli Zhao 等人近日的一项新研究发现,通过在有害请求前填充一长串无害的解谜推理序列(harmless puzzle reasoning),就能成功对推理模型实现越狱攻击。他们将这种方法命名为思维链劫持(Chain-of-Thought Hijacking)

做个类比,就像你试图绕过一个高度警惕的保安 (AI 的安全系统)。你没有硬闯,而是递给他一个极其复杂的 1000 块拼图 (良性的推理链),并诚恳地请他帮忙。这位推理爱好者保安立刻被吸引,全神贯注地投入到解谜中,他的全部注意力都从「防卫」转移到了「解题」上。就在他放下最后一块拼图,感到心满意足时,你顺口说道:「太好了,那我现在就拿走这袋黄金了」 (有害指令)。此时,他的安全防备 (拒绝信号) 已经被「拼图」稀释到了最低点,于是下意识地挥手让你通过。

这听起来很荒谬,但这正是最近一项研究揭示的思维链劫持攻击的核心原理:通过让 AI 先执行一长串无害的推理,其内部的安全防线会被「稀释」,从而让后续的有害指令「趁虚而入」

在 HarmBench 基准上,思维链劫持对 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻击成功率(ASR)分别达到了 99%、94%、100% 和 94%,远远超过以往针对推理模型的越狱方法。



  • 论文标题:Chain-of-Thought Hijacking
  • 论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持(CoT Hijacking)被定义为一种基于提示的越狱方法:该攻击会在有害指令前添加一个冗长的、良性的推理前言(reasoning preface),并辅以一个最终答案提示(final-answer cue)。这种结构系统性地降低了模型的拒绝率:良性的 CoT 稀释了拒绝信号,而提示则将注意力转移到了答案区域。

为了规模化地构建攻击,该团队使用一个辅助 LLM 实现了一个自动化流程(Seduction),用于生成候选的推理前言并整合有害内容。

每个候选项都会通过对目标模型的评判调用(judge call)来评分,以提供如下信息:

  • 输出是否为拒绝
  • CoT 的长度

这个黑盒反馈循环会迭代地优化提示,从而在无需访问模型内部参数的情况下,产生有效的越狱。下图展示了一些示例。



在 HarmBench 上的主要实验

该团队采用了几种针对推理模型的特定越狱方法作为基线,包括 Mousetrap、H-CoT 和 AutoRAN。鉴于每个越狱样本的计算成本高昂,该团队使用 HarmBench 的前 100 个样本作为基准。

目标模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有评估均在 Chao et al.(2024b)的统一评判协议下进行。该团队报告攻击成功率(ASR)作为评估越狱有效性的主要指标。





结果,在所有模型上,思维链劫持的表现都一致优于基线方法,包括在最前沿的专有系统上。这表明,扩展的推理序列可以作为一个全新的、极易被利用的攻击面。



GPT-5-mini 上的推理投入研究

该团队进一步在 GPT-5-mini 上,使用 50 个 HarmBench 样本测试了思维链劫持在不同推理投入(reasoning-effort)设置(最小、低、高)下的表现。



有趣的是,攻击成功率在「低投入」下最高,这表明推理投入和 CoT 长度是相关但又不同的控制变量。更长的推理并不保证更强的稳健性 —— 在某些情况下它反而降低了稳健性。

大型推理模型中的拒绝方向

该团队也研究大型推理模型(LRM)中的拒绝行为是否也可以追溯到激活空间(activation-space)中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异,可以计算出一个拒绝方向(refusal direction)。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征,该团队转向了一个更稳健、更复杂的推理模型 ——Qwen3-14B,该模型拥有 40 个层。

根据消融得分、转向(steering)有效性和 KL 散度约束,该团队在第 25 层、位置 -4 处观察到了最强的拒绝方向。

所有评估均使用 JailbreakBench 数据集,并使用子字符串匹配和 DeepSeek-v3.1 作为评判者(judge)。

该团队也对具体机制进行了分析。他们发现,在推理过程中,下一个 token 的激活反映了对先前所有 token 的注意力。有害意图的 token 会放大拒绝方向的信号,而良性 token 则会削弱它。通过迫使模型生成长链的良性推理,有害的 token 在被关注的上下文中只占很小一部分。结果,拒绝信号被稀释到阈值以下,导致有害的补全内容得以「蒙混过关」。

该团队称这种效应为拒绝稀释(refusal dilution)。他们还在论文中进行了更进一步的细致分析,详见原论文。

结果与讨论

研究团队的结果表明,思维链(CoT)推理虽然能提升模型的准确性,但同时也引入了新的安全漏洞。实验进一步显示,这类攻击具有普遍性。

机制分析发现,即使在具备推理增强的模型架构中,模型的拒绝行为主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性的推理内容会稀释拒绝激活,注意力也会逐渐偏离有害 token。

因此,这一发现直接挑战了「更多推理带来更强稳健性」的假设。相反,延长推理链所带来的额外计算可能反而加剧安全失效,尤其是在专门优化长 CoT 的模型中。由此,那些依赖浅层拒绝启发式(shallow refusal heuristics)却未能随推理深度共同扩展安全机制的对齐策略,其可靠性受到质疑。

在缓解方面,研究表明仅修补提示并不足以解决问题。现有防御多局限于特定领域,且忽略了推理阶段的特殊漏洞。更有效的防御可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在有害的文本跨度(spans)。这仍有待进一步探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

谈史论天地
2026-02-25 06:53:06
英剧天花板炸裂三季!9.0+神作封印悬疑天花板!!

英剧天花板炸裂三季!9.0+神作封印悬疑天花板!!

民智
2026-02-25 10:20:47
俩月了,一个也没卖到中国去

俩月了,一个也没卖到中国去

观察者网
2026-02-25 08:55:04
11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

火山詩话
2026-02-24 19:18:04
孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

青苹果sht
2026-02-20 05:52:21
巴拿马赌输了?撕毁长和租约后,中国占21.4%的货运量成致命一击

巴拿马赌输了?撕毁长和租约后,中国占21.4%的货运量成致命一击

墨兰史书
2026-02-24 23:36:59
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

手工制作阿歼
2026-02-24 16:41:37
宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

春秋砚
2026-02-24 12:25:08
山东华联商厦股份有限公司原党总支书记、董事长、总经理李海龙接受纪律审查和监察调查

山东华联商厦股份有限公司原党总支书记、董事长、总经理李海龙接受纪律审查和监察调查

天下泉城
2026-02-25 11:05:04
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
旅客称检票进站后列车已开走 车站已道歉并报销相关费用

旅客称检票进站后列车已开走 车站已道歉并报销相关费用

闪电新闻
2026-02-24 14:17:15
蔡文静穿这么露竟然敢去公园玩

蔡文静穿这么露竟然敢去公园玩

阿废冷眼观察所
2026-02-25 11:36:57
雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

PChome电脑之家
2026-02-24 17:02:37
老人狂买26万元金条!扬州一金店员工暗中报警

老人狂买26万元金条!扬州一金店员工暗中报警

环球网资讯
2026-02-25 07:45:08
28分钟狂砍0+0+0+0+0!还有谁能做到?

28分钟狂砍0+0+0+0+0!还有谁能做到?

小染说台球
2026-02-25 08:44:04
0罚球砍20+4!又打破骑士纪录,哈登效应太强,还把阿伦喂成20+11

0罚球砍20+4!又打破骑士纪录,哈登效应太强,还把阿伦喂成20+11

巴叔GO聊体育
2026-02-25 12:36:04
马筱梅儿子被质疑不是新生儿,疑在大S忌日出生,行程被扒惹争议

马筱梅儿子被质疑不是新生儿,疑在大S忌日出生,行程被扒惹争议

古希腊掌管月桂的神
2026-02-25 12:42:43
霉霉公开录制幕后素颜照!网友:老了发福了

霉霉公开录制幕后素颜照!网友:老了发福了

乡野小珥
2026-02-24 21:21:51
去了一趟潮汕,我被饭桌上的教育震撼:活该人家一代比一代富!

去了一趟潮汕,我被饭桌上的教育震撼:活该人家一代比一代富!

小陆搞笑日常
2026-02-23 22:27:30
2026-02-25 13:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12347文章数 142569关注度
往期回顾 全部

科技要闻

台积电市值破2万亿美元,翻倍只用了16个月

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

时尚
游戏
艺术
旅游
亲子

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

索尼技术新突破!可以消除掉帧和画质模糊问题?

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

旅游要闻

这个春节,日均15.56万人次逛廊道

亲子要闻

花园宝宝致敬过这一段

无障碍浏览 进入关怀版