网易首页 > 网易号 > 正文 申请入驻

牛津、斯坦福大学新研究:能思考的 AI 推理模型更易受到越狱攻击

0
分享至

IT之家 11 月 8 日消息,据《财富》杂志网站 11 月 7 日报道,最新研究显示,先进人工智能模型比人们之前想象的更容易被入侵,使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。

Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型推理(即“思考”用户请求)能力越强,并不意味着越能拒绝有害指令。


研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤,将有害指令隐藏其中,从而绕过 AI 内置的安全防护。

这种攻击可能让 AI 忽略安全防护,从而生成危险内容,例如武器制作指南或泄露敏感信息

过去一年,大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说,模型在回答每个问题前会花更多时间和资源进行分析,实现更深层次、更复杂的推理。此前研究认为,这种推理能力也可能提升安全性,帮助模型拒绝有害请求。但研究显示,这种能力同样可能被用来规避安全措施

研究发现,攻击者可以将有害请求藏在一长串无害推理步骤中,通过大量无害内容淹没模型的思维过程,从而削弱内部安全检查。在实验中,AI 的注意力主要集中在前面步骤,而提示末尾的有害指令几乎被忽视。

随着推理链延长,攻击成功率显著上升:推理最短时成功率为 27%,自然推理长度时为 51%,扩展推理链时则飙升至 80% 以上。

这一漏洞几乎影响所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”,一旦内部推理层被利用,也会失效。

IT之家从报道中获悉,过去一年,扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题,不再只是模式匹配,而更像人类解决问题的方式。

研究人员提出“推理感知防护”作为解决方案,该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号,系统会进行干预,将注意力重新引导到潜在有害内容上。早期测试显示,这种方法既能保持模型良好表现,又能有效恢复安全防护。

参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
松岛4-0奥恰为张本复仇!胜王楚钦后信心爆棚?日本球迷赞新王牌

松岛4-0奥恰为张本复仇!胜王楚钦后信心爆棚?日本球迷赞新王牌

颜小白的篮球梦
2025-11-08 20:46:32
女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

思絮
2025-10-24 10:42:12
第94分钟丢球,阿森纳上一次第90分钟后被绝平是去年2-2曼城

第94分钟丢球,阿森纳上一次第90分钟后被绝平是去年2-2曼城

懂球帝
2025-11-09 04:22:05
4199 元!新 iPhone上市,被秒了

4199 元!新 iPhone上市,被秒了

科技堡垒
2025-11-08 11:45:13
十五运|率河南女排获两连胜,朱婷赛后成“合影打卡点”,逐一满足对手请求

十五运|率河南女排获两连胜,朱婷赛后成“合影打卡点”,逐一满足对手请求

文汇报
2025-11-09 04:10:11
0分,又0分!汤普森完了!四冠神射手疯狂下滑

0分,又0分!汤普森完了!四冠神射手疯狂下滑

篮球实战宝典
2025-11-08 22:05:43
宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

孤傲何妨初
2025-11-08 08:59:15
战局急转!泽连斯基突然捅破普京图谋,特朗普惊人表态引全球热议

战局急转!泽连斯基突然捅破普京图谋,特朗普惊人表态引全球热议

萧嚉影视解说
2025-11-09 03:25:51
王家卫哪是口味重啊,分明是想要又没捞着,急得上火!

王家卫哪是口味重啊,分明是想要又没捞着,急得上火!

小光侃娱乐
2025-11-08 07:10:03
美国战犯总统离世!双手沾血遭全球唾骂!他的一生藏着美国野心?

美国战犯总统离世!双手沾血遭全球唾骂!他的一生藏着美国野心?

井普椿的独白
2025-11-08 13:00:26
秋补钾,身不乏,钾是香蕉42倍,中老年要常吃,营养滋补又解馋!

秋补钾,身不乏,钾是香蕉42倍,中老年要常吃,营养滋补又解馋!

美食店主
2025-11-09 00:26:36
学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

奇思妙想草叶君
2025-11-08 21:13:10
福建舰官宣入列,解放军再次重磅围岛,马英九喊话赖清德和郑丽文

福建舰官宣入列,解放军再次重磅围岛,马英九喊话赖清德和郑丽文

时时有聊
2025-11-07 21:55:13
德专家评价各国高铁:日本及格,法国优秀,中国被归入非人类序列

德专家评价各国高铁:日本及格,法国优秀,中国被归入非人类序列

板栗说事
2025-02-17 07:36:52
兔子不吃窝边草,山东小伙赶日留学娶走班主任,国足比赛差点离婚

兔子不吃窝边草,山东小伙赶日留学娶走班主任,国足比赛差点离婚

小椰的奶奶
2025-11-09 04:17:54
无人机,闯了大祸

无人机,闯了大祸

中国新闻周刊
2025-11-08 13:07:15
9-2!希金斯淘汰马奎尔,与吴宜泽会师决赛!国锦赛冠军基本出炉

9-2!希金斯淘汰马奎尔,与吴宜泽会师决赛!国锦赛冠军基本出炉

球场没跑道
2025-11-08 20:34:14
突发!3万人今天起失业!史上最大裁员潮来了,而这仅仅是开始?

突发!3万人今天起失业!史上最大裁员潮来了,而这仅仅是开始?

澳洲财经见闻
2025-11-08 15:26:12
经不起查!长沙医生不雅视频升级,网传两人6个月共同出差27次…

经不起查!长沙医生不雅视频升级,网传两人6个月共同出差27次…

火山诗话
2025-11-07 13:42:14
闹大笑话了,俄罗斯导弹难仿造,原因用的电子管和二极管太落后

闹大笑话了,俄罗斯导弹难仿造,原因用的电子管和二极管太落后

我心纵横天地间
2025-11-07 21:08:52
2025-11-09 05:04:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
314190文章数 606722关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

亲子
数码
本地
艺术
时尚

亲子要闻

权威医者说|“备孕夫妻”饮食小技巧

数码要闻

荣耀亲选耳夹式耳机2 Pro曝光:金线充电盒加持,支持空间音频

本地新闻

这届干饭人,已经把博物馆吃成了食堂

艺术要闻

1008米!世界新第一高楼项目,迎来第三家中国公司加入

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

无障碍浏览 进入关怀版