网易首页 > 网易号 > 正文 申请入驻

牛津、斯坦福大学新研究:能思考的 AI 推理模型更易受到越狱攻击

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 8 日消息,据《财富》杂志网站 11 月 7 日报道,最新研究显示,先进人工智能模型比人们之前想象的更容易被入侵,使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。

Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型推理(即“思考”用户请求)能力越强,并不意味着越能拒绝有害指令。


研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤,将有害指令隐藏其中,从而绕过 AI 内置的安全防护。

这种攻击可能让 AI 忽略安全防护,从而生成危险内容,例如武器制作指南或泄露敏感信息。

过去一年,大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说,模型在回答每个问题前会花更多时间和资源进行分析,实现更深层次、更复杂的推理。此前研究认为,这种推理能力也可能提升安全性,帮助模型拒绝有害请求。但研究显示,这种能力同样可能被用来规避安全措施。

研究发现,攻击者可以将有害请求藏在一长串无害推理步骤中,通过大量无害内容淹没模型的思维过程,从而削弱内部安全检查。在实验中,AI 的注意力主要集中在前面步骤,而提示末尾的有害指令几乎被忽视。

随着推理链延长,攻击成功率显著上升:推理最短时成功率为 27%,自然推理长度时为 51%,扩展推理链时则飙升至 80% 以上。

这一漏洞几乎影响所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”,一旦内部推理层被利用,也会失效。

IT之家从报道中获悉,过去一年,扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题,不再只是模式匹配,而更像人类解决问题的方式。

研究人员提出“推理感知防护”作为解决方案,该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号,系统会进行干预,将注意力重新引导到潜在有害内容上。早期测试显示,这种方法既能保持模型良好表现,又能有效恢复安全防护。

参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵首次个人直播收入43598.6元,已全部捐给乡村儿童

全红婵首次个人直播收入43598.6元,已全部捐给乡村儿童

极目新闻
2025-11-13 07:49:46
江苏女排攻防节奏流畅,边攻强大!全运几无对手,唯山东可拼一拼

江苏女排攻防节奏流畅,边攻强大!全运几无对手,唯山东可拼一拼

金毛爱女排
2025-11-13 00:00:03
库里轰44分!文班亚马+卡斯尔同时拿三双,勇士是否该换小萨?

库里轰44分!文班亚马+卡斯尔同时拿三双,勇士是否该换小萨?

老梁体育漫谈
2025-11-13 11:46:50
值不值?中方向菲律宾“人民”提供240万美元援助,全球舆论爆了

值不值?中方向菲律宾“人民”提供240万美元援助,全球舆论爆了

丁丁鲤史纪
2025-11-12 18:17:51
库里46+5+5勇士终结马刺3连胜,巴特勒28+6+8文班亚马31+15+10

库里46+5+5勇士终结马刺3连胜,巴特勒28+6+8文班亚马31+15+10

湖人崛起
2025-11-13 11:39:47
全运会最新金牌榜:山东24金霸榜,广东20金,江西破荒

全运会最新金牌榜:山东24金霸榜,广东20金,江西破荒

章蠞户外
2025-11-12 22:38:42
双11彻底凉了?满屏套路加口袋空空,消费降级,年轻人买不动了?

双11彻底凉了?满屏套路加口袋空空,消费降级,年轻人买不动了?

眼光很亮
2025-11-12 15:45:55
两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

闻识
2025-11-12 17:13:52
队记:波杰姆斯基多次声称想超越库里,这让多名队友对他无语

队记:波杰姆斯基多次声称想超越库里,这让多名队友对他无语

懂球帝
2025-11-13 10:18:08
高市早苗通知全球,不撤回涉台言论,话音刚落,解放军攻击11亮相

高市早苗通知全球,不撤回涉台言论,话音刚落,解放军攻击11亮相

墨兰史书
2025-11-13 02:55:03
狂轰26分7板4助!打爆开拓者主力中锋,杨瀚森的手下败将彻底蜕变

狂轰26分7板4助!打爆开拓者主力中锋,杨瀚森的手下败将彻底蜕变

球场没跑道
2025-11-13 11:57:52
打疯了!火箭27分领先打爆鱼腩:杜兰特轰19分,替补悍将13分

打疯了!火箭27分领先打爆鱼腩:杜兰特轰19分,替补悍将13分

体坛小李
2025-11-13 10:15:15
万亿级央企,成立新公司

万亿级央企,成立新公司

新京报政事儿
2025-11-12 23:02:33
俄称挫败乌英劫持米格-31战机企图,俄军事专家:乌英旨在引起冲突升级

俄称挫败乌英劫持米格-31战机企图,俄军事专家:乌英旨在引起冲突升级

环球网资讯
2025-11-12 06:56:15
香港风水师蔡伯励评李嘉诚:有钱无福之人,活得太累

香港风水师蔡伯励评李嘉诚:有钱无福之人,活得太累

田先生研究室
2025-11-11 18:53:21
持续发酵!殴打93岁母亲的逆子个人信息曝光,全网要求严惩

持续发酵!殴打93岁母亲的逆子个人信息曝光,全网要求严惩

鋭娱之乐
2025-11-12 14:12:43
拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

南海浪花
2025-11-12 18:33:05
曾主任与祖副院长偷欢现场惊现反转!

曾主任与祖副院长偷欢现场惊现反转!

霹雳炮
2025-11-12 23:05:53
哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

兴趣知识
2025-11-11 21:20:51
演都不演了?李连杰、洪金宝变化突出,疑“血液净化”,牵连成龙

演都不演了?李连杰、洪金宝变化突出,疑“血液净化”,牵连成龙

阿笎评论哥
2025-11-11 11:57:29
2025-11-13 12:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1370902文章数 4466关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

湖北通报:黑老大行贿千万 市公安局长等成其"保护伞"

头条要闻

湖北通报:黑老大行贿千万 市公安局长等成其"保护伞"

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

数码
家居
本地
旅游
军事航空

数码要闻

Intel突然公布30个安全漏洞!涵盖CPU、GPU等产品

家居要闻

情感之所 生活教会设计

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

旅游要闻

山东数字文化集团“天镜·影鉴青岛”数字展厅上线

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版