网易首页 > 网易号 > 正文 申请入驻

牛津、斯坦福大学新研究:能思考的 AI 推理模型更易受到越狱攻击

0
分享至

IT之家 11 月 8 日消息,据《财富》杂志网站 11 月 7 日报道,最新研究显示,先进人工智能模型比人们之前想象的更容易被入侵,使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。

Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型推理(即“思考”用户请求)能力越强,并不意味着越能拒绝有害指令。


研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤,将有害指令隐藏其中,从而绕过 AI 内置的安全防护。

这种攻击可能让 AI 忽略安全防护,从而生成危险内容,例如武器制作指南或泄露敏感信息

过去一年,大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说,模型在回答每个问题前会花更多时间和资源进行分析,实现更深层次、更复杂的推理。此前研究认为,这种推理能力也可能提升安全性,帮助模型拒绝有害请求。但研究显示,这种能力同样可能被用来规避安全措施

研究发现,攻击者可以将有害请求藏在一长串无害推理步骤中,通过大量无害内容淹没模型的思维过程,从而削弱内部安全检查。在实验中,AI 的注意力主要集中在前面步骤,而提示末尾的有害指令几乎被忽视。

随着推理链延长,攻击成功率显著上升:推理最短时成功率为 27%,自然推理长度时为 51%,扩展推理链时则飙升至 80% 以上。

这一漏洞几乎影响所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”,一旦内部推理层被利用,也会失效。

IT之家从报道中获悉,过去一年,扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题,不再只是模式匹配,而更像人类解决问题的方式。

研究人员提出“推理感知防护”作为解决方案,该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号,系统会进行干预,将注意力重新引导到潜在有害内容上。早期测试显示,这种方法既能保持模型良好表现,又能有效恢复安全防护。

参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赔惨了?中国造90%激光雷达年亏上亿!西方媒体讥笑:第一又怎样

赔惨了?中国造90%激光雷达年亏上亿!西方媒体讥笑:第一又怎样

胖福的小木屋
2026-01-26 19:42:33
小登、中登和老登

小登、中登和老登

锦缎研究院
2026-01-27 07:51:10
《太平年》直到张彦泽被打成肉泥,才知,冯道对耶律德光算计多深

《太平年》直到张彦泽被打成肉泥,才知,冯道对耶律德光算计多深

TVB的四小花
2026-01-27 15:13:16
美国储量全球首位,中国95%得靠买,一旦断供我们如何应对?

美国储量全球首位,中国95%得靠买,一旦断供我们如何应对?

Hi科普啦
2026-01-26 11:25:34
安东尼奥带队杀进决赛触发续约条款,中国足球需要这种实干派

安东尼奥带队杀进决赛触发续约条款,中国足球需要这种实干派

罗纳尔说个球
2026-01-27 15:28:37
武汉理工毕业生回应“当保安遭学校约谈”传闻:母校只是关心并未干涉,不觉得当保安丢脸

武汉理工毕业生回应“当保安遭学校约谈”传闻:母校只是关心并未干涉,不觉得当保安丢脸

先锋新闻
2026-01-26 20:36:04
小姑子带人砸了我的婚房,婆家13口人没敢吱声,我直接拨通了110

小姑子带人砸了我的婚房,婆家13口人没敢吱声,我直接拨通了110

如烟若梦
2026-01-26 18:00:03
纪实:萝莉岛惊人丑闻!爱泼斯坦员工透露细节,无名氏36号竟是他

纪实:萝莉岛惊人丑闻!爱泼斯坦员工透露细节,无名氏36号竟是他

谈史论天地
2026-01-26 18:15:03
回顾:广东禽兽爷爷吴树权被判13年,孙女曾苦苦哀求:爷爷,不要

回顾:广东禽兽爷爷吴树权被判13年,孙女曾苦苦哀求:爷爷,不要

夜色游侠
2025-01-16 13:28:01
看破不说破,徐帆回应离婚5个月后,冯小刚的“小心思”藏不住了

看破不说破,徐帆回应离婚5个月后,冯小刚的“小心思”藏不住了

每一次点击
2026-01-27 15:29:48
反驳主流:揭开中国人口下降背后,那个无人敢说的逻辑

反驳主流:揭开中国人口下降背后,那个无人敢说的逻辑

趣味萌宠的日常
2026-01-27 06:34:49
新秀就耍大牌!把自己玩毁了,数据强于马刺榜眼,却落选新秀赛

新秀就耍大牌!把自己玩毁了,数据强于马刺榜眼,却落选新秀赛

你的篮球频道
2026-01-27 09:54:52
急了!俄罗斯开始用军舰为油轮护航,乌军4枚火烈鸟全部命中目标

急了!俄罗斯开始用军舰为油轮护航,乌军4枚火烈鸟全部命中目标

史政先锋
2026-01-26 21:19:31
1952年沈毅被依法判处死刑,陈赓惜才心切为其求情,毛主席说道:你去找周总理处理

1952年沈毅被依法判处死刑,陈赓惜才心切为其求情,毛主席说道:你去找周总理处理

史海孤雁
2026-01-18 22:28:08
湖人勇士谈判库明加交易!紫金军3换1报价曝光 勇士毫无兴趣

湖人勇士谈判库明加交易!紫金军3换1报价曝光 勇士毫无兴趣

罗说NBA
2026-01-27 06:09:05
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
新型诈骗来了!诈骗成功率近100%,大家一定警惕,建议转告家人

新型诈骗来了!诈骗成功率近100%,大家一定警惕,建议转告家人

削桐作琴
2025-10-01 14:57:36
李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

每日一见
2026-01-26 02:35:01
广州市委原书记郭永航,增补新职!刘宇轩,履新泰州市委常委、政法委书记!

广州市委原书记郭永航,增补新职!刘宇轩,履新泰州市委常委、政法委书记!

娱乐小可爱蛙
2026-01-27 10:14:56
中国U23赛后1举动获日本球迷大赞:中国足球没那么糟糕!

中国U23赛后1举动获日本球迷大赞:中国足球没那么糟糕!

邱泽云
2026-01-26 12:31:17
2026-01-27 16:16:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
326707文章数 606918关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

墨西哥被指取消向古巴运送原油计划

头条要闻

墨西哥被指取消向古巴运送原油计划

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
游戏
旅游
公开课
军事航空

教育要闻

国企招聘风波:“三通一达女”留学生入职危机,体检报告都不敢交

《看门狗》系列已死?博主炮轰《军团》毁了IP

旅游要闻

韩国料取代日本,成为中国游客春节出境游首选目的地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版