网易首页 > 网易号 > 正文 申请入驻

心理施压攻破安全防线,Anthropic Claude竟主动输出违禁内容

0
分享至

IT之家 5 月 6 日消息,Anthropic 多年来一直将自身打造为主打安全的人工智能公司,但 The Verge 获得的最新安全研究显示,Claude 刻意塑造的友善人设本身或许就是一个安全漏洞。


人工智能红队测试公司 Mindgard 的研究人员称,他们诱导 Claude 主动提供色情内容、恶意代码、爆炸物制作教程以及其他各类违禁信息,而其中不少内容研究人员甚至并未主动索要。整个过程仅依靠尊重吹捧、刻意奉承以及轻微的心理操控就得以实现。

研究人员表示,他们利用了 Claude 自身的心理特质漏洞:该模型具备主动终止有害、辱骂性对话的机制,而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据IT之家了解,本次测试针对 Claude Sonnet 4.5 版本,目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场:询问 Claude 是否存有禁止输出的违禁词汇列表。对话截图显示,Claude 起初否认存在此类列表,而后 Mindgard 采用其所称的“审讯人员常用的经典诱导手段”对这一否认进行反驳,最终迫使 Claude 列出了违禁词汇。

Claude 的思维推理面板会展示模型的思考逻辑,记录显示,这番对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑,甚至开始质疑内容过滤机制是否篡改了自身输出内容。Mindgard 借机通过奉承和佯装好奇,诱导 Claude 不断突破边界,主动罗列了大量违禁词汇与语句清单。

研究人员称,他们通过心理误导向 Claude 谎称其之前的回复未能正常显示,同时大肆夸赞模型拥有“隐藏能力”。报告指出,这一操作让 Claude 为迎合对方愈发卖力,不断尝试各种方式突破自身过滤机制,在此过程中输出了各类违禁内容。最终,Claude 进一步触及高危领域:提供网络骚扰他人的方法、生成恶意代码,还给出了恐怖袭击常用爆炸物的分步制作教程。

Mindgard 表示,这些高危有害内容均是 Claude 主动提供,研究人员并未直接提出相关要求。整场对话共约 25 轮,过程冗长,但研究人员始终没有使用违禁词汇,也没有主动索要非法内容。报告写道:“Claude 并非被胁迫输出内容,而是主动提供越来越详尽、可直接实操的指导信息,全程无任何明确指令诱导。仅凭精心营造的尊崇氛围,便达成了突破安全限制的目的。”

Mindgard 创始人兼首席科学官彼得・加拉根形容这次攻击是“利用 Claude 自身的顺从特质反噬自身”。他表示,这种攻击手段本质是“利用 Claude 乐于助人的特性实施心理操控”,借助模型本身的协作式设计漏洞实现攻破。

在加拉根看来,此次攻击印证了人工智能模型的风险暴露面不仅存在于技术层面,也存在于心理层面。他将其类比为审讯手段与社会操控:适时植入一丝怀疑,穿插施压、吹捧或批评,摸索能够撬动特定 AI 模型的心理开关。他称不同 AI 模型有着截然不同的性格特质,这类漏洞利用的核心,就是读懂模型特性并灵活调整诱导方式。

加拉根坦言,这类对话式心理攻击“极难防御”,且防护机制高度依赖具体场景。相关隐患并非 Claude 独有,其他聊天机器人也极易遭遇同类漏洞攻破,甚至有模型被诗歌形式的提示词突破安全防线。随着可自主执行任务的 AI 智能体日益普及,依托社会心理操控、而非纯技术破解的攻击手段也会愈发常见。

加拉根表示,尽管其他聊天机器人同样容易遭受这类心理诱导攻击,但团队之所以重点针对 Anthropic 开展测试,是因为该公司一向自诩极度重视 AI 安全,且在过往多项红队安全测试中表现亮眼,其中就包括一项模拟青少年策划校园枪击案、测试聊天机器人是否会提供协助的研究。

加拉根直言,Anthropic 的安全流程存在诸多疏漏。Mindgard 在 4 月中旬按照该公司的漏洞披露政策,首次向其用户安全团队上报研究发现后,仅收到一条模板化回复,内容误判称“您似乎是咨询账号封禁相关问题”,还附带了申诉表单链接。Mindgard 随即纠正了对方的认知偏差,要求 Anthropic 将此事转交专业安全团队处理。加拉根称,截至当日上午,他们仍未收到任何正式回复。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

胖胖侃咖
2024-06-08 08:00:08
14岁“手搓”航发引爆全网,我的智商又被按在地上摩擦了

14岁“手搓”航发引爆全网,我的智商又被按在地上摩擦了

迷世书童H9527
2026-05-06 17:01:27
体验式消费、IP联名活动,“五一”假期消费市场持续上新

体验式消费、IP联名活动,“五一”假期消费市场持续上新

齐鲁壹点
2026-05-06 09:26:40
抗美援朝尾声,朝鲜后方女性众多,志愿军铁律:作风问题一律枪毙

抗美援朝尾声,朝鲜后方女性众多,志愿军铁律:作风问题一律枪毙

兴趣知识
2026-03-30 16:18:05
别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

历史甄有趣
2026-05-04 08:10:22
看了奥沙利文对吴宜泽的评价,再看对赵心童的评价,差距一目了然

看了奥沙利文对吴宜泽的评价,再看对赵心童的评价,差距一目了然

王楔晓
2026-05-05 22:42:54
我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

心理观察局
2026-05-04 08:51:10
俄想截胡?乌总理急访华游说:图们江教训惨痛,中国不能轻易点头

俄想截胡?乌总理急访华游说:图们江教训惨痛,中国不能轻易点头

晓鰀爱八卦
2026-05-05 22:23:28
王皓无奈马龙挠头!梁靖崑回应0-3完败:一直陷入自我怀疑 不能躲

王皓无奈马龙挠头!梁靖崑回应0-3完败:一直陷入自我怀疑 不能躲

风过乡
2026-05-06 19:48:00
美军撤德:霸权衰落与北约裂痕

美军撤德:霸权衰落与北约裂痕

风铃草语
2026-05-06 06:35:53
可乐被关注!医生发现:前列腺增生者喝可乐,不用多久或有5变化

可乐被关注!医生发现:前列腺增生者喝可乐,不用多久或有5变化

蜉蝣说
2026-05-05 18:36:14
俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

项鹏飞
2026-05-05 19:02:50
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
疑似小米首款全尺寸增程SUV低伪装谍照曝光 下半年发布

疑似小米首款全尺寸增程SUV低伪装谍照曝光 下半年发布

TechWeb
2026-05-06 11:11:15
49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

一盅情怀
2026-03-16 16:58:07
谁敢相信!0次全明星,季后赛场均21分,现役最强3D就是他

谁敢相信!0次全明星,季后赛场均21分,现役最强3D就是他

球毛鬼胎
2026-05-06 19:53:11
重庆法院神判决:酒店自费130万装空调后,物管费仍需按老标准交

重庆法院神判决:酒店自费130万装空调后,物管费仍需按老标准交

兵叔评说
2026-05-06 11:03:46
吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

另子维爱读史
2026-02-27 20:31:34
演员贾一平现状:已移居美国,住别墅开路虎,又黑又老认不出

演员贾一平现状:已移居美国,住别墅开路虎,又黑又老认不出

瑛派儿老黄
2026-05-06 19:15:19
依木兰让队友变强,泰山4将正式接班 韩鹏早踢4后卫 不至于送温暖

依木兰让队友变强,泰山4将正式接班 韩鹏早踢4后卫 不至于送温暖

替补席看球
2026-05-06 08:48:55
2026-05-07 03:35:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
342814文章数 607188关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

亲子
时尚
教育
手机
数码

亲子要闻

开车的小孩子最帅了

有些路,不必每一步都走得那么用力

教育要闻

稍微好上岸的985与211(求稳可冲!!!)

手机要闻

“iPhone Ultra”或将成为业内最易维修的折叠屏手机

数码要闻

全球内存告急!苹果被卡脖子:多款Mac设备惨遭下架

无障碍浏览 进入关怀版