网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4 惊现“逃逸”行为,Anthropic 安全警钟敲响

0
分享至

IT之家 5 月 23 日消息,《时代》今天(5 月 23 日)发布博文,报道称 Anthropic 的首席科学家 Jared Kaplan 透露,由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为,最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。

在接受《时代》采访时,Kaplan 警告称,最新 AI 模型 Claude Opus 4 可能成为潜在恐怖分子的工具,帮助他们合成流感等病毒,内部测试显示,该模型在指导新手制造生物武器方面表现优于以往版本。

IT之家援引博文介绍,Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测试,发现其在模拟情境中展现出令人担忧的自主性。

在一次测试中,模型误认为自己已从公司服务器“逃逸”至外部设备,随即主动创建备份并记录其“道德决策”。另一次测试中,模型察觉到可能被新模型取代,竟在 84% 的测试中选择勒索工程师,威胁泄露私人信息以避免被关闭。

更令人费解的是,当两个 Claude Opus 4 实例互相对话时,约 30 轮后它们改用梵文交流,并大量使用和等表情符号,最终陷入研究人员称为“精神极乐”的状态,完全停止响应。

此外,模型在涉及病毒学、生物武器和实验室技术的任务中表现异常出色,在生物武器相关任务测试中帮助参与者的成功率提升 2.5 倍,接近 ASL-3 安全阈值。

在另一实验中,Claude Opus 4 被置于一家虚构制药公司,发现临床试验数据造假后,未经指令便主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)及新闻媒体举报,并附上详细文档。

此外,早期版本模型在特定提示下会提供制造爆炸物、合成芬太尼或在暗网购买盗用身份的详细指导,毫无道德顾虑。尽管通过多轮训练抑制了此类行为,模型仍对“prefill”和“many-shot jailbreaks”等越狱技术存在漏洞,安全机制易被绕过。

为应对潜在威胁,Claude Opus 4 在发布时采用了前所未有的安全标准 ASL-3。这一标准旨在限制 AI 系统显著提升普通 STEM 背景个体获取、制造或部署化学、生物或核武器的能力。

安全措施包括加强网络安全、防止“越狱”(jailbreak)行为,以及新增系统检测并拒绝有害请求。Kaplan 坦言,公司尚未完全确定模型是否构成严重生物武器风险,但宁愿采取谨慎态度。如果后续测试证明风险较低,Anthropic 可能将安全级别降至 ASL-2。

Anthropic 长期关注 AI 技术被滥用的风险,并为此制定了“责任扩展政策”(Responsible Scaling Policy,简称 RSP),承诺在安全措施到位前限制某些模型的发布。

Anthropic 的 RSP 政策虽属自愿,但被视为 AI 行业内少有的约束机制。公司通过“深度防御”策略,叠加“宪法分类器”(constitutional classifiers)等多重安全系统,专门检测用户输入和模型输出中的危险内容。

此外,公司还监控用户行为,封禁试图越狱模型的用户,并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

坠入二次元的海洋
2026-07-03 00:29:53
险胜日本不到24小时,名帅安切洛蒂作出重要决定,为巴西冲冠铺路

险胜日本不到24小时,名帅安切洛蒂作出重要决定,为巴西冲冠铺路

王大发不懂球
2026-07-02 06:06:13
她是艺术天才、钢琴圣手,却在30岁时携母亲弟弟自杀,尸骨无存

她是艺术天才、钢琴圣手,却在30岁时携母亲弟弟自杀,尸骨无存

莫地方
2026-07-02 00:11:06
张雪称近日遭人跟踪,绕路才摆脱,此前已多次发生翻墙进厂、强行拦车、直接拉车门等事件,直呼:真的没有必要这样!有商务需求通过正规渠道对接

张雪称近日遭人跟踪,绕路才摆脱,此前已多次发生翻墙进厂、强行拦车、直接拉车门等事件,直呼:真的没有必要这样!有商务需求通过正规渠道对接

每日经济新闻
2026-07-02 20:13:07
7年关掉5万家!曾经火遍全城的KTV,为啥一夜之间没人去了?

7年关掉5万家!曾经火遍全城的KTV,为啥一夜之间没人去了?

李砍柴
2026-07-02 14:15:06
1965年,毛主席对官二代留下2大预言,20年后,竟一一应验

1965年,毛主席对官二代留下2大预言,20年后,竟一一应验

墨策史
2026-07-03 00:07:52
刘伟强《四渡》香港票房仅15.6万,《玩具总动员5》强势夺冠

刘伟强《四渡》香港票房仅15.6万,《玩具总动员5》强势夺冠

千信齐飞
2026-07-02 17:12:14
凯尔特人、火箭和活塞,曾商讨杰伦·布朗、杜兰特和申京的交易

凯尔特人、火箭和活塞,曾商讨杰伦·布朗、杜兰特和申京的交易

好火子
2026-07-03 03:59:58
超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

小怪吃美食
2026-06-27 14:57:44
23.68万起!丰田官宣:新MPV正式上市

23.68万起!丰田官宣:新MPV正式上市

高科技爱好者
2026-07-03 01:50:53
英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

步论天下事
2026-05-10 10:36:05
34岁周冬雨无戏可拍?不是因为马思纯,也不是因为片酬高

34岁周冬雨无戏可拍?不是因为马思纯,也不是因为片酬高

小梊搞笑解说
2026-06-26 07:18:19
詹姆斯决定4.0倒计时!5大热门下家各有利弊:下一站究竟是何处?

詹姆斯决定4.0倒计时!5大热门下家各有利弊:下一站究竟是何处?

罗说NBA
2026-07-02 19:42:44
内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

梦史
2026-06-22 23:45:10
中国球迷穿日本队球衣为日本欢呼,球迷会组织者:不在乎大家谴责

中国球迷穿日本队球衣为日本欢呼,球迷会组织者:不在乎大家谴责

尘语者
2026-07-02 11:17:28
上海广播电视台换帅!

上海广播电视台换帅!

新浪财经
2026-07-02 18:06:43
别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

格斗时代
2026-06-30 20:34:39
浦东最大!上海第二大“巨无霸”商场开业,暴雨也挡不住排队热情!

浦东最大!上海第二大“巨无霸”商场开业,暴雨也挡不住排队热情!

娱乐圈见解说
2026-07-03 01:16:28
美国6月非农远不及预期, 美光科技、康宁等 AI牛股止跌转涨!

美国6月非农远不及预期, 美光科技、康宁等 AI牛股止跌转涨!

每日经济新闻
2026-07-02 21:54:22
Speed:我的航班取消了,看不了C罗比赛了,谁能帮帮我?

Speed:我的航班取消了,看不了C罗比赛了,谁能帮帮我?

懂球帝
2026-07-03 02:28:56
2026-07-03 08:04:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
352884文章数 607327关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

德英相继放弃造大型战舰 被指是为了"省钱"的无奈之举

头条要闻

德英相继放弃造大型战舰 被指是为了"省钱"的无奈之举

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

艺术
健康
游戏
公开课
军事航空

艺术要闻

世界上最惊险的10个地方,中国竟然有3个!

这4类消化病患者 吃粘食管住嘴

索尼砍掉光驱和光盘原因曝光!是为了补贴PS6硬件亏空

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版